深度好文MySQL索引原理 - 数据 - Powered by Discuz!NT Archiver

TUhjnbcbe - 2023/6/17 20:12:00

软件开发求职招聘交流微信群 http://www.lvyouxfnet.com/48386.html

1.索引类型

索引可以提升查询速度，会影响where查询，以及orderby排序。MySQL索引类型如下：

从索引存储结构划分：BTree索引、Hash索引、FULLTEXT全文索引、RTree索引

从应用层次划分：普通索引、唯一索引、主键索引、复合索引

从索引键值类型划分：主键索引、辅助索引（二级索引）

从数据存储和索引键值逻辑关系划分：聚集索引（聚簇索引）、非聚集索引（非聚簇索引）

1.1普通索引

这是最基本的索引类型，基于普通字段建立的索引，没有任何限制。创建普通索引的方法如下：

CREATEINDEX索引的名字ONtablename(字段名);ALTERTABLEtablenameADDINDEX[索引的名字](字段名);CREATETABLEtablename([...],INDEX[索引的名字](字段名));

1.2唯一索引

与"普通索引"类似，不同的就是：索引字段的值必须唯一，但允许有空值。在创建或修改表时追加唯一约束，就会自动创建对应的唯一索引。创建唯一索引的方法如下：

CREATEUNIQUEINDEX索引的名字ONtablename(字段名);ALTERTABLEtablenameADDUNIQUEINDEX[索引的名字](字段名);CREATETABLEtablename([...],UNIQUE[索引的名字](字段名);

1.3主键索引

它是一种特殊的唯一索引，不允许有空值。在创建或修改表时追加主键约束即可，每个表只能有一个主键。创建主键索引的方法如下：

CREATETABLEtablename([...],PRIMARYKEY(字段名));ALTERTABLEtablenameADDPRIMARYKEY(字段名);

1.4复合索引

单一索引是指索引列为一列的情况，即新建索引的语句只实施在一列上；用户可以在多个列上建立索引，这种索引叫做组复合索引（组合索引）。复合索引可以代替多个单一索引，相比多个单一索引复合索引所需的开销更小。索引同时有两个概念叫做窄索引和宽索引，窄索引是指索引列为1-2列的索引，宽索引也就是索引列超过2列的索引，设计索引的一个重要原则就是能用窄索引不用宽索引，因为窄索引往往比组合索引更有效。创建组合索引的方法如下：

CREATEINDEX索引的名字ONtablename(字段名1，字段名2...);ALTERTABLEtablenameADDINDEX[索引的名字](字段名1，字段名2...);CREATETABLEtablename([...],INDEX[索引的名字](字段名1，字段名2...));

复合索引使用注意事项：

何时使用复合索引，要根据where条件建索引，注意不要过多使用索引，过多使用会对更新操作效率有很大影响。

如果表已经建立了(col1，col2)，就没有必要再单独建立（col1）；如果现在有(col1)索引，如果查询需要col1和col2条件，可以建立(col1,col2)复合索引，对于查询有一定提高。

1.5全文索引

查询操作在数据量比较少时，可以使用like模糊查询，但是对于大量的文本数据检索，效率很低。如果使用全文索引，查询速度会比like快很多倍。在MySQL5.6以前的版本，只有MyISAM存储引擎支持全文索引，从MySQL5.6开始MyISAM和InnoDB存储引擎均支持。创建全文索引的方法如下：

CREATEFULLTEXTINDEX索引的名字ONtablename(字段名);ALTERTABLEtablenameADDFULLTEXT[索引的名字](字段名);CREATETABLEtablename([...],FULLTEXTKEY[索引的名字](字段名);

和常用的like模糊查询不同，全文索引有自己的语法格式，使用match和against关键字，比如

select*fromuserwherematch(name)against(aaa);

全文索引使用注意事项：

全文索引必须在字符串、文本字段上建立。

全文索引字段值必须在最小字符和最大字符之间的才会有效。（innodb：3-84；myisam：4-84）

全文索引字段值要进行切词处理，按syntax字符进行切割，例如b+aaa，切分成b和aaa

全文索引匹配查询，默认使用的是等值匹配，例如a匹配a，不会匹配ab,ac。如果想匹配可以在布尔模式下搜索a*

select*fromuserwherematch(name)against(a*inbooleanmode);

2.索引原理

MySQL官方对索引定义：是存储引擎用于快速查找记录的一种数据结构。需要额外开辟空间和数据维护工作。

索引是物理数据页存储，在数据文件中（InnoDB，ibd文件），利用数据页(page)存储。

索引可以加快检索速度，但是同时也会降低增删改操作速度，索引维护需要代价。

索引涉及的理论知识：二分查找法、Hash和B+Tree。

2.1二分查找法

二分查找法也叫作折半查找法，它是在有序数组中查找指定数据的搜索算法。它的优点是等值查询、范围查询性能优秀，缺点是更新数据、新增数据、删除数据维护成本高。

首先定位left和right两个指针

计算(left+right)/2

判断除2后索引位置值与目标值的大小比对

索引位置值大于目标值就-1，right移动；如果小于目标值就+1，left移动

举个例子，下面的有序数组有17个值，查找的目标值是7，过程如下：第一次查找：

第二次查找：

第三次查找：

第四次查找：

2.2Hash结构

Hash底层实现是由Hash表来实现的，是根据键值key,value存储数据的结构。非常适合根据key查找value值，也就是单个key查询，或者说等值查询。其结构如下所示：

从上面结构可以看出，Hash索引可以方便的提供等值查询，但是对于范围查询就需要全表扫描了。Hash索引在MySQL中Hash结构主要应用在Memory原生的Hash索引、InnoDB自适应哈希索引。InnoDB自适应哈希索引是为了提升查询效率，InnoDB存储引擎会监控表上各个索引页的查询，当InnoDB注意到某些索引值访问非常频繁时，会在内存中基于B+Tree索引再创建一个哈希索引，使得内存中的B+Tree索引具备哈希索引的功能，即能够快速定值访问频繁访问的索引页。InnoDB自适应哈希索引：在使用Hash索引访问时，一次性查找就能定位数据，等值查询效率要优于B+Tree。自适应哈希索引的建立使得InnoDB存储引擎能自动根据索引页访问的频率和模式自动地为某些热点页建立哈希索引来加速访问。另外InnoDB自适应哈希索引的功能，用户只能选择开启或关闭功能，无法进行人工干涉。

showengineinnodbstatus\G;showvariableslike%innodb_adaptive%;

2.3B+Tree结构

MySQL数据库索引采用的是B+Tree结构，在B-Tree结构上做了优化改造。B-Tree结构：

索引值和data数据分布在整棵树结构中

每个节点可以存放多个索引值及对应的data数据

树节点中的多个索引值从左到右升序排列

B树的搜索：从根节点开始，对节点内的索引值序列采用二分法查找，如果命中就结束查找。没有命中会进入子节点重复查找过程，直到所对应的的节点指针为空，或已经是叶子节点了才结束。

B+Tree结构：

非叶子节点不存储data数据，只存储索引值，这样便于存储更多的索引值

叶子节点包含了所有的索引值和data数据

叶子节点用指针连接，提高区间的访问性能

相比B树，B+树进行范围查找时，只需要查找定位两个节点的索引值，然后利用叶子节点的指针进行遍历即可。而B树需要遍历范围内所有的节点和数据，显然B+Tree效率高。

2.4聚簇索引和辅助索引

聚簇索引和非聚簇索引：B+Tree的叶子节点存放主键索引值和行记录就属于聚簇索引；如果索引值和行记录分开存放就属于非聚簇索引。主键索引和辅助索引：B+Tree的叶子节点存放的是主键字段值就属于主键索引；如果存放的是非主键值就属于辅助索引（二级索引）。在InnoDB引擎中，主键索引采用的就是聚簇索引结构存储。

2.4.1聚簇索引（聚集索引）

聚簇索引是一种数据存储方式，InnoDB的聚簇索引就是按照主键顺序构建B+Tree结构。B+Tree的叶子节点就是行记录，行记录和主键值紧凑地存储在一起。这也意味着InnoDB的主键索引就是数据表本身，它按主键顺序存放了整张表的数据，占用的空间就是整个表数据量的大小。通常说的主键索引就是聚集索引。InnoDB的表要求必须要有聚簇索引：

如果表定义了主键，则主键索引就是聚簇索引

如果表没有定义主键，则第一个非空unique列作为聚簇索引

否则InnoDB会从建一个隐藏的row-id作为聚簇索引

2.4.2辅助索引

InnoDB辅助索引，也叫作二级索引，是根据索引列构建B+Tree结构。但在B+Tree的叶子节点中只存了索引列和主键的信息。二级索引占用的空间会比聚簇索引小很多，通常创建辅助索引就是为了提升查询效率。一个表InnoDB只能创建一个聚簇索引，但可以创建多个辅助索引。

2.4.3非聚簇索引

与InnoDB表存储不同，MyISAM数据表的索引文件和数据文件是分开的，被称为非聚簇索引结构。

3.索引分析与优化

3.1EXPLAIN

MySQL提供了一个EXPLAIN命令，它可以对SELECT语句进行分析，并输出SELECT执行的详细信息，供开发人员有针对性的优化。例如：

EXPLAINSELECT*fromuserWHEREid3;

EXPLAIN命令的输出内容大致如下：

1.select_type:表示查询的类型。常用的值如下：

SIMPLE：表示查询语句不包含子查询或union

PRIMARY：表示此查询是最外层的查询

UNION：表示此查询是UNION的第二个或后续的查询

DEPENDENTUNION：UNION中的第二个或后续的查询语句，使用了外面查询结果

UNIONRESULT：UNION的结果

SUBQUERY：SELECT子查询语句

DEPENDENTSUBQUERY：SELECT子查询语句依赖外层查询的结果。

最常见的查询类型是SIMPLE，表示我们的查询没有子查询也没用到UNION查询。

2.type表示存储引擎查询数据时采用的方式。比较重要的一个属性，通过它可以判断出查询是全表扫描还是基于索引的部分扫描。常用属性值如下，从上至下效率依次增强。

ALL：表示全表扫描，性能最差。

index：表示基于索引的全表扫描，先扫描索引再扫描全表数据。

range：表示使用索引范围查询。使用、=、、=、in等等。

ref：表示使用非唯一索引进行单值查询。

eq_ref：一般情况下出现在多表join查询，表示前面表的每一个记录，都只能匹配后面表的一行结果。

const：表示使用主键或唯一索引做等值查询，常量查询。

NULL：表示不用访问表，速度最快。

3.possible_keys表示查询时能够使用到的索引。注意并不一定会真正使用，显示的是索引名称。4.key表示查询时真正使用到的索引，显示的是索引名称。5.rowsMySQL查询优化器会根据统计信息，估算SQL要查询到结果需要扫描多少行记录。原则上rows是越少效率越高，可以直观的了解到SQL效率高低。6.key_len表示查询使用了索引的字节数量。可以判断是否全部使用了组合索引。key_len的计算规则如下：

字符串类型字符串长度跟字符集有关：latin1=1、gbk=2、utf8=3、utf8mb4=4char(n)：n*字符集长度varchar(n)：n*字符集长度+2字节

数值类型TINYINT：1个字节SMALLINT：2个字节MEDIUMINT：3个字节INT、FLOAT：4个字节BIGINT、DOUBLE：8个字节

时间类型DATE：3个字节TIMESTAMP：4个字节DATETIME：8个字节

字段属性NULL属性占用1个字节，如果一个字段设置了NOTNULL，则没有此项。

7.ExtraExtra表示很多额外的信息，各种操作会在Extra提示相关信息，常见几种如下：

Usingwhere表示查询需要通过索引回表查询数据。

Usingindex表示查询需要通过索引，索引就可以满足所需数据。

Usingfilesort表示查询出来的结果需要额外排序，数据量小在内存，大的话在磁盘，因此有Usingfilesort建议优化。

Usingtemprorary查询使用到了临时表，一般出现于去重、分组等操作。

3.2回表查询

InnoDB索引有聚簇索引和辅助索引。聚簇索引的叶子节点存储行记录，InnoDB必须要有，且只有一个。辅助索引的叶子节点存储的是主键值和索引字段值，通过辅助索引无法直接定位行记录，通常情况下，需要扫码两遍索引树。先通过辅助索引定位主键值，然后再通过聚簇索引定位行记录，这就叫做回表查询，它的性能比扫一遍索引树低。总结：通过索引查询主键值，然后再去聚簇索引查询记录信息

3.3覆盖索引

在MySQL

数据结构论坛