从正则搜索重新认识索引

大雪天 - 2021-10-26 20:43:51

最近一些查询接口加载时间逐渐变长，发现都是因为在筛选条件中有正则搜索，但是这些字段我们也都按照常规的方式设置了索引。而非正则搜索则没有影响，所以最直观的想法是：正则搜索在使用索引的地方不清楚，需要补一补。

什么是索引

数据库的核心功能是为了保存数据还有与之对应的对数据操作的能力：增删改查。当数据量逐渐增大，比如用户数量：百万、千万、甚至数亿的时候，我们需要从里面找到一些复合条件的数据就显得很复杂了，当然可以一个一个找，但是相信没人会这么做，因为会非常慢。这个时候怎么办呢？

其实与大家学习数据库时的例子字典，是一样的。我们查找这些数据通常是根据某些 特定的条件。比如对于字典，我们通常是通过拼音查找，而不是通过：那些字的词语包含掘金。

那么字典是怎么处理的呢？把我们最常用的搜索条件拼音单独列出来，放在最前面，这样在查字典的时候，就只需要翻前几页就好了，找到需要的字再跳转到对应的页数就可以了。索引是什么呢？

索引就是：将部分字段值取出来，单独维护成一个查询很快的数据结构。

索引原理

这个查询很快的数据结构简单的来说就是创建一颗树（树直观点就比较像嵌套很多的json）。当然这颗树为了查询数据，做了很多优化，其模样就像这样下方图片一样。具体的算法名称：B+ Tree，大家可以去了解一下。这样我们在查询的时候，就相当于二分法猜数字一样，很快就能定位到数据，即便上亿的数据也很快。

下载.png

那为什么正则搜索加了索引还是很慢呢？

正则搜索过程

如果我们仔细想一下，就会发现其实很简单。因为索引的原理就是将这个字段的值，单独拿出来，按照更快的查找格式存储起来。索引查找的过程就是，直接对新建立的数据比较就好了。但是 正则不是简单的比较大小，还需要运算 才知道最终的结果。所以对于加了索引的正则匹配（模糊匹配类似），也还是会将所有内容一个一个的进行正则运算完才会有结果，这自然非常慢了。

结论大概就是这样，下面我使用 mongodb 看看实际过程。一般的查询索引都是 B+ Tree，mongodb、sql也是，所以是想通的。

mongo 的数据测试

# 查看测试数据总数
db.game.count();
# 50407 条数据

# mongo获得查询过程的方法是添加 explain 就好了
db.game.find({"name":"麻辣英雄"}).explain("allPlansExecution");

数据结构

{
  "_id": "5590b3f9bac548696b8b45cf",
  "des": "《麻辣英雄》是一款历史大乱斗题材的半即时制RPG手游。高精度还原长城、皇宫等场景，百类Q萌武将，千种英雄组合，独创主角技能，更有巨型BOSS战、攻城战等特色玩法，让手游告别无趣",
  "name": "麻辣英雄",
  "download": 1
  // 还有很多其他字段
}

避免结果太长，删除了大部分过程解释。只留下了关键的几个数据。查询命令如下：

普通查询 db.game.find({"name":"麻辣英雄"}).explain("allPlansExecution");正则查询 db.game.find({"name":/麻辣英雄/}).explain("allPlansExecution");各种情况测试结果

不加索引+普通查询

[
  {
    "executionStats": {
      "executionSuccess": true,
      "nReturned": 1,
      "executionTimeMillis": 20,
      "totalKeysExamined": 0,
      "totalDocsExamined": 50407,
    }
  }
]

不加索引+正则查询

[
  {
    "executionStats": {
      "executionSuccess": true,
      "nReturned": 1,
      "executionTimeMillis": 31,
      "totalKeysExamined": 0,
      "totalDocsExamined": 50407,
    }
  }
]

添加索引+普通查询

[
  {
    "executionStats": {
      "executionSuccess": true,
      "nReturned": 1,
      "executionTimeMillis": 0,
      "totalKeysExamined": 1,
      "totalDocsExamined": 1,
    }
  }
]

添加索引+正则查询

[
  {
    "executionStats": {
      "executionSuccess": true,
      "nReturned": 1,
      "executionTimeMillis": 40,
      "totalKeysExamined": 50407,
      "totalDocsExamined": 1,
    }
  }
]

汇总

由解释结果的 executionSuccess 与 nReturned 可知，均成功返回了一条数据。然后其主要过程分别是：查询过程中索引与文档扫描的数量。

标题索引扫描行数文档扫描行数执行耗时无索引普通查询05040720无索引正则查询05040730有索引普通查询110有索引正则查询50407140没有添加索引就会全表扫描，一个一个去读取原始数据-文档。一般可认为是存放在硬盘中的，硬盘读取可是比内存慢超多的。此处没有特别慢可能是数据太少，缓存在内存中了。加了索引之后就会发现，文档扫描部分都是1，所以索引匹配过程都是在单独构建的数据结构上面，降低了大量的硬盘读写。但是加了索引，正则还是扫描了全部字段，只不过此时就是使用的索引这个结构保存的字段，而不是从磁盘读取。因为正则只有匹配了才知道结果，所以还是会很慢，底层一切都是简单编程操作，没有黑魔法。索引大小

截图_2021-10-20_10-04-11.png