Massive Algorithms: lucene索引文件大小优化小结 - zhanlijun

简单来说，整数423不是直接写入倒排，而是分割成几段写入倒排，以十进制分割为例，423将被分割为423、42、4这三个term写入，本质上这些term形成了trie树（如图所示）。

如何查询呢？假设我们要查询[422, 642]这一区间范围的doc，首先在树的最底层找到第一个比422大的值，即423，之后查找423的右兄弟节点，发现没有便找其父节点的右兄弟（找到44），对于642也是，找其左兄弟节点（641），之后找父节点的左兄弟（63），一直找到两者的公共节点，最终找出423、44、5、63、641、642这6个term即可。通过这种方法，原先需要查询423、445、446、448、521、522、632、633、634、641、642这11次term对应的倒排id列表，并合并这11个term对应的倒排id列表，现在仅需要查询423、44、5、63、641、642这6个term对应的倒排id列表并合并，大大降低了查询次数以及合并次数，尤其是查询区间范围较大时效果更为明显。

这种优化方法本质上是一种以空间换时间的方法，可以看到term数目将增大许多。

在实际操作中，lucene将数字转换成2进制来处理，而且实际上这颗trie树也无需保存数据结构，传统trie一个节点会有指向孩子节点的指针, 同时会有指向父节点的指针，而在这里只要知道一个节点，其父节点、右兄弟节点都可以通过计算得到。此外lucene也提供了precisionstep这一字段用于设置分割长度，默认情况下int、double、float等数字类型precisionstep为4，就是按4位二进制进行分割。precisionstep长度设置得越短，分割的term越多，大范围查询速度也越快，precisionstep设置得越长，极端情况下设置为无穷大，那么不会进行trie分割，范围查询也没有优化效果，precisionstep长度需要结合自身业务进行优化。

我们的应用中很多field都是数值类型，比如id、avescore（评价分）、price（价格）等等，但是用于区间范围查询的数值类型非常少，大部分都是直接查询或者为进行排序使用。

因此优化方法非常简单，将不需要使用范围查询的数字字段设置precisionstep为Intger.max，这样数字写入倒排仅存一个term，能极大降低term数量。

空间数据类型索引优化

上述方法本质上也是一种以空间换时间的方法，比如一个经纬度（x，y），只有两个字段，但是以geohash进行编码将产生许多term并写入倒排。

lucene默认最长的geohash长度为24，也就是一个经纬度将以24个字符串的形式来写入到倒排中。最初采用的geohash长度为11，但实际上针对我们的需求，geohash长度为9的时候已经足够满足我们的需求（geohash长度为9大约代表了5*4米的格子）。

Read full article from lucene索引文件大小优化小结 - zhanlijun - 博客园

lucene索引文件大小优化小结 - zhanlijun - 博客园

Labels

Popular Posts