當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Lucene学习总结之三：Lucene的索引文件格式(1)

發(fā)布時(shí)間：2024/1/23 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 Lucene学习总结之三：Lucene的索引文件格式(1) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Lucene的索引里面存了些什么，如何存放的，也即Lucene的索引文件格式，是讀懂Lucene源代碼的一把鑰匙。

當(dāng)我們真正進(jìn)入到Lucene源代碼之中的時(shí)候，我們會(huì)發(fā)現(xiàn):

Lucene的索引過程，就是按照全文檢索的基本過程，將倒排表寫成此文件格式的過程。
Lucene的搜索過程，就是按照此文件格式將索引進(jìn)去的信息讀出來，然后計(jì)算每篇文檔打分(score)的過程。

本文詳細(xì)解讀了Apache Lucene - Index File Formats(http://lucene.apache.org/java/2_9_0/fileformats.html?) 這篇文章。

一、基本概念

下圖就是Lucene生成的索引的一個(gè)實(shí)例：

Lucene的索引結(jié)構(gòu)是有層次結(jié)構(gòu)的，主要分以下幾個(gè)層次：

索引(Index)：
- 在Lucene中一個(gè)索引是放在一個(gè)文件夾中的。
- 如上圖，同一文件夾中的所有的文件構(gòu)成一個(gè)Lucene索引。
段(Segment)：
- 一個(gè)索引可以包含多個(gè)段，段與段之間是獨(dú)立的，添加新文檔可以生成新的段，不同的段可以合并。
- 如上圖，具有相同前綴文件的屬同一個(gè)段，圖中共兩個(gè)段 "_0" 和 "_1"。
- segments.gen和segments_5是段的元數(shù)據(jù)文件，也即它們保存了段的屬性信息。
文檔(Document)：
- 文檔是我們建索引的基本單位，不同的文檔是保存在不同的段中的，一個(gè)段可以包含多篇文檔。
- 新添加的文檔是單獨(dú)保存在一個(gè)新生成的段中，隨著段的合并，不同的文檔合并到同一個(gè)段中。
域(Field)：
- 一篇文檔包含不同類型的信息，可以分開索引，比如標(biāo)題，時(shí)間，正文，作者等，都可以保存在不同的域里。
- 不同域的索引方式可以不同，在真正解析域的存儲(chǔ)的時(shí)候，我們會(huì)詳細(xì)解讀。
詞(Term)：
- 詞是索引的最小單位，是經(jīng)過詞法分析和語(yǔ)言處理后的字符串。

Lucene的索引結(jié)構(gòu)中，即保存了正向信息，也保存了反向信息。

所謂正向信息：

按層次保存了從索引，一直到詞的包含關(guān)系：索引(Index) –> 段(segment) –> 文檔(Document) –> 域(Field) –> 詞(Term)
也即此索引包含了那些段，每個(gè)段包含了那些文檔，每個(gè)文檔包含了那些域，每個(gè)域包含了那些詞。
既然是層次結(jié)構(gòu)，則每個(gè)層次都保存了本層次的信息以及下一層次的元信息，也即屬性信息，比如一本介紹中國(guó)地理的書，應(yīng)該首先介紹中國(guó)地理的概況，以及中國(guó)包含多少個(gè)省，每個(gè)省介紹本省的基本概況及包含多少個(gè)市，每個(gè)市介紹本市的基本概況及包含多少個(gè)縣，每個(gè)縣具體介紹每個(gè)縣的具體情況。
如上圖，包含正向信息的文件有：
- segments_N保存了此索引包含多少個(gè)段，每個(gè)段包含多少篇文檔。
- XXX.fnm保存了此段包含了多少個(gè)域，每個(gè)域的名稱及索引方式。
- XXX.fdx，XXX.fdt保存了此段包含的所有文檔，每篇文檔包含了多少域，每個(gè)域保存了那些信息。
- XXX.tvx，XXX.tvd，XXX.tvf保存了此段包含多少文檔，每篇文檔包含了多少域，每個(gè)域包含了多少詞，每個(gè)詞的字符串，位置等信息。

所謂反向信息：

保存了詞典到倒排表的映射：詞(Term) –> 文檔(Document)
如上圖，包含反向信息的文件有：
- XXX.tis，XXX.tii保存了詞典(Term Dictionary)，也即此段包含的所有的詞按字典順序的排序。
- XXX.frq保存了倒排表，也即包含每個(gè)詞的文檔ID列表。
- XXX.prx保存了倒排表中每個(gè)詞在包含此詞的文檔中的位置。

在了解Lucene索引的詳細(xì)結(jié)構(gòu)之前，先看看Lucene索引中的基本數(shù)據(jù)類型。

二、基本類型

Lucene索引文件中，用一下基本類型來保存信息：

Byte：是最基本的類型，長(zhǎng)8位(bit)。
UInt32：由4個(gè)Byte組成。
UInt64：由8個(gè)Byte組成。
VInt：
- 變長(zhǎng)的整數(shù)類型，它可能包含多個(gè)Byte，對(duì)于每個(gè)Byte的8位，其中后7位表示數(shù)值，最高1位表示是否還有另一個(gè)Byte，0表示沒有，1表示有。
- 越前面的Byte表示數(shù)值的低位，越后面的Byte表示數(shù)值的高位。
- 例如130化為二進(jìn)制為 1000, 0010，總共需要8位，一個(gè)Byte表示不了，因而需要兩個(gè)Byte來表示，第一個(gè)Byte表示后7位，并且在最高位置1來表示后面還有一個(gè)Byte，所以為(1) 0000010，第二個(gè)Byte表示第8位，并且最高位置0來表示后面沒有其他的Byte了，所以為(0) 0000001。

Chars：是UTF-8編碼的一系列Byte。
String：一個(gè)字符串首先是一個(gè)VInt來表示此字符串包含的字符的個(gè)數(shù)，接著便是UTF-8編碼的字符序列Chars。

三、基本規(guī)則

Lucene為了使的信息的存儲(chǔ)占用的空間更小，訪問速度更快，采取了一些特殊的技巧，然而在看Lucene文件格式的時(shí)候，這些技巧卻容易使我們感到困惑，所以有必要把這些特殊的技巧規(guī)則提取出來介紹一下。

在下不才，胡亂給這些規(guī)則起了一些名字，是為了方便后面應(yīng)用這些規(guī)則的時(shí)候能夠簡(jiǎn)單，不妥之處請(qǐng)大家諒解。

1. 前綴后綴規(guī)則(Prefix+Suffix)

Lucene在反向索引中，要保存詞典(Term Dictionary)的信息，所有的詞(Term)在詞典中是按照字典順序進(jìn)行排列的，然而詞典中包含了文檔中的幾乎所有的詞，并且有的詞還是非常的長(zhǎng)的，這樣索引文件會(huì)非常的大，所謂前綴后綴規(guī)則，即當(dāng)某個(gè)詞和前一個(gè)詞有共同的前綴的時(shí)候，后面的詞僅僅保存前綴在詞中的偏移(offset)，以及除前綴以外的字符串(稱為后綴)。

比如要存儲(chǔ)如下詞:term，termagancy，termagant，terminal，

如果按照正常方式來存儲(chǔ)，需要的空間如下：

[VInt = 4] [t][e][r][m]，[VInt = 10][t][e][r][m][a][g][a][n][c][y]，[VInt = 9][t][e][r][m][a][g][a][n][t]，[VInt = 8][t][e][r][m][i][n][a][l]

共需要35個(gè)Byte.

如果應(yīng)用前綴后綴規(guī)則，需要的空間如下：

[VInt = 4] [t][e][r][m]，[VInt = 4 (offset)][VInt = 6][a][g][a][n][c][y]，[VInt = 8 (offset)][VInt = 1][t]，[VInt = 4(offset)][VInt = 4][i][n][a][l]

共需要22個(gè)Byte。

大大縮小了存儲(chǔ)空間，尤其是在按字典順序排序的情況下，前綴的重合率大大提高。

2. 差值規(guī)則(Delta)

在Lucene的反向索引中，需要保存很多整型數(shù)字的信息，比如文檔ID號(hào)，比如詞(Term)在文檔中的位置等等。

由上面介紹，我們知道，整型數(shù)字是以VInt的格式存儲(chǔ)的。隨著數(shù)值的增大，每個(gè)數(shù)字占用的Byte的個(gè)數(shù)也逐漸的增多。所謂差值規(guī)則(Delta)就是先后保存兩個(gè)整數(shù)的時(shí)候，后面的整數(shù)僅僅保存和前面整數(shù)的差即可。

比如要存儲(chǔ)如下整數(shù)：16386，16387，16388，16389

如果按照正常方式來存儲(chǔ)，需要的空間如下：

[(1) 000, 0010][(1) 000, 0000][(0) 000, 0001]，[(1) 000, 0011][(1) 000, 0000][(0) 000, 0001]，[(1) 000, 0100][(1) 000, 0000][(0) 000, 0001]，[(1) 000, 0101][(1) 000, 0000][(0) 000, 0001]

供需12個(gè)Byte。

如果應(yīng)用差值規(guī)則來存儲(chǔ)，需要的空間如下：

[(1) 000, 0010][(1) 000, 0000][(0) 000, 0001]，[(0) 000, 0001]，[(0) 000, 0001]，[(0) 000, 0001]

共需6個(gè)Byte。

大大縮小了存儲(chǔ)空間，而且無論是文檔ID，還是詞在文檔中的位置，都是按從小到大的順序，逐漸增大的。

3. 或然跟隨規(guī)則(A, B?)

Lucene的索引結(jié)構(gòu)中存在這樣的情況，某個(gè)值A(chǔ)后面可能存在某個(gè)值B，也可能不存在，需要一個(gè)標(biāo)志來表示后面是否跟隨著B。

一般的情況下，在A后面放置一個(gè)Byte，為0則后面不存在B，為1則后面存在B，或者0則后面存在B，1則后面不存在B。

但這樣要浪費(fèi)一個(gè)Byte的空間，其實(shí)一個(gè)Bit就可以了。

在Lucene中，采取以下的方式：A的值左移一位，空出最后一位，作為標(biāo)志位，來表示后面是否跟隨B，所以在這種情況下，A/2是真正的A原來的值。

如果去讀Apache Lucene - Index File Formats這篇文章，會(huì)發(fā)現(xiàn)很多符合這種規(guī)則的：

.frq文件中的DocDelta[, Freq?]，DocSkip,PayloadLength?
.prx文件中的PositionDelta,Payload? (但不完全是，如下表分析)

當(dāng)然還有一些帶?的但不屬于此規(guī)則的：

.frq文件中的SkipChildLevelPointer?，是多層跳躍表中，指向下一層表的指針，當(dāng)然如果是最后一層，此值就不存在，也不需要標(biāo)志。
.tvf文件中的Positions?, Offsets?。
- 在此類情況下，帶?的值是否存在，并不取決于前面的值的最后一位。
- 而是取決于Lucene的某項(xiàng)配置，當(dāng)然這些配置也是保存在Lucene索引文件中的。
- 如Position和Offset是否存儲(chǔ)，取決于.fnm文件中對(duì)于每個(gè)域的配置(TermVector.WITH_POSITIONS和TermVector.WITH_OFFSETS)

為什么會(huì)存在以上兩種情況，其實(shí)是可以理解的：

對(duì)于符合或然跟隨規(guī)則的，是因?yàn)閷?duì)于每一個(gè)A，B是否存在都不相同，當(dāng)這種情況大量存在的時(shí)候，從一個(gè)Byte到一個(gè)Bit如此8倍的空間節(jié)約還是很值得的。
對(duì)于不符合或然跟隨規(guī)則的，是因?yàn)槟硞€(gè)值的是否存在的配置對(duì)于整個(gè)域(Field)甚至整個(gè)索引都是有效的，而非每次的情況都不相同，因而可以統(tǒng)一存放一個(gè)標(biāo)志。

文章中對(duì)如下格式的描述令人困惑：

Positions --> <PositionDelta,Payload?>?^Freq

Payload --> <PayloadLength?,PayloadData>

PositionDelta和Payload是否適用或然跟隨規(guī)則呢？如何標(biāo)識(shí)PayloadLength是否存在呢？

其實(shí)PositionDelta和Payload并不符合或然跟隨規(guī)則，Payload是否存在，是由.fnm文件中對(duì)于每個(gè)域的配置中有關(guān)Payload的配置決定的(FieldOption.STORES_PAYLOADS) 。

當(dāng)Payload不存在時(shí)，PayloadDelta本身不遵從或然跟隨原則。

當(dāng)Payload存在時(shí)，格式應(yīng)該變成如下：Positions --> <PositionDelta,PayloadLength?,PayloadData>?^Freq

從而PositionDelta和PayloadLength一起適用或然跟隨規(guī)則。

4. 跳躍表規(guī)則(Skip list)??

為了提高查找的性能，Lucene在很多地方采取的跳躍表的數(shù)據(jù)結(jié)構(gòu)。

跳躍表(Skip List)是如圖的一種數(shù)據(jù)結(jié)構(gòu)，有以下幾個(gè)基本特征：

元素是按順序排列的，在Lucene中，或是按字典順序排列，或是按從小到大順序排列。
跳躍是有間隔的(Interval)，也即每次跳躍的元素?cái)?shù)，間隔是事先配置好的，如圖跳躍表的間隔為3。
跳躍表是由層次的(level)，每一層的每隔指定間隔的元素構(gòu)成上一層，如圖跳躍表共有2層。

需要注意一點(diǎn)的是，在很多數(shù)據(jù)結(jié)構(gòu)或算法書中都會(huì)有跳躍表的描述，原理都是大致相同的，但是定義稍有差別：

對(duì)間隔(Interval)的定義：如圖中，有的認(rèn)為間隔為2，即兩個(gè)上層元素之間的元素?cái)?shù)，不包括兩個(gè)上層元素；有的認(rèn)為是3，即兩個(gè)上層元素之間的差，包括后面上層元素，不包括前面的上層元素；有的認(rèn)為是4，即除兩個(gè)上層元素之間的元素外，既包括前面，也包括后面的上層元素。Lucene是采取的第二種定義。
對(duì)層次(Level)的定義：如圖中，有的認(rèn)為應(yīng)該包括原鏈表層，并從1開始計(jì)數(shù)，則總層次為3，為1，2，3層；有的認(rèn)為應(yīng)該包括原鏈表層，并從0計(jì)數(shù)，為0，1，2層；有的認(rèn)為不應(yīng)該包括原鏈表層，且從1開始計(jì)數(shù)，則為1，2層；有的認(rèn)為不應(yīng)該包括鏈表層，且從0開始計(jì)數(shù)，則為0，1層。Lucene采取的是最后一種定義。

跳躍表比順序查找，大大提高了查找速度，如查找元素72，原來要訪問2，3，7，12，23，37，39，44，50，72總共10個(gè)元素，應(yīng)用跳躍表后，只要首先訪問第1層的50，發(fā)現(xiàn)72大于50，而第1層無下一個(gè)節(jié)點(diǎn)，然后訪問第2層的94，發(fā)現(xiàn)94大于72，然后訪問原鏈表的72，找到元素，共需要訪問3個(gè)元素即可。

四、具體格式

上面曾經(jīng)交代過，Lucene保存了從Index到Segment到Document到Field一直到Term的正向信息，也包括了從Term到Document映射的反向信息，還有其他一些Lucene特有的信息。下面對(duì)這三種信息一一介紹。

4.1. 正向信息

Index –> Segments (segments.gen, segments_N) –> Field(fnm, fdx, fdt) –> Term (tvx, tvd, tvf)

上面的層次結(jié)構(gòu)不是十分的準(zhǔn)確，因?yàn)閟egments.gen和segments_N保存的是段(segment)的元數(shù)據(jù)信息(metadata)，其實(shí)是每個(gè)Index一個(gè)的，而段的真正的數(shù)據(jù)信息，是保存在域(Field)和詞(Term)中的。

4.1.1. 段的元數(shù)據(jù)信息(segments_N)

一個(gè)索引(Index)可以同時(shí)存在多個(gè)segments_N(至于如何存在多個(gè)segments_N，在描述完詳細(xì)信息之后會(huì)舉例說明)，然而當(dāng)我們要打開一個(gè)索引的時(shí)候，我們必須要選擇一個(gè)來打開，那如何選擇哪個(gè)segments_N呢？

Lucene采取以下過程：

其一，在所有的segments_N中選擇N最大的一個(gè)。基本邏輯參照SegmentInfos.getCurrentSegmentGeneration(File[] files)，其基本思路就是在所有以segments開頭，并且不是segments.gen的文件中，選擇N最大的一個(gè)作為genA。
其二，打開segments.gen，其中保存了當(dāng)前的N值。其格式如下，讀出版本號(hào)(Version)，然后再讀出兩個(gè)N，如果兩者相等，則作為genB。

IndexInput genInput = directory.openInput(IndexFileNames.SEGMENTS_GEN);//"segments.gen"?
int version = genInput.readInt();//讀出版本號(hào)?
if (version == FORMAT_LOCKLESS) {//如果版本號(hào)正確?
??? long gen0 = genInput.readLong();//讀出第一個(gè)N?
??? long gen1 = genInput.readLong();//讀出第二個(gè)N?
??? if (gen0 == gen1) {//如果兩者相等則為genB?
??????? genB = gen0;?
??? }?
}

其三，在上述得到的genA和genB中選擇最大的那個(gè)作為當(dāng)前的N，方才打開segments_N文件。其基本邏輯如下：

if (genA > genB)?
??? gen = genA;?
else?
??? gen = genB;

如下圖是segments_N的具體格式：

Format：
- 索引文件格式的版本號(hào)。
- 由于Lucene是在不斷開發(fā)過程中的，因而不同版本的Lucene，其索引文件格式也不盡相同，于是規(guī)定一個(gè)版本號(hào)。
- Lucene 2.1此值-3，Lucene 2.9時(shí)，此值為-9。
- 當(dāng)用某個(gè)版本號(hào)的IndexReader讀取另一個(gè)版本號(hào)生成的索引的時(shí)候，會(huì)因?yàn)榇酥挡煌鴪?bào)錯(cuò)。
Version：
- 索引的版本號(hào)，記錄了IndexWriter將修改提交到索引文件中的次數(shù)。
- 其初始值大多數(shù)情況下從索引文件里面讀出，僅僅在索引開始創(chuàng)建的時(shí)候，被賦予當(dāng)前的時(shí)間，已取得一個(gè)唯一值。
- 其值改變?cè)贗ndexWriter.commit->IndexWriter.startCommit->SegmentInfos.prepareCommit->SegmentInfos.write->writeLong(++version)
- 其初始值之所最初取一個(gè)時(shí)間，是因?yàn)槲覀儾⒉魂P(guān)心IndexWriter將修改提交到索引的具體次數(shù)，而更關(guān)心到底哪個(gè)是最新的。IndexReader中常比較自己的version和索引文件中的version是否相同來判斷此IndexReader被打開后，還有沒有被IndexWriter更新。

//在DirectoryReader中有一下函數(shù)。

public boolean isCurrent() throws CorruptIndexException, IOException {?
? return SegmentInfos.readCurrentVersion(directory) == segmentInfos.getVersion();?
}

NameCount
- 是下一個(gè)新段(Segment)的段名。
- 所有屬于同一個(gè)段的索引文件都以段名作為文件名，一般為_0.xxx, _0.yyy,? _1.xxx, _1.yyy ……
- 新生成的段的段名一般為原有最大段名加一。
- 如同的索引，NameCount讀出來是2，說明新的段為_2.xxx, _2.yyy

SegCount
- 段(Segment)的個(gè)數(shù)。
- 如上圖，此值為2。
SegCount個(gè)段的元數(shù)據(jù)信息：
- SegName
  - 段名，所有屬于同一個(gè)段的文件都有以段名作為文件名。
  - 如上圖，第一個(gè)段的段名為"_0"，第二個(gè)段的段名為"_1"
- SegSize
  - 此段中包含的文檔數(shù)
  - 然而此文檔數(shù)是包括已經(jīng)刪除，又沒有optimize的文檔的，因?yàn)樵趏ptimize之前，Lucene的段中包含了所有被索引過的文檔，而被刪除的文檔是保存在.del文件中的，在搜索的過程中，是先從段中讀到了被刪除的文檔，然后再用.del中的標(biāo)志，將這篇文檔過濾掉。
  - 如下的代碼形成了上圖的索引，可以看出索引了兩篇文檔形成了_0段，然后又刪除了其中一篇，形成了_0_1.del，又索引了兩篇文檔形成_1段，然后又刪除了其中一篇，形成_1_1.del。因而在兩個(gè)段中，此值都是2。

IndexWriter writer = new IndexWriter(FSDirectory.open(INDEX_DIR), new StandardAnalyzer(Version.LUCENE_CURRENT), true, IndexWriter.MaxFieldLength.LIMITED);?
writer.setUseCompoundFile(false);?
indexDocs(writer, docDir);//docDir中只有兩篇文檔

//文檔一為：Students should be allowed to go out with their friends, but not allowed to drink beer.

//文檔二為：My friend Jerry went to school to see his students but found them drunk which is not allowed.

writer.commit();//提交兩篇文檔，形成_0段。

writer.deleteDocuments(new Term("contents", "school"));//刪除文檔二?
writer.commit();//提交刪除，形成_0_1.del?
indexDocs(writer, docDir);//再次索引兩篇文檔，Lucene不能判別文檔與文檔的不同，因而算兩篇新的文檔。?
writer.commit();//提交兩篇文檔，形成_1段?
writer.deleteDocuments(new Term("contents", "school"));//刪除第二次添加的文檔二?
writer.close();//提交刪除，形成_1_1.de

- DelGen
  - .del文件的版本號(hào)
  - Lucene中，在optimize之前，刪除的文檔是保存在.del文件中的。
  - 在Lucene 2.9中，文檔刪除有以下幾種方式：
    - IndexReader.deleteDocument(int docID)是用IndexReader按文檔號(hào)刪除。
    - IndexReader.deleteDocuments(Term term)是用IndexReader刪除包含此詞(Term)的文檔。
    - IndexWriter.deleteDocuments(Term term)是用IndexWriter刪除包含此詞(Term)的文檔。
    - IndexWriter.deleteDocuments(Term[] terms)是用IndexWriter刪除包含這些詞(Term)的文檔。
    - IndexWriter.deleteDocuments(Query query)是用IndexWriter刪除能滿足此查詢(Query)的文檔。
    - IndexWriter.deleteDocuments(Query[] queries)是用IndexWriter刪除能滿足這些查詢(Query)的文檔。
    - 原來的版本中Lucene的刪除一直是由IndexReader來完成的，在Lucene 2.9中雖可以用IndexWriter來刪除，但是其實(shí)真正的實(shí)現(xiàn)是在IndexWriter中，保存了readerpool，當(dāng)IndexWriter向索引文件提交刪除的時(shí)候，仍然是從readerpool中得到相應(yīng)的IndexReader，并用IndexReader來進(jìn)行刪除的。下面的代碼可以說明：

IndexWriter.applyDeletes()

-> DocumentsWriter.applyDeletes(SegmentInfos)

???? -> reader.deleteDocument(doc)

- - - DelGen是每當(dāng)IndexWriter向索引文件中提交刪除操作的時(shí)候，加1，并生成新的.del文件。

IndexWriter.commit()

-> IndexWriter.applyDeletes()

??? -> IndexWriter$ReaderPool.release(SegmentReader)

???????? -> SegmentReader(IndexReader).commit()

???????????? -> SegmentReader.doCommit(Map)

????????????????? -> SegmentInfo.advanceDelGen()

?????????????????????? -> if (delGen == NO) {?
????????????????????????????? delGen = YES;?
?????????????????????????? } else {?
????????????????????????????? delGen++;?
?????????????????????????? }

IndexWriter writer = new IndexWriter(FSDirectory.open(INDEX_DIR), new StandardAnalyzer(Version.LUCENE_CURRENT), true, IndexWriter.MaxFieldLength.LIMITED);?
writer.setUseCompoundFile(false);

indexDocs(writer, docDir);//索引兩篇文檔，一篇包含"school"，另一篇包含"beer"?
writer.commit();//提交兩篇文檔到索引文件，形成段(Segment) "_0"?
writer.deleteDocuments(new Term("contents", "school"));//刪除包含"school"的文檔，其實(shí)是刪除了兩篇文檔中的一篇。?
writer.commit();//提交刪除到索引文件，形成"_0_1.del"?
writer.deleteDocuments(new Term("contents", "beer"));//刪除包含"beer"的文檔，其實(shí)是刪除了兩篇文檔中的另一篇。?
writer.commit();//提交刪除到索引文件，形成"_0_2.del"?
indexDocs(writer, docDir);//索引兩篇文檔，和上次的文檔相同，但是Lucene無法區(qū)分，認(rèn)為是另外兩篇文檔。?
writer.commit();//提交兩篇文檔到索引文件，形成段"_1"?
writer.deleteDocuments(new Term("contents", "beer"));//刪除包含"beer"的文檔，其中段"_0"已經(jīng)無可刪除，段"_1"被刪除一篇。?
writer.close();//提交刪除到索引文件，形成"_1_1.del"

形成的索引文件如下：

- DocStoreOffset
- DocStoreSegment
- DocStoreIsCompoundFile
  - 對(duì)于域(Stored Field)和詞向量(Term Vector)的存儲(chǔ)可以有不同的方式，即可以每個(gè)段(Segment)單獨(dú)存儲(chǔ)自己的域和詞向量信息，也可以多個(gè)段共享域和詞向量，把它們存儲(chǔ)到一個(gè)段中去。
  - 如果DocStoreOffset為-1，則此段單獨(dú)存儲(chǔ)自己的域和詞向量，從存儲(chǔ)文件上來看，如果此段段名為XXX，則此段有自己的XXX.fdt，XXX.fdx，XXX.tvf，XXX.tvd，XXX.tvx文件。DocStoreSegment和DocStoreIsCompoundFile在此處不被保存。
  - 如果DocStoreOffset不為-1，則DocStoreSegment保存了共享的段的名字，比如為YYY，DocStoreOffset則為此段的域及詞向量信息在共享段中的偏移量。則此段沒有自己的XXX.fdt，XXX.fdx，XXX.tvf，XXX.tvd，XXX.tvx文件，而是將信息存放在共享段的YYY.fdt，YYY.fdx，YYY.tvf，YYY.tvd，YYY.tvx文件中。
  - DocumentsWriter中有兩個(gè)成員變量：String segment是當(dāng)前索引信息存放的段，String docStoreSegment是域和詞向量信息存儲(chǔ)的段。兩者可以相同也可以不同，決定了域和詞向量信息是存儲(chǔ)在本段中，還是和其他的段共享。
  - IndexWriter.flush(boolean triggerMerge, boolean flushDocStores, boolean flushDeletes)中第二個(gè)參數(shù)flushDocStores會(huì)影響到是否單獨(dú)或是共享存儲(chǔ)。其實(shí)最終影響的是DocumentsWriter.closeDocStore()。每當(dāng)flushDocStores為false時(shí)，closeDocStore不被調(diào)用，說明下次添加到索引文件中的域和詞向量信息是同此次共享一個(gè)段的。直到flushDocStores為true的時(shí)候，closeDocStore被調(diào)用，從而下次添加到索引文件中的域和詞向量信息將被保存在一個(gè)新的段中，不同此次共享一個(gè)段(在這里需要指出的是Lucene的一個(gè)很奇怪的實(shí)現(xiàn)，雖然下次域和詞向量信息是被保存到新的段中，然而段名卻是這次被確定了的，在initSegmentName中當(dāng)docStoreSegment == null時(shí)，被置為當(dāng)前的segment，而非下一個(gè)新的segment，docStoreSegment = segment，于是會(huì)出現(xiàn)如下面的例子的現(xiàn)象)。
  - 好在共享域和詞向量存儲(chǔ)并不是經(jīng)常被使用到，實(shí)現(xiàn)也或有缺陷，暫且解釋到此。

????? IndexWriter writer = new IndexWriter(FSDirectory.open(INDEX_DIR), new StandardAnalyzer(Version.LUCENE_CURRENT), true, IndexWriter.MaxFieldLength.LIMITED);?
????? writer.setUseCompoundFile(false);

????
????? indexDocs(writer, docDir);?
????? writer.flush();

//flush生成segment "_0"，并且flush函數(shù)中，flushDocStores設(shè)為false，也即下個(gè)段將同本段共享域和詞向量信息，這時(shí)DocumentsWriter中的docStoreSegment= "_0"。

????? indexDocs(writer, docDir);?
????? writer.commit();

//commit生成segment "_1"，由于上次flushDocStores設(shè)為false，于是段"_1"的域以及詞向量信息是保存在"_0"中的，在這個(gè)時(shí)刻，段"_1"并不生成自己的"_1.fdx"和"_1.fdt"。然而在commit函數(shù)中，flushDocStores設(shè)為true，也即下個(gè)段將單獨(dú)使用新的段來存儲(chǔ)域和詞向量信息。然而這時(shí)，DocumentsWriter中的docStoreSegment= "_1"，也即當(dāng)段"_2"存儲(chǔ)其域和詞向量信息的時(shí)候，是存在"_1.fdx"和"_1.fdt"中的，而段"_1"的域和詞向量信息卻是存在"_0.fdt"和"_0.fdx"中的，這一點(diǎn)非常令人困惑。如圖writer.commit的時(shí)候，_1.fdt和_1.fdx并沒有形成。

????? indexDocs(writer, docDir);?
????? writer.flush();

//段"_2"形成，由于上次flushDocStores設(shè)為true，其域和詞向量信息是新創(chuàng)建一個(gè)段保存的，卻是保存在_1.fdt和_1.fdx中的，這時(shí)候才產(chǎn)生了此二文件。

????? indexDocs(writer, docDir);?
????? writer.flush();

//段"_3"形成，由于上次flushDocStores設(shè)為false，其域和詞向量信息是共享一個(gè)段保存的，也是是保存在_1.fdt和_1.fdx中的

????? indexDocs(writer, docDir);?
????? writer.commit();

//段"_4"形成，由于上次flushDocStores設(shè)為false，其域和詞向量信息是共享一個(gè)段保存的，也是是保存在_1.fdt和_1.fdx中的。然而函數(shù)commit中flushDocStores設(shè)為true，也意味著下一個(gè)段將新創(chuàng)建一個(gè)段保存域和詞向量信息，此時(shí)DocumentsWriter中docStoreSegment= "_4"，也表明了雖然段"_4"的域和詞向量信息保存在了段"_1"中，將來的域和詞向量信息卻要保存在段"_4"中。此時(shí)"_4.fdx"和"_4.fdt"尚未產(chǎn)生。

????

????? indexDocs(writer, docDir);?
????? writer.flush();

//段"_5"形成，由于上次flushDocStores設(shè)為true，其域和詞向量信息是新創(chuàng)建一個(gè)段保存的，卻是保存在_4.fdt和_4.fdx中的，這時(shí)候才產(chǎn)生了此二文件。

????? indexDocs(writer, docDir);?
????? writer.commit();?
????? writer.close();

//段"_6"形成，由于上次flushDocStores設(shè)為false，其域和詞向量信息是共享一個(gè)段保存的，也是是保存在_4.fdt和_4.fdx中的

- HasSingleNormFile
  - 在搜索的過程中，標(biāo)準(zhǔn)化因子(Normalization Factor)會(huì)影響文檔最后的評(píng)分。
  - 不同的文檔重要性不同，不同的域重要性也不同。因而每個(gè)文檔的每個(gè)域都可以有自己的標(biāo)準(zhǔn)化因子。
  - 如果HasSingleNormFile為1，則所有的標(biāo)準(zhǔn)化因子都是存在.nrm文件中的。
  - 如果HasSingleNormFile不是1，則每個(gè)域都有自己的標(biāo)準(zhǔn)化因子文件.fN
- NumField
  - 域的數(shù)量
- NormGen
  - 如果每個(gè)域有自己的標(biāo)準(zhǔn)化因子文件，則此數(shù)組描述了每個(gè)標(biāo)準(zhǔn)化因子文件的版本號(hào)，也即.fN的N。
- IsCompoundFile
  - 是否保存為復(fù)合文件，也即把同一個(gè)段中的文件按照一定格式，保存在一個(gè)文件當(dāng)中，這樣可以減少每次打開文件的個(gè)數(shù)。
  - 是否為復(fù)合文件，由接口IndexWriter.setUseCompoundFile(boolean)設(shè)定。?
  - 非符合文件同符合文件的對(duì)比如下圖：

非復(fù)合文件：?

復(fù)合文件：?
?

- DeletionCount
  - 記錄了此段中刪除的文檔的數(shù)目。
- HasProx
  - 如果至少有一個(gè)段omitTf為false，也即詞頻(term freqency)需要被保存，則HasProx為1，否則為0。
- Diagnostics
  - 調(diào)試信息。
User map data
- 保存了用戶從字符串到字符串的映射Map
CheckSum
- 此文件segment_N的校驗(yàn)和。

讀取此文件格式參考SegmentInfos.read(Directory directory, String segmentFileName):

int format = input.readInt();
version = input.readLong(); // read version
counter = input.readInt(); // read counter
for (int i = input.readInt(); i > 0; i--) // read segmentInfos
- add(new SegmentInfo(directory, format, input));
  - name = input.readString();
  - docCount = input.readInt();
  - delGen = input.readLong();
  - docStoreOffset = input.readInt();
  - docStoreSegment = input.readString();
  - docStoreIsCompoundFile = (1 == input.readByte());
  - hasSingleNormFile = (1 == input.readByte());
  - int numNormGen = input.readInt();
  - normGen = new long[numNormGen];
  - for(int j=0;j
  - normGen[j] = input.readLong();
- isCompoundFile = input.readByte();
- delCount = input.readInt();
- hasProx = input.readByte() == 1;
- diagnostics = input.readStringStringMap();

userData = input.readStringStringMap();
final long checksumNow = input.getChecksum();
final long checksumThen = input.readLong();

4.1.2. 域(Field)的元數(shù)據(jù)信息(.fnm)

一個(gè)段(Segment)包含多個(gè)域，每個(gè)域都有一些元數(shù)據(jù)信息，保存在.fnm文件中，.fnm文件的格式如下：

FNMVersion
- 是fnm文件的版本號(hào)，對(duì)于Lucene 2.9為-2
FieldsCount
- 域的數(shù)目
一個(gè)數(shù)組的域(Fields)
- FieldName：域名，如"title"，"modified"，"content"等。
- FieldBits:一系列標(biāo)志位，表明對(duì)此域的索引方式
  - 最低位：1表示此域被索引，0則不被索引。所謂被索引，也即放到倒排表中去。
    - 僅僅被索引的域才能夠被搜到。
    - Field.Index.NO則表示不被索引。
    - Field.Index.ANALYZED則表示不但被索引，而且被分詞，比如索引"hello world"后，無論是搜"hello"，還是搜"world"都能夠被搜到。
    - Field.Index.NOT_ANALYZED表示雖然被索引，但是不分詞，比如索引"hello world"后，僅當(dāng)搜"hello world"時(shí)，能夠搜到，搜"hello"和搜"world"都搜不到。
    - 一個(gè)域出了能夠被索引，還能夠被存儲(chǔ)，僅僅被存儲(chǔ)的域是搜索不到的，但是能通過文檔號(hào)查到，多用于不想被搜索到，但是在通過其它域能夠搜索到的情況下，能夠隨著文檔號(hào)返回給用戶的域。
    - Field.Store.Yes則表示存儲(chǔ)此域，Field.Store.NO則表示不存儲(chǔ)此域。
  - 倒數(shù)第二位：1表示保存詞向量，0為不保存詞向量。
    - Field.TermVector.YES表示保存詞向量。
    - Field.TermVector.NO表示不保存詞向量。
  - 倒數(shù)第三位：1表示在詞向量中保存位置信息。
    - Field.TermVector.WITH_POSITIONS
  - 倒數(shù)第四位：1表示在詞向量中保存偏移量信息。
    - Field.TermVector.WITH_OFFSETS
  - 倒數(shù)第五位：1表示不保存標(biāo)準(zhǔn)化因子
    - Field.Index.ANALYZED_NO_NORMS
    - Field.Index.NOT_ANALYZED_NO_NORMS
  - 倒數(shù)第六位：是否保存payload

要了解域的元數(shù)據(jù)信息，還要了解以下幾點(diǎn)：

位置(Position)和偏移量(Offset)的區(qū)別
- 位置是基于詞Term的，偏移量是基于字母或漢字的。

索引域(Indexed)和存儲(chǔ)域(Stored)的區(qū)別
- 一個(gè)域?yàn)槭裁磿?huì)被存儲(chǔ)(store)而不被索引(Index)呢？在一個(gè)文檔中的所有信息中，有這樣一部分信息，可能不想被索引從而可以搜索到，但是當(dāng)這個(gè)文檔由于其他的信息被搜索到時(shí)，可以同其他信息一同返回。
- 舉個(gè)例子，讀研究生時(shí)，您好不容易寫了一篇論文交給您的導(dǎo)師，您的導(dǎo)師卻要他所第一作者而您做第二作者，然而您導(dǎo)師不想別人在論文系統(tǒng)中搜索您的名字時(shí)找到這篇論文，于是在論文系統(tǒng)中，把第二作者這個(gè)Field的Indexed設(shè)為false，這樣別人搜索您的名字，永遠(yuǎn)不知道您寫過這篇論文，只有在別人搜索您導(dǎo)師的名字從而找到您的文章時(shí)，在一個(gè)角落表述著第二作者是您。
payload的使用
- 我們知道，索引是以倒排表形式存儲(chǔ)的，對(duì)于每一個(gè)詞，都保存了包含這個(gè)詞的一個(gè)鏈表，當(dāng)然為了加快查詢速度，此鏈表多用跳躍表進(jìn)行存儲(chǔ)。
- Payload信息就是存儲(chǔ)在倒排表中的，同文檔號(hào)一起存放，多用于存儲(chǔ)與每篇文檔相關(guān)的一些信息。當(dāng)然這部分信息也可以存儲(chǔ)域里(stored Field)，兩者從功能上基本是一樣的，然而當(dāng)要存儲(chǔ)的信息很多的時(shí)候，存放在倒排表里，利用跳躍表，有利于大大提高搜索速度。
- Payload的存儲(chǔ)方式如下圖：

- Payload主要有以下幾種用法：
  - 存儲(chǔ)每個(gè)文檔都有的信息：比如有的時(shí)候，我們想給每個(gè)文檔賦一個(gè)我們自己的文檔號(hào)，而不是用Lucene自己的文檔號(hào)。于是我們可以聲明一個(gè)特殊的域(Field)"_ID"和特殊的詞(Term)"_ID"，使得每篇文檔都包含詞"_ID"，于是在詞"_ID"的倒排表里面對(duì)于每篇文檔又有一項(xiàng)，每一項(xiàng)都有一個(gè)payload，于是我們可以在payload里面保存我們自己的文檔號(hào)。每當(dāng)我們得到一個(gè)Lucene的文檔號(hào)的時(shí)候，就能從跳躍表中查找到我們自己的文檔號(hào)。

//聲明一個(gè)特殊的域和特殊的詞?

public static final String ID_PAYLOAD_FIELD = "_ID";

public static final String ID_PAYLOAD_TERM = "_ID";

public static final Term ID_TERM = new Term(ID_PAYLOAD_TERM, ID_PAYLOAD_FIELD);

//聲明一個(gè)特殊的TokenStream，它只生成一個(gè)詞(Term)，就是那個(gè)特殊的詞，在特殊的域里面。

static class SinglePayloadTokenStream extends TokenStream {?
??? private Token token;?
??? private boolean returnToken = false;

??? SinglePayloadTokenStream(String idPayloadTerm) {?
??????? char[] term = idPayloadTerm.toCharArray();?
??????? token = new Token(term, 0, term.length, 0, term.length);?
??? }

??? void setPayloadValue(byte[] value) {?
??????? token.setPayload(new Payload(value));?
??????? returnToken = true;?
??? }

??? public Token next() throws IOException {?
??????? if (returnToken) {?
??????????? returnToken = false;?
??????????? return token;?
??????? } else {?
??????????? return null;?
??????? }?
??? }?
}

//對(duì)于每一篇文檔，都讓它包含這個(gè)特殊的詞，在特殊的域里面

SinglePayloadTokenStream singlePayloadTokenStream = new SinglePayloadTokenStream(ID_PAYLOAD_TERM);?
singlePayloadTokenStream.setPayloadValue(long2bytes(id));?
doc.add(new Field(ID_PAYLOAD_FIELD, singlePayloadTokenStream));

//每當(dāng)?shù)玫揭粋€(gè)Lucene的文檔號(hào)時(shí)，通過以下的方式得到payload里面的文檔號(hào)?

long id = 0;?
TermPositions tp = reader.termPositions(ID_PAYLOAD_TERM);?
boolean ret = tp.skipTo(docID);?
tp.nextPosition();?
int payloadlength = tp.getPayloadLength();?
byte[] payloadBuffer = new byte[payloadlength];?
tp.getPayload(payloadBuffer, 0);?
id = bytes2long(payloadBuffer);?
tp.close();

- - 影響詞的評(píng)分
    - 在Similarity抽象類中有函數(shù)public float scorePayload(byte [] payload, int offset, int length)? 可以根據(jù)payload的值影響評(píng)分。
讀取域元數(shù)據(jù)信息的代碼如下：

FieldInfos.read(IndexInput, String)

int firstInt = input.readVInt();
size = input.readVInt();
for (int i = 0; i < size; i++)
- String name = input.readString();
- byte bits = input.readByte();
- boolean isIndexed = (bits & IS_INDEXED) != 0;
- boolean storeTermVector = (bits & STORE_TERMVECTOR) != 0;
- boolean storePositionsWithTermVector = (bits & STORE_POSITIONS_WITH_TERMVECTOR) != 0;
- boolean storeOffsetWithTermVector = (bits & STORE_OFFSET_WITH_TERMVECTOR) != 0;
- boolean omitNorms = (bits & OMIT_NORMS) != 0;
- boolean storePayloads = (bits & STORE_PAYLOADS) != 0;
- boolean omitTermFreqAndPositions = (bits & OMIT_TERM_FREQ_AND_POSITIONS) != 0;

4.1.3. 域(Field)的數(shù)據(jù)信息(.fdt，.fdx)

域數(shù)據(jù)文件(fdt):
- 真正保存存儲(chǔ)域(stored field)信息的是fdt文件
- 在一個(gè)段(segment)中總共有segment size篇文檔，所以fdt文件中共有segment size個(gè)項(xiàng)，每一項(xiàng)保存一篇文檔的域的信息
- 對(duì)于每一篇文檔，一開始是一個(gè)fieldcount，也即此文檔包含的域的數(shù)目，接下來是fieldcount個(gè)項(xiàng)，每一項(xiàng)保存一個(gè)域的信息。
- 對(duì)于每一個(gè)域，fieldnum是域號(hào)，接著是一個(gè)8位的byte，最低一位表示此域是否分詞(tokenized)，倒數(shù)第二位表示此域是保存字符串?dāng)?shù)據(jù)還是二進(jìn)制數(shù)據(jù)，倒數(shù)第三位表示此域是否被壓縮，再接下來就是存儲(chǔ)域的值，比如new Field("title", "lucene in action", Field.Store.Yes, …)，則此處存放的就是"lucene in action"這個(gè)字符串。
域索引文件(fdx)
- 由域數(shù)據(jù)文件格式我們知道，每篇文檔包含的域的個(gè)數(shù)，每個(gè)存儲(chǔ)域的值都是不一樣的，因而域數(shù)據(jù)文件中segment size篇文檔，每篇文檔占用的大小也是不一樣的，那么如何在fdt中辨別每一篇文檔的起始地址和終止地址呢，如何能夠更快的找到第n篇文檔的存儲(chǔ)域的信息呢？就是要借助域索引文件。
- 域索引文件也總共有segment size個(gè)項(xiàng)，每篇文檔都有一個(gè)項(xiàng)，每一項(xiàng)都是一個(gè)long，大小固定，每一項(xiàng)都是對(duì)應(yīng)的文檔在fdt文件中的起始地址的偏移量，這樣如果我們想找到第n篇文檔的存儲(chǔ)域的信息，只要在fdx中找到第n項(xiàng)，然后按照取出的long作為偏移量，就可以在fdt文件中找到對(duì)應(yīng)的存儲(chǔ)域的信息。
讀取域數(shù)據(jù)信息的代碼如下：

Document FieldsReader.doc(int n, FieldSelector fieldSelector)

long position = indexStream.readLong();//indexStream points to ".fdx"
fieldsStream.seek(position);//fieldsStream points to "fdt"
int numFields = fieldsStream.readVInt();
for (int i = 0; i < numFields; i++)
- int fieldNumber = fieldsStream.readVInt();
- byte bits = fieldsStream.readByte();
- boolean compressed = (bits & FieldsWriter.FIELD_IS_COMPRESSED) != 0;
- boolean tokenize = (bits & FieldsWriter.FIELD_IS_TOKENIZED) != 0;
- boolean binary = (bits & FieldsWriter.FIELD_IS_BINARY) != 0;
- if (binary)
  - int toRead = fieldsStream.readVInt();
  - final byte[] b = new byte[toRead];
  - fieldsStream.readBytes(b, 0, b.length);
  - if (compressed)
    - int toRead = fieldsStream.readVInt();
    - final byte[] b = new byte[toRead];
    - fieldsStream.readBytes(b, 0, b.length);
    - uncompress(b),
- else
  - fieldsStream.readString()

4.1.3. 詞向量(Term Vector)的數(shù)據(jù)信息(.tvx，.tvd，.tvf)

詞向量信息是從索引(index)到文檔(document)到域(field)到詞(term)的正向信息，有了詞向量信息，我們就可以得到一篇文檔包含那些詞的信息。

詞向量索引文件(tvx)
- 一個(gè)段(segment)包含N篇文檔，此文件就有N項(xiàng)，每一項(xiàng)代表一篇文檔。
- 每一項(xiàng)包含兩部分信息：第一部分是詞向量文檔文件(tvd)中此文檔的偏移量，第二部分是詞向量域文件(tvf)中此文檔的第一個(gè)域的偏移量。
詞向量文檔文件(tvd)
- 一個(gè)段(segment)包含N篇文檔，此文件就有N項(xiàng)，每一項(xiàng)包含了此文檔的所有的域的信息。
- 每一項(xiàng)首先是此文檔包含的域的個(gè)數(shù)NumFields，然后是一個(gè)NumFields大小的數(shù)組，數(shù)組的每一項(xiàng)是域號(hào)。然后是一個(gè)(NumFields - 1)大小的數(shù)組，由前面我們知道，每篇文檔的第一個(gè)域在tvf中的偏移量在tvx文件中保存，而其他(NumFields - 1)個(gè)域在tvf中的偏移量就是第一個(gè)域的偏移量加上這(NumFields - 1)個(gè)數(shù)組的每一項(xiàng)的值。
詞向量域文件(tvf)
- 此文件包含了此段中的所有的域，并不對(duì)文檔做區(qū)分，到底第幾個(gè)域到第幾個(gè)域是屬于那篇文檔，是由tvx中的第一個(gè)域的偏移量以及tvd中的(NumFields - 1)個(gè)域的偏移量來決定的。
- 對(duì)于每一個(gè)域，首先是此域包含的詞的個(gè)數(shù)NumTerms，然后是一個(gè)8位的byte，最后一位是指定是否保存位置信息，倒數(shù)第二位是指定是否保存偏移量信息。然后是NumTerms個(gè)項(xiàng)的數(shù)組，每一項(xiàng)代表一個(gè)詞(Term)，對(duì)于每一個(gè)詞，由詞的文本TermText，詞頻TermFreq(也即此詞在此文檔中出現(xiàn)的次數(shù))，詞的位置信息，詞的偏移量信息。
讀取詞向量數(shù)據(jù)信息的代碼如下：

TermVectorsReader.get(int docNum, String field, TermVectorMapper)

int fieldNumber = fieldInfos.fieldNumber(field);//通過field名字得到field號(hào)
seekTvx(docNum);//在tvx文件中按docNum文檔號(hào)找到相應(yīng)文檔的項(xiàng)
long tvdPosition = tvx.readLong();//找到tvd文件中相應(yīng)文檔的偏移量
tvd.seek(tvdPosition);//在tvd文件中按偏移量找到相應(yīng)文檔的項(xiàng)
int fieldCount = tvd.readVInt();//此文檔包含的域的個(gè)數(shù)。
for (int i = 0; i < fieldCount; i++) //按域號(hào)查找域
- number = tvd.readVInt();
- if (number == fieldNumber)
  - found = i;
position = tvx.readLong();//在tvx中讀出此文檔的第一個(gè)域在tvf中的偏移量
for (int i = 1; i <= found; i++)
- position += tvd.readVLong();//加上所要找的域在tvf中的偏移量
tvf.seek(position);
int numTerms = tvf.readVInt();
byte bits = tvf.readByte();
storePositions = (bits & STORE_POSITIONS_WITH_TERMVECTOR) != 0;
storeOffsets = (bits & STORE_OFFSET_WITH_TERMVECTOR) != 0;
for (int i = 0; i < numTerms; i++)
- start = tvf.readVInt();
- deltaLength = tvf.readVInt();
- totalLength = start + deltaLength;
- tvf.readBytes(byteBuffer, start, deltaLength);
- term = new String(byteBuffer, 0, totalLength, "UTF-8");
- if (storePositions)
  - positions = new int[freq];
  - int prevPosition = 0;
  - for (int j = 0; j < freq; j++)
    - positions[j] = prevPosition + tvf.readVInt();
    - prevPosition = positions[j];
- if (storeOffsets)
  - offsets = new TermVectorOffsetInfo[freq];
  - int prevOffset = 0;
  - for (int j = 0; j < freq; j++)
  - int startOffset = prevOffset + tvf.readVInt();
  - int endOffset = startOffset + tvf.readVInt();
  - offsets[j] = new TermVectorOffsetInfo(startOffset, endOffset);
  - prevOffset = endOffset;

4.2. 反向信息

反向信息是索引文件的核心，也即反向索引。

反向索引包括兩部分，左面是詞典(Term Dictionary)，右面是倒排表(Posting List)。

在Lucene中，這兩部分是分文件存儲(chǔ)的，詞典是存儲(chǔ)在tii，tis中的，倒排表又包括兩部分，一部分是文檔號(hào)及詞頻，保存在frq中，一部分是詞的位置信息，保存在prx中。

Term Dictionary (tii, tis)
- –> Frequencies (.frq)
- –> Positions (.prx)

4.2.1. 詞典(tis)及詞典索引(tii)信息

在詞典中，所有的詞是按照字典順序排序的。

詞典文件(tis)
- TermCount：詞典中包含的總的詞數(shù)
- IndexInterval：為了加快對(duì)詞的查找速度，也應(yīng)用類似跳躍表的結(jié)構(gòu)，假設(shè)IndexInterval為4，則在詞典索引(tii)文件中保存第4個(gè)，第8個(gè)，第12個(gè)詞，這樣可以加快在詞典文件中查找詞的速度。
- SkipInterval：倒排表無論是文檔號(hào)及詞頻，還是位置信息，都是以跳躍表的結(jié)構(gòu)存在的，SkipInterval是跳躍的步數(shù)。
- MaxSkipLevels：跳躍表是多層的，這個(gè)值指的是跳躍表的最大層數(shù)。
- TermCount個(gè)項(xiàng)的數(shù)組，每一項(xiàng)代表一個(gè)詞，對(duì)于每一個(gè)詞，以前綴后綴規(guī)則存放詞的文本信息(PrefixLength + Suffix)，詞屬于的域的域號(hào)(FieldNum)，有多少篇文檔包含此詞(DocFreq)，此詞的倒排表在frq，prx中的偏移量(FreqDelta, ProxDelta)，此詞的倒排表的跳躍表在frq中的偏移量(SkipDelta)，這里之所以用Delta，是應(yīng)用差值規(guī)則。
詞典索引文件(tii)
- 詞典索引文件是為了加快對(duì)詞典文件中詞的查找速度，保存每隔IndexInterval個(gè)詞。
- 詞典索引文件是會(huì)被全部加載到內(nèi)存中去的。
- IndexTermCount = TermCount / IndexInterval：詞典索引文件中包含的詞數(shù)。
- IndexInterval同詞典文件中的IndexInterval。
- SkipInterval同詞典文件中的SkipInterval。
- MaxSkipLevels同詞典文件中的MaxSkipLevels。
- IndexTermCount個(gè)項(xiàng)的數(shù)組，每一項(xiàng)代表一個(gè)詞，每一項(xiàng)包括兩部分，第一部分是詞本身(TermInfo)，第二部分是在詞典文件中的偏移量(IndexDelta)。假設(shè)IndexInterval為4，此數(shù)組中保存第4個(gè)，第8個(gè)，第12個(gè)詞。。。
讀取詞典及詞典索引文件的代碼如下：

origEnum = new SegmentTermEnum(directory.openInput(segment + "." + IndexFileNames.TERMS_EXTENSION,readBufferSize), fieldInfos, false);//用于讀取tis文件

int firstInt = input.readInt();
size = input.readLong();
indexInterval = input.readInt();
skipInterval = input.readInt();
maxSkipLevels = input.readInt();

SegmentTermEnum indexEnum = new SegmentTermEnum(directory.openInput(segment + "." + IndexFileNames.TERMS_INDEX_EXTENSION, readBufferSize), fieldInfos, true);//用于讀取tii文件

indexTerms = new Term[indexSize];
indexInfos = new TermInfo[indexSize];
indexPointers = new long[indexSize];
for (int i = 0; indexEnum.next(); i++)
- indexTerms[i] = indexEnum.term();
- indexInfos[i] = indexEnum.termInfo();
- indexPointers[i] = indexEnum.indexPointer;

4.2.2. 文檔號(hào)及詞頻(frq)信息

文檔號(hào)及詞頻文件里面保存的是倒排表，是以跳躍表形式存在的。

此文件包含TermCount個(gè)項(xiàng)，每一個(gè)詞都有一項(xiàng)，因?yàn)槊恳粋€(gè)詞都有自己的倒排表。
對(duì)于每一個(gè)詞的倒排表都包括兩部分，一部分是倒排表本身，也即一個(gè)數(shù)組的文檔號(hào)及詞頻，另一部分是跳躍表，為了更快的訪問和定位倒排表中文檔號(hào)及詞頻的位置。
對(duì)于文檔號(hào)和詞頻的存儲(chǔ)應(yīng)用的是差值規(guī)則和或然跟隨規(guī)則，Lucene的文檔本身有以下幾句話，比較難以理解，在此解釋一下：

For example, the TermFreqs for a term which occurs once in document seven and three times in document eleven, with omitTf false, would be the following sequence of VInts:

15, 8, 3

If omitTf were true it would be this sequence of VInts instead:

7,4

首先我們看omitTf=false的情況，也即我們?cè)谒饕袝?huì)存儲(chǔ)一個(gè)文檔中term出現(xiàn)的次數(shù)。

例子中說了，表示在文檔7中出現(xiàn)1次，并且又在文檔11中出現(xiàn)3次的文檔用以下序列表示：15，8，3.

那這三個(gè)數(shù)字是怎么計(jì)算出來的呢？

首先，根據(jù)定義TermFreq --> DocDelta[, Freq?]，一個(gè)TermFreq結(jié)構(gòu)是由一個(gè)DocDelta后面或許跟著Freq組成，也即上面我們說的A+B？結(jié)構(gòu)。

DocDelta自然是想存儲(chǔ)包含此Term的文檔的ID號(hào)了，Freq是在此文檔中出現(xiàn)的次數(shù)。

所以根據(jù)例子，應(yīng)該存儲(chǔ)的完整信息為[DocID = 7, Freq = 1] [DocID = 11,? Freq = 3](見全文檢索的基本原理章節(jié))。

然而為了節(jié)省空間，Lucene對(duì)編號(hào)此類的數(shù)據(jù)都是用差值來表示的，也即上面說的規(guī)則2，Delta規(guī)則，于是文檔ID就不能按完整信息存了，就應(yīng)該存放如下：

[DocIDDelta = 7, Freq = 1][DocIDDelta = 4 (11-7), Freq = 3]

然而Lucene對(duì)于A+B?這種或然跟隨的結(jié)果，有其特殊的存儲(chǔ)方式，見規(guī)則3，即A+B?規(guī)則，如果DocDelta后面跟隨的Freq為1，則用DocDelta最后一位置1表示。

如果DocDelta后面跟隨的Freq大于1，則DocDelta得最后一位置0，然后后面跟隨真正的值，從而對(duì)于第一個(gè)Term，由于Freq為1，于是放在DocDelta的最后一位表示，DocIDDelta = 7的二進(jìn)制是000 0111，必須要左移一位，且最后一位置一，000 1111 = 15，對(duì)于第二個(gè)Term，由于Freq大于一，于是放在DocDelta的最后一位置零，DocIDDelta = 4的二進(jìn)制是0000 0100，必須要左移一位，且最后一位置零，0000 1000 = 8，然后后面跟隨真正的Freq = 3。

于是得到序列：[DocDleta = 15][DocDelta = 8, Freq = 3]，也即序列，15，8，3。

如果omitTf=true，也即我們不在索引中存儲(chǔ)一個(gè)文檔中Term出現(xiàn)的次數(shù)，則只存DocID就可以了，因而不存在A+B?規(guī)則的應(yīng)用。

[DocID = 7][DocID = 11]，然后應(yīng)用規(guī)則2，Delta規(guī)則，于是得到序列[DocDelta = 7][DocDelta = 4 (11 - 7)]，也即序列，7，4.

對(duì)于跳躍表的存儲(chǔ)有以下幾點(diǎn)需要解釋一下：
- 跳躍表可根據(jù)倒排表本身的長(zhǎng)度(DocFreq)和跳躍的幅度(SkipInterval)而分不同的層次，層次數(shù)為NumSkipLevels = Min(MaxSkipLevels, floor(log(DocFreq/log(SkipInterval)))).
- 第Level層的節(jié)點(diǎn)數(shù)為DocFreq/(SkipInterval^(Level + 1))，level從零計(jì)數(shù)。
- 除了最高層之外，其他層都有SkipLevelLength來表示此層的二進(jìn)制長(zhǎng)度(而非節(jié)點(diǎn)的個(gè)數(shù))，方便讀取某一層的跳躍表到緩存里面。
- 低層在前，高層在后，當(dāng)讀完所有的低層后，剩下的就是最后一層，因而最后一層不需要SkipLevelLength。這也是為什么Lucene文檔中的格式描述為?^{NumSkipLevels-1}?, SkipLevel，也即低NumSKipLevels-1層有SkipLevelLength，最后一層只有SkipLevel，沒有SkipLevelLength。
- 除最低層以外，其他層都有SkipChildLevelPointer來指向下一層相應(yīng)的節(jié)點(diǎn)。
- 每一個(gè)跳躍節(jié)點(diǎn)包含以下信息：文檔號(hào)，payload的長(zhǎng)度，文檔號(hào)對(duì)應(yīng)的倒排表中的節(jié)點(diǎn)在frq中的偏移量，文檔號(hào)對(duì)應(yīng)的倒排表中的節(jié)點(diǎn)在prx中的偏移量。
- 雖然Lucene的文檔中有以下的描述，然而實(shí)驗(yàn)的結(jié)果卻不是完全準(zhǔn)確的：

Example: SkipInterval = 4, MaxSkipLevels = 2, DocFreq = 35. Then skip level 0 has 8 SkipData entries, containing the 3^rd?, 7^th?, 11^th?, 15^th?, 19^th?, 23^rd?, 27^th?, and 31^st?document numbers in TermFreqs. Skip level 1 has 2 SkipData entries, containing the 15^th?and 31^st?document numbers in TermFreqs.

按照描述，當(dāng)SkipInterval為4，且有35篇文檔的時(shí)候，Skip level = 0應(yīng)該包括第3，第7，第11，第15，第19，第23，第27，第31篇文檔，Skip level = 1應(yīng)該包括第15，第31篇文檔。

然而真正的實(shí)現(xiàn)中，跳躍表節(jié)點(diǎn)的時(shí)候，卻向前偏移了，偏移的原因在于下面的代碼：

FormatPostingsDocsWriter.addDoc(int docID, int termDocFreq)
- final int delta = docID - lastDocID;
- if ((++df % skipInterval) == 0)
  - skipListWriter.setSkipData(lastDocID, storePayloads, posWriter.lastPayloadLength);
  - skipListWriter.bufferSkip(df);

從代碼中，我們可以看出，當(dāng)SkipInterval為4的時(shí)候，當(dāng)docID = 0時(shí)，++df為1，1%4不為0，不是跳躍節(jié)點(diǎn)，當(dāng)docID = 3時(shí)，++df=4，4%4為0，為跳躍節(jié)點(diǎn)，然而skipData里面保存的卻是lastDocID為2。

所以真正的倒排表和跳躍表中保存一下的信息：

4.2.3. 詞位置(prx)信息

詞位置信息也是倒排表，也是以跳躍表形式存在的。

此文件包含TermCount個(gè)項(xiàng)，每一個(gè)詞都有一項(xiàng)，因?yàn)槊恳粋€(gè)詞都有自己的詞位置倒排表。
對(duì)于每一個(gè)詞的都有一個(gè)DocFreq大小的數(shù)組，每項(xiàng)代表一篇文檔，記錄此文檔中此詞出現(xiàn)的位置。這個(gè)文檔數(shù)組也是和frq文件中的跳躍表有關(guān)系的，從上面我們知道，在frq的跳躍表節(jié)點(diǎn)中有ProxSkip，當(dāng)SkipInterval為3的時(shí)候，frq的跳躍表節(jié)點(diǎn)指向prx文件中的此數(shù)組中的第1，第4，第7，第10，第13，第16篇文檔。
對(duì)于每一篇文檔，可能包含一個(gè)詞多次，因而有一個(gè)Freq大小的數(shù)組，每一項(xiàng)代表此詞在此文檔中出現(xiàn)一次，則有一個(gè)位置信息。
每一個(gè)位置信息包含：PositionDelta(采用差值規(guī)則)，還可以保存payload，應(yīng)用或然跟隨規(guī)則。

4.3. 其他信息

4.3.1. 標(biāo)準(zhǔn)化因子文件(nrm)

為什么會(huì)有標(biāo)準(zhǔn)化因子呢？從第一章中的描述，我們知道，在搜索過程中，搜索出的文檔要按與查詢語(yǔ)句的相關(guān)性排序，相關(guān)性大的打分(score)高，從而排在前面。相關(guān)性打分(score)使用向量空間模型(Vector Space Model)，在計(jì)算相關(guān)性之前，要計(jì)算Term Weight，也即某Term相對(duì)于某Document的重要性。在計(jì)算Term Weight時(shí)，主要有兩個(gè)影響因素，一個(gè)是此Term在此文檔中出現(xiàn)的次數(shù)，一個(gè)是此Term的普通程度。顯然此Term在此文檔中出現(xiàn)的次數(shù)越多，此Term在此文檔中越重要。

這種Term Weight的計(jì)算方法是最普通的，然而存在以下幾個(gè)問題：

不同的文檔重要性不同。有的文檔重要些，有的文檔相對(duì)不重要，比如對(duì)于做軟件的，在索引書籍的時(shí)候，我想讓計(jì)算機(jī)方面的書更容易搜到，而文學(xué)方面的書籍搜索時(shí)排名靠后。
不同的域重要性不同。有的域重要一些，如關(guān)鍵字，如標(biāo)題，有的域不重要一些，如附件等。同樣一個(gè)詞(Term)，出現(xiàn)在關(guān)鍵字中應(yīng)該比出現(xiàn)在附件中打分要高。
根據(jù)詞(Term)在文檔中出現(xiàn)的絕對(duì)次數(shù)來決定此詞對(duì)文檔的重要性，有不合理的地方。比如長(zhǎng)的文檔詞在文檔中出現(xiàn)的次數(shù)相對(duì)較多，這樣短的文檔比較吃虧。比如一個(gè)詞在一本磚頭書中出現(xiàn)了10次，在另外一篇不足100字的文章中出現(xiàn)了9次，就說明磚頭書應(yīng)該排在前面碼？不應(yīng)該，顯然此詞在不足100字的文章中能出現(xiàn)9次，可見其對(duì)此文章的重要性。

由于以上原因，Lucene在計(jì)算Term Weight時(shí)，都會(huì)乘上一個(gè)標(biāo)準(zhǔn)化因子(Normalization Factor)，來減少上面三個(gè)問題的影響。

標(biāo)準(zhǔn)化因子(Normalization Factor)是會(huì)影響隨后打分(score)的計(jì)算的，Lucene的打分計(jì)算一部分發(fā)生在索引過程中，一般是與查詢語(yǔ)句無關(guān)的參數(shù)如標(biāo)準(zhǔn)化因子，大部分發(fā)生在搜索過程中，會(huì)在搜索過程的代碼分析中詳述。

標(biāo)準(zhǔn)化因子(Normalization Factor)在索引過程總的計(jì)算如下：

它包括三個(gè)參數(shù)：

Document boost：此值越大，說明此文檔越重要。
Field boost：此域越大，說明此域越重要。
lengthNorm(field) = (1.0 / Math.sqrt(numTerms))：一個(gè)域中包含的Term總數(shù)越多，也即文檔越長(zhǎng)，此值越小，文檔越短，此值越大。

從上面的公式，我們知道，一個(gè)詞(Term)出現(xiàn)在不同的文檔或不同的域中，標(biāo)準(zhǔn)化因子不同。比如有兩個(gè)文檔，每個(gè)文檔有兩個(gè)域，如果不考慮文檔長(zhǎng)度，就有四種排列組合，在重要文檔的重要域中，在重要文檔的非重要域中，在非重要文檔的重要域中，在非重要文檔的非重要域中，四種組合，每種有不同的標(biāo)準(zhǔn)化因子。

于是在Lucene中，標(biāo)準(zhǔn)化因子共保存了(文檔數(shù)目乘以域數(shù)目)個(gè)，格式如下：

標(biāo)準(zhǔn)化因子文件(Normalization Factor File: nrm)：
- NormsHeader：字符串“NRM”外加Version，依Lucene的版本的不同而不同。
- 接著是一個(gè)數(shù)組，大小為NumFields，每個(gè)Field一項(xiàng)，每一項(xiàng)為一個(gè)Norms。
- Norms也是一個(gè)數(shù)組，大小為SegSize，即此段中文檔的數(shù)量，每一項(xiàng)為一個(gè)Byte，表示一個(gè)浮點(diǎn)數(shù)，其中0~2為尾數(shù)，3~8為指數(shù)。

4.3.2. 刪除文檔文件(del)

被刪除文檔文件(Deleted Document File: .del)
- Format：在此文件中，Bits和DGaps只能保存其中之一，-1表示保存DGaps，非負(fù)值表示保存Bits。
- ByteCount：此段中有多少文檔，就有多少個(gè)bit被保存，但是以byte形式計(jì)數(shù)，也即Bits的大小應(yīng)該是byte的倍數(shù)。
- BitCount：Bits中有多少位被至1，表示此文檔已經(jīng)被刪除。
- Bits：一個(gè)數(shù)組的byte，大小為ByteCount，應(yīng)用時(shí)被認(rèn)為是byte*8個(gè)bit。
- DGaps：如果刪除的文檔數(shù)量很小，則Bits大部分位為0，很浪費(fèi)空間。DGaps采用以下的方式來保存稀疏數(shù)組：比如第十，十二，三十二個(gè)文檔被刪除，于是第十，十二，三十二位設(shè)為1，DGaps也是以byte為單位的，僅保存不為0的byte，如第1個(gè)byte，第4個(gè)byte，第1個(gè)byte十進(jìn)制為20，第4個(gè)byte十進(jìn)制為1。于是保存成DGaps，第1個(gè)byte，位置1用不定長(zhǎng)正整數(shù)保存，值為20用二進(jìn)制保存，第2個(gè)byte，位置4用不定長(zhǎng)正整數(shù)保存，用差值為3，值為1用二進(jìn)制保存，二進(jìn)制數(shù)據(jù)不用差值表示。

五、總體結(jié)構(gòu)

圖示為L(zhǎng)ucene索引文件的整體結(jié)構(gòu)：
- 屬于整個(gè)索引(Index)的segment.gen，segment_N，其保存的是段(segment)的元數(shù)據(jù)信息，然后分多個(gè)segment保存數(shù)據(jù)信息，同一個(gè)segment有相同的前綴文件名。
- 對(duì)于每一個(gè)段，包含域信息，詞信息，以及其他信息(標(biāo)準(zhǔn)化因子，刪除文檔)
- 域信息也包括域的元數(shù)據(jù)信息，在fnm中，域的數(shù)據(jù)信息，在fdx，fdt中。
- 詞信息是反向信息，包括詞典(tis, tii)，文檔號(hào)及詞頻倒排表(frq)，詞位置倒排表(prx)。

大家可以通過看源代碼，相應(yīng)的Reader和Writer來了解文件結(jié)構(gòu)，將更為透徹。

總結(jié)

以上是生活随笔為你收集整理的Lucene学习总结之三：Lucene的索引文件格式(1)的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Lucene学习总结之二：Lucene的
下一篇： Lucene学习总结之四：Lucene索