當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

百度国学搜索探密

發布時間：2024/2/28 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了百度国学搜索探密小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

百度國學搜索探密

中科院軟件所張俊林(http://blog.csdn.net/malefactor)

?? 2006年1月11日

?? 年底寫論文作實驗搞得頭昏腦脹,中午放松一下上網看看新聞,原來百度推出了國學搜索,平常也比較喜歡看詩詞歌賦方面的東西,就上百度試了試,結果搜索結果讓我感覺哪里好像不對勁,所以就稍微花點時間看看百度在后面作了些什么.

?? 我說的不對勁到不是搜索結果本身,而是搜索結果的存放方式,你會發現百度所有搜索結果都放在http://guoxue.baidu.com/page/這個目錄下面.比如搜索”詩經”,所有返回結果頁面都是guoxue.baidu.com/page/caabbead/XXX.html

?? 這說明什么?說明百度所有的國學書籍都是存儲在guoxue.baidu.com/page/這個目錄下面,每個書籍一個目錄,每個目錄下面若干頁面,每個頁面是這個書籍的一部分.然后我感覺很好奇的是,目錄名是按照什么原則命名的呢?比如”詩經”為什么是caabbead呢?看著這個字符串非常有親切感,好像認識又叫不上名字,是誰呢?對了,很像是中文字符的字符編碼,那到底是不是呢?做個實驗,把”詩經”放到UltraEdit里面選擇HEX EDIT看看編碼發現還真實這么回事情,在實驗幾個,比如”紅樓夢”,HEX EDIT編碼: baecc2a5c3ce,那么我們試試百度存放在哪里,理論上應該存放在guoxue.baidu.com/page/baecc2a5c3ce這個目錄下,那么構建URL: guoxue.baidu.com/page/baecc2a5c3ce/1.html看看,你看到了什么?跟我們的預期一樣,是紅樓夢,不過不是第一章,是第二章,這個出乎我的意料,看來百度程序員有職業習慣從0開始計算啊,試試, guoxue.baidu.com/page/baecc2a5c3ce/0.html,嗯,是第一章了.

?? 看來百度是這么做的:每個書籍一個目錄,目錄名就是書名的字符編碼,每個章節或者段落是一個靜態頁面,目錄頁面是http://guoxue.baidu.com/page/xxxx/index.html,每個書籍都是若干靜態頁面組成的,所有數據放在http://guoxue.baidu.com/page/目錄下而且不允許用戶直接訪問這個目錄,想要大批量收藏古籍的先生太太老爺小姐門可以考慮寫個小程序自動從百度抓取啊,百度真是個好人,呵呵.

那么后臺怎么處理呢?這個看來很簡單,后臺應該有三個數據庫,一個是人名倒排索引,記載了作者和作品信息,這個是為了支持按照作者查找的;一個是書名倒排索引,記載出現過數目的頁面,這個是為了支持按照書名查找的,另外一個是全文倒排索引,這個是為了按照內容查找的,那么內容索引是怎樣的呢?建立了N-GRAM索引還是分詞后按照詞匯索引的呢?所謂N-GRAM索引,就是說不考慮分詞,而按照下面方法建立索引: