Orion算法:GOOGLE干掉百度的核武器?
/*版權聲明:可以任意轉載,轉載時請務必標明文章原始出處和作者信息 .*/?
Orion算法:GOOGLE干掉百度的核武器?
中科院軟件所 張俊林
time stamp:2006年4月12日
?
怎么樣?這篇文章的標題夠氣派吧?說實話,我寫完了看著也嚇了一跳,我問自己:這題目真是你自己起的么?神來執筆啊!!估計李白喝5斤牛欄山二鍋頭也不過這樣吧.我也承認題目起得有點嚇人,其實我的根本目的是啥呢,就是用這么個標題來炒做一下,增加點瀏覽量,實際我的blog瀏覽量已經很高了,不信我給你算算,你看,上上個星期我點擊過50次,上個星期我點擊過50次,算上我自己的點擊,目前瀏覽量已經高達100了.在此向百度道歉:百度,其實本文和百度沒啥關系,就是想借著你和(http://googlechinablog.com/2006/04/blog-post_14.html)谷歌掐架來宣傳一下,如果你自己覺著委屈或者感覺受了傷害呢也別吭氣,偷偷摸摸找個許愿樹說說就完了,要不忍忍就過去了,謝謝啊.下面一段開始是正文;
GOOGLE一直是人們關注的焦點,最近被媒體炒得沸沸揚揚的一則新聞是關于澳大利亞博士生Ori Allon由于提出新的搜索算法被GOOGLE征用的消息,換個時髦的說法,就是allon此刻已經象他的前輩們一樣中斷學業(蓋茨啦,GOOGLE的兩個創始人了,YAHOO的兩個創始人,數不勝數,事實再一次無情地證明了讀博士的三條出路:畢業,退學以及跳樓之中,退學是含金量最高的選擇,在此奉勸各位在讀的博士只爭朝夕地時不我待地趕緊辦理退學手續,否則一切都遲了J),此刻搖身一變為”加利福尼亞男孩”正坐在GOOGLE的辦公室里開始了飼養員這個比讀博士更有前途的事業,在養他的寵物狗的間隙抽出點時間繼續完善他的新算法J;當然,Allon所在的澳大利亞南威爾士大學也因此發了比小財(也許這則消息對于國內的大學和研究所有所啟示,看看別人是怎么通過創新達到收支平衡并略有節余的,這說明我們的導師們除了靠做黃世仁剝削長工外還有其它的致富之路J)并因此而奉行”打死也不說”的大無畏革命精神告訴各路媒體”除了俺們拿了點知識產權小費(實際是GOOGLE的封口費J)并且allon已經離開”外三緘其口,出于好奇心,我十分非常特別迫切想知道這是怎樣一個”崗崗地”算法(正在看這篇文章的你不也是這.這.這…這樣么?),俗話說得好,除了春夢了無痕外,凡走過必留痕跡,用GOOGLE搜索,可是搜遍互聯網找不到任何allon發表過的論文,allon的導師的個人主頁倒是找到了,可是看不出哪篇論文是跟搜索或者應用相關的,有關allon本人的唯一線索是他的博士課題“Using Search Engines for Discovery Information Retrieval”
因為我的英文水平很高,所以我覺得這個標題讀起來有點別扭(要我寫我就這樣寫:used saerch engenner to FAXIAN information retrieval,怎么樣,確實技高一籌吧J),但是從這個標題我們也多少能discovery一點信息,首先可以看出allon的課題跟信息發現相關,再者這種信息發現是建立在搜索引擎基礎上的,同時從Search Engines采用復數來看(如果allon的英文語法跟我一樣過關甚至是exlent的話,對了,exlent是優秀的意思吧?為什么該死的word編輯器老是提示是錯誤呢?愚蠢的word,愚蠢的ofice辦公套件,不管他了,我們接著寫,魯迅先生不是說過么:寫自己的文章,讓WORD報錯去吧)是在很多搜索引擎的基礎上,可見整個項目的基礎是個元搜索引擎,就是首先從現有若干個搜索引擎的返回結果里面進行信息發現.也許福爾摩斯能從里面挖掘出更多的信息(比如allon的姓名,性別,年齡,婚否,愛吃掉渣王還是必勝客,暫住證是否過期,加利福尼亞市的戶口是否已經落下來了等等),對于我來說這些是能夠推理出的所有信息了.
花開兩朵,我們各表一枝,在此特作說明,上面的文體采用記敘文文體,為了各位的閱讀習慣,下面的文體切換為說明文,兩種文體綜合運用,也算我對新文學運動做的一點貢獻了;
?
上回書說道哪里了?對了,看來我們只能通過媒體報道分析推測一下GOOGLE將要采用的新算法長得是什么樣子了;
首先,我們看看這個算法達到的效果或者功能是什么,以下是從新聞媒體摘出的,版權歸新聞媒體,翻錄不究(注意:這里不是筆誤,是微軟拼音輸入法的錯誤,看來微軟的版權意識還不夠強啊J):
1. OrionTM finds pages where the content is about a topic strongly related to the key word. It then returns a section of the page, and lists other topics related to the key word so the user can pick the most relevant
2. The results to the query are displayed immediately in the form of expanded text extracts, giving you the relevant information without having to go the website--although you still have that option if you wish
3. By displaying results to other associated key words directly related to your search topic, you gain additional pertinent information that you might not have originally conceived, thus offering an expert search without having an expert's knowledge
4. Take a search such as the American Revolution as an example of how the system works. OrionTM would bring up results with extracts containing this phrase. But it would also give results for American History, George Washington, American Revolutionary War, Declaration of Independence, Boston Tea Party and more. You obtain much more valuable information from every search
雖然上面的內容比較復雜,以我這么高的英文水平都看不大懂,但是我還是堅持要象大家講講這個算法功能:
1.??? 該算法是主題相關的,而不只是傳統搜索引擎的”關鍵詞”相關的;當用戶輸入查詢詞匯后,能夠自動提取與用戶查詢相關的主題詞,并且讓用戶進行選擇哪些主題相關詞匯是真正用戶想找到的信息;
2.??? 檢索結果是擴展的相關文本,用戶只要看到這些相關文本就無需點擊鏈接進入頁面去查看;
3.??? 在提交給用戶的搜索結果中,不僅用戶提交的查詢詞匯相關信息要顯示,與查詢詞匯相關的主題詞獲得的檢索結果也要顯示,通過提供用戶沒有想到的相關詞匯來使得搜索更加準確;
?
看完這些描述后,基于我的知識結構,我首先想到的是如下幾個詞匯:段落檢索;信息共現;文本聚類;相關反饋等等,反正一堆詞匯排著隊在我腦子里爭先恐后往外冒;
?
要是我的話,我會如下做
1.??? 首先我們得到用戶的查詢詞匯;
2.??? 我們把用戶的查詢詞匯提交給幾個現有的搜索引擎,比如GOOGLE,YAHOO
3.??? 得到搜索結果,我們把結果合并到一起;
4.??? 我們把搜索結果排名比較高的若干個結果,比如前20個文章,按照固定大小把每個文章切成若干片斷;
5.??? 對于切完的所有片斷放到一起,然后進行文本聚類,把內容最相似的段落聚合到一起,這樣形成若干主題類;每個主題類可以根據與用戶查詢共現來抽取共現頻率最高的幾個關鍵詞或者短語作為這個類的關鍵詞列表;
6.??? 重新給每個聚類結果根據用戶查詢詞匯按照相關程度打分;然后按照得分高低排序;輸出界面包括:每個類別提取一到2個關鍵詞短語供用戶進行進一步選擇,如果用戶點擊某個短語則,顯示該類中最核心的那個段落;
但是,阿龍(allon)會不會這么做呢? 想像我們就是阿龍本人,在實現上述功能的一個算法,我們應該怎么做呢?
我們先看看阿龍參加的這個項目的背景:
RichProlog, a System for Deducing, Inducing and Learning in the Declarative Programming Paradigm.
看來他的思路應該更加復雜些,根據他的導師的背景和研究項目背景,阿龍可能用到了象PROLOG啊,邏輯推理啊這些東西;很可能是這樣的:首先構建一個專家系統知識庫;里面記載了一些知識和規則,然后得到用戶查詢后,根據推理得出和用戶查詢相關的一些主題詞匯比如拿到”獨立戰爭”,能夠計算得到”華盛頓”,然后把推理得出的概念提交搜索引擎再次檢索,獲得檢索結果
?
這里面有個核心問題,和用戶查詢相關的主題詞匯或者短語如何獲得?可以事先構建好一個主題知識庫,里面記錄了和某個詞匯主題相關的詞匯,比如”獨立戰爭”,在詞典里面和這個短語相關的詞匯包括”華盛頓”等詞匯
下面是我認為阿龍應該做的工作,如果阿龍不是這么做的,那么請阿龍的導師通知阿龍改成這么做,這樣我的推理就不會出錯了J:
1.??? 得到用戶查詢詞匯,假設是”獨立戰爭”;
2.??? 使用推理機計算根據這個詞匯得出的主題相關詞匯,假設推理得到”華盛頓”;
3.??? 把”獨立戰爭”和”華盛頓”作為不同的查詢提交給不同搜索引擎,比如把”獨立戰爭”提交給GOOGLE,”華盛頓”提交給YAHOO;
4.??? 得到返回結果,把每個返回結果得分最高的K個文章切分成固定大小的段落;
5.??? 給每個段落按照相關程度進行打分,選擇得分最高的段落作為顯示結果;
6.??? 返回給用戶檢索結果,比如在左邊列出推理出的主題相關詞匯,中間顯示得分最高的段落內容;如果用戶關心的內容在段落里面已經看到就無需點擊網頁;如果是GOOGLE的話,右端還會有廣告,如果是百度的話,會把廣告放在檢索結果里面J
?
這里面看起來,最核心的是這個推理機,就是給定某個詞匯,如何推理得到主題相關的詞匯,這個是如何實現的等我改天給阿龍打個電話問問,然后在給大家匯報J
OK,換成中文就是"好了,完了,"的意思,各位洗洗睡吧;唉,這位看官,您別往我這扔鋼蹦啊,嘛錢不錢的,樂呵樂呵就完了.
總結
以上是生活随笔為你收集整理的Orion算法:GOOGLE干掉百度的核武器?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: google怎么做(2.相似网页算法)
- 下一篇: 稻谷之歌?