百度和 Google 的搜索技术是一个量级吗?
著作權歸作者所有。 商業轉載請聯系作者獲得授權,非商業轉載請注明出處。 作者:Kenny Chao 鏈接:http://www.zhihu.com/question/22447908/answer/21435705 來源:知乎
很多答案是從使用上講的,我加兩個技術方面的。另外,除了搜索,Google在深度學習和機器人方面也是全球領先的,尤其是后者。盡管百度也有深度學習研究院,但在這兩方面跟Google比起來完全是空白。
事實上,讓百度來和谷歌比是很不公平的,搜索只是Google的一個部門,但卻是百度一整個公司。Google的競爭對手是Apple、Amazon、Facebook和Microsoft,百度的競爭對手是360、搜狗。Google沒了搜索,還有Chrome、Android、Youtube,百度沒了搜索,那就什么都沒有了。
----------------------------------------------------------------------------------------------------------------------------------------------------
?作者:布丁 鏈接:http://www.zhihu.com/question/22447908/answer/21532527 來源:知乎
2014.06.23:不知為什麼這個答案下突然多了很多讚和評論,來補充信息答謝觀眾。 關于繁體字問題,我是廣東人,看香港電視長大,簡繁體對我閱讀沒有什麼影響,在我眼裡更無高下之別,我用繁體字寫這篇回答的唯一原因就是當時輸入法的狀態是繁體…… 為保持一致正文補充依然為繁體,盼見諒。
前百度員工,現 Google 員工,在兩個公司做的都不是搜索相關項目。
先一句話回答:在與搜索相關的基礎技術方面,百度距離 Google 仍有很大的差距,但今天是否還存在量級上的差距存疑。
開頭先扯個不相干的領域,蘇聯 1960 年代裝備的 Mig-25 [1] 截擊機,這是世界上第一款能飛雙三(三倍音速,30000米升限)的戰斗機。西方世界面對這變態的性能參數驚詫莫名,推斷蘇聯在航空技術上已全面超越西方。直到別連科駕駛 Mig-25 叛逃西方,他們終于有機會接觸真機,才發現它使用的技術其實沒那麼先進,變態的性能指標都是用普通的技術基礎硬干上去的,飛機非常笨拙以至有「直線戰斗機」的稱號,可憐的發動機要真飛一次三倍音速落地就得報廢。蘇聯的航空技術并沒有他們想象的這麼逆天。
2009 年我在百度,面對 Google 公開的技術資料和百度的內部系統,我首先想起的就是 Mig-25. 就跟這臺戰機一樣,當時的百度,在中文搜索結果質量的各項指標上,對比 Google 還是有優勢。百度的工程師非常聰明,也非常努力,在某些點上也做得很細很出色,但是在與搜索相關的基礎技術上,百度還是全面落后。百度的搜索質量提高,有很大部分是依靠人工做大量細緻的策略調整硬拉上去的。
用普通技術飛上雙三,Mig-25 本身是個了不起的工程成就。下一代戰機,不管是蘇聯的 Su-27 還是美國的 F-15, 乃至四代機 F-22, 都沒有能飛出雙三來的,但這些下一代戰機在技術水準和整體性能上,無疑遠勝 Mig-25, 這應該能算得上題主所說的量級差異。技術的量級差異不能拿某個特定指標或孤例評估(Mig-25 還曾擊落過 F/A-18 呢),也不能只比較某些技術點上的優劣,而往往是決定于基礎技術水平。
在 2009 年,我可以很肯定地說百度搜索相關的基礎技術對比 Google 有量級差距。據我了解,這些年百度在基礎技術方面進步很快,當然同時 Google 也在快速進步。它們在今天是否有量級的差異,我不確定。
下面列幾個重要的而且公開資料較多的基礎技術:
?大規模機群建設與管理。Google 的情況可以參見 [2] The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines, Second Edition. Google 擁有世界上最大的計算機集群,論機器數量的話能在量級上超過所有其他公司。同時,它有一整套自動化管理軟件,以便工程師申請和使用這些硬件資源(大致可以理解成一套 Amazon EC2)。就我的了解,現在在普通工程師使用機群硬件資源的方便程度和可以使用的量上,百度還是遠遠不及。 ?大規模計算與存儲。Google 論文老三篇 GFS, MapReduce, BigTable 不再贅述,近年 Google 在這些方面的研發和進步沒有停滯甚至在加快。當然百度也在努力追趕,百度不僅使用 Hadoop, 而且基于 Hadoop 做了大量改進和擴展,并貢獻回 Hadoop 開源社區。百度在 SSD 存儲技術等方面也很有心得,比如 flash 存儲方面最近中了的一篇 ASPLOS '14 SDF: Software-Defined Flash for Web-Scale Internet Storage System. ?機器學習和人工智能。被吹得神乎其神的 deep learning 和 Google Brain 等等。在 deep learning 這個相對較新的領域,百度追趕的更快,水平也更接近。
機群管理的技術水平決定你能擁有和有效使用多少硬件資源,大規模計算與存儲決定你能在這些硬件上做多大規模的事情 —— 而最后,搜索引擎本身就是一套大規模機器學習系統。
在純技術之外,我想特別提一點極大影響技術進步,而至少在 2009 年百度與 Google 差距巨大的因素:普通工程師所能使用的工具水平。我在 Google 感覺最爽的事情是我可以很容易獲得大量的計算資源,做以前無法想象的大規模數據分析。要驗證一個想法,我可以基于一整天的搜索記錄做分析,只需幾分鐘就能得到結果(參見 [3]),進行調整和下一步分析;而如果沒有這套基礎軟件和可以隨意使用的硬件資源,我可能得等一整天才能有結果,或者只能分析小規模的抽樣數據。在我自己的知識和技術水平不變的前提下,Google 這套系統極大地提高了我的工作效率,讓我能做到以前完全無法想象的事情。
我覺得作為一個技術人員,黑或者捧哪個公司毫無意義,技術的事情很直接的,身在哪個公司都無法影響基本判斷。還在百度的時候,我就經常想,Mig-25 的故事是個很好的警示,人很容易為類似「雙三」這樣的成就沾沾自喜,而對實打實的基礎技術差距視而不見,不圖進步,那前景就相當危險了。幸好據我所知的情況,百度可沒有這麼不爭氣。
2014.06.23: 補充一個實際例子來說明不同技術條件下兩個公司做事思路的區別。
評論中有朋友提到百度的分詞技術,這確實是「百度更懂中文」的一個集中體現。百度當年做分詞的時候很可能是這樣的:先從一個人工編輯好的字典開始,用這個字典跑一些網頁,觀察分析裡面的 bad case —— 可能是分詞過細,或者是中文人名沒分出來,然后就嘗試根據中文語法規律加入規則或添加詞表解決這些 bad case, 如此往復,直到有滿意的結果。上線應用,發現有新的 bad case 就再研究加規則,當然也有自動流程發現和確認如「人艱不拆」之類的新詞。
Google 做分詞的話就是把問題看成一個概率問題:如果中文網頁中哪些字經常一起出現,那麼它們很有可能就是一個詞。看哪些詞后面會跟的地得,的地得后面有常跟哪些詞,語法結構也就出來了。(具體的模型參見吳軍《數學之美》)。解題思路就是把所有抓到的中文網頁往 MapReduce 裡一丟,參數算出來就好了。評估分詞質量的方法也很簡單,就拿新模型放到網頁檢索的模型裡,做個實驗看質量有沒提升就行。這套方法結果之好,基本把中文分詞做成了一個沒有多少懸念的簡單問題,而且基本不需要中文語言專家的參與(自然也沒有誰更懂中文的問題)。同時這也就是 Google 做 Translate 的思路。這裡面基本方法其實非常簡單,沒什麼祕密可言,但是你得先有這麼多的網頁數據,還得有大機群,有分佈計算框架,還有可復用的模型……
我認為在技術受限的條件下,人工微調優化結果是一個恰當的產品思路,但這個產品思路會與技術發展路線相互影響。對于長尾頭部的一千個熱詞,完全可以用人工編輯的方法做出非常好的結果,而短期內改進通用的機器模型達到人工編輯的效果幾乎不可能。這時候,人工調整可能會受鼓勵,而通用模型的技術改進可能就得不到足夠的重視 —— 雖然即使以中國的人力成本,對所有搜索結果人工調優也絕無可能,但能搞定長尾頭部也不錯了不是?Google 的主流技術思路則是骨子裡不相信人工調整,什麼事情都非得弄出個自動通用可擴展的模型來不可,這種思路可能一開始在那一千個熱詞上怎麼都比不過勤勞接地氣的編輯,但通過積累數據調整模型,假以時日,整體結果質量就會顯著提升 —— 我就是這麼看 2009 年時 Google 搜索質量給我們的壓力的。這種思路在具體的產品運營上不一定對,不是人人都有 Google 的資源來花時間做通用技術,但 Google 確實就在這種「技術碾壓一切」的(錯誤?)道路上越走越快。
----------------------------------------------------------------------------------------------------------------------------------------------------
好吧,既然大家都一致鄙視百度,為谷歌歡喜鼓舞的叫好,我就來插一腳,為百度打抱不平一下吧。
聲明立場:我承認谷歌在很多方面很強,這里只是說一些百度也不錯的地方。給大家提供一些新的思維,希望能夠對大家有啟發。
1,在搜索江湖的早期歷史中,李彥宏的技術創新領先于谷歌。
1994年,infoseek公司成立,其后推出搜索引擎服務,很快成為了市場上最受歡迎的搜索技術提供商。作為技術的領先者,這家公司的產品被網景瀏覽器設置為默認的搜索引擎。要知道,在那個年代的美國市場上,網景瀏覽器占有了90%以上的市場份額。于是,在網景春風得意的歲月里,搜索引擎=infoseek。
——infoseek的CTO是威廉張,曾經以“次線性文本匹配算法上的突破性成果獲得了美國加州大學的計算機博士學位”,其后于2006年加入百度成為首席科學家。
——infoseek的核心研發工程師是李彥宏,其首創的“超鏈分析”技術是現代搜索引擎的基礎發明之一。這個技術率先解決了如何將基于網頁質量的排序與基于相關性的排序完美結合的問題,并獲得了美國專利。
在搜索引擎的早期發展史中,李彥宏+威廉張,無疑是技術的領先者。在1998年的布里斯班世界互聯網大會上,李彥宏是主講臺上的技術布道者,而谷歌的兩位創始人仍是坐在臺下聆聽的學生而已。
infoseek的衰落,不是因為技術,而是因為商業模式,他僅僅是隱藏在網景瀏覽器背后的技術提供者。隨著網景在與微軟IE瀏覽器的競爭中失利,infoseek無可避免的出現了大幅虧損,賤賣給迪士尼后不適應于傳統企業的官僚管理作風,更加加速了自己的末日到來。
同一年,谷歌推出自己的搜索引擎,以精準廣告為商業模式,成功解決了持續成長的問題,在搜索江湖的較量中熬到了最后。谷歌今日引以為榮的網頁評級機制pagerank技術,直到2001年才被授予美國專利,比李彥宏的1996年申請的超鏈分析專利技術晚了5年。
注意:我以上這段要說的是,李彥宏的技術水平并不輸于谷歌的兩位創始人。看輕百度那你就無知了。
2,百度從一開始就和谷歌走上了不同的發展方向。
谷歌在2000年就已經建立了搜索行業的統治地位,而在這一年,李彥宏才回國創業,無論在資金還是人才上都處于絕對劣勢地位。
百度如果要跟谷歌比拼搜索精度,那是飛蛾撲火,李彥宏當然不會犯下這種蠢事。從一開始,百度所選擇的就是一條農村包圍城市,側翼攻擊的路線。
在早期的網頁搜索上,百度的原則是能用就行。所以,你在百度上搜到的,幾乎都是網站的首頁,而谷歌的都是內頁。
百度的真正重點是,提供谷歌不能提供的服務。2002年,百度率先推出mp3音樂搜索,2003年推出圖片,貼吧,新聞,搜索風云榜服務。正是這些多元化的垂直服務,讓百度實現了在中國市場上的后來者居上。如果你了解百度的歷史,你就知道,在早期的百度流量中,mp3盜版音樂的搜索和下載,一度貢獻了40-50%的用戶來源。貼吧同樣獲得巨大成功,在2004年的超級女聲熱潮中,大量的音樂粉絲涌入貼吧為他們的偶像加油,這個產品一度為百度帶來了超過20%的流量。
mp3,圖片,貼吧,是百度早期最重要的三項服務,他們的流量貢獻加起來甚至超過了網頁搜索。
3,百度真正在搜索技術上開始發力,是在2009年后。這一年,百度推出框計算,在一站式生活搜索方面,開始超越谷歌。
舉個例子:
判斷百度和谷歌在搜索技術上是不是一個量級的標準是什么?
技術是不是一個量級,不是由一堆玄而又玄的技術名詞決定的,而是由行業發展過程中對實際需求的滿足變化決定的。
舉個例子,
飛機時代的劃分,
一代機:噴氣發動機
二代機:高空高速,2倍音速
三代機:中低空機動敏捷性
四代機:隱身性能
二代機比一代機性能更好,飛的更高,速度更快,但是到了三代機的時代,即使你的飛行能夠去到3萬米高度又怎么樣?這個時代更講究的是低空的格斗性能。
到了四代機的時代,隱身性能才是決定性的,你機動性再好也沒用了,你發現不了敵人。
到了今日,智能無人機技術又是起決定性作用的技術,其他的都不重要了。
技術的發展并不是線性的,而是理念的改變,帶來了更革命性的進步。
一架性能差點的隱形機,比一架沒有隱形性能的三代機,誰的作戰效果更好?什么,你認為隱形技術不是技術,發動機性能才是技術?別腦殘了好不好。
說回搜索引擎技術的發展,無非就是為了讓人們更好的找到自已需要的信息,是搜索結果的準確性,而不是收錄的網頁數量,擁有的專利數量決定的。
第一代搜索引擎:以雅虎為代表,目錄式結果呈現。
第二代搜索引擎:以谷歌和百度為代表,網頁引用評級技術呈現結果,至于權重設置的不同考慮不能體現差距。
第三代搜索引擎:不知道各位的劃分標準是什么,是什么gps和原子鐘技術么?實際使用中差別有革命性變化么?反正我是感覺不出來。
谷歌的技術創新能力很強,在安卓系統、無人駕駛汽車、谷歌眼鏡這些技術上都有很多創新,但在搜索引擎技術上,我的感覺是,最近5年來并沒有明顯的進步。
相反,百度從2008年到2013年這5年,我的使用體驗感覺是進步很明顯的。
在我看來,搜索引擎發展到今天這個時代,更重要的趨勢是智能化的語義理解,而不是一樓答案所說的“gps和原子鐘技術,打破了地理間隔,實現了全球規模具有一致性和實時性的數據庫。”
收錄的網頁多一些,搜索的速度快0.001秒,這些微不足道的區別,就相當于IPHONE4和IPHONE4S的區別,或許是挑戰了新的技術極限,但是對于普通用戶的實際體驗來說,區別不大。
而三星的大屏智能手機,在很多人看來并沒有什么高深的技術,但是偏偏是更滿足用戶的使用體驗和需求的,于是三星的市場份額就不斷壯大了。
百度所發展的框計算技術,在我看來,恰恰是更適合搜索引擎行業發展趨勢的。
讓你的搜索更能理解你的問題,給你更準確的答案,
——不用跳轉就將答案直接呈現在你的面前。什么?你認為百度這樣違背了搜索的公平公正精神?別腦殘了,搜索就是為用戶服務的,誰能夠在最短的時間內讓用戶得到最正確的答案,對于用戶來說就是最好的搜索體驗。將來語音搜索技術成熟了,你說告訴我王菲唱過什么流行歌?百度直接就將歌曲列表呈現出來,按熱門度排列供你選擇播放,谷歌先問你,我這里有**,**,**,音樂公司提供的服務,請選擇,進了音樂公司的鏈接,音樂公司又說,請先登錄會員,登陸會員后……如此一番下來,誰的服務更好,自己考量吧。
——通過知道、貼吧、百科、第三方網站的接入,綜合滿足你的多方位搜素需求,而不是只提供一個單一的網頁。你想去某個地方,告訴你汽車、火車、飛機不同交通手段的通行方式,告訴你花費的時間,購買的費用,直接購買的入口,而不是只有一個冷冰冰的第三方鏈接。你輸入一個名人的名字,呈現給你相關的照片、影視作品、最新的新聞、粉絲討論的社區、與名人存在社交關系的名人鏈接,所有這些服務,都是非常直觀的,而不是只像谷歌一樣給你一個維基百科了事。
——搜索的問題不止于“等于”,而是“相當于”等類似問題都能聽懂。所謂智能,不就是即使我語法用錯了,也能聽懂么?
在這一點上,或許谷歌在英文上也有一些應用提供,但是百度做的更加深入、更加完善,從這個角度來說,他們不但是一個量級的,百度也有領先谷歌的地方。
很多人認為百度的搜索答案都只是人工干預的結果,沒有技術含量,我感到很遺憾。
或許早年是如此,但是現在應該已經有很大的改進了。
我舉個例子。
前面的謝霆鋒的身高的問題,為什么百度能夠給我答案,谷歌給不了呢?
百度該不會無聊到這么細節的問題都專門去優化一下答案吧,當然不是了,這些答案都是依托于百科里用戶自行編寫的答案,百度不過是把他們的知識有機的整合起來,通過程序的設計,巧妙的呈現到你的面前。
是的,谷歌的搜索技術很先進,但他的所有答案都是依托于外部鏈接的,他沒有自己的知識庫。這就像一個人,他的邏輯思維和知識是割裂的,可以給你答案,但這答案必然是生硬的,無法做到水乳交融。
百度不同的是,他是有自己的知識庫的,知道,貼吧,百科,這三個社區的知識可以跟他的思維進行有機整合,將得票最高的熱門答案很直觀的呈現到你的面前。
…………
正是因為有前面這些有機整合為基礎,
百度可以通過邏輯思考,a推出b,b推出c,c推出d的結論,將答案d呈現到你的問題結果里。
但谷歌就做不到,他只能給你答案b,c之后的結論就只能由你自己去尋找了。
這就是為什么我問張柏芝的兒子的爸爸的身高,百度能夠告訴我的原因。
所謂深度學習,不就是人類知識庫的有機整合嘛,谷歌的思維和知識庫的割裂,導致了在這方面的進步必然要慢于百度,原理就像是一個人的頭腦指揮自己的手腳必然比兩個人的合作效率更高。
因此在未來的搜索技術競爭中,我認為百度的路線是正確的。
有朋友問,為什么你問謝霆鋒的身高就能搜到答案,我問陳冠西或者毛澤 東就搜不到呢?
請記住,這些類似問題的答案完全取決于用戶在社區里的編寫。在張柏芝的百科里有提及,兒子是謝振軒,在謝振軒的百科里有提及,老子是謝霆鋒,在謝霆鋒的百科里有提及,身高是174,那么你就能搜到這個答案。
如果其中任何一個環節出現了缺失,你就無法得到答案。
答案的正確與否,取決于知識庫的自我完善和糾錯。就像你問百度是個大SB嗎?百度知道的高票答案告訴你百度就是個大SB。這能說明這個答案是百度的人工干預嗎?很明顯不能嘛,這只能說明SB用戶太多了而已。
就像知乎的答案一樣,開始問題提出的時候,高票答案是錯誤的,沒有關系,慢慢的新的正確答案會被頂上去,錯誤答案會被折疊或者報錯。
人類的知識庫是在不斷的自我完善和豐富的,百度的算法也是在不斷改進的,目前這些技術仍然處于起步階段,請以發展的眼光來看待他。
PS:那些說我偏袒百度的朋友們:
在這個提問下面,為谷歌敲鑼打鼓,大聲贊美的答案還不夠多么?難道你們的心里就不能容忍一個不同的聲音,非要我也來高呼,谷歌千秋萬代,一統江湖,你才滿意么?!
說我不懂谷歌關鍵字搜索技巧的朋友們:
我怎么會不懂呢?但是一定要懂關鍵字,搜索引擎才能聽懂,換個字眼,換個語法,他就不懂了,這語言理解水平也太爛了吧?你確定你不是在黑谷歌?!
最后,作為一個對互聯網行業觀察和研究已經超過15年的投資者,我可以很明確的告訴大家:
搜索引擎行業的技術發展方向,一定是“自然語言人機對話+智能化邏輯思考”。 不要跟我說,百度是給你答案,谷歌是給你思考,人永遠是懶惰的動物,希望產品適應人的需求,而不是人去適應產品的要求。
在這個方面,百度的技術發展水平與谷歌的差距是越來越接近的。
須知,技術的研發來自金錢的投資和人才的聚集,百度在2008年后才逐漸擁有一定的家底,開始加大在搜索技術的研發投入;而谷歌,她的研發重點已經轉移至其他的領域了。這就是百度與谷歌在搜索技術的發展水平越來越接近的主要原因。
轉載于:https://www.cnblogs.com/mathbeauty/p/5021552.html
總結
以上是生活随笔為你收集整理的百度和 Google 的搜索技术是一个量级吗?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Google Chrome及Chrome
- 下一篇: vscode保存自动将CRLF 转换成