终极算法:机器学习和人工智能如何重塑世界笔记
弗雷德·賈里尼克(IBM語音研究組的領導)說過一句著名的俏皮話:“每開除一名語言學家,我的語音識別系統的錯誤率就降低一個百分點。”
《終極算法:機器學習和人工智能如何重塑世界》
([美]佩德羅·多明戈斯)
比爾·蓋茨年度薦書!佩德羅·多明戈斯著的《終極算法機器學習和人工智能如何重塑世界精》是近20年人工智能領域具轟動性的著作!本書揭秘機器學習的終極邏輯,全景勾勒人工智能的商業未來。《喬布斯傳》作者沃爾特·艾薩克森、圖靈獎得主朱迪亞·珀爾、中國大數據領航人車品覺、今日頭條首席算法架構師曹歡歡傾力推薦!
本文章內容摘自上書,有興趣的請自行查閱原書。
所有知識,無論是過去的、現在的還是未來的,都有可能通過單個通用學習算法來從數據中獲得。我將該學習算法稱為“終極算法”。如果這種算法成為可能,它的發明將成為人類最偉大的科學成就之一。實際上,終極算法是我們最不愿意發明的東西,因為一旦對其放松,它會繼續發明一切有可能發明的東西。我們要做的,就是為它提供足夠、適當的數據,通過這些數據,它會發現相應的知識:給它視頻流,它就會觀看;給它圖書館,它就會閱讀;給它物理實驗結果,它就會發現物理定律;給它DNA晶體學數據,它就會發現DNA的結構。
機器學習的五個學派
機器學習主要有5個學派,我們會對每個學派分別介紹:
- 符號學派
- 將學習看作逆向演繹,并從哲學、心理學、邏輯學中尋求洞見;
- 聯結學派
- 對大腦進行逆向分析,靈感來源于神經科學和物理學;
- 進化學派
- 在計算機上模擬進化,并利用遺傳學和進化生物學知識;
- 貝葉斯學派
- 認為學習是一種概率推理形式,理論根基在于統計學;
- 類推學派
- 通過對相似性判斷的外推來進行學習,并受心理學和數學最優化的影響。
五個學派各自算法特點
機器學習的5個學派都有自己的主算法,利用這種萬能學習算法,原則上,你可以通過任何領域的數據來挖掘知識:
- 符號學派
- 主算法是逆向演繹
- 聯結學派
- 主算法是反向傳播
- 進化學派
- 主算法是遺傳編程
- 貝葉斯學派
- 主算法是貝葉斯推理
- 類推學派
- 主算法是支持向量機
在實踐中,這些算法可能在有些工作中可用,而在其他工作中不可用。我們真正想要尋找的是能夠綜合這5種算法的終極算法。雖然有些人認為這難以實現,但對機器學習領域的人來說,這個夢想賦予我們力量,促使我們夜以繼日地工作。
機器學習的商業用途
如果你的主要興趣是機器學習的商業用途,那么本書至少能通過6種方法幫助你:
- 成為分析學中更精明的消費者;
- 充分利用你的數據專家;
- 減少許多數據挖掘項目的隱患;
- 看看如果不買手寫編碼軟件,你能讓什么進行自動操作;
- 降低信息系統的僵硬度;
- 期待正朝你走來的新技術。
機器學習的形勢
機器學習有許多不同的形式,也會涉及許多不同的名字:模式識別、統計建模、數據挖掘、知識發現、預測分析、數據科學、適應系統、自組織系統等。這些概念供不同群體使用,擁有不同的聯系。有些有很長的半衰期,有些則較短。
學習算法
例如,樸素貝葉斯算法就是一個可以用短方程來表達的學習算法。只要提供患者病歷的數據庫,包括病人的癥狀、檢查結果,或者他們是否有什么特殊情況,樸素貝葉斯算法就可在一秒之內做出診斷,而且往往比那些花幾年在醫學院學習的醫生還要強,甚至它還可打敗花費數千小時構建的醫學專家系統。該算法還可應用于學習垃圾郵件過濾器,乍一看,這和醫療診斷毫無關系。另外一個簡單的學習算法就是最近鄰算法,它的用途十分廣泛,從筆跡識別到控制機器人手,以及推薦你可能喜歡的書籍或者電影。決策樹學習算法也同樣擅長決定你的信用卡申請是否應被通過、尋找DNA中的絞接點,以及下棋時指導下一步該怎么走。
實際上,對所有主要的學習算法——包括最近鄰算法、決策樹學習算法以及貝葉斯網絡(樸素貝葉斯的概括)——來說,如果你為學習算法提供足夠、適當的數據,該算法可以實現任一功能(對學習任何東西來說,都與數學相關)。需要注意的是,“足夠數據”也有可能無限。學習無限數據需要做出假設,如我們會看到的那樣,而且不同的學習算法會有不同的假設。
各個學派的核心理念和關注的特定問題
我們尋找終極算法的過程是復雜且活躍的,因為在機器學習領域存在不同思想的學派,主要學派包括符號學派、聯結學派、進化學派、貝葉斯學派、類推學派。每個學派都有其核心理念以及其關注的特定問題。在綜合幾個學派理念的基礎上,每個學派都已經找到該問題的解決方法,而且有體現本學派的主算法。
對于符號學派來說,所有的信息都可以簡化為操作符號,就像數學家那樣,為了解方程,會用其他表達式來代替本來的表達式。符號學者明白你不能從零開始學習:除了數據,你還需要一些原始的知識。他們已經弄明白,如何把先前存在的知識并入學習中,如何結合動態的知識來解決新問題。他們的主算法是逆向演繹,逆向演繹致力于弄明白,為了使演繹進展順利,哪些知識被省略了,然后弄明白是什么讓主算法變得越來越綜合。
對于聯結學派來說,學習就是大腦所做的事情,因此我們要做的就是對大腦進行逆向演繹。大腦通過調整神經元之間連接的強度來進行學習,關鍵問題是找到哪些連接導致了誤差,以及如何糾正這些誤差。聯結學派的主算法是反向傳播學習算法,該算法將系統的輸出與想要的結果相比較,然后連續一層一層地改變神經元之間的連接,目的是為了使輸出的東西接近想要的東西。
進化學派認為,所有形式的學習都源于自然選擇。如果自然選擇造就我們,那么它就可以造就一切,我們要做的,就是在計算機上對它進行模仿。進化主義解決的關鍵問題是學習結構:不只是像反向傳播那樣調整參數,它還創造大腦,用來對參數進行微調。進化學派的主算法是基因編程,和自然使有機體交配和進化那樣,基因編程也對計算機程序進行配對和提升。
貝葉斯學派最關注的問題是不確定性。所有掌握的知識都有不確定性,而且學習知識的過程也是一種不確定的推理形式。那么問題就變成,在不破壞信息的情況下,如何處理嘈雜、不完整甚至自相矛盾的信息。解決的辦法就是運用概率推理,而主算法就是貝葉斯定理及其衍生定理。貝葉斯定理告訴我們,如何將新的證據并入我們的信仰中,而概率推理算法盡可能有效地做到這一點。
對于類推學派來說,學習的關鍵就是要在不同場景中認識到相似性,然后由此推導出其他相似性。如果兩個病人有相似的癥狀,那么也許他們患有相同的疾病。問題的關鍵是,如何判斷兩個事物的相似程度。類推學派的主算法是支持向量機,主算法找出要記憶的經歷,以及弄明白如何將這些經歷結合起來,用來做新的預測。
每個學派對其中心問題的解決方法都是一個輝煌、來之不易的進步,但真正的終極算法應該把5個學派的5個問題都解決,而不是只解決一個。
聯結學派與符號學派
聯結學派對符號學派尤其不滿。根據他們的觀點,你能通過邏輯規則來定義的概念僅僅是冰山一角,其實表面之下還有很多東西是形式推理無法看到的。而同樣的道理,我們腦子里所想的東西也是潛意識的。你不能僅靠構造一個空洞的機械化科學家,就想讓他把所有有意義的事情完成,你首先得給他點什么東西,例如一個真正的大腦,能和真實的感覺相連,在真實世界中成長,甚至可能要常常絆他的腳。你怎樣才能構造這樣的大腦呢?通過逆向分析。如果想對一輛車進行逆向分析,你就應看看發動機蓋下面。如果想對大腦進行逆向分析,你就要看看腦殼里面。
逆向演繹
逆向演繹就像一個超級科學家,系統查看論據,思考可行的歸納法,整理最有利的證據,然后將這些和其他論據一起,進一步提出假設——所有過程都基于計算機的速度。逆向演繹簡潔而美觀,至少符合符號學者的品位。此外,逆向演繹也有一些嚴重的缺點。可行的歸納法數量廣泛,除非我們和最初知識保持親密關系,否則很容易在空間中迷失。逆向演繹容易被噪聲迷惑:我們怎樣才能知道,哪些演繹步驟被漏掉了,如果前提或者結論本身就已出錯?最嚴重的是,真正的概念很少能通過一個規則集來定義。它們不是黑,也不是白,比如垃圾郵件和非垃圾郵件之間有一片很大的灰色區域。要獲取真正的概念,就得權衡并收集有弱點的論據,直到出現清晰的定義。疾病的診斷,涉及把重點放在一些癥狀上面,然后放棄那些不完整的論據。還沒有人能只學習一個規則組,就能通過觀看圖片的像素來認出一只貓,而且可能以后也沒人能做到。
零碎
玻爾茲曼機器
玻爾茲曼機器原則上可以解決贊譽分布問題,但在實踐中,學習這個行為非常緩慢且痛苦,對大多數應用來說,玻爾茲曼機器有點不切實際。下一個突破會涉及解決麥卡洛克和皮茨時期的另外一個過度簡化(oversimplication)問題。
S形曲線
S形曲線作為一個獨立的模型,不僅很重要,它還是數學的萬事通。如果放大它的中段部位,你會發現它近似一條直線。很多我們認為是線性的現象,其實都是S形曲線,因為沒有什么能夠毫無限制地增長下去。
S形曲線是線性函數非智能性和階躍函數難解性的完美中轉站。
樸素貝葉斯
一個基本的搜索引擎也會利用與樸素貝葉斯法極相似的算法來決定顯示哪些頁面來回應你的搜索。主要的區別在于:它會預測相關或非相關,而不是垃圾郵件或非垃圾郵件。運用樸素貝葉斯法來解決預測問題的例子幾乎數不勝數。彼得·諾爾維格(谷歌的研究主任)一度告訴我,這是谷歌應用最為廣泛的算法,谷歌的機器學習在每個角落都利用了該算法的功能。為什么樸素貝葉斯法會在谷歌員工中流行起來?這個問題不難回答。除了驚人的準確度,它的測量能力也很強。學習樸素貝葉斯分類器的原理,也僅相當于數出每個屬性與每個類別出現的次數,花的時間不比從硬盤讀取數據的時間長。
HMM
HMM還是計算生物學家最為喜愛的工具。一個蛋白質分子是一個氨基酸序列,而DNA則是一個堿基序列。舉個例子,如果我們想預測一個蛋白質分子怎樣才能形成三維形狀,我們可以把氨基酸當作觀察值,把每個點的褶皺類型當作隱藏狀態。同樣,我們可以用一個HMM來確定DNA中基因開始轉錄的地點,還可以確定其他許多屬性。 如果狀態和觀察值都是連續而非離散變量,那么HMM就變成人們熟知的卡爾曼濾波器。經濟學家利用卡爾曼濾波器來從數量的時間序列中消除冗余,比如GDP(國內生產總值)、通貨膨脹、失業率。“真正的”GDP值屬于隱藏的狀態;在每一個時間點上,真值應該與觀察值相似,同時也與之前的真值相似,因為經濟很少會突然跳躍式增長。卡爾曼濾波器會交替使用這兩者,同時會生成流暢的曲線,仍與觀察值一致。當導彈巡航到目的地時,就是卡爾曼濾波器使它保持在軌道上。沒有卡爾曼濾波器,人類就無法登上月球。
馬爾可夫鏈蒙特卡洛理論-MCMC
最受人青睞的選擇就是借酒澆愁,喝得酩酊大醉,然后整夜都在跌跌撞撞。該選擇的技術術語為“馬爾可夫鏈蒙特卡洛理論”(Markov chain Monte Carlo,MCMC):有“蒙特卡洛”這個部分,是因為這個方法涉及機遇,比如到同名的賭場去,有“馬爾可夫鏈”部分,是因為它涉及采取一系列措施,每個措施只能依賴于前一個措施。MCMC中的思想就是隨便走走,就像眾所周知的醉漢那樣,以這樣的方式從網絡的這個狀態跳到另一個狀態。這樣長期下來,每個狀態受訪的次數就與它的概率成正比。比如,接下來我們可以估算盜竊案的概率為我們訪問某個狀態的時間段,在這個狀態中有一起盜竊案。一條“守規矩的”馬爾可夫鏈會收斂到穩定分布中,所以過一會兒它總會給出大致一樣的答案。
稀疏自動編碼器
網絡現在有比之前多很多的參數,那么你所處的超空間會有更多的維度,而你也有更多的方法來逃出局部最大值的困境。這就叫作稀疏自動編碼器,而它是一個訣竅。
類比
類比在機器學習中扮演重要角色就不足為奇了。剛開始它進展緩慢,甚至被神經網絡奪走了光芒。它的第一個算法的化身出現在一份寫于1951年、名不見經傳的技術報告中,作者是兩位伯克利的統計學家——伊夫琳·菲克斯和喬·霍奇斯。這篇報告幾十年之后才發表于主流期刊中。但同時,關于菲克斯和霍奇斯的算法的論文也開始出現,后來逐漸增加,直到它成為計算機科學界中受到研究最多的文章之一。最近鄰算法,正如其名,是我們類比學習法之旅的第一站。第二站是支持向量機,這是世紀之交風靡機器學習領域的原理,但最近風頭被深度學習掩蓋。第三站也是最后一站,是成熟的類比推理法,幾十年來是心理學和人工智能的重要組成部分,也是幾十年來機器學習領域的背景主題。 5個學派中,類推學派是最不具有凝聚力的一個學派。
在機器學習中,相似性是核心思想之一,而類推學派會以各種偽裝的方式來保護它。也許在未來10年,機器學習會被深度類比統治,在某種算法中,與最近鄰法的高效、支持向量機的數學精密性、類比推理的力量和靈活性結合(瞧,我又泄露了自己的一個秘密研究計劃)。
最近鄰算法
最近鄰算法的基礎是找到相似物體,而在高維度情況下,相似性的概念就會無效。超空間就像過渡區域。在三維空間里的直覺不再適用,怪異離奇的事開始發生。想想一個橘子:一層薄薄的外殼包裹著好吃的果肉。比如橘子90%的半徑是果肉,剩下的10%則是果殼,這意味著橘子73%的體積是果肉(0.93)。現在想象一個超級橘子:90%的半徑還是果肉,但它在100個維度的空間中。那么果肉的體積已經縮小到超級橘子體積(0.9100 )的1/3000。這個超級橘子全都是皮,而并且你絕對無法將其剝開。
零零碎碎
因表達水平概括起來,變成幾條途徑。心理學家已經發現,個性可以簡化為5個維度(外向、隨和、盡責、神經質、開放性),他們可以通過你的推特文章和博客帖子來進行推斷(黑猩猩可能還有一個維度——反應性,但推特數據對它們并不適用)。
為了真正了解面部,以及世界上的大部分形狀,我們需要另一樣東西——非線性降維算法。
組塊算法。
算法概括成通用形式——所有應用都需要知道該形式。
人類競賽獎
2004年,他們創立一年一度的“人類競爭獎”(Humie Awards),來認可“人類競賽”相關的遺傳編程創作。迄今為止,已經頒發39個獎項。
思考
最重要的是,機器學習的目標是盡可能找到最好的學習算法,利用一切可能的方法,而進化和大腦不可能提供學習算法。進化的產物有很多明顯的錯誤。例如,哺乳動物的視覺神經和視網膜前端而不是后端相連,這樣會引起不必要的(而且異乎尋常的)盲點,就在中心凹旁邊,而這里是視覺最敏銳的地方。活細胞的分子生物學原理非常混亂,分子生物學家常常自嘲道,只有對分子生物學一點也不懂的人才會相信智能設計。大腦的構造很有可能有相似的錯誤(大腦有許多計算機沒有的限制,比如非常有限的短期記憶),而且沒有理由待在這些限制里。另外,我們聽說過許多這樣的情形,人類似乎堅持做錯誤的事情,正如丹尼爾·卡尼曼在他的書《思考,快與慢》里詳細說明的那樣。
元學習
事實證明,要將許多不同的學習算法結合成一個并不難,利用的就是元學習。
網飛獎獲得者利用元學習來結合數百個不同的學習算法;沃森利用它來從備選項中選擇最終的答案;內特·希爾也以相似的方式將投票與預測選舉結果結合起來。 這種類型的元學習被稱為“堆疊”,是大衛·沃爾珀特的創見,在第三章中我們提到過他,他是“天下沒有免費的午餐”定理的創造者。
元學習算法是“裝袋”算法。
最聰明的元學習算法之一就是推進,由兩位學習領域的理論家約阿夫·弗羅因德和羅伯·夏皮爾創造。
總結
你已經看到機器學習的五大學派以及它們的主算法:符號學派和逆向演繹,聯結學派和逆向傳播,進化學派和遺傳算法,貝葉斯學派和概率推理,類推學派和支持向量機。
總結:學習就是你擁有的數據的數量和你所做假設數量之間的較量。
附錄
本書的文后包含了一些文獻和學習資料(英文版),有興趣可以去了解下。
視頻地址
- 作者佩德羅·多明戈斯的視頻 - 點擊跳轉
- 安德魯·恩格的課程 - 點擊跳轉
- 亞瑟·阿布·穆斯塔法的課程 - 點擊跳轉
開源軟件包
- Weka(www.cs.waikato.ac.nz/ml/weka)
可以作為教材的書籍
- 《Tom Mitchell的Machine Learning (McGraw–Hill, 1997)》
- 《Machine Learning: A Probabilistic Perspective》
- 麻省理工出版社,2012
- 作者:Kevin Murphy
- 《An Introduction to Statistical Learning with Application in R》
- 作者是:Gareth James、Daniela Witten、Trevor Hastie、Rob Tibshirani,Springer, 2013
- 《Machine Learning 》
- 《Journal of Machine Learning Research 》
作者的文章
- “A few useful things to know about machine learning ”(Communications of the ACM, 2012)
機器學習會議
- 機器學習國際會議
- International Conference on Machine Learning
- 國際神經信息處理大會
- Conference on Neural Information Processing Systems
- 國際學術和技術開發研討會
- International Conference on Knowledge Discovery and Data Mining
- International Conference on Knowledge Discovery and Data Mining
機器學習網站
- www.KDnuggets.com
總結
以上是生活随笔為你收集整理的终极算法:机器学习和人工智能如何重塑世界笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ORACLE SGA问题分析
- 下一篇: 【XSY2472】string KMP