邓仰东专栏|机器学习的那些事儿(一)
目錄
1.緒論
1.1.概述
1.2 機(jī)器學(xué)習(xí)簡(jiǎn)史
1.3 機(jī)器學(xué)習(xí)改變世界:基于GPU的機(jī)器學(xué)習(xí)實(shí)例
??? ?1.3.1 基于深度神經(jīng)網(wǎng)絡(luò)的視覺識(shí)別
???? 1.3.2 AlphaGO
??? ?1.3.3 IBM Waston
1.4 機(jī)器學(xué)習(xí)方法分類和本書組織
在這一章里面,我們首先審視正在高歌猛進(jìn)的數(shù)據(jù)科學(xué),了解使用GPU進(jìn)行機(jī)器學(xué)習(xí)計(jì)算的重要性。接下來,我們回顧機(jī)器學(xué)習(xí)的發(fā)展歷程,并且檢閱當(dāng)前機(jī)器學(xué)習(xí)技術(shù)的幾項(xiàng)最高成就:人工智能圍棋(AlphaGo)、深度神經(jīng)網(wǎng)絡(luò)圖像識(shí)別(ImageNet)和IBM Waston人工智能系統(tǒng),從而領(lǐng)略機(jī)器學(xué)習(xí)技術(shù)震撼世界的腳步。第三部分,我們對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行概略分類,并且根據(jù)分類結(jié)果介紹本書內(nèi)容。
1.1 概述
我們生活在一個(gè)偉大的時(shí)代,人類文明史上最卓越的心智成就以前所未有的深度、廣度和速度交匯融合,催生出潛力無限的數(shù)據(jù)科學(xué)(data science)。數(shù)據(jù)科學(xué)是在人類社會(huì)數(shù)字化程度充分發(fā)展的前提下,綜合計(jì)算機(jī)科學(xué)、數(shù)學(xué)和神經(jīng)科學(xué)等領(lǐng)域的理論和技術(shù)成果,以數(shù)據(jù)挖掘作為應(yīng)用形式,通過對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)、分析和可視化等各種處理,從中提煉信息并形成知識(shí),從而引導(dǎo)優(yōu)化決策的科學(xué)。簡(jiǎn)單說來,數(shù)據(jù)科學(xué)就是針對(duì)大數(shù)據(jù)的理論和方法。
當(dāng)前,數(shù)據(jù)科學(xué)已經(jīng)深度融入我們的日常生活,我們可以從一天的平凡生活中檢查一下數(shù)據(jù)科學(xué)在怎樣發(fā)揮作用的:上下班路上,導(dǎo)航系統(tǒng)會(huì)分析數(shù)據(jù)告訴我們不同路線的擁堵情況并且實(shí)時(shí)預(yù)測(cè)預(yù)計(jì)行程時(shí)間,如果乘坐公車的話,還可以通過歷史數(shù)據(jù)和實(shí)時(shí)路況預(yù)報(bào)公車到站時(shí)間;我們打電話時(shí),電信運(yùn)營(yíng)商會(huì)通過采集我們打電話的模式,諸如地點(diǎn)、時(shí)間段和服務(wù)套餐情況(但是不能使用時(shí)頻、語音和個(gè)人帳號(hào)信息),推斷我們的身份、生活習(xí)慣和經(jīng)濟(jì)狀況,從而確定相應(yīng)的推送內(nèi)容;
我們上網(wǎng)沖浪時(shí),搜索引擎提供的內(nèi)容當(dāng)然是對(duì)海量網(wǎng)頁進(jìn)行分析處理的結(jié)果,而且也會(huì)我把我們的搜索內(nèi)容拿去分析,從中提煉熱點(diǎn)搜索趨勢(shì),并且對(duì)我們的行為進(jìn)行推斷;購物時(shí),無論是電商還是傳統(tǒng)商戶,都可能分析我們的購物歷史決定向我們推薦商品,而在付款之中或之后,銀行的數(shù)據(jù)分析系統(tǒng)會(huì)判斷這是一次正常消費(fèi)還是一次欺詐;
工作時(shí),即使我們不直接使用數(shù)據(jù)分析工具,也幾乎不可避免地在產(chǎn)生或者消費(fèi)數(shù)據(jù),有些公司(例如惠普)甚至使用預(yù)測(cè)軟件分析每個(gè)雇員辭職的可能性(?有趣的是,數(shù)據(jù)分析師自己經(jīng)常被判別為潛在離職風(fēng)險(xiǎn)較高的雇員,因?yàn)樯鐣?huì)需求極為迫切。)
除此之外,還有更多的數(shù)據(jù)分析系統(tǒng)在暗中“琢磨”我們,比如說醫(yī)療保險(xiǎn)公司在算計(jì)我們未來的健康趨勢(shì),由此決定保費(fèi)應(yīng)該怎樣變化,社交網(wǎng)絡(luò)公司在計(jì)算是否發(fā)現(xiàn)了你的同學(xué)或者熟人,或者怎樣讓你的社交圈通過最短路徑和其它群落連接起來,還有基金公司會(huì)分析社交網(wǎng)絡(luò)上大家的情感趨勢(shì),以此作為預(yù)測(cè)證券價(jià)格漲落的依據(jù),如果你是單身而且在征婚網(wǎng)站登記的話,還會(huì)有數(shù)據(jù)分析引擎根據(jù)你的資料進(jìn)行分類和匹配,為你尋找合適的另一半。
數(shù)據(jù)科學(xué)向社會(huì)生活的滲透正在以不可阻擋的勢(shì)頭在更大范圍上更加深化。表1-1是遠(yuǎn)不完全(實(shí)際上完整枚舉數(shù)據(jù)應(yīng)用已經(jīng)成為不可能完成的任務(wù))的典型數(shù)據(jù)科學(xué)應(yīng)用的清單。
?
表1.1 典型數(shù)據(jù)應(yīng)用
| 公司/組織 | 代表性數(shù)據(jù)應(yīng)用 | 亮點(diǎn) |
| 谷歌Google | 對(duì)全球35萬億個(gè)網(wǎng)頁進(jìn)行索引,并形成1億G字節(jié)的索引記錄 | 全部Internet搜索服務(wù)的89%由Google提供 |
| 亞馬遜Amazon | 采集并分析其7.5億顧客的購物行為(包括購物和瀏覽),分析顧客的收入和偏好,從而為顧客進(jìn)行商品推薦 | Amazon的推薦系統(tǒng)是其成為美國(guó)最大線上零售商(年產(chǎn)值900億美元)的主要助力,也是其品牌的重要標(biāo)志 |
| 網(wǎng)飛Netflix | 根據(jù)電影內(nèi)容進(jìn)行分類,并根據(jù)用戶觀看電影的歷史進(jìn)行喜好分析并推薦電影 | 非結(jié)構(gòu)化數(shù)據(jù)學(xué)習(xí)的經(jīng)典技術(shù),是Netflix用戶和流量繼續(xù)加速增長(zhǎng)的主要?jiǎng)恿?/span> |
| 沃爾瑪 Walmart | 利用購物籃分析推薦商品,使用社會(huì)和環(huán)境數(shù)據(jù)預(yù)測(cè)購買需求 | 沃爾瑪自行開發(fā)的Data Café數(shù)據(jù)分析系統(tǒng)處理一個(gè)擁有2000億組交易數(shù)據(jù)的數(shù)據(jù)庫,能夠把銷售問題平均解決時(shí)間從2~3周降低至20分鐘左右 |
| 歐洲核子研究組織CERN | 分析數(shù)據(jù)中的特殊能量特征,從中確定是否發(fā)現(xiàn)特定粒子 | 每年產(chǎn)生30PB數(shù)據(jù),主要是粒子對(duì)撞機(jī)中粒子碰撞時(shí)產(chǎn)生的光信號(hào),2013年通過分析數(shù)據(jù)發(fā)現(xiàn)了希格斯玻色子 |
| 羅爾斯-羅伊斯Rolls-Royce | 分析發(fā)動(dòng)機(jī)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù),確定優(yōu)化維護(hù)和修理方案 | 支撐全球500家以上航空公司和150多支空軍的航空發(fā)動(dòng)機(jī),大數(shù)據(jù)技術(shù)顯著降低了運(yùn)維成本 |
| 殼牌石油Shell | 分析地址數(shù)據(jù)發(fā)現(xiàn)油田 | 大幅度提高了勘探精度 |
| 蓮花F1車隊(duì) Lotus F1 Team | 分析賽場(chǎng)數(shù)據(jù)實(shí)時(shí)調(diào)整塞車參數(shù),利用數(shù)據(jù)建立仿真模型優(yōu)化賽車設(shè)計(jì) | 把青年車手Marlon Stockinger的賽季總成績(jī)從2013年的全球第18名提高到2014年的第9名 |
| 臉書 | 分析用戶數(shù)據(jù)推送廣告 | 2014年占據(jù)美國(guó)24%的在線廣告份額,創(chuàng)收53億美元;預(yù)計(jì)2017年市場(chǎng)份額達(dá)到27%,創(chuàng)收100億美元 |
| 皇家蘇格蘭銀行 Royal Bank of Scotland | 分析交易數(shù)據(jù)最大化客戶盈利以及支撐各種客戶關(guān)系管理需求 | 通過海量數(shù)據(jù)挖掘支撐金融個(gè)性化服務(wù) |
| 目標(biāo)超市 Target | 分解消費(fèi)者行為預(yù)測(cè)懷孕可能性并據(jù)此推送產(chǎn)品推薦 | 能夠比以往多發(fā)現(xiàn)30%以上孕婦 |
| 匹茲堡大學(xué)醫(yī)療中心 | 出院前預(yù)測(cè)病人未來30天再次住院的可能性 | 降低治療風(fēng)險(xiǎn) |
| 倫敦股票交易所 | 分析數(shù)據(jù)決定投資方案 | 約40%的股票交易由數(shù)據(jù)應(yīng)用自行驅(qū)動(dòng) |
| 大陸航空公司 | 分析航班數(shù)據(jù) | 有效降低航班延誤和航線利用率 |
| 奧巴馬競(jìng)選團(tuán)隊(duì) | 分析選民數(shù)據(jù)推測(cè)哪些選民更容易被競(jìng)選活動(dòng)影響 | 取得了驚人的程序 |
| 惠普 HP | 分析全球35萬名員工的辭職風(fēng)險(xiǎn) | 預(yù)計(jì)收益3億美元 |
| 美國(guó)國(guó)稅局 | 分析納稅人數(shù)據(jù)發(fā)現(xiàn)水手欺詐 | 在不增加工作人時(shí)的前提下提升發(fā)現(xiàn)逃稅率25倍 |
隨著人類社會(huì)數(shù)字化程度的迅速提升,目前全球數(shù)據(jù)規(guī)模已經(jīng)達(dá)到44萬億GB。數(shù)據(jù)增長(zhǎng)的速度更是驚人,我們可以從圖1-1中看看當(dāng)前各大網(wǎng)站一分鐘的數(shù)據(jù)量。讀者可以想象一下,在閱讀這一頁的過程中,全球數(shù)據(jù)又增加了多少。
數(shù)據(jù)產(chǎn)生的來源和數(shù)量增長(zhǎng)之快,以至于2013年的一份分析報(bào)告指出全球數(shù)據(jù)的90%是在此前兩年中產(chǎn)生的([1]?SINTEF. "Big Data, for better or worse: 90% of world's data generated over last two years." Science Daily, 22 May 2013.)也就是說每?jī)赡戤a(chǎn)生的數(shù)據(jù)是此前全部數(shù)據(jù)的10倍,而且我們可以大膽的猜測(cè)到本書出版之時(shí),95%甚至更多的數(shù)據(jù)實(shí)在過去三年內(nèi)產(chǎn)生的。
數(shù)據(jù)規(guī)模是如此之大,種類又是如此之多,以至于一般認(rèn)為當(dāng)前我們能夠分析的數(shù)據(jù)只是全部數(shù)據(jù)的0.5%。那么我們?cè)鯓硬拍艹浞掷煤A繑?shù)據(jù),而不是“湮沒在數(shù)據(jù)中卻饑渴于無法獲得知識(shí)(Drowning in Data yet Starving for Knowledge)”呢?答案是顯然的,機(jī)器學(xué)習(xí)算法必須借助更強(qiáng)勁的計(jì)算硬件(嚴(yán)格講應(yīng)該是能效比更高的硬件。)和更加靈活的程序設(shè)計(jì)技術(shù)。
?圖1-1 全球1分鐘內(nèi)產(chǎn)生的數(shù)據(jù)
然而,我們手中并沒有一種硬件能夠同時(shí)在上述兩項(xiàng)要求上都能表現(xiàn)最佳。圖1-2是對(duì)常見計(jì)算平臺(tái)的比較。在圖1-2的左側(cè),是執(zhí)行順序程序的CPU,其編程模式符合人類的思維方式,編程工具完備而成熟,然而性能相對(duì)有限。
特別是自從2000年以后,傳統(tǒng)上以增加時(shí)鐘頻率提升CPU性能的方法已經(jīng)遇到瓶頸,繼續(xù)提高頻率提升性能有限,反而帶來功耗的大幅度增加。數(shù)字信號(hào)處理器是對(duì)CPU進(jìn)行訂制,針對(duì)特定應(yīng)用引入專用指令和硬件從而提高性能的處理器,其編程靈活性有所下降,但是能夠提高相應(yīng)應(yīng)用的性能。數(shù)字信號(hào)處理器曾經(jīng)是高性能的標(biāo)志,但是隨著多核CPU的出現(xiàn),已經(jīng)逐漸退出高性能計(jì)算市場(chǎng),主要用于嵌入式產(chǎn)品。
多核CPU是在集成電路工藝的集成能力繼續(xù)提升而單核性能飽和的產(chǎn)物,通過引入多個(gè)并行執(zhí)行指令的CPU內(nèi)核保證整體性能的增加。多核CPU必須使用并行程序才能獲得更好的性能,其編程靈活性有所限制。
?圖1-2 常見計(jì)算平臺(tái)的計(jì)算能力和可編程性
在圖1-2的右端是專用集成電路,即針對(duì)特定應(yīng)用采用特定算法而設(shè)計(jì)的硬件平臺(tái),完全不具備編程能力,但是性能可以達(dá)到極致。
在當(dāng)前市場(chǎng)需求多元化并且高速變化的背景下,缺乏可編程能力是嚴(yán)重的缺陷,因此專用集成電路只有在用量極大的前提下才具有競(jìng)爭(zhēng)力,越來越多的電子產(chǎn)品使用系統(tǒng)芯片,即集成專用集成電路和嵌入式處理器的芯片。以FPGA為代表的可編程硬件比專用集成電路性能低一個(gè)檔次,但是具有硬件編程能力,因此也成為一種重要的計(jì)算平臺(tái)。
專用處理器也是折衷可編程性和性能的產(chǎn)物,其思想是針對(duì)特定應(yīng)用設(shè)計(jì)指令集,其中某些指令可以通過專用硬件直接執(zhí)行,從而在保持一定編程靈活性的基礎(chǔ)上改善性能。然而,專用處理器的應(yīng)用范圍比較窄,因此編程工具極為有限、使用人群較小,因而也限制了靈活性。
圖1-2的中央是圖形處理器(Graphics Processing Unit,簡(jiǎn)稱GPU),其前身是為圖形渲染應(yīng)用而設(shè)計(jì)的專用處理器,但是經(jīng)過30年的發(fā)展,隨著圖形應(yīng)用的復(fù)雜度越來越高、性能要求越來越突出,已經(jīng)演變?yōu)榫哂懈叨扔?jì)算能力和高度可編程能力的計(jì)算平臺(tái)。
在各種計(jì)算硬件中,GPU比較完美地折衷了性能和靈活性。注意以上討論中,我們所說的性能其實(shí)指特定制造工藝下單位面積提供的性能,不同制造工藝下的不同類硬件平臺(tái)的性能錯(cuò)綜復(fù)雜。
由于GPU擁有圖形渲染市場(chǎng)的支持,能夠保證其出貨量,因此能夠使用最先進(jìn)的制造工藝并且制造較大的芯片,從而能夠提供極高的單片性能,在較低工藝下制造的專用集成電路和FPGA反而不容易達(dá)到使用最新工藝的GPU的性能。從2006年開始,NVIDIA和AMD等GPU制造商意識(shí)到GPU可以成為一種與CPU互補(bǔ)的通用計(jì)算平臺(tái),相繼退出一系列編程工具,從而極大地開闊了GPU的應(yīng)用。
從2010年開始,機(jī)器學(xué)習(xí)成為全球化熱點(diǎn),眾多企業(yè)、科研和政府機(jī)構(gòu)開始在日常工作中大量使用數(shù)據(jù)挖掘工具,而機(jī)器學(xué)習(xí)算法普遍具有計(jì)算密集特點(diǎn),特別適合GPU硬件執(zhí)行,因此,圖形處理器幾乎一夜之間成為機(jī)器學(xué)習(xí)最重要的應(yīng)用平臺(tái)。
參考文獻(xiàn)
[1]?SINTEF. "Big Data, for better or worse: 90% of world's data generated over last two years." Science Daily, 22 May 2013.
關(guān)注LinkSpark公眾號(hào),了解更多人工智能相關(guān)資訊!
總結(jié)
以上是生活随笔為你收集整理的邓仰东专栏|机器学习的那些事儿(一)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Modbus Tcp服务端使用说明书
- 下一篇: 二叉树相关题(Java实现)