Intel研究院院长吴甘沙演讲全文:大数据分析师的卓越之道(32PPT)
Intel研究院院長吳甘沙演講全文:大數據分析師的卓越之道(32PPT)
親愛的各位同仁,各位同學,早上好。講到大數據,就要問數據分析師應該做什么?所以我今天的標題是大數據分析師的卓越之道。這里不一定講的對,講的對的我也不一定懂,所以請大家以批評式的方式去理解。
這是一個典型的數據分析的場景,下面是基礎設施,數據采集、存儲到處理,左邊是數據處理,右邊價值輸出。連接數據和價值之間的是這知識發現,用專業詞匯講,知識就是模型,知識發現就是建模和學習的過程。問題來了,大數據時代帶來怎樣的變化?首先數據變得非常大,數據是新的原材料,是資產,大家的希望值也非常高。一旦大數據洪流過來,我們原有基礎設施都被沖的七零八落。所以過去十幾年事實上業界都在做大數據基礎設施,我怎么做大規模水平擴展,怎么提高分布式操作性能,怎么把磁盤閃存化,所有這些都是基礎設施。
改變思維方式
基礎設施升級了,知識發現的過程是不是能自然升級?我跟大家說天下沒有免費的午餐。今天的主題是基礎設施已經改朝換代了,我們分析師也應該與時俱進,體現在三個方面:第一、思維方式要改變;第二、技術要提升;第三,分析的能力要豐富起來。
首先,說一下思維方式。改變思維方式最重要的就是改變世界觀,這個就是牛頓機械論世界。我如果在這個時刻與宇宙當中所有的原子的狀態都是可確定的話,就可以推知過去任何一個時刻和未來任何一個時刻,這就是牛頓的機械論。雖然愛因斯坦發展了這個理論,但本質還是確定論,決定論。但是今天的世界事實上是不確定的,世界觀是基于概率的。大家都知道薛定諤的貓,貓在盒子里到底是死還是活的。其實它可能同時是死的,也同時是活的。但是一旦打開這個盒子,它就變成確定了,它要么就是真的死了,要么就是真的活著。打開盒子,有一半的概率殺死這只貓。
這個理念事實上反映的是海森堡的不確定主義,就是你的行為會改變被觀測的現象。很多大數據事實上也有測不準的,像Google流感的預測,大家可以看在2013年1月份的階段,橙色的線表明Google的預計的流感概率高于疾控中心實際測到的概率。所以《科學》和《自然》就發話了,《自然》認為是《科學》測不準,《科學》說這是大數據的傲慢。在這個案例來,即使Google也拿不到全量的數據。縱然有有疾控中心的數據和當中調整模型等等的,數據還是不精確。你以為這種相關性就能解決問題,但是健康的問題就是要究其原因,要有因果性。大家看這個預測的過量就導致了預感疫苗準備的過量。
所以數據的方法論需要升級。
這是一個典型的數據分析的流程,可以先由假設采集數據,也可以先采集了數據,然后從中發現假設。有了數據以后下一步就要做數據的準備,數據準備往往是最花時間的。然后分析,分析完了要考慮怎么解釋這個結果。另外一個就是要驗證,從隨即對照實驗到現在AB測試,我們要去驗證。但是到了大數據時代這個方法論要怎么改變呢,首先我們說測不準,所以需要加一個反饋循環,我們不停的反復做這個。這里雖然有很多噪聲,但是這個是可以處理的,還有一些是系統噪聲,可能因為污染的數據源,這個就要特別處理。我們做數據分析需要實時,交互,要快,這樣才能趕的及世界的變化,所以這里需要很多很多的東西。
一、假設
首先看假設。大數據思維需要我們先有很多數據,然后通過機械的方法發現其中的相關性,之后再找到假設。有時候相關性確實太多了,弱水三千只取一瓢飲,這里面就需要我們的直覺。怎么訓練直覺?就是像讀懸疑小說,你經歷這么一個推理的過程。如果說這樣的推理過程只是模型,也還需要數據,需要很多先驗的知識。這個知識怎么來呢?就是廣泛的閱讀。第二個,跨界思想的碰撞,跟很多人聊。這兩個是背景知識,還有一個前景知識,就是在上下游里融入到業務部門。我們希望把數據分析師放到業務部門,和它們融入到一起,這才能防止數據和分析脫鉤,數據分析和業務應用的脫節。
二、數據采集
第二個,數據采集,這里我非常夸張地強調“數據!數據!數據!”為什么?因為大數據碰到的第一個問題就是數據饑渴癥。我們有一次跟阿里聊,他們說也缺數據,只有網上的銷售記錄,而缺乏無線的數據。所以我們強調全量數據,我們盡量不采樣。
同時現在我們企業已經從小數據到大數據,有人說數據改變太困難了,太貴了,其實它強調的是問題還沒存在的時候。傳統的數據倉庫是,我先有一個問題,然后根據這個問題搜集和組織數據。從現在的大數據來說,需要先把數據送進來,然后再不斷的提問題,這就是一種新的思維。我們需要大量的外部數據源,而且你要從傳統的結構化數據到半結構化、非結構化數據。傳統結構化數據是什么,交易數據。但是現在我們企業里面馬上就有兩個非結構化數據出現。
第一個就是日志分析,大家知道大數據第一家上市公司是Splunk就是從事這一業務。
第二個就是文本數據,現在我們經常聽說情感分析,即是文本數據。我們需要做問答系統,甚至是最新的所謂的交互式對話系統,都需要文本數據。
第三個是從文本到圖片再到視覺,計算機視覺、模式匹配、語義分析。很多數據都是有時間和空間的標簽,怎么保證數據的時空,怎么能夠實時處理這些新的數據。
最后,還有很多數據是網絡數據,比如說社交網絡,我們怎么來判斷個人的影響力,怎么來判斷網絡的控制中心在哪里,都需要一些新的處理方式。
是不是前面說的這些都是合理的?比如說英特爾事實上是不可能采集到數據,而有時候你采集不到全體數據,你也不需要。
是不是數據更多就越好呢?未必。我們拿英特爾作為一個例子,青海、西藏、內蒙古占的面積是我們國土面積的一半,我們采集這四個省的面積,是不是都代表中國呢?未必!第二個是“原始數據”是不是一個矛盾的概念。因為原始數據可能并不原始,它受到采集人的影響。大數據里面的噪聲很多,但是有時候在數據里面信號就是以噪聲的方式變成的。 比如說現在我們世界要傾聽每一個個體的聲音,有一些個體的聲音是非常少的,在數據里面非常少,但是你不能忽略它。采樣本身是有偏差的。有一個經典的故事,二戰的時候飛機飛回來的時候有很多彈孔,人們分析到底是加固哪個地方好呢?很多人說是機翼,沒有想到要加固座艙,因為采樣是有偏差的。尤其是大數據,有一些子數據級,每一個數據是按照不同的抽樣規范來獲得的,這樣就有采樣偏差。
同時你要考慮數據權利的問題,這些數據是屬于誰的,有沒有隱私問題,許可是不是有范圍,我是不是按照許可的范圍做了,我能不能審計,這些都是數據的權利。未來數據交易的話還要解決數據的定價問題,這是非常困難的。
當我有了數據以后,需要生命周期的管理,大數據生命周期管理非常重要。一是出處或者是來源,即是大數據的的家族譜系,它最早是哪里來的,它又移動到什么地方,經過什么樣的處理,又產生了什么樣新的子后代。現在我們強調數據采集,是不是有這個必要?我們發現其實很多數據沒用以后,就應該刪除。
例如,互聯網公司采集了很多鼠標移動的數據,用Cookies來采集鼠標在什么地方,可以了解用戶的瀏覽行為。但是過一段時間網頁都變化了,這些數據還有什么用呢?只能刪除掉。所以并不是說數據越多越好,數據永遠都要保存。
三、數據的準備
下面講數據的準備,大數據的質量非常重要。剛才我們說它的精確性有問題。一個非常著名的研究機構做了統計,詢問說大數據分析師兩個問題,一方面數據大,是不是他們的問題,另外一方面數據質量是不是他們的問題,選擇后者是前者的兩倍。大數據本身就是有噪聲的,有偏差的,也是有污染的數據源。你的目標是建立一個模型,要對噪聲建模,同時還要是信號不能太復雜,模型不能太復雜。
一般的處理方法是數據清洗和數據驗證。有這樣一種說法,前者關注數據是錯的,數據有些是丟失的或者有些數據是相互矛盾的。我通過清洗、驗證的方式把它做出來,大數據非常大怎么辦?有沒有可能從一小部分數據開始做清洗,有沒有可能把整個過程自動化,這是研究的前沿。
另外一個前沿就是數據的清洗能不能跟可視化結合起來,通過可視化一下子發現了這些不正常的地方。通過機器學習的方式來推理不正常現象的原因。
我覺得現在最熱的研究課題是,你怎么能夠通過學習的方式來發現非結構化數據當中的結構,你怎么能夠把哪些看似不同的數據挑出來。比如說有些地方叫國際商業機器公司,有些地方叫藍色巨人,你最終能夠把這些數據的表示出來,使得它馬上就可以分析。我首先考慮怎么能夠降低計算通訊的代價。
大家看我們大數據經常是稀疏的,大數據太大了我們有沒有可能壓縮。大家知道我們原來的數據倉庫,最大、最麻煩的問題就是我要給這個表增加列。現在我發現通過增加列的方式變得非常簡單,我通過數據壓縮樹立的話更有局部性。
另外就是近似的數據,它就是一種通過降低時空復雜性,使得它誤差稍微增加幾個百分點,但是其中計算量下降幾個數量級。大家也應該聽說過很多方式都是做這個的。
怎么能夠降低統計的復雜性,其實大家知道大數據就是高緯,怎么辦?降下來,我通過降緯的方式能夠降低它的復雜性。我們還是需要采樣的,大家知道隨機性采樣,并不代表用一個均衡的概率采樣,所以要使用不同的組采樣。你可能需要一種新的采樣的方式,比如說雪球采樣,你先找一個種子然后再慢慢的擴大。即使你壓縮了很多,但是你還是可以恢復原始數據的。
我想請大家注意,數據分析師并不是考慮數據表象的問題、模型的問題,最終還是要考慮計算是怎么做的。所以我們要選擇最好的表示。比如說數據并行的計算就用表或者是矩陣,如果是圖并行,我就要選擇網絡的格式。
最后,我想請大家注意UIMN,這個能夠幫助你來保存各種各樣數據表示,以及跟數據分析對接。這個東西大家沒聽說過的話,大家一定聽過Worse在人機競賽中的電腦,它就是用這個表示的。
四、數據分析
最后,查詢。很早數據就是查詢,接著是統計學,接著到機器學習,所以我們說數據挖掘是這三個學科的交叉,而這些學習又是從人工智能脫胎出來。慢慢的從這兒又包了一層ABB,現在又有最新的內腦計算,分布學習。所有這些大家不能忘記,這些工具都要跟相關的計算的模型給對接起來。所以這是非常困難的東西。
我們數據分析師還是有些裝備的,這個是現在最流行的四種分析的語言,Saas,R,SQL,還有python。可能還需要學習JAVA這樣的語言。這個可能還不夠,還需要JAVASrcit,所以需要來更新我們的裝備。但是有人說了這些裝備都是為傳統的數據分析師準備的,大家不要擔心,因為在這些語言下面都已經有了大數據的基礎設施,比如SQL,可以使你以前的語言平滑的遷移到大數據基礎上。更方便的是現在所有做基礎設施的人都在考慮一個詞,ML Pipeliine,而且現在更多的東西都可以放到云里做了。大家看到現在所有這些大數據的基礎設施我們都叫做動物園了,因為很多都是以動物的圖標來展示的,都可以放到云里去,所以這給我們帶來了很多方便。
這是一個統計學的大師說的,所有模型都是錯的,但是有些是有用的,關鍵是選擇什么樣的模型。有一種人是一招鮮吃遍天,還有一種是一把鑰匙開一把鎖。我是開放的,我根據我的問題來進行選擇。模型的復雜度必須與問題匹配的。有各種各樣模型都能解決的時候,就選擇最簡單的一個。
我們現在做數據分析碰到兩個問題:一個是過載,還有一個是數據量大了以后,模型沒辦法提升。這里就有一個很著名的人,叫彼特,他寫《人工智能現代方法》一書。他說,簡單模型加上大數據,比復雜模型加小數據更好,這個對不對?這個在很多情況下是對的,但是并不完全對。而且有時候模型簡單參數很多,場景不同參數不同,假設場景是文本處理,可能每個單詞就是一個特征,所以這個模型非常復雜,所以大數據是有用的。還有一種解決數據過多的方式,就是通過另外一種方式。比如帶參數的線性模型針對小數據,這樣又能夠提升分析的效率,又能夠解決數據的計算量的問題。
我剛才講到長尾信號非常非常重要,我們現在不能忽略長尾信號,那怎么辦?我們傳統的分析很多都是基于指數的假設,這個就是割尾巴,到后面就是沒尾巴,這樣就把長尾信號都過濾掉了,我可能是需要一些基于神經網絡的方式。分析要快,第一,我們一直強調傳統的是送進去的,我60秒完成跟6分鐘完成是不是一樣的呢?或者說它們的效率差一點點或者差幾倍?未必,雖然等待時間拉長,分析師的耐心會降低。像針對時空的數據,現在機器學習強調的在線學習,增量的學習,流逝的學習,數據一邊進來一邊學習,一邊更改模型,這個就很重要。最后當你的數據又大,又需要快的時候,你不懂系統是不行的,你必須懂系統,你必須懂數據并行,任務并行,必須做系統調優的東西。
我前兩天跟一個朋友聊,他說現在所有分析數據的調優做到隨機的訪問都在CPU緩存里,到磁盤上的訪問都是串行的訪問,這樣才能讓系統調優做到最佳。從語音識別,到圖像理解,到自然語言理解。上面都是人們做的認知任務,深度學習下一步會進入非認知任務,像百度用來做搜索廣告,包括做要務的發現,我現在也在做機器人,機器人很多需要深度學習,我們現在把深度學習放進去也非常好。大家的福音就在于現在深度學習很多的代碼都是開源的,去年花了很多力氣去做各種各樣的模型,現在所有模型全部都開源,所以下一步大家注意,我們的科學是開放的。你有大量的開源的軟件,而且現在不但你論文放在ICup上,你的數據代碼可能放在Dcup上,所有都是開放的。
還沒有學Sparsecoding的話大家可以看一下,還有在標注下的學習,這張PPT是吳恩達的,橙色的都是標注數據,你要有大象和犀牛的數據,就是左面的是標出的,我可以結合一些非標注的東西學習,然后可以引入其他的標注數據,像羚羊的數據也可以幫助我們學習,最后到拿一些完全不相關的數據跟它們進行學習。
人類角色在變化,前一段時間有人提出來,人的角色。因為數據分析師要懂機器,懂工具,我們要跟工具更好的配合,因為我們的角色一直在用機器替代它們。機器學習最重要的就是特征學習,現在無監督的,它可以幫助你學習特征,而且很多工具開始自動化了,那么你怎么跟它工作搭配,能夠獲得最好的效率呢?就是你一邊在利用工具獲得一些數據,然后提出問題是一個循環的過程。現在就是大規模的人跟人,人跟機器協同配合,因為很多機器可以外包,你可以眾包,你大量數據通過眾標方式進行標注。包括協作,現在開放數據,光開放還不行,還要在這個數據上進行多人協作分析,你要對數據進行版本的管理,還有現在所謂的人類計算,像大家都在上面學習英語,在學習英語的過程是對互聯網進行翻譯的過程。
五、解釋和驗證
最后,就是解釋和驗證。今天的大會標題是要懂技術,懂藝術。這里一個很重要的就是講故事,你有了分析之后怎么講出來。比如說啤酒加尿布,它就符合了講故事的3D:戲劇性、細節、參與這個對話的過程。啤酒加尿布,這個案例我給大家說這是編出來的,但是它符合了這個過程,所以它就馬上傳播出去了,變成大家都愿意去支持數據分析的這么一個案例。包括魔球(電影Money ball)也是這樣,非常強調數據分析怎么來改變棒球運動的,但是事實上它也沒有說出來是,這里很多工作是通過裁判去做的,有些人非客觀的因素,像意志力,像抗壓力。還有像Facebook做控制情緒的實驗,還有Uber分析一夜情。我還是想強調好的講故事能夠使分析事半功倍。
我們希望現在能夠把大量的過程文檔化,這樣可以進行學習,還有就是通過模擬預測未來。所以這就是最后的總結,現在我們的大數據的基礎設施已經改朝換代了,我們的數據分析師,我們怎么來改變我們的思維方式,怎么來提高我們的技術,怎么來豐富我們的分析能力?這是需要我們不斷思考的問題,謝謝大家。
總結
以上是生活随笔為你收集整理的Intel研究院院长吴甘沙演讲全文:大数据分析师的卓越之道(32PPT)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Django 使用短信验证码登录
- 下一篇: 两平面平行但不重合的条件是_____对于