Google传奇Jeff Dean最新演讲:如何构建未来的机器学习芯片
如何構建未來的機器學習加速芯片?
Google大腦負責人Jeff Dean是最有資格回答這個問題的人之一。昨天,還是在NIPS大會期間,Jeff Dean詳細介紹了Google在AI芯片方面的最新研究。
以下是Jeff Dean最新演講的主要內容。
眾所周知,深度學習需要大量的計算資源支持,深度學習正在改變我們設計電腦的方式。例如,降低計算精度也是OK的。
Google在新機器學習方面的成果之一,就是TPU。這個專用的AI加速芯片,主要用來執行神經網絡的推理計算。Google的搜索、神經機器翻譯、語音圖像識別,以及大名鼎鼎的AlphaGo背后,都是TPU在提供計算支持。
第一代TPU在推理方面取得了巨大的進步,但是訓練怎么辦?
于是Google又研發了第二代TPU。第二代TPU被設計用來同時執行訓練和推理計算。第二代TPU的架構如下圖所示:
Google還用64塊TPU組成陣列(TPU Pod),這進一步提升了計算效力。具體有多厲害?例如,訓練Resnet-50達到75%以上精確度,單個第二代TPU要耗時一整天,而陣列只需要22分鐘,速度提升31倍,不需要任何額外代碼優化。
成績屬于過去,未來挑戰依然嚴峻。2009年以來,arXiv上機器學習論文的增長速度,已經超過摩爾定律。
所以,接下來要思考的問題還是:應該如何構建未來的機器學習加速器?如果現在開始著手,如何設計一個兩年內能投入使用,五年內不會過時的AI芯片?
需要考慮的問題包括精度、稀疏和嵌入、Batch大小、訓練算法等等。但首先是整個系統都應該有所改變。傳統的low-level系統代碼(操作系統、編譯器、存儲系統)還沒有廣泛利用當今的機器學習。
對于更高性能的機器學習模型來說,并行性非常重要。但是在多個計算設備上獲得良好的性能,是并不是一件易事。
為什么這樣?
因為Learned Index結構,不是傳統的索引結構。這部分實際上是Google最新的研究成果。
在這個研究中,Google從假設現在所有的索引結構都可以用其他類型的模型來代替,包括深度學習模型,這被稱為Learned Index。核心思想是,一個模型可以學習查詢的排序順序或者結構,并且利用這個信號來有效預測記錄的位置。
Google還從理論上分析了Learned Index在哪些條件下,表現優于傳統的指標結構,描述了Learned Index結構設計中的主要挑戰。
初步的結果顯示,在神經網絡環境中,這能讓經過緩存優化的B-Tree提速70%,同時節省了一個數量級的內存占用。
另外,GPU/TPU讓Learned Index更加可行。當然,GPU/TPU還面臨高調用延遲等挑戰,但是使用批量請求等技術,可以分攤調用成本。
重要的是,Google認為通過學習模型取代數據管理系統核心組件的想法,對未來的系統設計有著深遠的影響。
如果對這部分研究的細節感興趣,可以查看Google的論文The Case for Learned Index Structures,地址在此:https://arxiv.org/abs/1712.01208?。
在量子位微信公眾號(QbitAI)對話界面,回復關鍵詞“jeff”,就能下載此次Jeff Dean演講PPT的全文。
One more thing…
Jeff Dean終于在推特上開了賬號~
— 完 —
本文作者:允中 原文發布時間:2017-12-10總結
以上是生活随笔為你收集整理的Google传奇Jeff Dean最新演讲:如何构建未来的机器学习芯片的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IPC通信
- 下一篇: 突破RHEL各种版本高阶应用限制!群集,