谷歌发布第二代TPU,并提供了免费试用方案
與第一代TPU只能服務(wù)于機器學習模型計算不同,谷歌最新的TPU現(xiàn)在既能處理訓練也能處理服務(wù)。InfoQ年初曾詳細介紹過第一代TPU白皮書。
第二代TPU的發(fā)布時間與一周前NVIDIA發(fā)布Volta的時間高度吻合,后者是一個普通的GPU,針對TensorFlow進行了優(yōu)化,具備經(jīng)過嚴格測試的Tensor Core特性。谷歌沒有像第一代TPU發(fā)布時那樣提供一份與第二代TPU配套的公共白皮書。第一代TPU的白皮書是在TPU發(fā)布幾個月之后才發(fā)布的。所以,可以推測,詳細介紹第二代TPU(TPU-2)基準測試數(shù)據(jù)的白皮書即將到來。理想情況下,其中會包含TPU和競爭對手芯片組配置的測試組合、它們的邊界性能以及在它們上面運行的機器學習工作負載類型。和第一代TPU白皮書類似,那會提供有關(guān)TPU-2的詳細信息。
谷歌提供了一些高級性能指標,據(jù)推測,這些指標是以谷歌通過GCP計算引擎提供TPU即服務(wù)時使用的TPU物理基礎(chǔ)設(shè)施配置為基礎(chǔ)。一組特定的研究人員和科學家將可以免費使用一個包含1000個云TPU的集群。該免費的TPU基礎(chǔ)設(shè)施和面向其他所有人的GCP服務(wù)可能有一個很大程度的抽象,硬件研究人員或新聞資訊可以在沒有白皮書的情況下有一個深入的了解。在性能提升方面,谷歌指出:
……我們的大規(guī)模新翻譯模型在32個全世界最好的商用GPU上訓練了一整天,而1/8個TPU Pod一下午就可以完成這項任務(wù)……
TPU-2 Pod包含由多個TPU-2處理器組成的TPU-2板。根據(jù)谷歌公告中的零星技術(shù)信息以及幾張照片,我們可以推測,每個芯片上的閃存可能存在連通性,單個的TPU-2之間可能共享閃存狀態(tài)。
第二代TPU基礎(chǔ)設(shè)施提供多達256個芯片,它們連接在一起可以提供11.5千兆次的機器學習運算能力。谷歌接受Alpha版本試用申請,不過,申請表單和研究人員的免費試用表單相同。目前,還不清楚下一代TPU是否會用在類似CloudML這樣在GPU上執(zhí)行模型訓練的服務(wù)中。不過,該服務(wù)不只限于TPU。該GCP特性
讓用戶可以在競爭對手的芯片(如英特爾的Skylake)或GPU(如Nvidia的Volta)上構(gòu)建自己的模型,然后將項目遷移到谷歌TPU云上做最后的處理。
對于TPU-2相對于第一代TPU的性能提升,現(xiàn)在還很難做出充分的比較,因為它們的特性集和底層數(shù)學操作原語不同。第一代TPU沒有使用浮點操作,而是使用一個8位的整數(shù)近似地表示浮點數(shù)。現(xiàn)在還不知道谷歌是否提供近似方法將浮點運算性能轉(zhuǎn)換成8位整數(shù),用于定量分析的浮點運算估計。
谷歌最新的大規(guī)模翻譯模型在32個“最好的商業(yè)GPU”上需要訓練一整天,而1/8個TPU Pod一下午就可以完成這項工作……每塊板子的最大峰值吞吐量為每秒45萬億次浮點運算,如上所述,系統(tǒng)板每秒總計180萬億次浮點運算,峰值性能可達11500萬億次。
能夠訪問閃存以及可以在同樣的硬件上提供訓練和服務(wù)的能力會影響谷歌和其他芯片組生產(chǎn)商的競爭關(guān)系,因為AMD的Vega Radeon?Instinct?GPU加速器既可以直接訪問閃存,也可以提供ML訓練和服務(wù)。
總結(jié)
以上是生活随笔為你收集整理的谷歌发布第二代TPU,并提供了免费试用方案的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 芯片巨头英特尔放弃竞争迷你计算机市场
- 下一篇: ECMAScript2018语言规范