TensorRT深度学习训练和部署图示
TensorRT深度學(xué)習(xí)訓(xùn)練和部署
NVIDIA TensorRT是用于生產(chǎn)環(huán)境的高性能深度學(xué)習(xí)推理庫。功率效率和響應(yīng)速度是部署的深度學(xué)習(xí)應(yīng)用程序的兩個(gè)關(guān)鍵指標(biāo),因?yàn)樗鼈冎苯佑绊懹脩趔w驗(yàn)和所提供服務(wù)的成本。Tensor RT自動(dòng)優(yōu)化訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),以提高運(yùn)行時(shí)性能,與僅使用通用CPU的深度學(xué)習(xí)推理系統(tǒng)相比,Tesla P100 GPU的能源效率(每瓦性能)提高多達(dá)16倍(見圖1)。圖2顯示了使用TensorRT和相對復(fù)雜的GoogLenet神經(jīng)網(wǎng)絡(luò)架構(gòu)運(yùn)行NVIDIA Tesla P100和K80進(jìn)行推理的性能。
本文將展示如何使用Tensor RT,在基于GPU的部署平臺(tái)上,從經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中,獲得最佳效率和性能。
圖1:NVIDIA Tensor RT通過Tesla P100上的FP16,為神經(jīng)網(wǎng)絡(luò)推理提供了16倍的高能效。
圖2:NVIDIA Tensor RT通過Tesla P100上的FP16提供了23倍的神經(jīng)網(wǎng)絡(luò)推理性能。
用深度神經(jīng)網(wǎng)絡(luò)解決有監(jiān)督的機(jī)器學(xué)習(xí)問題,涉及兩個(gè)步驟。
- 第一步是使用GPU在大量標(biāo)記數(shù)據(jù)上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。在此步驟中,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)了數(shù)百萬個(gè)權(quán)重或參數(shù),從而使其能夠映射輸入數(shù)據(jù)示例,以糾正響應(yīng)。訓(xùn)練要求迭代前后遍歷網(wǎng)絡(luò),因?yàn)橄鄬τ诰W(wǎng)絡(luò)權(quán)重,目標(biāo)函數(shù)被最小化了。通常會(huì)對幾種模型進(jìn)行訓(xùn)練,并針對訓(xùn)練期間未看到的數(shù)據(jù)驗(yàn)證準(zhǔn)確性,以便估算實(shí)際性能。
- 下一步-推論-使用訓(xùn)練好的模型對新數(shù)據(jù)進(jìn)行預(yù)測。在此步驟中,訓(xùn)練好的模型,用于在生產(chǎn)環(huán)境中運(yùn)行的應(yīng)用程序,例如數(shù)據(jù)中心,汽車或嵌入式平臺(tái)。對于某些應(yīng)用,例如自動(dòng)駕駛,推理是實(shí)時(shí)進(jìn)行的,因此高吞吐量至關(guān)重要。
總結(jié)
以上是生活随笔為你收集整理的TensorRT深度学习训练和部署图示的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TensorRT 数据和表格示例
- 下一篇: nvGRAPH三角形计数和遍历示例