探索编译软件栈新范式;高端GPU禁售的影响;陈天奇DL系统免费课程|AI系统前沿动态
1. 高端GPU禁售傳聞聲起,BAT們遭遇緊張時刻
互聯網企業成為此次制裁波及的主要對象。行業人士指出,互聯網廠商出于對性能等因素考慮,對國產CPU、GPU普遍接納度不高,此次事件應為互聯網廠商預警,加速CPU、GPU等核心芯片的國產替代應受到重視,希望有助于互聯網廠商加速推進服務器核心芯片國產替代的導入和驗證,提升自主可控能力。
鏈接:
https://www.laoyaoba.com/html/share/news?source=app_android_v90&news_id=831093&fromShare=android&utm_source=utm_source_sharewxm
2. 陳天奇CMU新課程線上免費聽,剖析DL框架底層原理
9月13日開課,線上免費注冊參與,主要面向高年級本科到博士在讀階段的學生。需要參與者有基本的數學背景,對機器學習有一定的了解,掌握系統編程(Python和C/C++ )和線性代數。
鏈接:https://zhuanlan.zhihu.com/p/558676179
3. 曠視天元MegEngine開源CUDA INT4量化源碼實現
為了推動低比特量化技術的發展,曠視天元MegEngine 團隊開源了INT4的源碼實現,這也讓MegEngine成為首個開源CUDA INT4源碼實現的深度學習框架。MegEngine采用均勻線性量化方案,實現了非對稱量化和對稱量化兩種INT4的數據類型,同時通過算子融合優化、kernel優化等方法,使得量化后的模型可以依然保持較高的精度以及良好的運行速度。同樣以ResNet-50為例,INT4相比INT8有1.3倍的加速。
鏈接:https://mp.weixin.qq.com/s/zJPagx0FFN5lGltWgSJDXg
4.?OneFlow源碼解析:Tensor類型體系與Local Tensor
tensor和op是神經網絡模型最基本的組件:op是模型的節點,tensor是連接節點的邊。然而,構建一個tensor并不僅僅是構造一個對象那么簡單,至少要考慮以下問題:要支持節點本地的local tensor,以及分布式的global tensor;要支持eager和lazy執行模式;要支持不同的數據類型,包括float、double、int等;要支持不同設備。
鏈接:https://mp.weixin.qq.com/s/eB5TP9f8LQOzW7sDgUhGJQ
5. 深入了解MindSpore訓練推理框架設計
作者將圍繞MindSpore的Model類的相關代碼,對MindSpore的訓練流程設計和推理流程設計進行深入的解讀,并且結合相應的代碼,以分割任務為例,介紹如何使用Model.train和Model.eval構建復雜任務的訓練測試流程設計。
鏈接:https://zhuanlan.zhihu.com/p/559357242
6. 從Core Dump中提取CUDA的報錯信息
近期,Meta AI團隊在生產PyTorch AI模型時遇到了一個難題。這一問題由CUDA非法內存訪問引起,號稱集結了Meta全公司最牛的AI工程師才搞定,這篇博客記錄了他們使用CUDA的core dump來確定報錯位置所使用的技巧和實踐。
鏈接:https://mp.weixin.qq.com/s/OkHCFVCPLNJCG-f_eARn5w
7. 簡單談談CUDA的訪存合并
學習CUDA的人肯定會經常聽到“訪存合并”這個詞,作者主要從基礎概念、向量化的錯誤做法導致的未合并訪存進行介紹。
鏈接:https://zhuanlan.zhihu.com/p/559957579
8. MLIR-Playground: 探索下一代編譯軟件棧工程的新范式
MLIR中國社區的一些開發者利用個人業余時間,開發了MLIR-Playground,一個可以直接在瀏覽器里利用MLIR開發編譯邏輯的云端應用。此舉主要是受到了設計軟件Figma是如何利用Web技術重新定義了UI設計協作,以及OpenAI是如何利用簡單的網頁Playground大幅降低了超大AI模型嘗試門檻的啟發。
鏈接:https://zhuanlan.zhihu.com/p/560810344
9. TVM入門學習指南
作者結合TVM Unify相關的抽象以及之前的一些積累重新梳理一下TVM的整體流程。他從前端,中端(圖優化Pass機制),代碼生成(Schedule),Runtime,開發工具幾個角度進行了介紹。本文將盡量避免涉及到底層C++代碼的細枝末節,而是從較為宏觀的視角來講清楚目前TVM的架構,希望對入門TVM的讀者有幫助。
鏈接:https://zhuanlan.zhihu.com/p/560210215
10. 通用多模態基礎模型BEiT-3:引領文本、圖像、多模態預訓練邁向“大一統”
微軟亞洲研究院聯合微軟圖靈團隊推出了最新升級的BEiT-3預訓練模型,在廣泛的視覺及視覺-語言任務上,包括目標檢測(COCO)、實例分割(COCO)、語義分割(ADE20K)、圖像分類(ImageNet)、視覺推理(NLVR2)、視覺問答(VQAv2)、圖片描述生成(COCO)和跨模態檢索(Flickr30K,COCO)等,實現了SOTA的遷移性能。BEiT-3創新的設計和出色的表現為多模態研究打開了新思路,也預示著 AI 大一統漸露曙光。
鏈接:https://mp.weixin.qq.com/s/PIzTxwsojUSEf_8PtB2jig
11. 擴散模型背后數學太難了?谷歌用統一視角講明白了
很多研究者認為,基于擴散模型的文本圖像生成模型不但參數量小,生成的圖像質量卻更高,大有要取代GAN的勢頭。不過,擴散模型背后的數學公式讓許多研究者望而卻步,眾多研究者認為,其比VAE、GAN要難理解得多。
近日,來自 Google Research 的研究者撰文《 Understanding Diffusion Models: A Unified Perspective 》,本文以極其詳細的方式展示了擴散模型背后的數學原理,目的是讓其他研究者可以跟隨并了解擴散模型是什么以及它們是如何工作的。
鏈接:https://mp.weixin.qq.com/s/v14V_sMPhMVrtw2EKMISQQ
12. 深勢科技聯手阿里云,AI蛋白質預測再下一城
深勢科技與阿里云機器學習PAI團隊聯手,通過全新的蛋白質結構預測推理加速方案FoldAcc,結合深勢Uni-Fold最新模型代碼和參數,將單次預測能支持的最大氨基酸序列長度提升至6.6k,覆蓋99.992%已知的蛋白序列,同時推理速度顯著提升,達到目前已知的最佳推理優化效果,將為AI預測蛋白質結構落地應用提供重要助力。
鏈接:https://mp.weixin.qq.com/s/oSZ2hmWifiN5fIWRST2Dtw
13. 線上活動報名 | AI思享會:中國AI基礎軟件發展探討
時間:9月8日(本周四)14:30
TensorFlow和PyTorch等已經被廣泛應用,但隨著AI技術的進一步發展,在分布式訓練、高性能計算和高效編譯等方面都有了新的需求,AI基礎軟件的發展也有了新的要求和方向。
本期AI思享會邀請了幾位從事AI基礎軟件研究和創業的清華校友和老師等,分享各自在AI基礎軟件方面的成果和進展,及共同探討和展望新一代AI基礎軟件發展的情況。
鏈接:https://mp.weixin.qq.com/s/WUNiNFCPBJg9IigAHtjvQQ
題圖源自Dimitris Vetsikas,?Pixabay
其他人都在看
-
OneFlow v0.8.0正式發布
-
9篇分布式機器學習系統經典論文
-
深度學習硬件的過去、現在和未來
-
從Core Dump中提取CUDA的報錯信息
-
源碼解析:Tensor類型體系與Local Tensor
-
OneEmbedding:單卡訓練TB級推薦模型不是夢
-
大模型訓練難?效率超群、易用的“李白”模型庫來了
歡迎體驗OneFlow v0.8.0:GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient. - GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.https://github.com/Oneflow-Inc/oneflow/
總結
以上是生活随笔為你收集整理的探索编译软件栈新范式;高端GPU禁售的影响;陈天奇DL系统免费课程|AI系统前沿动态的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Redis高级项目实战,16条代码规范建
- 下一篇: iMeta | 南方医科大学谢黎炜、马颖