Fluid 架构创新论文被国际数据库顶会 ICDE 录用
近日,由阿里云聯合南京大學團隊撰寫的關于 Fluid 開源項目架構創新論文被數據管理與數據庫國際頂級會議 ICDE 2022 長文錄用。
ICDE(International Conference on Data Engineering,即國際數據工程會議)是電氣與電子工程師協會(IEEE)的旗艦會議,和 SIGMOD、VLDB并 稱數據管理與數據庫領域的三大國際頂尖學術會議,入選中國計算機學會(CCF)推薦 A 類國際會議列表。
此次被錄用的論文–《Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs》,針對云原生環境下運行深度學習訓練作業往往面臨 I/O 方面的性能挑戰,提出了新的數據集抽象和彈性加速系統架構,通過數據集特性自動優化的緩存引擎來加速數據的訪問。其作者主要來自阿里云云原生團隊和南京大學計算機系。
Fluid(https://github.com/fluid-cloudnative/fluid) 是云原生計算基金會(CNCF)旗下的一個彈性數據編排和加速沙箱開源項目,是由阿里云云原生團隊和南京大學共同發起,并投入大量精力維護的。其核心技術功能包括:屏蔽異構存儲的數據集抽象、數據緩存自動彈性擴縮容、云上數據與應用協同編排等。自 2020 年開源以來,Fluid 項目發展迅速,積累 1000 余次 PR 提交,發布了 7 個版本,并于 2021 年 4 月正式入選云原生計算基金會,填補了 Kubernetes 生態中彈性數據緩存編排方面的空白,并進入國際 CNCF 全景圖開源云原生編排調度軟件層、被評為 2021 年度 OSCAR 尖峰開源項目。
在實際生產環境中,Fluid 已經幫助大量用戶顯著地提升 AI 模型訓練性能,降低訓練數據的管理復雜度。阿里云云原生團隊將 Fluid 的核心思想和設計,作為云原生 AI 領域的重要一環實現和優化,并通過容器服務 ACK 的云原生 AI 套件產品提供服務。
過去幾年,阿里云通過容器服務 ACK 在異構計算資源管理、AI 任務生命周期管理、AI 任務調度和加速、AI 訓練數據加速等方面,進行了一系列云原生 AI 方向的持續實踐和創新,為 AI 工程創建效率、計算資源利用率、AI 平臺建設速度等帶來了突破性提升。這些創新除了在云上服務通過多種工具和解決方案為企業賦能之外,阿里云云原生團也將領先的云原生 AI 技術框架反哺開源,與合作伙伴共同發起并維護開源項目 Fluid,并將其向云原生基金會 CNCF 捐獻。現在,已有來自 10+知名企業的 140+ 貢獻者,和 Fluid 社區一起推動國內云原生 AI 領域的技術創新與落地實踐。
此次論文入選 ICDE,也代表阿里云在云原生容器技術領域持續深耕和不斷創新的又一個結果,在此之前 Serverless 相關的去中心化快速鏡像分發技術論文被 USENIX ATC’21 錄用。2022 年 1 月,國際權威咨詢機構 Forrester 發布《 The Forrester WaveTM: Public Cloud Container Platforms, Q1 2022 》報告顯示,阿里云進入全球公共云容器平臺"領導者"象限,這是中國云計算廠商首次進入該象限。
附論文信息
錄用論文題目: Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs (ICDE 2022)
作者:顧榮,張凱,徐之浩,車漾,范斌,侯浩軍,戴海鵬,易立,丁宇,陳貴海,黃宜華
*論文概述: *得益于云原生平臺提供的容器化與編排技術所具有的高彈性、低成本、靈活運維等優勢,越來越多的用戶開始在 以Kubenetes/Docker 技術為代表的容器云平臺上運行深度學習訓練作業。然而,直接在云原生環境下運行深度學習訓練作業往往面臨 I/O 方面的性能挑戰,包括復雜的數據訪問和調優、難以動態匹配 GPU I/O 需求、以及跨作業的緩存數據資源共享低效等。針對上述問題,本文研究提出了一套基于 Fluid 的解決方案:一個面向云原生深度學習作業訓練的數據集抽象和彈性加速系統。Fluid 通過提供一個 Fluid Dataset 的數據抽象屏蔽了底層異構的存儲,并且通過一種面向數據集特性自動優化的緩存引擎來加速數據的訪問。進一步地,Fluid 還可以在作業訓練過程中根據 I/O 需求的變化,動態調整緩存空間的大小。最后,為了提升多作業執行的性能,Fluid 還能夠根據跨作業緩存的應用語義優化作業調度執行次序,從而提升總體執行性能。相關場景實驗表明,Fluid能夠大幅提升主流和業界領先的云原生調度系統的性能,并且對原系統無侵入性。
發布云原生技術最新資訊、匯集云原生技術最全內容,定期舉辦云原生活動、直播,阿里產品及用戶最佳實踐發布。與你并肩探索云原生技術點滴,分享你需要的云原生內容。
關注【阿里巴巴云原生】公眾號,獲取更多云原生實時資訊!
總結
以上是生活随笔為你收集整理的Fluid 架构创新论文被国际数据库顶会 ICDE 录用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 企业深入使用微服务后会面临哪些问题?云原
- 下一篇: 芙蓉之约 , Serverless 技术