全球开源技术峰会上,第四范式分享OpenMLDB满月成绩
“從上個月開始,第四范式將OpenMLDB項目的56萬行代碼全部開源。到目前,我們收獲到了非常多來自開發者的反饋,以及來自開源社區貢獻者的鼓勵。在開源一個多月的時間里,我們的開源技術組件OpenMLDB在GitHub上獲得了1700個Star(業界常以1000個Star作為優質開源項目的衡量標準),前Cloudera機器學習CTO Tristan Zajonc也發文表示,OpenMLDB在技術上領先業界AI和機器學習的infra層數年。”
近日,第四范式技術副總裁、基礎技術負責人鄭曌在全球開源技術峰會GOTC 2021主論壇上介紹了第四范式開源項目的進展。
今年6月,第四范式宣布開源機器學習數據庫OpenMLDB、AI操作系統內核OpenAIOS兩大技術組件。同時也開放了開箱即用的“AIOS社區版”,內置兩大開源組件,以免費的方式提供給開發者使用。
眾所周知,數據質量仍然是制約AI技術發展的最大瓶頸。無論是傳統的事務型數據庫、分析型數據庫還是傳統數倉,都無法面向機器學習提供正確高效的數據供給,這些也直接導致了AI開發者仍有超過90%的精力花在數據建設上。
第四范式機器學習數據庫OpenMLDB聚焦在解決數據閉環(Closed-loop)、線上線下一致性(Consistency)、數據時序正確(Chronology)?等數據應用3大核心問題上。以數據時序為例,機器學習是一個基于歷史經驗,對未知信息進行預測的系統。然而,傳統數據庫難以區分哪些數據為歷史經驗,哪些為未知信息,從而導致了數據穿越(用未來的數據預測過去)這樣的錯誤發生。OpenMLDB提供了自動實時數據的拼接,數據泄露檢測等功能,從而避免在AI開發中數據錯誤的使用。
在性能及成本方面,OpenMLDB面向機器學習數據庫的訪、存、算等高IOPS環節,通過對數據庫邏輯執行計劃、物理執行計劃進行了分層優化,實現了高并行度的調度規劃策略,相比傳統數據庫實現了10倍的性能提升。此外,OpenMLDB基于非易失性存儲的算力優化特性,將整體的TCO降低了58%,該成果也被收錄進入2021數據庫頂級會議VLDB。
OpenMLDB受到前Cloudera機器學習CTO Tristan Zajonc及多位開源KOL的認可
“感謝各位社區的小伙伴們一直以來的幫助與支持,第四范式是開源社區的一個新人,未來不管是OpenMLDB還是OpenAIOS,我們的社區會做持續的迭代和演進,能夠和社區的同行們不斷去解決AI落地過程中遇到的痛點問題。我們也希望通過在技術上的迭代,能夠形成更多的創新。”鄭曌表示。
在此歡迎更多開發者加入第四范式社區,復制以下GitHub鏈接,即可下載第四范式開源機器學習數據庫OpenMLDB及開源人工智能操作系統內核OpenAIOS。
OpenMLDB Github:
https://github.com/4paradigm/OpenMLDB
OpenAIOS?Github:
https://github.com/4paradigm/openaios-platform
點擊「閱讀原文」或復制以下鏈接,即刻登錄AIOS社區版!
openaios.4paradigm.com?
總結
以上是生活随笔為你收集整理的全球开源技术峰会上,第四范式分享OpenMLDB满月成绩的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java基础篇2——运算符
- 下一篇: 第四范式获2021德国红点设计奖,继iF