学术工业界大佬联合打造:ML产品落地流程指南
文?| 白鹡鸰給小鐵比了個心
編 | 小軼給白鳥鳥比了個贊
賣萌屋原創(chuàng)出品,本文禁止轉載
前言
現在已經有了許多現成的ML開發(fā)部署工具,所以想要完成一個ML產品并不困難。但在實際開發(fā)過程中,人多手雜,免不了一頓兵荒馬亂。相比之下,機械工業(yè)產品的開發(fā),已經形成了一套完整的調研、開發(fā)、測試、復核流程。這種規(guī)范化的好處就是可以把各種風險降到最低。作為項目動輒上億,時常涉及人命的NASA,為了保證開發(fā)過程萬無一失,早于上世紀九十年代就提出了技術成熟度(Technology Readiness Level, TRL) 的概念,用于描述項目開發(fā)進度。如今,為了能夠規(guī)范化ML產品開發(fā)部署,由Latent Science牽頭,MIT, NASA, Oxford, Microsoft Research, Nvidia, Unity AI等12家工業(yè)&學術界巨頭強強聯手,推出了機器學習技術成熟度 (Machine Learning Technology Readiness Levels, MLTRL) 量表,用于說明他們眼中一個合格的ML產品要經過哪些考驗才能上線。
這個指標既可以作為獨立開發(fā)者們對自己工作進度的評估參照物,還可能成為未來各大公司內部報告和相互合作時的溝通標準。目前MLTRL還處于Arxiv預印狀態(tài),先一起看看吧~
論文題目:
Technology Readiness Levels for Machine Learning Systems
論文鏈接 :
https://arxiv.org/abs/2101.03989
Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】 訂閱號后臺回復關鍵詞 【0209】 下載論文PDF~
機器學習技術成熟度
由于MLTRL的理念來源于TRL,制定成員也包括TRL的創(chuàng)始者NASA,從圖1可以看出,這兩個指標的相似度很高。
▲通用的技術成熟度量表與機器學習領域技術成熟度量表對比接下來是對各個等級較為詳細的說明:
TRL 0:一個大膽的想法
重點:算法,數據
算法進度:★★★☆☆
代碼進度:☆☆☆☆☆
測試進度:☆☆☆☆☆
團隊溝通:★☆☆☆☆
所有的研究都源于一個大膽的想法,一個另辟蹊徑的視角。這一階段的主要工作是文獻閱讀,并且從數學方面驗證想法的合理性,尤其需要注意你的研究基于了什么樣的假設 。你應該擬定好接下來的研究計劃,記得找?guī)讉€更為豐富的研究者一起檢查一遍,他們對可行性的判斷可能會更準確,而且可以協助你找到想法中存在的漏洞。此外,還應該確認清楚是否有足夠的數據支持接下來的研究。
TRL 1:目標導向型研究
重點:算法,實驗級 (research-caliber)代碼
算法進度:★★★★☆
代碼進度:★★☆☆☆
測試進度:★☆☆☆☆
團隊溝通:★★☆☆☆
大致敲定想法和研究計劃之后,就應該開始粗略地跑點代碼了。為了最高效率地驗證算法的可行性,參考一下同行的代碼暫時不會有問題,計算的復雜度、效率不應當占據太多的注意力 。這一階段的模型測試還不必面面俱到,而是可以專注于預期中算法能夠優(yōu)化的那一部分數據。如果是項目開發(fā),這時候要開始注意版本控制(包括代碼、模型和數據集)了,否則后期萬一出現問題,可能會付出慘痛的代價。
TRL 2:驗證原理
重點:算法,測試
算法進度:★★★★☆
代碼進度:★★☆☆☆
測試進度:★★☆☆☆
團隊溝通:★★☆☆☆
在類似于真實場景的環(huán)境中仿真/用類似真實分布的數據集測試過模型后,對模型的有效性證明就基本完成了。這里通常到了模型開發(fā)第一個分歧點:作為獨立的功能繼續(xù)開發(fā);或者是并入一個長期的研究/開發(fā)項目。
有效性證明(Verification and Validation, V & V):
模型建對了嗎?
模型有價值嗎?
TRL 3:系統(tǒng)開發(fā)
重點:雛形級 (prototype-caliber)代碼,團隊
算法進度:★★★★☆
代碼進度:★★★☆☆
測試進度:★★☆☆☆
團隊溝通:★★★☆☆
在完成上一階段對模型的測試后,是時候整理一下代碼了:
首先要保證代碼的整潔和魯棒性;
是否已經可以面對各種出乎意料的輸入或者運行結果;
對數據的接口、程序的交互性、是否符合團隊內的代碼規(guī)范;
算法的效率和可靠性也必須考慮到
此時你的隊友中應該既有寫AI的,又有工程師了,因為你們需要開始定義最終產品的服務級別協議和服務級別目標(Service-level agreements and objects, SLAs and SLOs)。
TRL 4:驗證概念(與實用性)
重點:測試,溝通
算法進度:★★★★★
代碼進度:★★★☆☆
測試進度:★★★☆☆
團隊溝通:★★★★☆
來了來了,手忙腳亂的與真實場景初接觸!此時你手里應當已經有著厚厚一沓關于模型表現、模型成本以及其他用戶關心指標的報表。然而,遇到的挑戰(zhàn)會更為復雜多樣。之前測試效果再好,放到真實場景里跑一跑,意料外的報錯層出不窮。本以為可以輕易從用戶那里獲得的數據,結果空白、缺失占了絕大多數。決定開發(fā)能否進入下一個階段的評估者們磨刀霍霍,很可能發(fā)出“擱置”、“中止”這樣可怕的聲音——在TRL 4階段項目夭折是很常見的。
TRL 5:模型能力評估
重點:測試,溝通
算法進度:★★★★★
代碼進度:★★★☆☆
測試進度:★★★★☆
團隊溝通:★★★★☆
是時候對“模型到底能做什么”蓋棺定論了:功能是什么,優(yōu)化體現在哪些方面,V & V的確切結論,都必須在這個階段給出來。然后開始草擬產品導向的需求 (product-driven requirement)。其實這個步驟和TRL 4之間沒有明顯的分界線,或者說TRL 4側重于在測試和溝通,TRL 5則強調必須下結論。進行評價的目的是為了將有限的開發(fā)資源集中到最值得的項目上。因此,想從TRL 5順利畢業(yè)絕對不容易。
TRL 6:應用級的開發(fā)
重點:產品級 (product-caliber)代碼
算法進度:★★★★★
代碼進度:★★★★☆
測試進度:★★★★☆
團隊溝通:★★★★☆
經歷完第一輪真實場景的摩擦,從考核中幸存下來之后就應該開始進一步狂敲代碼了。還記得之前的哪些山盟海誓嗎?SLAs, SLOs, 產品需求,前面吹的“水”都是現在實裝流下的淚??傊?#xff0c;碼就是了!
TRL 7:集成
重點:代碼,測試,團隊
算法進度:★★★★★
代碼進度:★★★★★
測試進度:★★★★★
團隊溝通:★★★★★
既然功能已經實現得差不多了,接下去就是如何包裝的問題了,所以這一階段需要各個環(huán)節(jié)上的人員多溝通合作。專注于算法的AI工程師要繼續(xù)測試模型在極端情況下的魯棒性,而軟件工程師必然要開始前端、后端、接口以及等等細節(jié)的處理。尤其需要注意兩點:
對質量的保障
還有數據(獲取、結構、用法和存儲安全)。
最近已經出現了對不正當獲取數據的嚴厲處罰案例,因此這方面需要格外注意[3]。
TRL 8:最后的部署
重點:測試
算法進度:★★★★★
代碼進度:★★★★★
測試進度:★★★★★
團隊溝通:★★★★★
測試!測試!測試!一邊部署一邊記得檢查項目面對各種極端情況的承壓性,要在用戶涌入服務器之前做好準備!沒準備好就別上!
TRL 9:上線啦啦啦~
重點:不要以為到這里就完事了
算法進度:★★★★★
代碼進度:★★★★★
測試進度:★★★★★
團隊溝通:★★★★★
可以說,從TRL 0-TRL 8都是勇者在新手村的任務,項目上線,才意味著漫長征程正式開始。根據實際運營情況和需求不斷改進算法和代碼,持續(xù)集成, 持續(xù)交付 (CI/CD),TRL 7-TRL 9循環(huán)的永動機模式就是項目的最終形態(tài)。
總結
作為機器學習項目的開發(fā)進度量表,MLTRL各個階段的劃分并不嚴格,也不一定非要按部就班地經歷每一個階段。只是說,這樣的步驟能較為合理地分配人力物力資源,并且避免出現意外后成本過高的慘案。文章中還出具了MLTRL的階段報告表格模板,并且對一些概念進行了更為詳細的說明。感興趣的朋友們可以自行翻看~
萌屋作者:白鹡鸰
白鹡鸰(jí líng)是一種候鳥,天性決定了會橫跨很多領域。已在上海交大棲息四年,進入了名為博士的換毛期。目前以圖像語義為食,但私下也對自然語言很感興趣,喜歡在賣萌屋輕松不失嚴謹的氛圍里浪~~形~~飛~~翔~~
知乎ID也是白鹡鸰,歡迎造訪。
作品推薦:
NLP太卷,我去研究蛋白質了~
谷歌40人發(fā)表59頁長文:為何真實場景中ML模型表現不好?
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1]Technology Readiness Level, Wikipedia
https://en.wikipedia.org/wiki/Technology_readiness_level
[2]Technology readiness levels (TRL); Extract from Part 19 - Commission Decision C(2014)4995.
https://ec.europa.eu/research/participants/data/ref/h2020/wp/2014_2015/annexes/h2020-wp1415-annex-g-trl_en.pdf
[3]?https://www.ftc.gov/enforcement/cases-proceedings/1923172/everalbum-inc-matter
總結
以上是生活随笔為你收集整理的学术工业界大佬联合打造:ML产品落地流程指南的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 我不看好data2vec这类多模态融合的
- 下一篇: 这个开源数据集要在全球扩大中文NLP影响