成为一家机器学习公司意味着投资基础技术
編者注:文中超鏈接如果不能訪問(wèn)可以點(diǎn)擊“閱讀原文”訪問(wèn)本文原頁(yè)面;為了讓您的數(shù)據(jù)策略發(fā)揮作用,您需要獲取必要的關(guān)于工具和技術(shù)的專業(yè)知識(shí)。我們2019年9月23日至26日在紐約舉辦O’Reilly Strata數(shù)據(jù)會(huì)議,歡迎加入。
在這篇文章中,我分享今年早些時(shí)候我在倫敦的Strata數(shù)據(jù)會(huì)議上發(fā)表主題演講的幻燈片。我將重點(diǎn)介紹最近一項(xiàng)關(guān)于機(jī)器學(xué)習(xí)被采納情況的調(diào)查結(jié)果,并描述公司內(nèi)部數(shù)據(jù)和機(jī)器學(xué)習(xí)的最新趨勢(shì)?,F(xiàn)在是評(píng)估企業(yè)活動(dòng)的好時(shí)機(jī),有許多跡象表明大量公司已經(jīng)開(kāi)始使用機(jī)器學(xué)習(xí)。例如,在2018年7月的這份調(diào)查吸引了超過(guò)11000名受訪者,我們發(fā)現(xiàn)公司有很強(qiáng)的參與感:51%的公司表示他們已經(jīng)在生產(chǎn)環(huán)境中使用了機(jī)器學(xué)習(xí)模型。
隨著圍繞人工智能的過(guò)度宣傳,人們很容易跳入涉及您不熟悉的數(shù)據(jù)類型的坑中。我們發(fā)現(xiàn),那些成功利用機(jī)器學(xué)習(xí)的公司,要么把機(jī)器學(xué)習(xí)建立在現(xiàn)有數(shù)據(jù)產(chǎn)品和服務(wù)的基礎(chǔ)上,要么更新現(xiàn)有模型和算法來(lái)實(shí)現(xiàn)對(duì)當(dāng)前業(yè)務(wù)的支持。以下是一些組織開(kāi)始使用機(jī)器學(xué)習(xí)的典型方式:
建立在現(xiàn)有數(shù)據(jù)分析用例的基礎(chǔ)上:例如,可以將現(xiàn)有數(shù)據(jù)源用于商業(yè)智能和分析,并在機(jī)器學(xué)習(xí)程序中使用它們。
更新現(xiàn)有應(yīng)用程序,如推薦系統(tǒng)、搜索排名、時(shí)間序列預(yù)測(cè)等。
使用機(jī)器學(xué)習(xí)解鎖對(duì)新的數(shù)據(jù)類型的分析,這些數(shù)據(jù)類型包括圖像、音頻、視頻。
處理全新的用例和應(yīng)用。
以深度學(xué)習(xí)為例,這是一種特殊形式的機(jī)器學(xué)習(xí),在2011/2012年因語(yǔ)音和計(jì)算機(jī)視覺(jué)的創(chuàng)紀(jì)錄模型而重新出現(xiàn)。當(dāng)我們繼續(xù)閱讀語(yǔ)音和計(jì)算機(jī)視覺(jué)方面令人印象深刻的突破時(shí),公司開(kāi)始使用深度學(xué)習(xí)來(lái)擴(kuò)充或取代現(xiàn)有的模型和算法。著名的例子是谷歌的機(jī)器翻譯系統(tǒng),它從“以統(tǒng)計(jì)為核心”的方法轉(zhuǎn)移到了使用TensorFlow來(lái)做。在我們自己的會(huì)議中,我們看到了人民對(duì)時(shí)間序列和自然語(yǔ)言處理的深度學(xué)習(xí)培訓(xùn)課程/教程的濃厚興趣,這兩個(gè)領(lǐng)域里,公司可能已經(jīng)有了現(xiàn)有的解決方案,深度學(xué)習(xí)也開(kāi)始顯示出一些希望。
機(jī)器學(xué)習(xí)不僅出現(xiàn)在更多的產(chǎn)品和系統(tǒng)中,而且正如我們?cè)谥耙黄恼?#xff0c;機(jī)器學(xué)習(xí)也將改變應(yīng)用程序本身在未來(lái)的構(gòu)建方式。開(kāi)發(fā)人員會(huì)發(fā)現(xiàn)自己越來(lái)越多地構(gòu)建具有機(jī)器學(xué)習(xí)元素的軟件。因此,許多開(kāi)發(fā)人員需要整理數(shù)據(jù),訓(xùn)練模型,并分析模型的結(jié)果。話雖如此,我們?nèi)匀惶幵谝粋€(gè)高度經(jīng)驗(yàn)主義的時(shí)代:我們需要大數(shù)據(jù)、大模型和大計(jì)算機(jī)。
圖1 一種典型的機(jī)器學(xué)習(xí)數(shù)據(jù)管線。資料來(lái)源:O’Reilly不得不提到,深度學(xué)習(xí)模型比數(shù)據(jù)科學(xué)家先前最青睞算法更需要大量數(shù)據(jù)。數(shù)據(jù)是機(jī)器學(xué)習(xí)應(yīng)用程序的關(guān)鍵,讓數(shù)據(jù)流動(dòng)、被清洗、并以可用的形式出現(xiàn),將是維持機(jī)器學(xué)習(xí)實(shí)踐的關(guān)鍵。
著眼于機(jī)器學(xué)習(xí)日益增長(zhǎng)的重要性,我們最近完成了數(shù)據(jù)基礎(chǔ)設(shè)施調(diào)查,這個(gè)調(diào)查吸引了超過(guò)3200受訪者。我們的目標(biāo)有兩個(gè):(1)找出人們?cè)谑褂檬裁垂ぞ吆推脚_(tái),以及(2)確定公司是否正在構(gòu)建維護(hù)機(jī)器學(xué)習(xí)項(xiàng)目所必須的基礎(chǔ)工具。許多受訪者表示他們正在使用開(kāi)源工具(Apache Spark、Kafka、TensorFlow、PyTorch等)。)和云中的托管服務(wù)。
我們問(wèn)的一個(gè)主要問(wèn)題是:你目前正在構(gòu)建或評(píng)估什么技術(shù)?
毫不奇怪,數(shù)據(jù)集成和ETL名列前茅,60%的受訪者目前正在構(gòu)建或評(píng)估該領(lǐng)域的解決方案。在一個(gè)數(shù)據(jù)渴求算法的時(shí)代,一切都真正從收集和匯總數(shù)據(jù)開(kāi)始。
讓您的數(shù)據(jù)為機(jī)器學(xué)習(xí)做好準(zhǔn)備的一個(gè)重要部分,是對(duì)其進(jìn)行規(guī)范化、標(biāo)準(zhǔn)化,并使用其他數(shù)據(jù)源對(duì)其進(jìn)行擴(kuò)充。52%的受訪者表示,他們正在構(gòu)建或評(píng)估數(shù)據(jù)準(zhǔn)備和清理解決方案。這些工具包括用于數(shù)據(jù)準(zhǔn)備的Human-In-The-Loop系統(tǒng):這些工具允許領(lǐng)域?qū)<矣?xùn)練自動(dòng)化系統(tǒng)進(jìn)行大規(guī)模的數(shù)據(jù)準(zhǔn)備和清理。事實(shí)上,有一個(gè)令人興奮的新研究領(lǐng)域叫做數(shù)據(jù)編程,它統(tǒng)一了訓(xùn)練集的程序化創(chuàng)建技術(shù)。
您還需要能夠讓您了解您擁有哪些數(shù)據(jù),以及誰(shuí)可以訪問(wèn)這些數(shù)據(jù)的解決方案。調(diào)查中約三分之一的受訪者表示他們對(duì)數(shù)據(jù)治理系統(tǒng)和數(shù)據(jù)目錄感興趣。一些公司開(kāi)始構(gòu)建自己的解決方案,一些公司將在今年秋天在紐約的地層數(shù)據(jù)上展示它們,例如,Marquez和DataBook(Uber)。同時(shí)初創(chuàng)公司——Alation、Immuta、Okera等公司也在相同領(lǐng)域開(kāi)發(fā)有趣的產(chǎn)品。
21%的受訪者表示,他們正在構(gòu)建或評(píng)估數(shù)據(jù)譜系解決方案。過(guò)去,我們對(duì)數(shù)據(jù)源的態(tài)度很隨意。關(guān)于數(shù)據(jù)倫理、隱私和安全的討論已經(jīng)讓數(shù)據(jù)科學(xué)家意識(shí)到數(shù)據(jù)譜系和來(lái)源的重要性。具體來(lái)說(shuō),公司需要知道數(shù)據(jù)來(lái)自哪里,數(shù)據(jù)是如何收集的,以及數(shù)據(jù)是如何被修改的。審計(jì)或復(fù)制ML管線的需求日益成為一個(gè)法律和安全問(wèn)題。幸運(yùn)的是,我們開(kāi)始看到開(kāi)源項(xiàng)目(包括DVC, Pachyderm, Delta Lake, DOLT)解決了對(duì)數(shù)據(jù)譜系和來(lái)源的需求。在最近的會(huì)議上,我們還與建立了數(shù)據(jù)譜系系統(tǒng)的公司進(jìn)行了會(huì)談——Intuit、Lyft、Accenture、NetFlix等公司,更多關(guān)于數(shù)據(jù)治理/譜系的系統(tǒng)將于今年秋天在紐約Strata 數(shù)據(jù)會(huì)議上一起展示。
隨著組織內(nèi)數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師數(shù)量的增長(zhǎng),工具必須標(biāo)準(zhǔn)化,模型和特征需要共享,需要開(kāi)始引入自動(dòng)化流程。58%的受訪者表示他們正在構(gòu)建或評(píng)估數(shù)據(jù)科學(xué)平臺(tái)。我們的Strata數(shù)據(jù)會(huì)議持續(xù)舉行幾次會(huì)議,討論公司如何構(gòu)建內(nèi)部數(shù)據(jù)科學(xué)平臺(tái),特別是他們做出了哪些權(quán)衡、選擇了哪些設(shè)計(jì),以及在此過(guò)程中吸取了哪些經(jīng)驗(yàn)教訓(xùn)。
那么云服務(wù)呢?在我們最近的調(diào)查中,我們發(fā)現(xiàn)大多數(shù)人已經(jīng)在部分?jǐn)?shù)據(jù)基礎(chǔ)設(shè)施中使用公共云服務(wù),超過(guò)三分之一的人一直在使用serverless(無(wú)服務(wù)器技術(shù))。我們?cè)谧罱臅?huì)議上已經(jīng)舉辦了許多關(guān)serverless的培訓(xùn)課程、輔導(dǎo)課和講座,包括Eric Jonas討論UCBerkeley最近一篇關(guān)于serverless論文的演講,還有一個(gè)Avner Braverman的講座,闡述了serverless在人工智能和數(shù)據(jù)應(yīng)用中的作用。
公司剛剛開(kāi)始構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用程序,我相信機(jī)器學(xué)習(xí)的應(yīng)用將在未來(lái)幾年繼續(xù)增長(zhǎng),原因如下:
5G正開(kāi)始推出,5G將導(dǎo)致機(jī)器對(duì)機(jī)器應(yīng)用程序的發(fā)展,其中許多應(yīng)用程序?qū)瑱C(jī)器學(xué)習(xí)。
機(jī)器學(xué)習(xí)(特別是深度學(xué)習(xí))的專用硬件將上線:我們已經(jīng)看到了用于邊緣設(shè)備和服務(wù)器模型推斷的新硬件。在2019年第三季度/第四季度左右,用于訓(xùn)練深度學(xué)習(xí)模型的專用硬件將會(huì)推出。想象一下讓數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家以很少的成本和時(shí)間運(yùn)行實(shí)驗(yàn)的系統(tǒng)。這種用于機(jī)器學(xué)習(xí)訓(xùn)練和推理的新一代專用硬件將允許數(shù)據(jù)科學(xué)家探索和部署許多新類型的模型。
有幾個(gè)早期的跡象表明機(jī)器學(xué)習(xí)將繼續(xù)在公司內(nèi)部發(fā)展,這兩個(gè)跡象都表明越來(lái)越多的公司對(duì)機(jī)器學(xué)習(xí)感興趣。首先,幾年前當(dāng)我們?cè)诿襟w上已經(jīng)讀到大量關(guān)于數(shù)據(jù)科學(xué)家的文章時(shí),一個(gè)致力于機(jī)器學(xué)習(xí)進(jìn)入生產(chǎn)環(huán)境的新崗位才剛開(kāi)始出現(xiàn)。
圖3 數(shù)據(jù)來(lái)自推特的投票。資料來(lái)源:O’Reilly機(jī)器學(xué)習(xí)工程師介于數(shù)據(jù)科學(xué)和工程運(yùn)維之間,他們的工資往往比數(shù)據(jù)科學(xué)家高,而且他們通常擁有更強(qiáng)的技術(shù)和編程技能。正如我在推特上的投票調(diào)查顯示的那樣,似乎有早期跡象表明數(shù)據(jù)科學(xué)家正在將自己為符合這個(gè)新崗位進(jìn)行“重塑”。
圖4 像MLflow這樣的模型開(kāi)發(fā)工具正在流行起來(lái)。資料來(lái)源:O’Reilly另一個(gè)機(jī)器學(xué)習(xí)興起的信號(hào)是,有一些像MLflow這樣具有很大吸引力的新項(xiàng)目。在它推出后的大約10個(gè)月內(nèi),我們已經(jīng)看到許多公司對(duì)此很感興趣。正如我們?cè)谧罱黄恼轮刑岬降?#xff0c;MLflow的一個(gè)常見(jiàn)用例是實(shí)驗(yàn)跟蹤和管理—在MLflow出現(xiàn)之前,還沒(méi)有好的開(kāi)源工具。MLflow和Kubeflow等項(xiàng)目(以及comet.ml和Verta.AI等公司的產(chǎn)品)使機(jī)器學(xué)習(xí)的開(kāi)發(fā)更容易管理。
MLflow是一個(gè)有趣的新工具,但是它專注于模型開(kāi)發(fā)。隨著您的機(jī)器學(xué)習(xí)實(shí)踐擴(kuò)展到組織的許多部分,很明顯您將需要其他專門的工具。在與許多已經(jīng)為機(jī)器學(xué)習(xí)構(gòu)建了數(shù)據(jù)平臺(tái)和基礎(chǔ)設(shè)施的公司交談時(shí),出現(xiàn)了一些在設(shè)計(jì)工具鏈時(shí)必須考慮的重要因素:
支持不同的建模方法和工具:雖然深度學(xué)習(xí)變得更加重要,但事實(shí)是,即使是領(lǐng)先的技術(shù)公司也使用各種建模方法,包括SVM、XGboost和統(tǒng)計(jì)學(xué)習(xí)方法。
模型訓(xùn)練的持續(xù)時(shí)間和訓(xùn)練頻率會(huì)有所不同,這取決于用例、數(shù)據(jù)量和所使用的特定算法類型。
具體應(yīng)用中涉及到多少模型推理?
正如數(shù)據(jù)是需要專門工具(包括數(shù)據(jù)治理解決方案和數(shù)據(jù)目錄)管理的資產(chǎn)一樣,模型也是需要管理和保護(hù)的寶貴資產(chǎn)。正如我們?cè)谥耙黄恼绿岬降?#xff0c;模型管理和模型維護(hù)工具也將變得越來(lái)越重要:機(jī)器學(xué)習(xí)民主化的下一個(gè)重要步驟是使其更易于管理。模型治理和模型維護(hù)將需要包含以下項(xiàng)目的解決方案:
用于授權(quán)和安全的數(shù)據(jù)庫(kù):誰(shuí)對(duì)某些模型具有讀/寫權(quán)限
列出模型的目錄或數(shù)據(jù)庫(kù),包括模型的測(cè)試、訓(xùn)練和部署時(shí)間
審計(jì)所需的元數(shù)據(jù)和中間組件
用于部署、監(jiān)控和警報(bào)的系統(tǒng):誰(shuí)批準(zhǔn)模型將其推到生產(chǎn)環(huán)境,誰(shuí)能夠監(jiān)控其性能并接收警報(bào),以及誰(shuí)對(duì)此負(fù)責(zé)
為各種主體(運(yùn)維部門、機(jī)器學(xué)習(xí)工程師、數(shù)據(jù)科學(xué)家、企業(yè)主)提供自定義視圖的儀表板
公司正在了解到,隨著機(jī)器學(xué)習(xí)使用的興起,隨之而來(lái)的是有許多重要的需要考慮的方面。萬(wàn)幸的是,研究團(tuán)體已經(jīng)開(kāi)始推出技術(shù)和工具來(lái)解決機(jī)器學(xué)習(xí)提出的一些重要挑戰(zhàn),包括公平性、可解釋性、安全性和可靠性,尤其是安全性和隱私性。機(jī)器學(xué)習(xí)經(jīng)常與用戶互動(dòng)并影響用戶,因此公司不僅需要制定流程,讓他們負(fù)責(zé)任地部署機(jī)器學(xué)習(xí),還需要構(gòu)建基礎(chǔ)技術(shù),讓他們保持對(duì)模型的監(jiān)督,尤其是在出現(xiàn)問(wèn)題時(shí)更是如此。我上面提到的技術(shù)——數(shù)據(jù)治理、數(shù)據(jù)譜系、模型治理——都將有助于管理這些風(fēng)險(xiǎn)。特別是,審計(jì)和測(cè)試機(jī)器學(xué)習(xí)系統(tǒng)將依賴于我上面描述的許多工具。
風(fēng)險(xiǎn)和考慮是真實(shí)存在的,而不僅僅是只存在于理論中。這些基本工具將越來(lái)越重要,不再可有可無(wú)。例如,最近一個(gè)DLA Piper調(diào)查提供了向監(jiān)管機(jī)構(gòu)報(bào)告的GDPR違規(guī)事件的估計(jì):截至2019年2月,有超過(guò)59000起個(gè)人數(shù)據(jù)違規(guī)濫用事件。
圖6 機(jī)器學(xué)習(xí)涉及一系列相關(guān)的算法。資料來(lái)源:O'Reilly雖然我們傾向于認(rèn)為機(jī)器學(xué)習(xí)產(chǎn)生一個(gè)我們部署的“模型”或“算法”,但是審計(jì)機(jī)器學(xué)習(xí)系統(tǒng)可能是一項(xiàng)挑戰(zhàn),因?yàn)閷?shí)際上有兩種算法需要跟蹤:
在產(chǎn)品應(yīng)用中部署和使用的實(shí)際模型
使用數(shù)據(jù)來(lái)產(chǎn)生最優(yōu)化某些目標(biāo)函數(shù)的模型的算法(“訓(xùn)練優(yōu)化器”和“數(shù)據(jù)管線”)。
因此,管理機(jī)器學(xué)習(xí)意味著構(gòu)建一套工具來(lái)管理一系列相關(guān)的算法。基于我在上面描述的調(diào)查結(jié)果,公司開(kāi)始構(gòu)建重要的基礎(chǔ)技術(shù)——數(shù)據(jù)集成和ETL、數(shù)據(jù)治理和數(shù)據(jù)目錄、數(shù)據(jù)譜系、模型開(kāi)發(fā)和模型治理——這些對(duì)于維持負(fù)責(zé)任的機(jī)器學(xué)習(xí)實(shí)踐非常重要。
但是挑戰(zhàn)依然存在,尤其是那些公司,在不得不應(yīng)付大量信息技術(shù)、軟件和云解決方案( 管理“保持燈光常亮”這種基本任務(wù)除外)的同時(shí),機(jī)器學(xué)習(xí)的使用還在增加。好消息是,有早期跡象表明,公司開(kāi)始認(rèn)識(shí)到,構(gòu)建或獲取必要的基礎(chǔ)技術(shù)是必須的。
相關(guān)資源:
“在企業(yè)中持續(xù)進(jìn)行機(jī)器學(xué)習(xí)”
“用于機(jī)器學(xué)習(xí)開(kāi)發(fā)和模型治理的專用工具變得至關(guān)重要”
“機(jī)器學(xué)習(xí)中的風(fēng)險(xiǎn)管理”
“什么是機(jī)器學(xué)習(xí)工程師?”: 一種專注于創(chuàng)建數(shù)據(jù)產(chǎn)品,使數(shù)據(jù)科學(xué)在生產(chǎn)中發(fā)揮作用的新崗位
“機(jī)器學(xué)習(xí)對(duì)軟件開(kāi)發(fā)而言意味著什么”
“機(jī)器學(xué)習(xí)中的深度自動(dòng)化”
“在實(shí)踐中,什么是硬核數(shù)據(jù)科學(xué)?”:將數(shù)據(jù)科學(xué)引入生產(chǎn)環(huán)境的架構(gòu)剖析
“將機(jī)器學(xué)習(xí)模型轉(zhuǎn)化為真實(shí)產(chǎn)品和服務(wù)時(shí),所獲得的經(jīng)驗(yàn)教訓(xùn)”
This article originally appeared in English: "Becoming a machine learning company means investing in foundational technologies".
Ben Lorica
Ben Lorica是O'Reilly Media, Inc. 的首席數(shù)據(jù)科學(xué)家,也是Strata數(shù)據(jù)會(huì)議和人工智能會(huì)議的日程主管。他在各種場(chǎng)景中應(yīng)用了商業(yè)智能,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析,這些場(chǎng)景包括:直銷,消費(fèi)者和市場(chǎng)研究,精準(zhǔn)廣告,文本挖掘和金融工程。他的背景涵蓋了投資管理公司,互聯(lián)網(wǎng)創(chuàng)業(yè)公司和金融服務(wù)公司。
總結(jié)
以上是生活随笔為你收集整理的成为一家机器学习公司意味着投资基础技术的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 12 个组织良好的网络监控工具
- 下一篇: Kubesphere之ks-instal