制造工业中的机器学习应用:I概览
前言
簡單回顧一下工業中的實際的機器學習應用。這里的工業指的是第二產業,即生產制造。有時候工業界,是為了和學術界進行區分,那時的工業界更廣泛一些,甚至主要指第三產業服務業了,如我們熟悉的消費互聯網。
?“中國制造2025”等關乎工業互聯網的政策很多,但是在第二產業里搞機器學習根本不賺錢,下次如果換工作,絕對不來Lynk這種,一定要爭取去錢多的消費者互聯網了。不過,工業互聯網其實也很有樂趣,而且也很適合轉行的人進行賽道切入,尤其是機械、化工等具備專業知識的人。說起來,年齡大了哪有什么情懷,誰不是找不到工作才先混跡工業的呢。
步驟和流程
如果面對一個新的任務,那如何開始整個流程呢?工業中的實際的機器學習應用,首先掌握整個流程和big picture是很重要的。以下更多是我個人工作中總結的經驗,可能還有很多不足。
-
梳理整體脈絡,掌握全局,建立知識體系框架
-
復雜任務,分解為小任務,確定每個小任務的目標和評價方式
-
搞到數據,了解數據的來源、屬性,對數據探索性分析
-
驗證、特征、訓練、預測完整的快速baseline
-
迭代優化,從數據、目標、特征、模型的角度更一步優化
-
上線部署,要注重工程性和整體的架構 模型性能監測,繼續優化的同時要對性能下降快速定位和修復
有些容易忽視的點,例如第一步。面對一個新任務首先應該試圖建立整體的脈絡。對工作來說,可以保證方向的正確,保證遇到問題可以站在前人的肩膀上進行解決;而對個人來說,也是提高個人能力、學習新知識的好機會,甚至去別的地方面試時都更能侃侃而談裝大佬。隨著任務進行,這個脈絡也在逐步的完善清晰中。
第二步,在開始任務之前,要清楚這個任務在更大情景的定位,要清楚這個任務的評價方式。所以NG才在他的“machine learning yearning”強調一定要設定單個數值的評價方式,這樣才好讓整個團隊朝著正確的方向前進。
第三步和第五步中,要注意從實際情況進行考慮,畢竟真實場景其實不像比賽等封閉場景??梢栽O法搞到更多數據,可以設法搞到自己想搞的特征,也可能數據的來源里也有信息。比如我對BMW前工作印象依舊很深的一個案例,在研究汽車保修數據趨勢的時候,發現了趨勢并不是直觀反應質量變好或變差的,而是和每個月有幾個星期五強相關。繼而通過調查發現,原來經銷商雖然可以每天都上傳數據,但幾乎所有經銷商都是在周五集中上傳數據,導致如果這個月有5個周五的話,自然就比4個周五的多25%左右,而不是這個月的質量差、保修多。這種初看奇怪的現象,就可以通過數據的來源方式得到合理的解讀了。當時如果看不到這一點,就開始做預測模型就失去預測的意義了。
第六步和第七步中,我自己也不會,也沒啥工程能力,是非計算機的弱勢吧。提高一些計算機基礎是很有必要的。而定位線上問題一方面要積累經驗,另一方面也可以通過良好的系統設計幫助我們,例如監控輸入特征的數據范圍、數據屬性等。
后續篇章會結合具體案例介紹了。
聯系方式
公眾號YueTan
總結
以上是生活随笔為你收集整理的制造工业中的机器学习应用:I概览的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Mybatis源码分析之(三)mappe
- 下一篇: SpringBoot+VUE 前端加密算