机器学习家谱
?
今天的文章大神請忽略,主要是針對對機器學(xué)習(xí)一些關(guān)鍵概念還比較模糊的同學(xué),希望通過這篇文章幫大家梳理。如果把機器學(xué)習(xí)的各種方式組合看成是機器學(xué)習(xí)家譜的話,這個家譜差不多有四個分支:
?
按學(xué)習(xí)時效性區(qū)分
按學(xué)習(xí)是否增量區(qū)分
按模型的深度學(xué)區(qū)分
按學(xué)習(xí)方式區(qū)分
看下整個的家譜結(jié)構(gòu)圖:
下面還是分別介紹一下~
?
按學(xué)習(xí)時效性區(qū)分
這一點比較好理解,離線學(xué)習(xí)就是常規(guī)的機器學(xué)習(xí)方式,通過歷史收集的數(shù)據(jù)去訓(xùn)練模型。實時機器學(xué)習(xí)指的是通過線上實時產(chǎn)生的數(shù)據(jù)訓(xùn)練模型,數(shù)據(jù)源通常會是Kafka這樣的流式數(shù)據(jù)源,訓(xùn)練框架目前比較主流的是Flink、Spark-stream等。
按是否增量區(qū)分
增量式算法的重要性體現(xiàn)在2個方面:
1)在實際的數(shù)據(jù)庫中,數(shù)據(jù)量往往是逐漸增加的,因此,在面臨新的數(shù)據(jù)時,學(xué)習(xí)方法應(yīng)能對訓(xùn)練好的系統(tǒng)進行某些改動,以對新數(shù)據(jù)中蘊涵的知識進行學(xué)習(xí)。
2) 對一個訓(xùn)練好的系統(tǒng)進行修改的時間代價通常低于重新訓(xùn)練一個系統(tǒng)所需的代價。
增量學(xué)習(xí)背后衍生的道理可以通過一個例子說明。在社會圈或者自然界,很多事物的底層原理都是相通的。比如一個人會下象棋,那么他很容易去學(xué)習(xí)下圍棋,因為無論是象棋和圍棋,底層的一些邏輯是相同的。在模型層面,如果一個模型已經(jīng)具備了對象棋知識的理解,那么就可以用遷移學(xué)習(xí)的方式讓它在原有基礎(chǔ)上去學(xué)習(xí)圍棋,而不是重頭學(xué)習(xí)。
?
按模型深度區(qū)分
一句話形容,深度學(xué)習(xí)模型深度深,淺層學(xué)習(xí)模型深度淺。還有一種方法是利用深度學(xué)習(xí)的深和淺層學(xué)習(xí)的寬,就是推薦系統(tǒng)中常用的Wide&Deep。
按學(xué)習(xí)方式區(qū)分
?
有監(jiān)督學(xué)習(xí):訓(xùn)練數(shù)據(jù)既有特征(feature)又有標(biāo)簽(label),通過訓(xùn)練,讓機器可以自己找到特征和標(biāo)簽之間的聯(lián)系,在面對只有特征沒有標(biāo)簽的數(shù)據(jù)時,可以判斷出標(biāo)簽。
無監(jiān)督學(xué)習(xí)(unsupervised learning):訓(xùn)練樣本的標(biāo)記信息未知,目標(biāo)是通過對無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律,為進一步的數(shù)據(jù)分析提供基礎(chǔ),此類學(xué)習(xí)任務(wù)中研究最多、應(yīng)用最廣的是"聚類" (clustering),其他無監(jiān)督算法還有:密度估計(densityestimation)、異常檢測(anomaly detection) 等。
半監(jiān)督學(xué)習(xí):訓(xùn)練集同時包含有標(biāo)記樣本數(shù)據(jù)和未標(biāo)記樣本數(shù)據(jù),不需要人工干預(yù),讓學(xué)習(xí)器不依賴外界交互、自動地利用未標(biāo)記樣本來提升學(xué)習(xí)性能,就是半監(jiān)督學(xué)習(xí)。
強化學(xué)習(xí):通過一些行為產(chǎn)生的反饋來促使模型的演進。舉個例子,比如做一個自動駕駛模型,當(dāng)模型對汽車發(fā)出某些預(yù)測指令之后,汽車會有相應(yīng)的回饋,比如正常駕駛 or 發(fā)生碰撞。通過不斷的學(xué)習(xí)環(huán)境的反饋,找到對自己最有利的判斷模式,就是增化學(xué)習(xí)的原理。
《新程序員》:云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
- 上一篇: 写给开发向产品转型的同学的3句话
- 下一篇: 谈谈晋升-互联网民工篇