Coursera机器学习笔记(一) - 监督学习vs无监督学习
轉(zhuǎn)載?http://daniellaah.github.io/2016/Machine-Learning-Andrew-Ng-My-Notes-Week-1-Introduction.html
一. 監(jiān)督學(xué)習(xí)
什么是監(jiān)督學(xué)習(xí)? 我們來(lái)看看維基百科中給出的定義:
監(jiān)督式學(xué)習(xí)(英語(yǔ):Supervised learning),是一個(gè)機(jī)器學(xué)習(xí)中的方法,可以由訓(xùn)練資料中學(xué)到或建立一個(gè)模式(函數(shù) / learning model),并依此模式推測(cè)新的實(shí)例。訓(xùn)練資料是由輸入物件(通常是向量)和預(yù)期輸出所組成。函數(shù)的輸出可以是一個(gè)連續(xù)的值(稱為回歸分析),或是預(yù)測(cè)一個(gè)分類標(biāo)簽(稱作分類)
從數(shù)據(jù)的角度來(lái)講, 監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的區(qū)別就在于監(jiān)督學(xué)習(xí)的數(shù)據(jù)不僅僅有特征組成, 即每一個(gè)數(shù)據(jù)樣本都包含一個(gè)準(zhǔn)確的輸出值. 在房?jī)r(jià)預(yù)測(cè)的問(wèn)題中, 數(shù)據(jù)由特征+房?jī)r(jià)組成.
1.1 監(jiān)督學(xué)習(xí)的分類
在監(jiān)督學(xué)習(xí)中, 我們的預(yù)測(cè)結(jié)果可以是連續(xù)值, 也可以是離散值. 我們根據(jù)這樣的屬性將監(jiān)督學(xué)習(xí)氛圍回歸問(wèn)題和分類問(wèn)題.
下面我們分別舉一個(gè)例子來(lái)看看, 學(xué)完這兩個(gè)例子之后, 我們就會(huì)對(duì)監(jiān)督學(xué)習(xí), 回歸以及分類有比較清晰地認(rèn)識(shí)了.
1.2 監(jiān)督學(xué)習(xí)舉例
1.2.1 回歸問(wèn)題
我們現(xiàn)在有這么一個(gè)問(wèn)題, 我們想通過(guò)給定的一個(gè)房子的面積來(lái)預(yù)測(cè)這個(gè)房子在市場(chǎng)中的價(jià)格. 這里的房子的面積就是特征, 房子的價(jià)格就是一個(gè)輸出值. 為了解決這個(gè)問(wèn)題, 我們獲取了大量的房地產(chǎn)數(shù)據(jù), 每一條數(shù)據(jù)都包含房子的面積及其對(duì)應(yīng)價(jià)格. 第一, 我們的數(shù)據(jù)不僅包含房屋的面積, 還包含其對(duì)應(yīng)的價(jià)格, 而我們的目標(biāo)就是通過(guò)面積預(yù)測(cè)房?jī)r(jià). 所以這應(yīng)該是一個(gè)監(jiān)督學(xué)習(xí); 其次, 我們的輸出數(shù)據(jù)房?jī)r(jià)可以看做是連續(xù)的值, 所以這個(gè)問(wèn)題是一個(gè)回歸問(wèn)題. 至于如何通過(guò)數(shù)據(jù)得到可以使用的模型, 后面的幾節(jié)課我們?cè)僮鲇懻?
思考: 如果對(duì)于同樣的數(shù)據(jù), 但是我們的目標(biāo)是預(yù)測(cè)這個(gè)房子的房?jī)r(jià)是大于100w還是小于100w, 那么這個(gè)時(shí)候是什么哪一類問(wèn)題?
1.2.2 分類問(wèn)題
我們?cè)賮?lái)看一個(gè)分類問(wèn)題, 從名字上來(lái)講, 分類問(wèn)題還是比較好理解的, 我們的目標(biāo)應(yīng)該是要對(duì)數(shù)據(jù)進(jìn)行分類. 現(xiàn)在我們的數(shù)據(jù)是有關(guān)乳腺癌的醫(yī)學(xué)數(shù)據(jù), 它包含了腫瘤的大小以及該腫瘤是良性的還是惡性的. 我們的目標(biāo)是給定一個(gè)腫瘤的大小來(lái)預(yù)測(cè)它是良性還是惡性. 我們可以用0代表良性,1代表惡性. 這就是一個(gè)分類問(wèn)題, 因?yàn)槲覀円A(yù)測(cè)的是一個(gè)離散值. 當(dāng)然, 在這個(gè)例子中, 我們的離散值可以去’良性’或者’惡性’. 在其他分類問(wèn)題中, 離散值可能會(huì)大于兩個(gè).例如在該例子中可以有{0,1,2,3}四種輸出,分別對(duì)應(yīng){良性, 第一類腫瘤, 第二類腫瘤, 第三類腫瘤}。
在這個(gè)例子中特征只有一個(gè)即瘤的大小。 對(duì)于大多數(shù)機(jī)器學(xué)習(xí)的問(wèn)題, 特征往往有多個(gè)(上面的房?jī)r(jià)問(wèn)題也是, 實(shí)際中特征不止是房子的面積). 例如下圖, 有“年齡”和“腫瘤大小”兩個(gè)特征。(還可以有其他許多特征,如下圖右側(cè)所示)
二. 無(wú)監(jiān)督學(xué)習(xí)
在監(jiān)督學(xué)習(xí)中我們也提到了它與無(wú)監(jiān)督學(xué)習(xí)的區(qū)別. 在無(wú)監(jiān)督學(xué)習(xí)中, 我們的數(shù)據(jù)并沒有給出特定的標(biāo)簽, 例如上面例子中的房?jī)r(jià)或者是良性還是惡性. 我們目標(biāo)也從預(yù)測(cè)某個(gè)值或者某個(gè)分類便成了尋找數(shù)據(jù)集中特殊的或者對(duì)我們來(lái)說(shuō)有價(jià)值結(jié)構(gòu). 如下圖所示, 我們可以直觀的感受到監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)在數(shù)據(jù)集上的區(qū)別.
我們也可以從圖中看到, 大概可以將數(shù)據(jù)及分成兩個(gè)簇. 將數(shù)據(jù)集分成不同簇的無(wú)監(jiān)督學(xué)習(xí)算法也被稱為聚類算法.
2.1 無(wú)監(jiān)督學(xué)習(xí)舉例
想要了解這些例子更詳細(xì)的內(nèi)容可以看 https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1049049771&courseId=1004570029
2.1.1 新聞分類
第一個(gè)例子舉的是Google News的例子。Google News搜集網(wǎng)上的新聞,并且根據(jù)新聞的主題將新聞分成許多簇, 然后將在同一個(gè)簇的新聞放在一起。如圖中紅圈部分都是關(guān)于BP Oil Well各種新聞的鏈接,當(dāng)打開各個(gè)新聞鏈接的時(shí)候,展現(xiàn)的都是關(guān)于BP Oil Well的新聞。
2.1.3 雞尾酒派對(duì)效應(yīng)
詳見課程:?https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1049049771&courseId=1004570029
2.1.4 其他
這里又舉了其他幾個(gè)例子,有組織計(jì)算機(jī)集群,社交網(wǎng)絡(luò)分析,市場(chǎng)劃分,天文數(shù)據(jù)分析等。具體可以看一下視頻:https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1049049771&courseId=1004570029
?
轉(zhuǎn)載于:https://www.cnblogs.com/nangua19/p/10868190.html
總結(jié)
以上是生活随笔為你收集整理的Coursera机器学习笔记(一) - 监督学习vs无监督学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python安装不上怎么办_python
- 下一篇: python设置行号_Python_添加