初学大数据之如何选择机器学习算法
最近在國外網(wǎng)站看到一篇不錯的文章,所以就翻譯過來給大家分享一下。主要介紹初學(xué)者怎么選擇機(jī)器學(xué)習(xí)算法,希望對各位初學(xué)者有幫助。
原文如下:
一個初學(xué)者面臨各種機(jī)器學(xué)習(xí)算法的典型問題是“我應(yīng)該使用哪種算法?”問題的答案取決于許多因素,包括:
- 數(shù)據(jù)的大小,質(zhì)量和性質(zhì)。
- 可用的計算時間。
- 任務(wù)的緊迫性。
- 你想對數(shù)據(jù)做什么
即使是經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家也不能在嘗試不同的算法之前,判斷哪種算法會最好。我們并不主張采取一個完整的方法,但是我們希望根據(jù)一些明確的因素,為哪些算法首先提供一些指導(dǎo)。
機(jī)器學(xué)習(xí)算法備忘表
該 機(jī)器學(xué)習(xí)算法備忘表 幫助您從各種機(jī)器學(xué)習(xí)算法選擇找到適合您的具體問題適當(dāng)?shù)乃惴ā1疚膶⒁龑?dǎo)您完成如何使用工作表的過程。
由于該作弊表是專為初學(xué)者數(shù)據(jù)科學(xué)家和分析師設(shè)計的,所以在討論算法時,我們將作出一些簡化的假設(shè)。
這里推薦的算法來自于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家和開發(fā)人員的編譯反饋和提示。有幾個問題我們還沒有達(dá)成協(xié)議,對于這些問題,我們試圖突出共同點(diǎn),調(diào)和差異。
稍后將會添加其他算法,因?yàn)槲覀兊膸煸鲩L以包含更完整的一組可用方法。
如何使用備忘表
將圖表上的路徑和算法標(biāo)簽讀為“If then use ”。例如:
- 如果要執(zhí)行尺寸縮減,則使用主成分分析。
- 如果您需要快速的數(shù)字預(yù)測,請使用決策樹或邏輯回歸。
- 如果需要分層結(jié)果,請使用層次聚類。
有時候會有一個以上的分支機(jī)構(gòu)適用,而其他的時間也不會是完美的。重要的是要記住,這些路徑旨在作為經(jīng)驗(yàn)法則建議,因此有些建議并不準(zhǔn)確。我談到的幾位數(shù)據(jù)科學(xué)家說,找到最好算法的唯一方法就是嘗試所有的算法。
機(jī)器學(xué)習(xí)算法的類型
本節(jié)提供最受歡迎的機(jī)器學(xué)習(xí)類型的概述。如果您熟悉這些類別,并希望繼續(xù)討論特定的算法,則可以跳過本節(jié)并轉(zhuǎn)到下面的“何時使用特定算法”。
監(jiān)督學(xué)習(xí)
受監(jiān)督的學(xué)習(xí)算法基于一組示例進(jìn)行預(yù)測。例如,可以使用歷史銷售來估計未來價格。通過監(jiān)督學(xué)習(xí),您有一個輸入變量,由標(biāo)記的訓(xùn)練數(shù)據(jù)和期望的輸出變量組成。您使用算法分析訓(xùn)練數(shù)據(jù),以學(xué)習(xí)將輸入映射到輸出的功能。這個推斷功能通過從訓(xùn)練數(shù)據(jù)推廣來預(yù)測未知情況下的結(jié)果來映射新的未知示例。
- 分類:當(dāng)數(shù)據(jù)用于預(yù)測分類變量時,監(jiān)督學(xué)習(xí)也稱為分類。當(dāng)分配標(biāo)簽或指示符時,狗或貓分配給圖像就是這種情況。當(dāng)只有兩個標(biāo)簽時,這被稱為二進(jìn)制分類。當(dāng)有兩類以上時,這些問題被稱為多類分類。
- 回歸:當(dāng)預(yù)測連續(xù)值時,問題成為一個回歸問題。
- 預(yù)測:這是根據(jù)過去和現(xiàn)在的數(shù)據(jù)對未來進(jìn)行預(yù)測的過程。最常用來分析趨勢。一個常見的例子可能是根據(jù)今年和前幾年的銷售情況估計下一年的銷售額。
半監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)的挑戰(zhàn)是標(biāo)注數(shù)據(jù)可能是昂貴和耗時的。如果標(biāo)簽有限,您可以使用未標(biāo)記的示例來增強(qiáng)監(jiān)督學(xué)習(xí)。因?yàn)樵谶@種情況下機(jī)器沒有被完全監(jiān)督,所以我們說機(jī)器是半監(jiān)督的。使用半監(jiān)督學(xué)習(xí),您可以使用少量標(biāo)簽數(shù)據(jù)的未標(biāo)記示例來提高學(xué)習(xí)準(zhǔn)確性。
無監(jiān)督學(xué)習(xí)
執(zhí)行無監(jiān)督學(xué)習(xí)時,機(jī)器將呈現(xiàn)完全未標(biāo)記的數(shù)據(jù)。被要求發(fā)現(xiàn)基礎(chǔ)數(shù)據(jù)的內(nèi)在模式,如聚類結(jié)構(gòu),低維流形或稀疏樹和圖。
- 聚類:分組一組數(shù)據(jù)示例,使一個組(或一個集群)中的示例與其他組中的示例更相似(根據(jù)某些標(biāo)準(zhǔn))。這通常用于將整個數(shù)據(jù)集分成幾組。可以在每個組中執(zhí)行分析,以幫助用戶找到內(nèi)在模式。
- 尺寸扣除:減少考慮的變量數(shù)量。在許多應(yīng)用中,原始數(shù)據(jù)具有非常高的維度特征,并且一些特征是冗余的或與任務(wù)無關(guān)的。降低維度有助于找到真實(shí)的,潛在的關(guān)系。
加強(qiáng)學(xué)習(xí)
加強(qiáng)學(xué)習(xí)根據(jù)環(huán)境的反饋分析和優(yōu)化代理人的行為。機(jī)器嘗試不同的場景來發(fā)現(xiàn)哪些行為產(chǎn)生最大的回報,而不是被告知采取哪些行動。試驗(yàn)和錯誤和延遲獎勵將強(qiáng)化學(xué)習(xí)與其他技術(shù)區(qū)分開來。
選擇算法時的注意事項
選擇算法時,請務(wù)必考慮這些方面:準(zhǔn)確度,培訓(xùn)時間和易用性。許多用戶將準(zhǔn)確度放在第一位,而初學(xué)者則傾向于關(guān)注他們最了解的算法。
當(dāng)提供數(shù)據(jù)集時,首先要考慮的是如何獲得結(jié)果,無論這些結(jié)果如何。初學(xué)者傾向于選擇易于實(shí)現(xiàn)的算法,并可以快速獲得結(jié)果。這樣做很好,只要這只是過程的第一步。獲得一些結(jié)果并熟悉數(shù)據(jù)后,您可以花費(fèi)更多時間使用更復(fù)雜的算法來加強(qiáng)對數(shù)據(jù)的理解,從而進(jìn)一步改進(jìn)結(jié)果。
即使在這個階段,最好的算法可能不是實(shí)現(xiàn)最高報告精度的方法,因?yàn)樗惴ㄍǔP枰屑?xì)調(diào)整和廣泛的訓(xùn)練才能獲得最佳的可實(shí)現(xiàn)性能。
總結(jié)
以上是生活随笔為你收集整理的初学大数据之如何选择机器学习算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: FishC《零基础学习python》笔记
- 下一篇: 汇聚路由的计算方法