机器学习模型,能分清川菜和湘菜吗?
一個(gè)地區(qū)的文化和當(dāng)?shù)氐奶厣澄锟偸欠植婚_關(guān)系,可以說小到村莊,大到國(guó)家,每個(gè)地方都有自己的“味道”。
如果你在加利福尼亞州北部,那么你將品嘗到各種蔬菜,有深紫色的羽衣甘藍(lán),還有明亮的粉紅色和黃色的甜菜。在韓國(guó),誘人的紅色泡菜將會(huì)迎接你,而大海的氣味會(huì)吸引你注意附近蠕動(dòng)的魷魚。印度的市場(chǎng)也許是最豐富多彩的,明亮的色調(diào)和幾十種香料的香氣:姜黃,八角茴香……
作為一名合格的“吃貨”,看到“米、海苔、三文魚”就想到日本壽司,看到“雞蛋、火腿、面包、沙拉醬”就想到三明治……通過食材預(yù)測(cè)菜系,用 python 就可以做到!
可以用機(jī)器學(xué)習(xí)的方法搭建、訓(xùn)練和測(cè)試模型,并通過評(píng)估矩陣來選擇最優(yōu)模型,實(shí)現(xiàn)原材料與菜系的映射。為了實(shí)現(xiàn)預(yù)期的功能,我們需要進(jìn)行以下三個(gè)步驟。
1.?加載并分析數(shù)據(jù)
2.?建立模型
3.?模型預(yù)測(cè)
加載并分析數(shù)據(jù)
以意大利菜系為例,我們準(zhǔn)備好以下格式的樣例數(shù)據(jù)。其中“id”代表不同的菜肴種類,“cuisine”則代表菜系名稱。
拿到數(shù)據(jù)后,首先對(duì)數(shù)據(jù)進(jìn)行提取,其中配方節(jié)點(diǎn)如下。其中包含了食譜 id,菜肴類型和成分列表的訓(xùn)練集。
之后將 features 與 target 分別賦值到 train_ingredients 和 train_targets。通過統(tǒng)計(jì)分析等操作,可以計(jì)算出使用最頻繁的前 10 種原料,并將原料名和出現(xiàn)次數(shù)賦值到 sum_ingredients 字典中。通過樣例數(shù)據(jù),還能計(jì)算出意大利菜系中使用最頻繁的前 10 種原料,并將原料名和出現(xiàn)次數(shù)賦值到 italian_ingredients 字典中。
得到的結(jié)果可以通過 matplotlib 進(jìn)行可視化。通過數(shù)據(jù)分析,可以得出許多有意思的信息,比如,巴西菜用的最多的食材有洋蔥、橄欖油、檸檬等。而在中國(guó),檸檬顯然不是家常飯的??汀N覀冇玫淖疃嗟氖巢挠嗅u、芝麻油、玉米淀粉等。小編猜測(cè),老干媽一定對(duì)中國(guó)排名第一的食材有巨大貢獻(xiàn)!
日本比較有特色的清酒和醬油也都榜上有名。
而在寒冷的俄羅斯,黃油則成為餐桌上必不可少的食材,成為戰(zhàn)斗民族每天所需能量的重要來源。英國(guó)更不必多說,如果你熱愛黃油、奶油、土豆和牛奶,去英國(guó)就是了!
建立模型
建立模型的過程可能稍微有點(diǎn)復(fù)雜,主要分以下四步進(jìn)行:
1、單詞清洗
2、特征提取(使用TF_IDF)
3、數(shù)據(jù)分割與重排
調(diào)用 train_test_split 函數(shù)將訓(xùn)練集劃分為新的訓(xùn)練集和驗(yàn)證集。
4、訓(xùn)練模型
在訓(xùn)練模型的過程中,需要嘗試不同的參數(shù),挑選出泛化力最好的模型。通過訓(xùn)練模型,可以計(jì)算得出驗(yàn)證集上的得分。得分越高,說明分類準(zhǔn)確度(正確分類的菜肴百分比)越高。這樣,一個(gè)優(yōu)秀的模型就大功告成啦!
模型預(yù)測(cè)
在測(cè)試文件 test.json 中,配方的格式與 train.json 相同,只刪除了美食類型,因?yàn)樗俏覀円A(yù)測(cè)的目標(biāo)變量。
總的來說,要實(shí)現(xiàn)通過食材預(yù)測(cè)菜系的過程并不復(fù)雜,但是如何完善代碼、優(yōu)化模型,使分類體系和匹配程度更高,才是我們要完成的關(guān)鍵目標(biāo)。如果不能做到數(shù)據(jù)的有效清洗和分類,就會(huì)出現(xiàn)很多法國(guó)菜被誤分為意大利菜這樣的情況。
至于能不能分清川菜和湘菜……自己來試一試吧!這個(gè)項(xiàng)目其實(shí)來自優(yōu)達(dá)學(xué)城 Udacity 的「機(jī)器學(xué)習(xí)工程師」納米學(xué)位。
(該項(xiàng)目現(xiàn)提供超值限量試學(xué)班,詳情見文末)
優(yōu)達(dá)學(xué)城 Udacity?由?Google 無人車之父?Sebastion Thrun?創(chuàng)立,與?Google、Facebook、亞馬遜等名企聯(lián)合打造了一系列前沿技術(shù)課程,旨在讓每個(gè)人都能用遠(yuǎn)低于線下教育的成本學(xué)習(xí)硅谷前沿技術(shù),最終成為有能力通過技術(shù)改變世界的搶手人才。2017 年?8 月,騰訊宣布將 Udacity 納米學(xué)位項(xiàng)目作為內(nèi)部員工學(xué)習(xí)內(nèi)容。
與國(guó)內(nèi)其他平臺(tái)相比,Udacity 的一大優(yōu)勢(shì)是來自硅谷的獨(dú)家特色實(shí)戰(zhàn)項(xiàng)目。僅靠看視頻或者啃厚厚的教材很難零基礎(chǔ)入門人工智能領(lǐng)域。學(xué)習(xí)者也很難在動(dòng)輒幾十 G+ 的免費(fèi)視頻教程中,高效快速地篩選出真正有用的東西。優(yōu)達(dá)學(xué)城(Udacity)的項(xiàng)目難度深入淺出,能夠讓學(xué)習(xí)者快速將所學(xué)運(yùn)用到實(shí)際生活,也能夠直觀的看到學(xué)習(xí)成果。下面的部分項(xiàng)目成果示例來自「機(jī)器學(xué)習(xí)工程師」和「深度學(xué)習(xí)」納米學(xué)位的正式課程:
項(xiàng)目示例 1 訓(xùn)練機(jī)器人走迷宮
在這個(gè)項(xiàng)目中,你會(huì)需要實(shí)現(xiàn)一個(gè) Q-learning算法來解決走迷宮問題。同時(shí)你有機(jī)會(huì)將你的算法應(yīng)用在股市中,讓機(jī)器學(xué)習(xí)出高收益策略。
(來自「機(jī)器學(xué)習(xí)」納米學(xué)位)
項(xiàng)目示例 2 貓狗圖像識(shí)別
使用深度學(xué)習(xí)方法識(shí)別圖片中是貓還是狗。
(來自「機(jī)器學(xué)習(xí)」納米學(xué)位畢業(yè)項(xiàng)目)
實(shí)戰(zhàn)項(xiàng)目示例 3 訓(xùn)練四軸飛行器學(xué)會(huì)飛行
設(shè)計(jì)一個(gè)深度強(qiáng)化學(xué)習(xí)系統(tǒng),來控制四軸飛行器的一系列飛行項(xiàng)目,包括起飛、盤旋和降落等。你將通過構(gòu)建你自己的懲罰函數(shù)、強(qiáng)化學(xué)習(xí)模型、深度學(xué)習(xí)隱藏層來幫助你的四軸飛行器了解他的每一個(gè)動(dòng)作的優(yōu)劣。你的四軸飛行器將從一系列動(dòng)作狀態(tài)中,選擇最優(yōu)的策略來平穩(wěn)起飛和降落。
(來自「深度學(xué)習(xí)」納米學(xué)位項(xiàng)目)
實(shí)戰(zhàn)項(xiàng)目示例 3?風(fēng)格遷移
深度學(xué)習(xí)模型可以用來完成「風(fēng)格遷移」項(xiàng)目,你可以按照著名的畫作重新創(chuàng)建風(fēng)格一樣的圖片!神經(jīng)網(wǎng)絡(luò)會(huì)學(xué)習(xí)這些畫作采用的技巧,并學(xué)會(huì)如何自己應(yīng)用這些繪畫技巧。
(來自「深度學(xué)習(xí)」練習(xí)項(xiàng)目)
除此之外,你將跟隨來自硅谷的行業(yè)專家系統(tǒng)學(xué)習(xí),深入掌握人工智能領(lǐng)域知識(shí)。實(shí)戰(zhàn)項(xiàng)目經(jīng)驗(yàn)均可寫入簡(jiǎn)歷,為求職面試加分!
Udacity 還特別開啟【7 天超值試學(xué)班】,為保證輔導(dǎo)質(zhì)量,試學(xué)名額有限,今天開始搶完為止。本期試學(xué)班能夠提前體驗(yàn)的項(xiàng)目有:
“猜猜這道菜來自哪里”?使用分類模型通過原料的不同組合預(yù)測(cè)所屬的世界菜系。
來自「機(jī)器學(xué)習(xí)工程師」7天試學(xué)班
“你拍我猜”?利用神經(jīng)網(wǎng)絡(luò)來分類照片中是狗狗,是貓貓,還是人。
來自「深度學(xué)習(xí)」7天試學(xué)班
文末關(guān)注 Udacity 官方服務(wù)號(hào),即可自動(dòng)獲得兩門課程完整大綱,還能獲得限量 ¥299 超值試學(xué)入口。
如果你也在尋求轉(zhuǎn)行機(jī)會(huì),或渴望突破薪資天花板,抓住人工智能人才紅利,但又不確定自己是否真的適合、能不能學(xué)完,建議加入 7 天試學(xué),讓專業(yè)導(dǎo)師手把手帶你完成項(xiàng)目!
長(zhǎng)按識(shí)別二維碼
了解試學(xué)班
Udacity 【機(jī)器學(xué)習(xí)工程師】與【深度學(xué)習(xí)】納米學(xué)位試學(xué)班開放限量體驗(yàn)席位,報(bào)滿即止。關(guān)注 Udacity 官方服務(wù)號(hào),即可自動(dòng)獲得完整課程大綱,以及 ¥299 限量試學(xué)入口,先搶先得。
點(diǎn)擊閱讀原文,添加學(xué)習(xí)規(guī)劃師,獲得「選課測(cè)試」一份,了解適合自己的課程
總結(jié)
以上是生活随笔為你收集整理的机器学习模型,能分清川菜和湘菜吗?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR 2018论文解读 | 基于域适
- 下一篇: AI以假乱真怎么办?TequilaGAN