每个产品经理都应该知道的机器学习术语
摘要:?公司正在上馬AI項目?想要熟悉機器學習的世界,想要了解所有關于機器學習的術語,看看本文吧!
公司正在上馬AI項目?或許你已經熟悉了機器學習的世界,但是仍然希望擴展你的知識面,并且了解你所聽到的所有關于機器學習的術語,爭取在和別人交流的時候不會呆呆的站在那里啞口無言。
本機器學習術語表旨在簡要介紹最重要的機器學習術語,無論你是對商業還是技術感興趣。這絕不是詳盡無遺,而是在與AI總監或供應商會面前能夠進行簡單的交流——或者是在面試前快速回顧這些重要的知識點!
概述:
?1.NLP -?自然語言處理。
?2.數據集。
?3.計算機視覺。
?4.監督學習。
?5.無監督學習。
?6.強化學習。
?7.神經網絡。
?8.過度擬合。
1. NLP -?自然語言處理:
自然語言處理(NLP)是各種機器學習方法的一種常用概念,它使得計算機可以使用人類(即自然)語言來理解和執行操作。
自然語言處理最重要的用例是:
1.1文本分類和排名:
此任務的目標是預測文檔的類別(標簽),或根據文檔的相關性將文檔排列在列表中。它可以用于垃圾郵件過濾(判別電子郵件是否是垃圾郵件)或內容分類(從網絡上選擇有關你競爭對手正在做什么事情的文章)。
1.2情緒分析:
情感分析旨在確定某個人對于某個主題的態度或情緒反應——例如正面或負面的態度、憤怒、諷刺。它正在廣泛用于客戶滿意度研究(例如分析產品評論),這對于每一家公司都是非常重要的。
1.3文件匯總:
文件匯總是一組用于創建對長文本(即文件或研究論文)的簡短而有意義的描述的方法。
1.4命名實體識別(NER):
命名實體提取算法處理的是非結構化文本流,并識別其中的對象(實體)的預定義類別,例如人員、公司名稱、日期、價格、標題等。它通過將非結構化信息轉換為結構化,表格式(或JSON)形式。
1.5語音識別:
語音識別技術用于確定說話人的音頻信號的文本表示。你可能聽說過Siri,天貓精靈,他們都是如何使用語音識別的一個很好的例子。
1.6自然語言理解和生成:
自然語言理解用于將人類生成的文本轉換為計算機可解釋的表示形式,反之亦然:自然語言生成技術支持將形式邏輯表示轉換為人類生成的文本。目前,NLG和NLU主要用于聊天機器人和自動報告生成,也有一些大神,將它們應用于藝術創作。從概念上講,它與命名實體識別相反。
1.7機器翻譯:
機器翻譯是將文本或語音從一種人類語言自動翻譯成另一種語言的任務,今天的谷歌翻譯已經利用機器學習做的很不錯了。
2.數據集:
數據是機器學習的重要組成部分。如果你想建立任何機器學習系統,你需要獲取數據(例如來自某些公共資源)或自行收集數據。所有用于構建或測試ML模型的數據都稱為數據集。基本上,數據科學家將他們的數據集分成三個獨立的組:
·?????????訓練數據:
訓練數據用于訓練模型。這意味著ML模型可以獲得數據并學習檢測模式或確定哪些特征在預測期間最為重要,訓練數據的任務是幫助機器學習模型定參數。
·?????????驗證數據:
驗證數據用于調整模型參數并比較不同模型以確定最佳模型參數。驗證數據應與訓練數據不同,它不應在訓練階段使用。否則,該模型會過度擬合,并且不能很好地推廣到新的(生產)數據。
·?????????測試數據:
這個過程看起來可能很乏味,但總是有第三個最終測試集(通常也稱為“Hold-Out”)。一旦選擇最終模型來模擬模型在完全看不見的數據上的行為,即在構建模型時不使用的數據點,或者甚至在決定選擇哪個模型時使用它。
3.計算機視覺:
計算機視覺(CV)是一個人工智能比較關鍵的領域,它涉及提供分析和高級圖像和視頻數據理解的工具。CV中最常見的問題包括:
3.1圖像分類:
?
圖像分類是教模型以識別給定圖像上的內容的CV任務。例如,可以訓練模型來區分公共空間中的各種物體(可用于自駕車)。
3.2對象檢測:
對象檢測是一種CV任務,通過在給定類的每個實例周圍提供邊界框來教導模型從一組預定義類別中檢測對象的實例。例如,可以使用對象檢測來構建人臉識別系統。然后該模型能夠在圖片上檢測到的每個臉部周圍繪制邊界框。(順便說一下,圖像分類系統只能識別圖像上是否存在人臉,而不能檢測到物體在哪里,就像物體檢測系統所能做的那樣)。
3.3圖像分割:
圖像分割是一個CV任務,其中某個人訓練一個模型,用一個給定像素最可能屬于的預定義集合中的類對每個像素進行注釋。
3.4顯著性檢測:
顯著性檢測是訓練模型以提供最有可能引起觀看者注意的區域的CV任務(即檢測人類最感興趣的區域)。這可以用來確定視頻中的廣告展示位置。
4.監督學習:
監督學習是一個機器學習模型家族,通過一些示例自我教導。這意味著監督ML任務的數據需要標記。例如,如果我們想建立一個機器學習模型來識別給定的文本是否與市場營銷有關,那么我們需要為模型提供一組標注示例(文本+信息,如果是關于市場營銷與否)。給定一個新的,看不見的例子,該模型預測其目標?-?例如,對于所述示例,標簽(例如,如果文本是關于市場營銷,則為1,否則為0)。
5.無監督學習:
與監督學習相反,無監督學習模式通過觀察來自我學習。提供給這種算法的數據是未標記的(算法沒有給出真實值)。無監督學習模型能夠找到不同輸入之間的結構或關系,最重要的一種無監督學習技術是“聚類”。在聚類中,給定數據后,模型創建不同的輸入集群(“相似”輸入在同一個集群中),并且能夠將任何新的,以前未見過的輸入放入適當的集群中。
6.強化學習:
強化學習與我們之前描述的方法不同。在RL中,該算法起著“游戲”的作用,其目的是最大化獎勵。該算法通過反復試驗嘗試不同的方法“移動”,并查看哪個方法提高了最大的利潤。
最常見的RL使用案例是教計算機解決魔方或下棋,但更多的是強化學習而不僅僅是游戲。最近,實時出價中的RL解決方案數量不斷增加,其中模型負責為廣告投標,其回報是客戶的轉化率。
7.神經網絡:
神經網絡是一個非常廣泛的機器學習模型。它們背后的主要想法來源是模仿人腦在處理數據時的行為。就像連接人腦中真實神經元的網絡一樣,人造神經網絡由層組成。每一層都是一組神經元,所有這些神經元都負責檢測不同的事物。神經網絡按順序處理數據,這意味著只有第一層直接連接到輸入。隨后的所有圖層都基于前一層的輸出檢測特征,這使得模型隨著層數的增加可以學習更多更復雜的數據模式。當許多圖層快速增加時,該模型通常被稱為深度學習模型。現在很難確定一個網絡被認為很深的特定層數,10年前它曾經是3層,現在是20層左右。
神經網絡有許多不同的變體。最常用的是:
·?????????????????卷積神經網絡:這是計算機視覺領域中的一個巨大突破(但最近,它在NLP問題中也被證明非常有用)。
·?????????????????經常性神經網絡(RNN):設計用于處理具有序列性質的數據,例如文本或股票價格。它們相對較舊,但隨著近20年來現代計算機的計算能力急劇增加,它們變得可以在合理的時間內進行訓練和使用。
·?????????????????完全連接的神經網絡:在靜態/表格數據上使用的最簡單的模型。
8.過度擬合:
當模型從數據量不足的角度建立假設偏差時,這是一種負面影響而且是一個相當常見和非常重要的問題。
假設你幾次訪問過一家面包店,而且還沒有你最喜歡的蛋糕在那里!你可能會對面包店感到失望,即使其他一千個客戶可能會對該產品滿意。如果你是一個機器學習模型,那么說你對一些例子過度適應是公平的,開發出一個有偏見的模型,這是你的頭腦中的一個表示,與事實相比,這是不準確的。
發生過擬合時,通常意味著該模型將數據中的隨機噪聲視為重要信號并對其進行調整,這就是為什么隨著新數據的惡化(因為噪聲不同)。在神經網絡或梯度增強等非常復雜的模型中,情況通常如此。
想象一下,建立一個模型來檢測提及奧林匹克運動期間特定體育學科的文章。由于你的訓練集偏向于有關奧林匹克的文章,因此該模型可能會學習諸如“奧林匹克”這樣的詞的特征,并且無法檢測到不包含該詞的正確文章。
本文由阿里云云棲社區組織翻譯。
文章原標題《Machine Learning Terms every manager should know》
作者:sigmoidal
譯者:虎說八道,審校:。
原文鏈接
干貨好文,請關注掃描以下二維碼:
總結
以上是生活随笔為你收集整理的每个产品经理都应该知道的机器学习术语的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 全链路压测一招搞定,阿里云性能测试铂金版
- 下一篇: 使用 MaxCompute(原ODPS)