当我们说“分类”的时候,我们到底在说什么?
當我們說到機器學習時,一個很高頻的詞:“分類”,會經常出現,那當我們說“分類”的時候,我們到底在說什么?
我查了很多博客、書籍、資料,提到“分類”,馬上就進入“分類算法”的介紹描述,又是KNN(K最近鄰算法),又是樸素貝葉斯等等。當然,可能是因為“分類”太常見了,所以大家都不肖一提。但對我們自己來說,要建立宏偉的“機器學習”能力大廈,一些基礎的概念就好似大廈的地基,是必須穩固堅實的。
我們看一看“分類”的原始定義,根據百度百科的定義:
分類是指按照種類、等級或性質分別歸類。
這個定義其實隱含有“分類”的2個重要信息:一是“按照種類、等級或性質”,意思是我們事先已經知道了“種類、等級或性質”,即我們知道要分成幾類,分成哪些類。例如我們要把收到的電子郵件分類,我們分類之前已經知道要分為2類,一類是“正常郵件”,另一類是“垃圾郵件”。二是分類是個過程,例如將100封電子郵件,分別歸類到“正常郵件”和“垃圾郵件”這2個類別名下。
有了這個基本認識,我們再來看一個大家容易忽視的問題:
我們為什么要分類?
先看看如果我們“不分類”有什么問題。今天你上餐館吃飯,老板問你要吃什么菜?你說吃蔬菜。吃什么蔬菜?老板一臉茫然!你去奧特萊斯,對服務員說,給我來一件衣服。什么衣服?服務員一臉懵逼。
看到沒,沒有“分類”我們是無法正常生活的。
那么我們分類的目的其實就是把大量的事物細分成不同的種類,使得我們對某一個具體的事物有共同的理解和認識。例如把蔬菜分類成菠菜、小白菜、大白菜、芹菜、胡蘿卜、白蘿卜等等,把衣服分成外套、內衣、襯衣、短褲、長褲等等,這樣我們才有正常溝通交流的基礎。
當然,除了日常生活中的溝通交流,分類其實還有更多方面的考慮和應用。例如,垃圾的分類,既可以提高垃圾的回收利用水平,又可減少垃圾處理工作量。企業把客戶分成大客戶、優質客戶、普通客戶等,也是增強營銷針對性、集中企業資源、發現市場機會,更好的提升企業競爭力和效益的重要手段和措施。銀行把客戶分成鉑金用戶、黃金用戶、白銀用戶、黑名單用戶等等,分別給予不同的貸款利率或理財產品,也是基于風險和利潤的綜合權衡。事實上,各行各業都有分類的需要和廣闊的應用場景。那在機器學習中,“分類”一般用來干嗎?應用場景也很多,垃圾郵件檢測,人臉識別,文字識別,語音識別,醫療分析,客戶分類,貸款審查等等。
所以,分類很重要。這也是為什么“分類”是機器學習領域非常核心的內容。
那具體的分類過程是怎樣開展的呢?我們來舉個例子:假設你是一位超市的蔬菜采購員,今天到一位農戶那里采購辣椒,農戶的辣椒很多,給了你10籮筐,每框大約1000個,有好有壞。你先挑第1框,挑了10分鐘,挑出來400個品相好的辣椒,剩下的600個是品相不好的辣椒。這就是一個“分類”應用,你把農戶的辣椒分成了品相好的和品相不好的2個種類。
注意,這個實際例子中隱含著幾個非常重要的信息。首先,你靠什么判斷辣椒是品相好的,還是品相不好的?那就是辣椒的特征,例如大小、顏色、光澤、表面平整度等等,也就是說,這些特征已經存儲在你的大腦中,那這些特征是怎樣存儲在你的大腦中的,是因為你以前挑選過無數的辣椒,經歷過長期的選辣椒“訓練”,那些好辣椒的特征已經存儲在你的大腦中。其次,你挑出一個辣椒,按照這些特征與你大腦中的品相好的辣椒進行對比,類似的就是品相好的,不類似的就是品相不好的。這就是“相似度計算”,或者叫“距離計算”。計算方法就是根據辣椒的這些特征進行綜合計算,可以簡單加權,可以單項決策,看你自己的大腦怎樣定了,這就是“相似度計算方法”或叫“距離計算方法”。最后,什么是類似,什么是不類似?靠什么標準判斷?這個標準就是你大腦中設置的“閾值”,例如相似度大于50%這個閾值,你就歸到品相好的一類,相似度低于50%的閾值,你就歸到品相不好的一類。
看到這里,你應該明白了這個現實場景與“機器學習”的關系了。我們再延伸一步,假設今天你帶了一位實習采購員,以前從來沒有采購過辣椒。你在挑這第1框1000個辣椒的時候,他在旁邊看著,哪個是好辣椒,哪個是不好的辣椒。然后這一籮筐你挑完了,農戶那還有9籮筐呢,你告訴實習采購員,讓他去挑剩下的9籮筐。他剛剛在一旁看你挑第1框的1000個辣椒,這就是“訓練”,然后他去挑剩下的9籮筐,就是“預測”,最終的效果是將9籮筐的辣椒分成了2類。如果這個實習采購員是一個機器人或電腦,這就是“機器學習”的“分類”,也可以說是“機器學習”進行了一次“分類”方面的應用。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的当我们说“分类”的时候,我们到底在说什么?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 逻辑回归为什么使用对数损失函数
- 下一篇: 你绝对能懂的“机器学习”(一)