图像处理:聚类方法
聚類方法
- K-means
K-means
參考鏈接
說到聚類,應先理解聚類和分類的區別,很多業務人員在日常分析時候不是很嚴謹,混為一談,其實二者有本質的區別。
**分類:**分類其實是從特定的數據中挖掘模式,作出判斷的過程。比如Gmail郵箱里有垃圾郵件分類器,一開始的時候可能什么都不過濾,在日常使用過程中,我人工對于每一封郵件點選“垃圾”或“不是垃圾”,過一段時間,Gmail就體現出一定的智能,能夠自動過濾掉一些垃圾郵件了。這是因為在點選的過程中,其實是給每一條郵件打了一個“標簽”,這個標簽只有兩個值,要么是“垃圾”,要么“不是垃圾”,Gmail就會不斷研究哪些特點的郵件是垃圾,哪些特點的不是垃圾,形成一些判別的模式,這樣當一封信的郵件到來,就可以自動把郵件分到“垃圾”和“不是垃圾”這兩個我們人工設定的分類的其中一個。
**聚類:**聚類的目的也是把數據分類,但是事先我是不知道如何去分的,完全是算法自己來判斷各條數據之間的相似性,相似的就放在一起。在聚類的結論出來之前,我完全不知道每一類有什么特點,一定要根據聚類的結果通過人的經驗來分析,看看聚成的這一類大概有什么特點。
聚類和分類最大的不同在于:分類的目標是事先已知的,而聚類則不一樣,聚類事先不知道目標變量是什么,類別沒有像分類那樣被預先定義出來。
K-Means
聚類算法有很多種(幾十種),K-Means是聚類算法中的最常用的一種,算法最大的特點是簡單,好理解,運算速度快,但是只能應用于連續型的數據,并且一定要在聚類前需要手工指定要分成幾類。
下面,我們描述一下K-means算法的過程,為了盡量不用數學符號,所以描述的不是很嚴謹,大概就是這個意思,“物以類聚、人以群分”:
【ps】dpi是指單位面積內像素的多少,也就是掃描精度,目前國際上都是計算一英寸面積內像素的多少。
總結
- 上一篇: 机器视觉:工业线阵相机与面阵相机特点分析
- 下一篇: windows下安装TensorFlow