数据挖掘学习笔记:标称属性(名词性)的邻近性度量
生活随笔
收集整理的這篇文章主要介紹了
数据挖掘学习笔记:标称属性(名词性)的邻近性度量
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
鄰近性度量:相似性和相異性度量
標稱屬性:可以擁有2個或者更多個屬性值
例:標稱屬性color:red,yellow,black,blue,green.(有5個屬性值可選)
問:對象由標稱屬性刻畫,那么怎么判定對象之間的相異性呢?
答:有兩個方法
Method 1.簡單匹配
d( i , j ) = (p-m) / p
m : p個變量中匹配的個數(shù)(表示對象i與對象j之間有相同屬性值的個數(shù))
p : 全部變量的個數(shù)(表示標稱屬性可選的屬性值的個數(shù),在上例中,p=5)
可以對屬性的值賦予權重
?
Method 2.使用一系列的二進制屬性
為M個名義狀態(tài)的每一個產(chǎn)生一個新的二進制/二元屬性
例:對象i:red
則對象i的編碼為:10000. ? ? ? 即:red(√)yellow(x)black(x)blue(x)green(x)
顯而易見,0代表不出現(xiàn),1代表出現(xiàn)
那么,接下來就應該使用 二元屬性的鄰近性度量 來刻畫對象之間的相異性
總結
以上是生活随笔為你收集整理的数据挖掘学习笔记:标称属性(名词性)的邻近性度量的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python表示整除的符号_c语言中整除
- 下一篇: 标称属性样本相似性度量