聚类分析(Clustering Analysis)
聚類分析(Clustering Analysis)?
?
聚類作為數(shù)據(jù)挖掘與統(tǒng)計(jì)分析的一個(gè)重要的研究領(lǐng)域,近年來倍受關(guān)注。從機(jī)器學(xué)習(xí)的角度看,聚類是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,即事先對(duì)數(shù)據(jù)集的分布沒有任何的了解,它是將物理或抽象對(duì)象的集合組成為由類似的對(duì)象組成的多個(gè)類的過程。聚類方法作為一類非常重要的數(shù)據(jù)挖掘技術(shù),其主要是依據(jù)樣本間相似性的度量標(biāo)準(zhǔn)將數(shù)據(jù)集自動(dòng)分成幾個(gè)群組,且使同一個(gè)群組內(nèi)的樣本之間相似度盡量高,而屬于不同群組的樣本之間相似度盡量低的一種方法。聚類中的組不是預(yù)先定義的,而是根據(jù)實(shí)際數(shù)據(jù)的特征按照數(shù)據(jù)之間的相似性來定義的,聚類中的組也稱為簇。一個(gè)聚類分析系統(tǒng)的輸入是一組樣本和一個(gè)度量樣本間相似度(或距離)的標(biāo)準(zhǔn),而輸出則是簇集,即數(shù)據(jù)集的幾個(gè)類,這些類構(gòu)成一個(gè)分區(qū)或者分區(qū)結(jié)構(gòu)。聚類分析的一個(gè)附加的結(jié)果是對(duì)每個(gè)類的綜合描述,這種結(jié)果對(duì)于更進(jìn)一步深入分析數(shù)據(jù)集的特性是尤其重要的。聚類方法尤其適合用來討論樣本間的相互關(guān)聯(lián)從而對(duì)一個(gè)樣本結(jié)構(gòu)做一個(gè)初步的評(píng)價(jià)。數(shù)據(jù)挖掘中的聚類研究主要集中在針對(duì)海量數(shù)據(jù)的有效和實(shí)用的聚類方法上,聚類方法的可伸縮性、高維聚類分析、分類屬性數(shù)據(jù)聚類、具有混合屬性數(shù)據(jù)的聚類和非距離模糊聚類等問題是目前數(shù)據(jù)挖掘研究人員最為感興趣的。
?
聚類已經(jīng)被廣泛應(yīng)用于許多領(lǐng)域,例如生物學(xué)、藥學(xué)、人類學(xué)、市場(chǎng)營銷和經(jīng)濟(jì)學(xué)。聚類應(yīng)用包括動(dòng)植物分類、疾病分類、圖像處理、模式識(shí)別和文本檢索。例如,在商業(yè)方面,聚類分析可以幫助市場(chǎng)人員發(fā)現(xiàn)顧客群中所存在的不同特征的群組,并可以利用購買模式來描述這些具有不同特征的顧客組群。在生物學(xué)方面,聚類分析可以用來獲取動(dòng)物或植物所存在的層次結(jié)構(gòu),可根據(jù)基因功能對(duì)其進(jìn)行分類以獲得對(duì)人群中所固有的結(jié)構(gòu)更深入的了解。聚類還可以從地球觀測(cè)數(shù)據(jù)庫中幫助識(shí)別具有相似的土地使用情況的區(qū)域,此外,還可以幫助分類識(shí)別互聯(lián)網(wǎng)上的文檔以便進(jìn)行信息發(fā)現(xiàn)。
??
聚類分析是一個(gè)富有挑戰(zhàn)性的研究領(lǐng)域,以下就是對(duì)數(shù)據(jù)挖掘中聚類分析的一些典型要求:
?
(1) 可伸縮性(scalability)。實(shí)際應(yīng)用要求聚類算法能夠處理大數(shù)據(jù)集,且時(shí)間復(fù)雜度不能太高(最好是多項(xiàng)式時(shí)間),消耗的內(nèi)存空間也有限。目前,為了將算法拓展到超大數(shù)據(jù)庫(VLDB)領(lǐng)域,研究人員已經(jīng)進(jìn)行了許多有益的嘗試,包括:增量式挖掘、可靠的采樣、數(shù)據(jù)擠壓(data squashing)等。其中,數(shù)據(jù)擠壓技術(shù)首先通過掃描數(shù)據(jù)來獲得數(shù)據(jù)的統(tǒng)計(jì)信息,然后在這些統(tǒng)計(jì)信息的基礎(chǔ)上進(jìn)行聚類分析。比如BIRCH 算法中使用CF樹就是屬于數(shù)據(jù)擠壓技術(shù)。
(2) 能夠處理不同類型的屬性。現(xiàn)實(shí)中的數(shù)據(jù)對(duì)象己遠(yuǎn)遠(yuǎn)超出關(guān)系型數(shù)據(jù)的范疇,比如空間數(shù)據(jù)、多媒體數(shù)據(jù)、遺傳學(xué)數(shù)據(jù)、時(shí)間序列數(shù)據(jù)、文本數(shù)據(jù)、萬維網(wǎng)上的數(shù)據(jù)、以及目前逐漸興起的數(shù)據(jù)流。這些數(shù)據(jù)對(duì)象的屬性類型往往是由多種數(shù)據(jù)類型綜合而成的。
(3) 能夠發(fā)現(xiàn)任意形狀的簇。
(4) 盡量減少用于決定輸入?yún)?shù)的領(lǐng)域知識(shí)。
(5) 能夠處理噪聲數(shù)據(jù)及孤立點(diǎn)。
(6) 對(duì)輸入數(shù)據(jù)記錄的順序不敏感。
(7) 高維性(high-dimensional)。一個(gè)數(shù)據(jù)集可能包含若干維。較高的維數(shù)給聚類分析帶來兩個(gè)問題:首先,不相關(guān)的屬性削弱了數(shù)據(jù)匯聚的趨勢(shì),使得數(shù)據(jù)分布非常稀疏。盡管這種情況在低維空間中并不多見,但是隨著維數(shù)的增加,不相關(guān)屬性的出現(xiàn)概率及數(shù)量也會(huì)增加,最后導(dǎo)致數(shù)據(jù)空間中幾乎不存在簇。其次,高維使得在低維中很有效的區(qū)分?jǐn)?shù)據(jù)的標(biāo)準(zhǔn)在高維空間中失效了。如在高維空間中,數(shù)據(jù)點(diǎn)到最近鄰點(diǎn)的距離與到其他點(diǎn)的距離沒有多少分別,從而導(dǎo)致最近鄰查詢?cè)诟呔S空間中不穩(wěn)定,此時(shí)若根據(jù)接近度來劃分簇,結(jié)果是不可信的。
(8) 能夠根據(jù)用戶指定的約束條件進(jìn)行聚類。
(9) 聚類結(jié)果具有可解釋性和可用性。
上述的要求使目前聚類分析研究的熱點(diǎn)集中在設(shè)計(jì)能夠有效、高效地對(duì)大數(shù)據(jù)庫進(jìn)行聚類分析的方法上。相關(guān)的研究課題包括:聚類方法的可擴(kuò)展性、復(fù)雜形狀和復(fù)雜數(shù)據(jù)類型的聚類分析及其有效高效性、高維聚類技術(shù),以及混合數(shù)值屬性與符號(hào)屬性數(shù)據(jù)庫中的聚類分析方法等。
?
參考文獻(xiàn):
1. Jain A K, Murty M N, Flynn P J. Data Clustering: A Review. ACM Computing Surveys, 1999, 31(3): 264-323.
2. Xu Rui, Donald Wunsch Ⅱ, Survey of Clustering Algorithms, IEEE Transactions on Neural Networks, 2005, 16(3): 645-678.??????
3. Omran M G H, Engelbrecht A P, Salman A. An overview of clustering methods. Intelligent Data Analysis, 2007, 11, 583-605
?
?
?
與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的聚类分析(Clustering Analysis)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 英、美的教授体制
- 下一篇: 核聚类与支持向量聚类