数据挖掘之七种常用的方法
??????? 利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁(yè)挖掘等, 它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。?
分類?????? 分類是找出數(shù)據(jù)庫(kù)中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別,用于預(yù)測(cè)數(shù)據(jù)對(duì)象的離散類別。
?????? 分類技術(shù)在很多領(lǐng)域都有應(yīng)用,它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購(gòu)買趨勢(shì)預(yù)測(cè)等。
當(dāng)前的市場(chǎng)營(yíng)銷中很重要的一個(gè)特點(diǎn)是強(qiáng)調(diào)客戶細(xì)分。客戶類別分析的功能也在于此,采用數(shù)據(jù)挖掘中的分類技術(shù),可以將客戶分成不同的類別。比如呼叫中心設(shè)計(jì)時(shí)可以分為:呼叫頻繁的客戶、偶然大量呼叫的客戶、穩(wěn)定呼叫的客戶、其他,幫助呼叫中心尋找出這些不同種類客戶之間的特征,這樣的分類模型可以讓用戶了解不同行為類別客戶的分布特征。
?其他分類應(yīng)用如文獻(xiàn)檢索和搜索引擎中的自動(dòng)文本分類技術(shù);安全領(lǐng)域有基于分類技術(shù)的入侵檢測(cè)等等。
?????? 而主要分類方法有決策樹、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神經(jīng)網(wǎng)絡(luò)等。
?????? 回歸分析,一個(gè)統(tǒng)計(jì)預(yù)測(cè)模型,用以描述和評(píng)估應(yīng)變量與一個(gè)或多個(gè)自變量之間的關(guān)系;反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系。
???????其主要研究問題包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的相關(guān)關(guān)系等。
?????? 回歸分析方法被廣泛地用于解釋市場(chǎng)占有率、銷售額、品牌偏好及市場(chǎng)營(yíng)銷效果。它可以應(yīng)用到市場(chǎng)營(yíng)銷的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動(dòng)、產(chǎn)品生命周期分析、銷售趨勢(shì)預(yù)測(cè)及有針對(duì)性的促銷活動(dòng)等。
(1)?判別自變量是否能解釋因變量的顯著變化----關(guān)系是否存在。
(2)?判別自變量能夠在多大程度上解釋因變量----關(guān)系的強(qiáng)度。
(3)?判別關(guān)系的結(jié)構(gòu)或形式----反映因變量和自變量之間相關(guān)的數(shù)學(xué)表達(dá)式。
(4)?預(yù)測(cè)自變量的值。
(5)?當(dāng)評(píng)價(jià)一個(gè)特殊變量或一組變量對(duì)因變量的貢獻(xiàn)時(shí),對(duì)其自變量進(jìn)行控制。
聚類
?????? 聚類,顧名思義就是按照相似性和差異性,把一組對(duì)象劃分成若干類,并且每個(gè)類里面對(duì)象之間的相似度較高,不同類里面對(duì)象之間相似度較低或差異明顯。與分類不同的是聚類不依靠給定的類別對(duì)對(duì)象進(jìn)行劃分。?
分析算法分類(1)劃分方法
(2)層次的方法
(3)基于密度的方法
(4)基于網(wǎng)格的方法
(5)基于模型的方法
?????? 它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購(gòu)買趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等。如誰(shuí)經(jīng)常光顧商店,誰(shuí)買什么東西,買多少?按忠誠(chéng)卡記錄的光臨次數(shù)、光臨時(shí)間、年齡、職業(yè)等等;還有銀行信用卡的黃金客戶,按儲(chǔ)蓄額、刷卡消費(fèi)金額和誠(chéng)信度等。?
關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,可以從一件事情的發(fā)生,來(lái)推測(cè)另外一件事情的發(fā)生,即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系,從而更好地了解和掌握事物的發(fā)展規(guī)律等等。
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘中最經(jīng)典的案例就是沃爾瑪?shù)钠【坪湍虿嫉墓适隆T诿绹?guó),一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買一些啤酒。于是沃爾瑪將啤酒與尿布一起銷售,**提高了銷售額。
?????? 關(guān)聯(lián)規(guī)則的實(shí)際應(yīng)用包括:交叉銷售、郵購(gòu)目錄的設(shè)計(jì)、商品擺放、流失客戶分析、基于購(gòu)買模式進(jìn)行客戶區(qū)隔等等……
????? 在客戶關(guān)系管理中,通過對(duì)企業(yè)的客戶數(shù)據(jù)庫(kù)里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場(chǎng)營(yíng)銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價(jià)與定制客戶群,客戶尋求、細(xì)分與保持,市場(chǎng)營(yíng)銷與推銷,營(yíng)銷風(fēng)險(xiǎn)評(píng)估和詐騙預(yù)測(cè)等決策支持提供參考依據(jù)。?
?????? 特征分析是從數(shù)據(jù)庫(kù)中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達(dá)了該數(shù)據(jù)集的總體特征。特征選擇的目的在于從海量數(shù)據(jù)中提取出有用信息,從而提高數(shù)據(jù)的使用效率。
????? 其中,特征有效性的選擇評(píng)價(jià)有概率論、數(shù)理統(tǒng)計(jì)、信息論、IR領(lǐng)域的度量、學(xué)**相關(guān)的度量等。
????? 如營(yíng)銷人員通過對(duì)客戶流失因素的特征提取,可以得到導(dǎo)致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預(yù)防客戶的流失。
變化和偏差分析?????? 偏差是數(shù)據(jù)集中的小比例對(duì)象。通常,偏差對(duì)象被稱為離群點(diǎn)、例外、野點(diǎn)等。偏差分析是一個(gè)有趣的數(shù)據(jù)挖掘任務(wù),其目的是發(fā)現(xiàn)與大部分其他對(duì)象不同的對(duì)象。如分類中的反常實(shí)例,模式的例外,觀察結(jié)果對(duì)期望的偏差等。
?????? 在企業(yè)危機(jī)管理及其預(yù)警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應(yīng)用到各種異常信息的發(fā)現(xiàn)、分析、識(shí)別、評(píng)價(jià)和預(yù)警等方面。
?????? 而其成因有數(shù)據(jù)源于不同的類、自然變異、數(shù)據(jù)測(cè)量或收集誤差等。?
Web頁(yè)挖掘?????? 通過對(duì)Web的挖掘,可以利用Web 的海量數(shù)據(jù)進(jìn)行分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場(chǎng)、競(jìng)爭(zhēng)對(duì)手、供求信息、客戶等有關(guān)的信息,集中精力分析和處理那些對(duì)企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營(yíng)信息,并根據(jù)分析結(jié)果找出企業(yè)管理過程中出現(xiàn)的各種問題和可能引起危機(jī)的先兆,對(duì)這些信息進(jìn)行分析和處理,以便識(shí)別、分析、評(píng)價(jià)和管理危機(jī)。
??????Web數(shù)據(jù)挖掘的研究對(duì)象是以半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)文檔為中心的Web,這些數(shù)據(jù)沒有統(tǒng)一的模式,數(shù)據(jù)的內(nèi)容和表示互相交織,數(shù)據(jù)內(nèi)容基本上沒有語(yǔ)義信息進(jìn)行描述,僅僅依靠HTML語(yǔ)法對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)上的描述。?
可完成任務(wù)? (1)網(wǎng)絡(luò)流量分配情況、隨時(shí)間變化情況分析。
??? (2)網(wǎng)站廣告點(diǎn)擊率、投資收益比分析。
??? (3)用戶從哪里進(jìn)入網(wǎng)站、跳出網(wǎng)站,進(jìn)入感興趣的頁(yè)的方式等出入口分析。
??? (4)用戶來(lái)源分析。
??? (5)訪問站點(diǎn)的用戶的瀏覽器和平臺(tái)分析。
??? (6)發(fā)現(xiàn)經(jīng)常被用戶一起訪問的頁(yè)面集合,作為優(yōu)化站點(diǎn)的參照。
??? (7)聚類行為模式相似的用戶,形成智能推薦模式;聚類同一群用戶訪問的頁(yè)面,幫助發(fā)現(xiàn)站點(diǎn)設(shè)計(jì)的不合理之處。
??? (8)預(yù)測(cè)用戶可能訪問的頁(yè)面,行為趨勢(shì)分析和用戶分類等。
總結(jié)
以上是生活随笔為你收集整理的数据挖掘之七种常用的方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: nodejs开发环境安装-连载【1】-企
- 下一篇: C# WPF 3DTools下的Trac