数据仓库与数据挖掘概述
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述
1. 數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)
傳統(tǒng)型數(shù)據(jù)庫(kù)
- 定義:面向業(yè)務(wù),對(duì)事物進(jìn)行處理
- 類似關(guān)系型數(shù)據(jù)庫(kù),對(duì)數(shù)據(jù)進(jìn)行增刪改查
數(shù)據(jù)倉(cāng)庫(kù)
-
定義:面向主題,集成,穩(wěn)定,隨時(shí)間變化的數(shù)據(jù)集,支持管理決策過程
-
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來源:
-
DB,數(shù)據(jù)文件,其他數(shù)據(jù)運(yùn)用數(shù)據(jù)ETL工具進(jìn)行數(shù)據(jù)獲取
ETL,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程
講解
-
兩者關(guān)系
- 傳統(tǒng)—> 處理日常事務(wù)
- 數(shù)據(jù)倉(cāng)庫(kù)—> 為幫助管理者做決策
傳統(tǒng)型數(shù)據(jù)庫(kù)是創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)數(shù)據(jù)源
2. 數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)
- 定義:試圖從海量數(shù)據(jù)中找出有用的知識(shí)
- 相識(shí)的知識(shí)發(fā)現(xiàn):指發(fā)現(xiàn)的規(guī)則
- 定義:利用經(jīng)驗(yàn)改善計(jì)算機(jī)系統(tǒng)自身的性能
3. 數(shù)據(jù)挖掘簡(jiǎn)要分析
3.1 數(shù)據(jù)挖掘的主要任務(wù)
3.1.1 預(yù)測(cè)型
也可以說是有監(jiān)督學(xué)習(xí):分類回歸,離群點(diǎn)檢測(cè)等
數(shù)據(jù)已經(jīng)給出樣本類別,答案等。
3.1.2 描述型
? 也為無監(jiān)督學(xué)習(xí): 聚類, 關(guān)聯(lián)分析,序列模式等
不知道類別和答案等
? 用聚類算法,根據(jù)給定的某種相似度標(biāo)準(zhǔn),將沒有類別標(biāo)記的數(shù)據(jù)庫(kù)記錄集劃分成若干個(gè)不相交子集(簇),使簇內(nèi)的記錄之間相似度很高,不同簇相似度低。
| 離散型 | 字母或自然數(shù) | 有限;可能無限 |
| 連續(xù)型 | 一個(gè)實(shí)數(shù)區(qū)間內(nèi) | 不可數(shù),無限 |
3.2 不同任務(wù)所需算法簡(jiǎn)述
- 分類:模型輸出為離散型, 樸樹貝斯,決策樹,邏輯回歸算法,KNN
- 回歸: 模型輸出為連續(xù)型
- 聚類: k-mean算法,層次聚類。
- 關(guān)聯(lián)分析: Apriori等
- 序列模型: 類Apriori等
4. 數(shù)據(jù)
定義:一切可被記錄的
-
用來描述對(duì)象的屬性。
- id:標(biāo)識(shí)碼主鍵
- 屬性名:特征
- 取值:特征的值
-
數(shù)據(jù)預(yù)處理
- 數(shù)據(jù)清洗:洗出主要數(shù)據(jù)
- 數(shù)據(jù)集成:對(duì)多個(gè)數(shù)據(jù)源進(jìn)行同一
- 數(shù)據(jù)變換
- 數(shù)據(jù)歸約
- 數(shù)據(jù)離散化
總結(jié)
以上是生活随笔為你收集整理的数据仓库与数据挖掘概述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 给大家赠送一个我最近写的鼠标连点器的源代
- 下一篇: 5安卓输入法键盘显示 搜索_手机输入法谁