第2章 数据认知与预处理
《大數(shù)據(jù)挖掘及應(yīng)用》學(xué)習(xí)筆記。
第2章 數(shù)據(jù)認(rèn)知與預(yù)處理
2.1 數(shù)據(jù)分析的定義和流程
數(shù)據(jù)分析(data analysis)是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析和解釋,提取出有用的信息形成結(jié)論,從而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。
2.1.1 如何理解和描述數(shù)據(jù)分析的問(wèn)題
理解和抽象出一個(gè)待分析的數(shù)據(jù)分析問(wèn)題模型步驟:
2.1.2 數(shù)據(jù)獲取與準(zhǔn)備
獲取數(shù)據(jù)的主要途徑:
2.1.3 數(shù)據(jù)質(zhì)量評(píng)估
2.2 數(shù)據(jù)類(lèi)型
我們獲取的數(shù)據(jù)集都由一個(gè)一個(gè)數(shù)據(jù)對(duì)象組成,每一個(gè)對(duì)象都代表一個(gè)實(shí)例。
2.2.1 屬性的定義
屬性(attribute)是一個(gè)字段,表示數(shù)據(jù)對(duì)象的一個(gè)特征。對(duì)象與屬性是不可分的,沒(méi)有屬性的對(duì)象是不存在的,因?yàn)閷?duì)象不用屬性來(lái)進(jìn)行描述就不能稱(chēng)之為對(duì)象了,而屬性如果不用來(lái)描述對(duì)象,也就沒(méi)有意義。
屬性的取值范圍決定了屬性的類(lèi)型:
2.2.2 標(biāo)稱(chēng)屬性(nominal attribute)
指一些不同的符號(hào)或事物的名稱(chēng),每個(gè)值提供了足夠的信息以區(qū)分對(duì)象。
例如:描述水果類(lèi)的數(shù)據(jù)對(duì)象,名稱(chēng)值可能是梨、蘋(píng)果、桃子等,種類(lèi)值可能是漿果類(lèi)、核果類(lèi)、柑橘類(lèi)等,而顏色的值可能是紅色、青色、黃色等。
如(蘋(píng)果、核果類(lèi)、紅色)表明了其所描述的對(duì)象蘋(píng)果的屬性。
當(dāng)然也可以用數(shù)字來(lái)表示標(biāo)稱(chēng)屬性,如定義1表示蘋(píng)果,2表示梨等,一般情況下,不能求這些值的均值、中位數(shù),但可以求出該屬性下最常出現(xiàn)的值,這個(gè)值稱(chēng)為眾數(shù)(mode),是一種中心趨勢(shì)度量。
2.2.3 二元屬性(binary attribute)
只有兩個(gè)可選值的屬性,只有0和1或值True和False兩個(gè)狀態(tài)。
2.2.4 序值屬性(ordinal attribute)
提供足夠的信息確定數(shù)據(jù)對(duì)象之間的序,但是值之間的差是未知的。序值屬性可以定義眾數(shù)、中位數(shù)或百分位數(shù),但不能定義均值。
2.2.5 數(shù)值屬性(numeric attribute)
最常用的一種數(shù)據(jù)類(lèi)型,它是可度量的,用整數(shù)或?qū)崝?shù)值表示,它定量地描述對(duì)象。
2.3 數(shù)據(jù)的統(tǒng)計(jì)描述方法
在對(duì)數(shù)據(jù)進(jìn)行分析之前,把握數(shù)據(jù)的全貌是至關(guān)重要的。基本的統(tǒng)計(jì)描述方法不僅可以用來(lái)識(shí)別整個(gè)數(shù)據(jù)集的性質(zhì)和特點(diǎn),發(fā)現(xiàn)數(shù)據(jù)集中的噪聲或離群點(diǎn),還能夠?qū)θ笔У臄?shù)據(jù)值進(jìn)行補(bǔ)全。
基本統(tǒng)計(jì)描述:
…持續(xù)修改完善中
總結(jié)
以上是生活随笔為你收集整理的第2章 数据认知与预处理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 第1章 绪论
- 下一篇: 第1章 数据分析概述