柚子快報激活碼778899分享:人工智能 數(shù)據(jù)挖掘-數(shù)據(jù)預處理
柚子快報激活碼778899分享:人工智能 數(shù)據(jù)挖掘-數(shù)據(jù)預處理
來自塞?程序員 Truraly | 田園 的博客,最新文章首發(fā)于:田園幻想鄉(xiāng) | 原文鏈接 | github (歡迎關(guān)注)
文章目錄
3.3.1 數(shù)據(jù)的中心趨勢平均數(shù)和加權(quán)平均數(shù)眾數(shù),中位數(shù)和均值描述數(shù)據(jù)的離散程度 & 箱線圖其他描述數(shù)據(jù)的方法
3.4 數(shù)據(jù)清洗3.4.1 缺失值3.4.2 數(shù)據(jù)清洗
3.5 數(shù)據(jù)集成和轉(zhuǎn)換3.5.3 數(shù)據(jù)轉(zhuǎn)換
3.6 數(shù)據(jù)規(guī)約和數(shù)據(jù)變換3.6.2 數(shù)據(jù)離散化
數(shù)據(jù)類型:
名稱型:區(qū)別性 比如:性別順序型:區(qū)別性,順序性 比如:身高間隔型:區(qū)別性,順序性,可加減 比如:溫度比率型:區(qū)別性,順序性,可加減,可乘除 比如:百分比
為什么要預處理數(shù)據(jù):
數(shù)據(jù)不完整,比如缺失值數(shù)據(jù)不一致,比如單位不一致有噪聲,比如錯誤數(shù)據(jù)
3.3.1 數(shù)據(jù)的中心趨勢
平均數(shù)和加權(quán)平均數(shù)
首先這里有一組數(shù)據(jù)
1,,53,22,39,73,9,14
(算數(shù))平均值:
x
 ̄
=
1
n
∑
i
=
1
n
x
i
\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}
x=n1?∑i=1n?xi?
加權(quán)平均值:
x
 ̄
=
∑
i
=
1
n
w
i
x
i
∑
i
=
1
n
w
i
\overline{x}=\frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i=1}^{n}w_{i}}
x=∑i=1n?wi?∑i=1n?wi?xi??
其中:
w
i
是權(quán)重
x
i
是數(shù)據(jù)
其中: w_{i} 是權(quán)重 x_{i} 是數(shù)據(jù)
其中:wi?是權(quán)重xi?是數(shù)據(jù)
眾數(shù),中位數(shù)和均值
參考資料:偏態(tài)分布的左偏右偏如何理解?| 知乎
眾數(shù):出現(xiàn)次數(shù)最多的數(shù)
中位數(shù):將數(shù)據(jù)從小到大排列,中間的數(shù)
均值:平均數(shù)
上圖情況為左偏態(tài),反之為右偏態(tài),中間為正態(tài)
描述數(shù)據(jù)的離散程度 & 箱線圖
參考資料:箱形圖 | 百度
最小值(0 分位數(shù))Q0最大值(1 分位數(shù))中位數(shù)(0.5 分位數(shù))Q2 (n+1)/2 位四分位數(shù)(0.25 分位數(shù),0.75 分位數(shù))Q1 Q3 (n+1)/4 位 (3n+3)/4 位
中間四分位數(shù)極差:IQR = Q3 - Q1
上限:Q3 + k * IQR
下限:Q1 - k * IQR
k 為一個常數(shù),經(jīng)驗值為 1.5,區(qū)間外的數(shù)據(jù)為離群點,可根據(jù)情況忽視或者刪除
EG:
1 2 2 5 6 9 9
Q0 = 1
Q1 = 2
M = 5
Q3 = 9
1 2 2 5 6 7 8 9 9
Q0 = 1
Q1 = 第2.5位 = 2
M = 第5位 = 6
Q3 = 第7.5位 = 8*0.5+9*0.5 = 8.5
1 2 3 4 5 6 7 8
Q0 = 1
Q1 = 第2.25位 = 2*0.75+3*0.25 = 2.25
M = 第4.5位 = 4.5
Q3 = 第6.75位 = 6*0.25+7*0.75 = 6.75
其他描述數(shù)據(jù)的方法
直方圖:橫軸為數(shù)據(jù),縱軸為頻數(shù)
分位圖:橫軸為數(shù)據(jù),縱軸為累計頻數(shù)
Q-Q 圖:橫軸為理論分位數(shù),縱軸為樣本分位數(shù)
散點圖:橫軸為數(shù)據(jù),縱軸為數(shù)據(jù)
3.4 數(shù)據(jù)清洗
3.4.1 缺失值
缺失值的處理:
整條數(shù)據(jù)刪除人工填寫填寫統(tǒng)一值使用均值或者中位數(shù)填寫(減少數(shù)據(jù)的方差)使用類似數(shù)據(jù)的均值或者中位數(shù)填寫(進一步減少影響)
3.4.2 數(shù)據(jù)清洗
針對數(shù)據(jù)的噪聲,比如錯誤數(shù)據(jù),重復數(shù)據(jù),不一致數(shù)據(jù)
使用分箱方法,將數(shù)據(jù)分為多個箱子,然后將箱子中的數(shù)據(jù)替換為箱子的均值,這樣可以減少噪聲的影響(數(shù)據(jù)平滑)
等寬分箱:將數(shù)據(jù)分為相同寬度的箱子,比如 0-10,10-20,20-30,依次將數(shù)據(jù)放入對應的箱子(箱子內(nèi)數(shù)據(jù)不一致)。寬度一般為
w
=
m
a
x
(
d
a
t
a
)
?
m
i
n
(
d
a
t
a
)
N
w=\frac{max(data)-min(data)}{N}
w=Nmax(data)?min(data)?
等頻分箱:將數(shù)據(jù)平等分為 n 份,每份數(shù)據(jù)個數(shù)相同
EG:
4 8 9 15 21 21 24 25 26 28 29 34
等寬分箱:
w = (34-4)/3 = 10
[4,14) | [14,24) | [24,34]
4 8 9 | 15 21 21 | 24 25 26 28 29 34
等頻分箱:
w = 12/3 = 4 箱
4 8 9 15 | 21 21 24 25 | 26 28 29 34
3.5 數(shù)據(jù)集成和轉(zhuǎn)換
3.5.3 數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)規(guī)范化:
最大最小規(guī)范化:將數(shù)據(jù)轉(zhuǎn)換到某一區(qū)間。比如[0,1],公式為:
X
?
=
X
?
X
m
i
n
X
m
a
x
?
X
m
i
n
X^{*}=\frac{X-X_{min}}{X_{max}-X_{min}}
X?=Xmax??Xmin?X?Xmin??
Z-Score 規(guī)范化:將數(shù)據(jù)轉(zhuǎn)換為均值為 0,標準差為 1 的數(shù)據(jù)。公式為:
X
?
=
X
?
X
 ̄
S
X^{*}=\frac{X-\overline{X}}{S}
X?=SX?X?
其中:
X
 ̄
為均值
\overline{X} 為均值
X為均值
S 為標準差
S
=
1
n
∑
i
=
1
n
(
X
i
?
X
 ̄
)
2
S=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}
S=n1?∑i=1n?(Xi??X)2
?
3.6 數(shù)據(jù)規(guī)約和數(shù)據(jù)變換
數(shù)據(jù)立方體聚合:將數(shù)據(jù)按照維度進行聚合,比如按照時間維度,地理維度,產(chǎn)品維度等
線性回歸分析:使用線性方程擬合數(shù)據(jù),然后使用方程代替數(shù)據(jù)
采樣方法:對于類似的一個數(shù)據(jù)簇,可以使用其中一部分數(shù)據(jù)代替整個簇,要注意在整體中每個簇代替的數(shù)據(jù)比例要相同
3.6.2 數(shù)據(jù)離散化
數(shù)據(jù)離散化:將連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù),比如將年齡分為 0-10,10-20,20-30 等
數(shù)據(jù)離散化的方法:
基于信息增益的方法:使用熵來衡量數(shù)據(jù)的離散程度,熵越大,數(shù)據(jù)越離散,熵越小,數(shù)據(jù)越集中。使用信息增益來衡量數(shù)據(jù)的離散程度,信息增益越大,數(shù)據(jù)越離散,信息增益越小,數(shù)據(jù)越集中。信息增益的計算公式為:
I
(
S
,
T
)
=
E
n
t
r
o
p
y
(
S
)
?
∑
v
∈
T
∣
S
v
∣
∣
S
∣
E
n
t
r
o
p
y
(
S
v
)
I(S,T) = Entropy(S) - \sum_{v\in T}\frac{|S_{v}|}{|S|}Entropy(S_{v})
I(S,T)=Entropy(S)?∑v∈T?∣S∣∣Sv?∣?Entropy(Sv?)
其中:
E
n
t
r
o
p
y
(
S
)
=
?
∑
i
=
1
n
p
i
l
o
g
2
p
i
Entropy(S) = -\sum_{i=1}^{n}p_{i}log_{2}p_{i}
Entropy(S)=?∑i=1n?pi?log2?pi?
S
為數(shù)據(jù)集,
T
為數(shù)據(jù)集的一個屬性,
S
v
為
T
的一個值,
p
i
為
S
v
中第
i
個類別的概率
S 為數(shù)據(jù)集,T 為數(shù)據(jù)集的一個屬性,S_{v} 為 T 的一個值,p_{i} 為 S_{v} 中第 i 個類別的概率
S為數(shù)據(jù)集,T為數(shù)據(jù)集的一個屬性,Sv?為T的一個值,pi?為Sv?中第i個類別的概率
這個東西后面 ID3 決策樹會用到
基于卡方檢驗的方法:使用卡方檢驗來衡量數(shù)據(jù)的離散程度,卡方檢驗越大,數(shù)據(jù)越離散,卡方檢驗越小,數(shù)據(jù)越集中??ǚ綑z驗的計算公式為:
χ
2
=
∑
i
=
1
n
(
A
i
?
E
i
)
2
E
i
\chi^{2} = \sum_{i=1}^{n}\frac{(A_{i}-E_{i})^{2}}{E_{i}}
χ2=∑i=1n?Ei?(Ai??Ei?)2?
其中:
A
i
為實際值,
E
i
為期望值
A_{i} 為實際值,E_{i} 為期望值
Ai?為實際值,Ei?為期望值
基于自然分區(qū)的方法:使用人工的方式將數(shù)據(jù)分為多個區(qū)間,比如年齡分為 0-10,10-20,20-30 等
————————————————
版權(quán)聲明:本文為 田園幻想鄉(xiāng) 的原創(chuàng)文章,遵循 CC 4.0 BY-NA-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。 原文鏈接:http://truraly.fun/課程筆記/數(shù)據(jù)挖掘/【3】數(shù)據(jù)預處理.html
柚子快報激活碼778899分享:人工智能 數(shù)據(jù)挖掘-數(shù)據(jù)預處理
好文推薦
本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。