欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報激活碼778899分享:人工智能 數(shù)據(jù)挖掘-數(shù)據(jù)預處理

柚子快報激活碼778899分享:人工智能 數(shù)據(jù)挖掘-數(shù)據(jù)預處理

http://yzkb.51969.com/

來自塞?程序員 Truraly | 田園 的博客,最新文章首發(fā)于:田園幻想鄉(xiāng) | 原文鏈接 | github (歡迎關(guān)注)

文章目錄

3.3.1 數(shù)據(jù)的中心趨勢平均數(shù)和加權(quán)平均數(shù)眾數(shù),中位數(shù)和均值描述數(shù)據(jù)的離散程度 & 箱線圖其他描述數(shù)據(jù)的方法

3.4 數(shù)據(jù)清洗3.4.1 缺失值3.4.2 數(shù)據(jù)清洗

3.5 數(shù)據(jù)集成和轉(zhuǎn)換3.5.3 數(shù)據(jù)轉(zhuǎn)換

3.6 數(shù)據(jù)規(guī)約和數(shù)據(jù)變換3.6.2 數(shù)據(jù)離散化

數(shù)據(jù)類型:

名稱型:區(qū)別性 比如:性別順序型:區(qū)別性,順序性 比如:身高間隔型:區(qū)別性,順序性,可加減 比如:溫度比率型:區(qū)別性,順序性,可加減,可乘除 比如:百分比

為什么要預處理數(shù)據(jù):

數(shù)據(jù)不完整,比如缺失值數(shù)據(jù)不一致,比如單位不一致有噪聲,比如錯誤數(shù)據(jù)

3.3.1 數(shù)據(jù)的中心趨勢

平均數(shù)和加權(quán)平均數(shù)

首先這里有一組數(shù)據(jù)

1,,53,22,39,73,9,14

(算數(shù))平均值:

x

=

1

n

i

=

1

n

x

i

\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}

x=n1?∑i=1n?xi?

加權(quán)平均值:

x

=

i

=

1

n

w

i

x

i

i

=

1

n

w

i

\overline{x}=\frac{\sum_{i=1}^{n}w_{i}x_{i}}{\sum_{i=1}^{n}w_{i}}

x=∑i=1n?wi?∑i=1n?wi?xi??

其中:

w

i

是權(quán)重

x

i

是數(shù)據(jù)

其中: w_{i} 是權(quán)重 x_{i} 是數(shù)據(jù)

其中:wi?是權(quán)重xi?是數(shù)據(jù)

眾數(shù),中位數(shù)和均值

參考資料:偏態(tài)分布的左偏右偏如何理解?| 知乎

眾數(shù):出現(xiàn)次數(shù)最多的數(shù)

中位數(shù):將數(shù)據(jù)從小到大排列,中間的數(shù)

均值:平均數(shù)

上圖情況為左偏態(tài),反之為右偏態(tài),中間為正態(tài)

描述數(shù)據(jù)的離散程度 & 箱線圖

參考資料:箱形圖 | 百度

最小值(0 分位數(shù))Q0最大值(1 分位數(shù))中位數(shù)(0.5 分位數(shù))Q2 (n+1)/2 位四分位數(shù)(0.25 分位數(shù),0.75 分位數(shù))Q1 Q3 (n+1)/4 位 (3n+3)/4 位

中間四分位數(shù)極差:IQR = Q3 - Q1

上限:Q3 + k * IQR

下限:Q1 - k * IQR

k 為一個常數(shù),經(jīng)驗值為 1.5,區(qū)間外的數(shù)據(jù)為離群點,可根據(jù)情況忽視或者刪除

EG:

1 2 2 5 6 9 9

Q0 = 1

Q1 = 2

M = 5

Q3 = 9

1 2 2 5 6 7 8 9 9

Q0 = 1

Q1 = 第2.5位 = 2

M = 第5位 = 6

Q3 = 第7.5位 = 8*0.5+9*0.5 = 8.5

1 2 3 4 5 6 7 8

Q0 = 1

Q1 = 第2.25位 = 2*0.75+3*0.25 = 2.25

M = 第4.5位 = 4.5

Q3 = 第6.75位 = 6*0.25+7*0.75 = 6.75

其他描述數(shù)據(jù)的方法

直方圖:橫軸為數(shù)據(jù),縱軸為頻數(shù)

分位圖:橫軸為數(shù)據(jù),縱軸為累計頻數(shù)

Q-Q 圖:橫軸為理論分位數(shù),縱軸為樣本分位數(shù)

散點圖:橫軸為數(shù)據(jù),縱軸為數(shù)據(jù)

3.4 數(shù)據(jù)清洗

3.4.1 缺失值

缺失值的處理:

整條數(shù)據(jù)刪除人工填寫填寫統(tǒng)一值使用均值或者中位數(shù)填寫(減少數(shù)據(jù)的方差)使用類似數(shù)據(jù)的均值或者中位數(shù)填寫(進一步減少影響)

3.4.2 數(shù)據(jù)清洗

針對數(shù)據(jù)的噪聲,比如錯誤數(shù)據(jù),重復數(shù)據(jù),不一致數(shù)據(jù)

使用分箱方法,將數(shù)據(jù)分為多個箱子,然后將箱子中的數(shù)據(jù)替換為箱子的均值,這樣可以減少噪聲的影響(數(shù)據(jù)平滑)

等寬分箱:將數(shù)據(jù)分為相同寬度的箱子,比如 0-10,10-20,20-30,依次將數(shù)據(jù)放入對應的箱子(箱子內(nèi)數(shù)據(jù)不一致)。寬度一般為

w

=

m

a

x

(

d

a

t

a

)

?

m

i

n

(

d

a

t

a

)

N

w=\frac{max(data)-min(data)}{N}

w=Nmax(data)?min(data)?

等頻分箱:將數(shù)據(jù)平等分為 n 份,每份數(shù)據(jù)個數(shù)相同

EG:

4 8 9 15 21 21 24 25 26 28 29 34

等寬分箱:

w = (34-4)/3 = 10

[4,14) | [14,24) | [24,34]

4 8 9 | 15 21 21 | 24 25 26 28 29 34

等頻分箱:

w = 12/3 = 4 箱

4 8 9 15 | 21 21 24 25 | 26 28 29 34

3.5 數(shù)據(jù)集成和轉(zhuǎn)換

3.5.3 數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)規(guī)范化:

最大最小規(guī)范化:將數(shù)據(jù)轉(zhuǎn)換到某一區(qū)間。比如[0,1],公式為:

X

?

=

X

?

X

m

i

n

X

m

a

x

?

X

m

i

n

X^{*}=\frac{X-X_{min}}{X_{max}-X_{min}}

X?=Xmax??Xmin?X?Xmin??

Z-Score 規(guī)范化:將數(shù)據(jù)轉(zhuǎn)換為均值為 0,標準差為 1 的數(shù)據(jù)。公式為:

X

?

=

X

?

X

S

X^{*}=\frac{X-\overline{X}}{S}

X?=SX?X?

其中:

X

為均值

\overline{X} 為均值

X為均值

S 為標準差

S

=

1

n

i

=

1

n

(

X

i

?

X

)

2

S=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}

S=n1?∑i=1n?(Xi??X)2

?

3.6 數(shù)據(jù)規(guī)約和數(shù)據(jù)變換

數(shù)據(jù)立方體聚合:將數(shù)據(jù)按照維度進行聚合,比如按照時間維度,地理維度,產(chǎn)品維度等

線性回歸分析:使用線性方程擬合數(shù)據(jù),然后使用方程代替數(shù)據(jù)

采樣方法:對于類似的一個數(shù)據(jù)簇,可以使用其中一部分數(shù)據(jù)代替整個簇,要注意在整體中每個簇代替的數(shù)據(jù)比例要相同

3.6.2 數(shù)據(jù)離散化

數(shù)據(jù)離散化:將連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù),比如將年齡分為 0-10,10-20,20-30 等

數(shù)據(jù)離散化的方法:

基于信息增益的方法:使用熵來衡量數(shù)據(jù)的離散程度,熵越大,數(shù)據(jù)越離散,熵越小,數(shù)據(jù)越集中。使用信息增益來衡量數(shù)據(jù)的離散程度,信息增益越大,數(shù)據(jù)越離散,信息增益越小,數(shù)據(jù)越集中。信息增益的計算公式為:

I

(

S

,

T

)

=

E

n

t

r

o

p

y

(

S

)

?

v

T

S

v

S

E

n

t

r

o

p

y

(

S

v

)

I(S,T) = Entropy(S) - \sum_{v\in T}\frac{|S_{v}|}{|S|}Entropy(S_{v})

I(S,T)=Entropy(S)?∑v∈T?∣S∣∣Sv?∣?Entropy(Sv?)

其中:

E

n

t

r

o

p

y

(

S

)

=

?

i

=

1

n

p

i

l

o

g

2

p

i

Entropy(S) = -\sum_{i=1}^{n}p_{i}log_{2}p_{i}

Entropy(S)=?∑i=1n?pi?log2?pi?

S

為數(shù)據(jù)集,

T

為數(shù)據(jù)集的一個屬性,

S

v

T

的一個值,

p

i

S

v

中第

i

個類別的概率

S 為數(shù)據(jù)集,T 為數(shù)據(jù)集的一個屬性,S_{v} 為 T 的一個值,p_{i} 為 S_{v} 中第 i 個類別的概率

S為數(shù)據(jù)集,T為數(shù)據(jù)集的一個屬性,Sv?為T的一個值,pi?為Sv?中第i個類別的概率

這個東西后面 ID3 決策樹會用到

基于卡方檢驗的方法:使用卡方檢驗來衡量數(shù)據(jù)的離散程度,卡方檢驗越大,數(shù)據(jù)越離散,卡方檢驗越小,數(shù)據(jù)越集中??ǚ綑z驗的計算公式為:

χ

2

=

i

=

1

n

(

A

i

?

E

i

)

2

E

i

\chi^{2} = \sum_{i=1}^{n}\frac{(A_{i}-E_{i})^{2}}{E_{i}}

χ2=∑i=1n?Ei?(Ai??Ei?)2?

其中:

A

i

為實際值,

E

i

為期望值

A_{i} 為實際值,E_{i} 為期望值

Ai?為實際值,Ei?為期望值

基于自然分區(qū)的方法:使用人工的方式將數(shù)據(jù)分為多個區(qū)間,比如年齡分為 0-10,10-20,20-30 等

————————————————

版權(quán)聲明:本文為 田園幻想鄉(xiāng) 的原創(chuàng)文章,遵循 CC 4.0 BY-NA-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。 原文鏈接:http://truraly.fun/課程筆記/數(shù)據(jù)挖掘/【3】數(shù)據(jù)預處理.html

柚子快報激活碼778899分享:人工智能 數(shù)據(jù)挖掘-數(shù)據(jù)預處理

http://yzkb.51969.com/

好文推薦

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/19269188.html

發(fā)布評論

您暫未設置收款碼

請在主題配置——文章設置里上傳

掃描二維碼手機訪問

文章目錄