欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘?qū)W什么?有這一篇就夠了

柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘?qū)W什么?有這一篇就夠了

http://yzkb.51969.com/

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取有用信息的重要工具。它幫助我們在看似無序的數(shù)據(jù)中找到規(guī)律,從而作出更好的決策。本文將深入探討數(shù)據(jù)挖掘的主要知識點(diǎn),包含數(shù)據(jù)預(yù)處理、分類、聚類、關(guān)聯(lián)規(guī)則、降維、回歸分析及模型評估等內(nèi)容。

1. 數(shù)據(jù)預(yù)處理:為分析做準(zhǔn)備

在進(jìn)行數(shù)據(jù)挖掘之前,數(shù)據(jù)預(yù)處理是必不可少的一步。數(shù)據(jù)集可能存在缺失值、異常值或者維度不一致的問題。預(yù)處理的目標(biāo)是提高數(shù)據(jù)質(zhì)量,確保后續(xù)的分析更具可靠性。

1.1 缺失值處理

概念:缺失值是數(shù)據(jù)中某些屬性沒有提供值,可以通過刪除這些記錄或填充缺失值來處理。方法:一種常用的方法是使用均值填充,公式如下:

均值填充

=

1

n

i

=

1

n

X

i

\text{均值填充} = \frac{1}{n} \sum_{i=1}^{n} X_i

均值填充=n1?i=1∑n?Xi?應(yīng)用:假設(shè)學(xué)生的年齡數(shù)據(jù)缺失,可以使用平均年齡填充。

1.2 數(shù)據(jù)規(guī)范化

概念:不同屬性的數(shù)值范圍差異較大時(shí),通過規(guī)范化使它們在相同的量綱上。方法:

最小-最大規(guī)范化:

X

=

X

?

X

min

X

max

?

X

min

X' = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}

X′=Xmax??Xmin?X?Xmin??Z-score標(biāo)準(zhǔn)化:

X

=

X

?

μ

σ

X' = \frac{X - \mu}{\sigma}

X′=σX?μ? 應(yīng)用:當(dāng)對年齡、收入等不同單位的數(shù)據(jù)進(jìn)行分析時(shí),可以通過規(guī)范化讓它們具有可比性。

1.3 離群點(diǎn)處理

概念:離群點(diǎn)是顯著偏離其他數(shù)據(jù)點(diǎn)的值,需要被檢測并處理。公式:IQR(四分位距)法檢測離群值:

I

Q

R

=

Q

3

?

Q

1

IQR = Q_3 - Q_1

IQR=Q3??Q1? 異常值定義為小于 (Q_1 - 1.5 \times IQR) 或大于 (Q_3 + 1.5 \times IQR) 的點(diǎn)。應(yīng)用:在銷售數(shù)據(jù)中,某商品一天的銷售量遠(yuǎn)高于其他天,這個(gè)數(shù)據(jù)點(diǎn)可以被認(rèn)為是離群點(diǎn)。

2. 分類:預(yù)測類別標(biāo)簽

分類問題是數(shù)據(jù)挖掘中的一個(gè)重要部分,目標(biāo)是基于已知的類別對新數(shù)據(jù)進(jìn)行預(yù)測。

2.1 決策樹

概念:決策樹通過一系列條件判斷對數(shù)據(jù)進(jìn)行分類,適合處理離散數(shù)據(jù)。公式:使用信息增益選擇分裂節(jié)點(diǎn),信息增益計(jì)算公式為:

信息增益

=

(

D

)

?

i

=

1

n

D

i

D

×

(

D

i

)

\text{信息增益} = \text{熵}(D) - \sum_{i=1}^{n} \frac{|D_i|}{|D|} \times \text{熵}(D_i)

信息增益=熵(D)?i=1∑n?∣D∣∣Di?∣?×熵(Di?) 熵的計(jì)算公式:

(

D

)

=

?

i

=

1

c

p

i

log

?

2

(

p

i

)

\text{熵}(D) = - \sum_{i=1}^{c} p_i \log_2(p_i)

熵(D)=?i=1∑c?pi?log2?(pi?)應(yīng)用:預(yù)測客戶是否會購買某款產(chǎn)品,基于年齡、收入等特征構(gòu)建決策樹模型。

2.2 k近鄰算法 (k-NN)

概念:k-NN 是一種基于距離的分類算法,找到最近的 k 個(gè)鄰居,通過多數(shù)投票確定分類結(jié)果。公式:計(jì)算兩個(gè)點(diǎn)的歐幾里得距離:

d

(

p

,

q

)

=

i

=

1

n

(

p

i

?

q

i

)

2

d(p, q) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2}

d(p,q)=i=1∑n?(pi??qi?)2

?應(yīng)用:通過 k-NN 算法預(yù)測新用戶的購買偏好。

2.3 樸素貝葉斯分類器

概念:樸素貝葉斯分類器是一種基于貝葉斯定理的簡單概率分類器,假設(shè)特征之間是條件獨(dú)立的。它適合處理大規(guī)模數(shù)據(jù),并在文本分類等任務(wù)中表現(xiàn)良好。 公式:根據(jù)貝葉斯定理,分類的后驗(yàn)概率可以表示為:

P

(

C

X

)

=

P

(

X

C

)

?

P

(

C

)

P

(

X

)

P(C|X) = \frac{P(X|C) \cdot P(C)}{P(X)}

P(C∣X)=P(X)P(X∣C)?P(C)? 其中:

( P(C|X) ):給定特征 ( X ) 時(shí)類別 ( C ) 的后驗(yàn)概率。( P(X|C) ):類別 ( C ) 時(shí)特征 ( X ) 的似然概率。( P? ):類別 ( C ) 的先驗(yàn)概率。( P(X) ):特征 ( X ) 的邊際概率(可以忽略,用于比較不同類別時(shí))。 應(yīng)用:樸素貝葉斯分類器常用于文本分類,例如垃圾郵件檢測。根據(jù)郵件中的詞頻和先前分類的郵件數(shù)據(jù),計(jì)算每封郵件屬于垃圾郵件或正常郵件的概率,從而進(jìn)行分類。

3. 聚類:發(fā)現(xiàn)數(shù)據(jù)中的隱藏模式

聚類是一種無監(jiān)督學(xué)習(xí)方法,用來將相似的數(shù)據(jù)點(diǎn)分成相同的組。

3.1 k均值聚類

概念:k均值通過迭代優(yōu)化質(zhì)心位置來將數(shù)據(jù)點(diǎn)分成 k 個(gè)組。步驟:

隨機(jī)選擇 k 個(gè)質(zhì)心。將每個(gè)數(shù)據(jù)點(diǎn)分配給最近的質(zhì)心。重新計(jì)算質(zhì)心,直到質(zhì)心穩(wěn)定。 應(yīng)用:在市場營銷中,使用 k 均值算法將客戶分為不同的群體,以針對性地進(jìn)行促銷。

3.2 層次聚類

概念:層次聚類是一種通過逐步合并或分裂數(shù)據(jù)點(diǎn)來構(gòu)建聚類層次結(jié)構(gòu)的方法。它可以生成一棵樹狀結(jié)構(gòu)(聚類樹或樹狀圖),便于直觀理解數(shù)據(jù)的聚類關(guān)系。 方法:

自下而上(凝聚式):從每個(gè)數(shù)據(jù)點(diǎn)開始,逐步合并最近的兩個(gè)簇,直到所有數(shù)據(jù)點(diǎn)都在一個(gè)簇中。自上而下(分裂式):從一個(gè)整體簇開始,逐步分裂成更小的簇,直到達(dá)到指定數(shù)量。 應(yīng)用:層次聚類常用于生物學(xué)中的物種分類或客戶細(xì)分,可以直觀地展示不同類別之間的相似性。

3.3 密度聚類(如 DBSCAN)

概念:密度聚類是一種基于數(shù)據(jù)點(diǎn)密度的聚類方法,能夠識別任意形狀的聚類,并有效處理噪聲。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是最常用的密度聚類算法。 步驟:

定義一個(gè)半徑(ε)和最小點(diǎn)數(shù)(MinPts)。對于每個(gè)數(shù)據(jù)點(diǎn),計(jì)算其 ε 鄰域內(nèi)的點(diǎn)數(shù)。根據(jù)鄰域內(nèi)的點(diǎn)數(shù)確定核心點(diǎn)、邊界點(diǎn)和噪聲點(diǎn)。將核心點(diǎn)和其鄰域內(nèi)的點(diǎn)聚類。 應(yīng)用:密度聚類適用于地理數(shù)據(jù)分析、異常檢測等場景,能夠發(fā)現(xiàn)數(shù)據(jù)的非球形聚類。

4. 關(guān)聯(lián)規(guī)則:挖掘數(shù)據(jù)之間的關(guān)系

關(guān)聯(lián)規(guī)則挖掘用于發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系,常見的應(yīng)用是購物籃分析。

4.1 Apriori算法

概念:通過頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則。公式:

支持度:

支持度

(

A

)

=

包含A的事務(wù)數(shù)

總事務(wù)數(shù)

\text{支持度}(A) = \frac{\text{包含A的事務(wù)數(shù)}}{\text{總事務(wù)數(shù)}}

支持度(A)=總事務(wù)數(shù)包含A的事務(wù)數(shù)?置信度:

置信度

(

A

B

)

=

包含A和B的事務(wù)數(shù)

包含A的事務(wù)數(shù)

\text{置信度}(A \rightarrow B) = \frac{\text{包含A和B的事務(wù)數(shù)}}{\text{包含A的事務(wù)數(shù)}}

置信度(A→B)=包含A的事務(wù)數(shù)包含A和B的事務(wù)數(shù)? 應(yīng)用:通過分析超市購物數(shù)據(jù),發(fā)現(xiàn)“購買面包的顧客通常也購買牛奶”。

4.2 FP-Growth 算法

概念:FP-Growth(Frequent Pattern Growth)是一種高效的關(guān)聯(lián)規(guī)則挖掘算法,旨在通過構(gòu)建頻繁模式樹(FP-tree)來避免生成大量候選項(xiàng)集,進(jìn)而加快頻繁項(xiàng)集的發(fā)現(xiàn)。 步驟:

構(gòu)建 FP-tree:

掃描數(shù)據(jù)庫,計(jì)算每個(gè)項(xiàng)的頻次,并篩選出頻繁項(xiàng)(即支持度高于最小支持度的項(xiàng))。根據(jù)頻繁項(xiàng)的支持度降序排列,將每個(gè)事務(wù)的頻繁項(xiàng)插入 FP-tree。 挖掘頻繁項(xiàng)集:

從 FP-tree 中每個(gè)頻繁項(xiàng)出發(fā),構(gòu)建條件模式基,并從中生成條件 FP-tree。遞歸挖掘條件 FP-tree,發(fā)現(xiàn)頻繁項(xiàng)集。 優(yōu)點(diǎn):FP-Growth 算法相比于 Apriori 算法具有更高的效率,特別是在大數(shù)據(jù)集上,因?yàn)樗鼫p少了候選項(xiàng)集的生成,直接通過 FP-tree 進(jìn)行頻繁模式的挖掘。 應(yīng)用:與 Apriori 算法類似,F(xiàn)P-Growth 可用于市場籃子分析,發(fā)現(xiàn)商品間的關(guān)聯(lián)關(guān)系,以優(yōu)化促銷策略。

5. 降維:簡化數(shù)據(jù)

降維用于減少數(shù)據(jù)的特征數(shù)量,同時(shí)盡量保留原始數(shù)據(jù)的信息。

5.1 主成分分析(PCA)

概念:PCA 是通過線性變換減少數(shù)據(jù)維度的方法,保留主要成分。公式:協(xié)方差矩陣計(jì)算公式:

Cov

(

X

,

Y

)

=

1

n

?

1

i

=

1

n

(

X

i

?

X

ˉ

)

(

Y

i

?

Y

ˉ

)

\text{Cov}(X,Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})

Cov(X,Y)=n?11?i=1∑n?(Xi??Xˉ)(Yi??Yˉ)應(yīng)用:在圖像處理中,PCA 常用于壓縮圖片維度。

6. 回歸分析:預(yù)測連續(xù)值

回歸分析用于預(yù)測數(shù)值型變量。

6.1 線性回歸

概念:通過建立輸入變量與輸出變量之間的線性關(guān)系進(jìn)行預(yù)測。公式:

y

=

β

0

+

β

1

x

1

+

β

2

x

2

+

?

+

β

n

x

n

y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n

y=β0?+β1?x1?+β2?x2?+?+βn?xn?應(yīng)用:使用線性回歸預(yù)測房價(jià)。

6.2 邏輯回歸

概念:邏輯回歸用于二分類問題,預(yù)測類別概率。公式:

P

(

Y

=

1

X

)

=

1

1

+

e

?

(

β

0

+

β

1

x

1

+

?

+

β

n

x

n

)

P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n)}}

P(Y=1∣X)=1+e?(β0?+β1?x1?+?+βn?xn?)1?應(yīng)用:預(yù)測客戶是否會購買產(chǎn)品。

7. 模型評估:如何衡量模型好壞?

模型評估用于檢驗(yàn)?zāi)P偷念A(yù)測效果。

7.1 準(zhǔn)確率、召回率和F1-score

概念:

準(zhǔn)確率:正確分類的樣本比例。召回率:實(shí)際正樣本中被正確分類為正的比例。F1-score:準(zhǔn)確率和召回率的調(diào)和平均數(shù)。 公式:

準(zhǔn)確率:

Accuracy

=

正確預(yù)測的樣本數(shù)

總樣本數(shù)

\text{Accuracy} = \frac{\text{正確預(yù)測的樣本數(shù)}}{\text{總樣本數(shù)}}

Accuracy=總樣本數(shù)正確預(yù)測的樣本數(shù)?召回率:

Recall

=

正確預(yù)測的正類樣本數(shù)

實(shí)際的正類樣本數(shù)

\text{Recall} = \frac{\text{正確預(yù)測的正類樣本數(shù)}}{\text{實(shí)際的正類樣本數(shù)}}

Recall=實(shí)際的正類樣本數(shù)正確預(yù)測的正類樣本數(shù)?F1-score:

F

1

=

2

×

Precision

×

Recall

Precision

+

Recall

F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}

F1=2×Precision+RecallPrecision×Recall? 應(yīng)用:評估垃圾郵件分類器的性能。

結(jié)語

本文完整版的數(shù)據(jù)挖掘主要學(xué)習(xí)內(nèi)容思維導(dǎo)圖:

如需高清完整版思維導(dǎo)圖的小伙伴關(guān)注上面的【AI智數(shù)課堂】公眾號,回復(fù)關(guān)鍵字“數(shù)據(jù)挖掘”自取。

柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘?qū)W什么?有這一篇就夠了

http://yzkb.51969.com/

精彩內(nèi)容

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/19605097.html

發(fā)布評論

您暫未設(shè)置收款碼

請?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄