柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘?qū)W什么?有這一篇就夠了
柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘?qū)W什么?有這一篇就夠了
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取有用信息的重要工具。它幫助我們在看似無序的數(shù)據(jù)中找到規(guī)律,從而作出更好的決策。本文將深入探討數(shù)據(jù)挖掘的主要知識點(diǎn),包含數(shù)據(jù)預(yù)處理、分類、聚類、關(guān)聯(lián)規(guī)則、降維、回歸分析及模型評估等內(nèi)容。
1. 數(shù)據(jù)預(yù)處理:為分析做準(zhǔn)備
在進(jìn)行數(shù)據(jù)挖掘之前,數(shù)據(jù)預(yù)處理是必不可少的一步。數(shù)據(jù)集可能存在缺失值、異常值或者維度不一致的問題。預(yù)處理的目標(biāo)是提高數(shù)據(jù)質(zhì)量,確保后續(xù)的分析更具可靠性。
1.1 缺失值處理
概念:缺失值是數(shù)據(jù)中某些屬性沒有提供值,可以通過刪除這些記錄或填充缺失值來處理。方法:一種常用的方法是使用均值填充,公式如下:
均值填充
=
1
n
∑
i
=
1
n
X
i
\text{均值填充} = \frac{1}{n} \sum_{i=1}^{n} X_i
均值填充=n1?i=1∑n?Xi?應(yīng)用:假設(shè)學(xué)生的年齡數(shù)據(jù)缺失,可以使用平均年齡填充。
1.2 數(shù)據(jù)規(guī)范化
概念:不同屬性的數(shù)值范圍差異較大時(shí),通過規(guī)范化使它們在相同的量綱上。方法:
最小-最大規(guī)范化:
X
′
=
X
?
X
min
X
max
?
X
min
X' = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}
X′=Xmax??Xmin?X?Xmin??Z-score標(biāo)準(zhǔn)化:
X
′
=
X
?
μ
σ
X' = \frac{X - \mu}{\sigma}
X′=σX?μ? 應(yīng)用:當(dāng)對年齡、收入等不同單位的數(shù)據(jù)進(jìn)行分析時(shí),可以通過規(guī)范化讓它們具有可比性。
1.3 離群點(diǎn)處理
概念:離群點(diǎn)是顯著偏離其他數(shù)據(jù)點(diǎn)的值,需要被檢測并處理。公式:IQR(四分位距)法檢測離群值:
I
Q
R
=
Q
3
?
Q
1
IQR = Q_3 - Q_1
IQR=Q3??Q1? 異常值定義為小于 (Q_1 - 1.5 \times IQR) 或大于 (Q_3 + 1.5 \times IQR) 的點(diǎn)。應(yīng)用:在銷售數(shù)據(jù)中,某商品一天的銷售量遠(yuǎn)高于其他天,這個(gè)數(shù)據(jù)點(diǎn)可以被認(rèn)為是離群點(diǎn)。
2. 分類:預(yù)測類別標(biāo)簽
分類問題是數(shù)據(jù)挖掘中的一個(gè)重要部分,目標(biāo)是基于已知的類別對新數(shù)據(jù)進(jìn)行預(yù)測。
2.1 決策樹
概念:決策樹通過一系列條件判斷對數(shù)據(jù)進(jìn)行分類,適合處理離散數(shù)據(jù)。公式:使用信息增益選擇分裂節(jié)點(diǎn),信息增益計(jì)算公式為:
信息增益
=
熵
(
D
)
?
∑
i
=
1
n
∣
D
i
∣
∣
D
∣
×
熵
(
D
i
)
\text{信息增益} = \text{熵}(D) - \sum_{i=1}^{n} \frac{|D_i|}{|D|} \times \text{熵}(D_i)
信息增益=熵(D)?i=1∑n?∣D∣∣Di?∣?×熵(Di?) 熵的計(jì)算公式:
熵
(
D
)
=
?
∑
i
=
1
c
p
i
log
?
2
(
p
i
)
\text{熵}(D) = - \sum_{i=1}^{c} p_i \log_2(p_i)
熵(D)=?i=1∑c?pi?log2?(pi?)應(yīng)用:預(yù)測客戶是否會購買某款產(chǎn)品,基于年齡、收入等特征構(gòu)建決策樹模型。
2.2 k近鄰算法 (k-NN)
概念:k-NN 是一種基于距離的分類算法,找到最近的 k 個(gè)鄰居,通過多數(shù)投票確定分類結(jié)果。公式:計(jì)算兩個(gè)點(diǎn)的歐幾里得距離:
d
(
p
,
q
)
=
∑
i
=
1
n
(
p
i
?
q
i
)
2
d(p, q) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2}
d(p,q)=i=1∑n?(pi??qi?)2
?應(yīng)用:通過 k-NN 算法預(yù)測新用戶的購買偏好。
2.3 樸素貝葉斯分類器
概念:樸素貝葉斯分類器是一種基于貝葉斯定理的簡單概率分類器,假設(shè)特征之間是條件獨(dú)立的。它適合處理大規(guī)模數(shù)據(jù),并在文本分類等任務(wù)中表現(xiàn)良好。 公式:根據(jù)貝葉斯定理,分類的后驗(yàn)概率可以表示為:
P
(
C
∣
X
)
=
P
(
X
∣
C
)
?
P
(
C
)
P
(
X
)
P(C|X) = \frac{P(X|C) \cdot P(C)}{P(X)}
P(C∣X)=P(X)P(X∣C)?P(C)? 其中:
( P(C|X) ):給定特征 ( X ) 時(shí)類別 ( C ) 的后驗(yàn)概率。( P(X|C) ):類別 ( C ) 時(shí)特征 ( X ) 的似然概率。( P? ):類別 ( C ) 的先驗(yàn)概率。( P(X) ):特征 ( X ) 的邊際概率(可以忽略,用于比較不同類別時(shí))。 應(yīng)用:樸素貝葉斯分類器常用于文本分類,例如垃圾郵件檢測。根據(jù)郵件中的詞頻和先前分類的郵件數(shù)據(jù),計(jì)算每封郵件屬于垃圾郵件或正常郵件的概率,從而進(jìn)行分類。
3. 聚類:發(fā)現(xiàn)數(shù)據(jù)中的隱藏模式
聚類是一種無監(jiān)督學(xué)習(xí)方法,用來將相似的數(shù)據(jù)點(diǎn)分成相同的組。
3.1 k均值聚類
概念:k均值通過迭代優(yōu)化質(zhì)心位置來將數(shù)據(jù)點(diǎn)分成 k 個(gè)組。步驟:
隨機(jī)選擇 k 個(gè)質(zhì)心。將每個(gè)數(shù)據(jù)點(diǎn)分配給最近的質(zhì)心。重新計(jì)算質(zhì)心,直到質(zhì)心穩(wěn)定。 應(yīng)用:在市場營銷中,使用 k 均值算法將客戶分為不同的群體,以針對性地進(jìn)行促銷。
3.2 層次聚類
概念:層次聚類是一種通過逐步合并或分裂數(shù)據(jù)點(diǎn)來構(gòu)建聚類層次結(jié)構(gòu)的方法。它可以生成一棵樹狀結(jié)構(gòu)(聚類樹或樹狀圖),便于直觀理解數(shù)據(jù)的聚類關(guān)系。 方法:
自下而上(凝聚式):從每個(gè)數(shù)據(jù)點(diǎn)開始,逐步合并最近的兩個(gè)簇,直到所有數(shù)據(jù)點(diǎn)都在一個(gè)簇中。自上而下(分裂式):從一個(gè)整體簇開始,逐步分裂成更小的簇,直到達(dá)到指定數(shù)量。 應(yīng)用:層次聚類常用于生物學(xué)中的物種分類或客戶細(xì)分,可以直觀地展示不同類別之間的相似性。
3.3 密度聚類(如 DBSCAN)
概念:密度聚類是一種基于數(shù)據(jù)點(diǎn)密度的聚類方法,能夠識別任意形狀的聚類,并有效處理噪聲。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是最常用的密度聚類算法。 步驟:
定義一個(gè)半徑(ε)和最小點(diǎn)數(shù)(MinPts)。對于每個(gè)數(shù)據(jù)點(diǎn),計(jì)算其 ε 鄰域內(nèi)的點(diǎn)數(shù)。根據(jù)鄰域內(nèi)的點(diǎn)數(shù)確定核心點(diǎn)、邊界點(diǎn)和噪聲點(diǎn)。將核心點(diǎn)和其鄰域內(nèi)的點(diǎn)聚類。 應(yīng)用:密度聚類適用于地理數(shù)據(jù)分析、異常檢測等場景,能夠發(fā)現(xiàn)數(shù)據(jù)的非球形聚類。
4. 關(guān)聯(lián)規(guī)則:挖掘數(shù)據(jù)之間的關(guān)系
關(guān)聯(lián)規(guī)則挖掘用于發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系,常見的應(yīng)用是購物籃分析。
4.1 Apriori算法
概念:通過頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則。公式:
支持度:
支持度
(
A
)
=
包含A的事務(wù)數(shù)
總事務(wù)數(shù)
\text{支持度}(A) = \frac{\text{包含A的事務(wù)數(shù)}}{\text{總事務(wù)數(shù)}}
支持度(A)=總事務(wù)數(shù)包含A的事務(wù)數(shù)?置信度:
置信度
(
A
→
B
)
=
包含A和B的事務(wù)數(shù)
包含A的事務(wù)數(shù)
\text{置信度}(A \rightarrow B) = \frac{\text{包含A和B的事務(wù)數(shù)}}{\text{包含A的事務(wù)數(shù)}}
置信度(A→B)=包含A的事務(wù)數(shù)包含A和B的事務(wù)數(shù)? 應(yīng)用:通過分析超市購物數(shù)據(jù),發(fā)現(xiàn)“購買面包的顧客通常也購買牛奶”。
4.2 FP-Growth 算法
概念:FP-Growth(Frequent Pattern Growth)是一種高效的關(guān)聯(lián)規(guī)則挖掘算法,旨在通過構(gòu)建頻繁模式樹(FP-tree)來避免生成大量候選項(xiàng)集,進(jìn)而加快頻繁項(xiàng)集的發(fā)現(xiàn)。 步驟:
構(gòu)建 FP-tree:
掃描數(shù)據(jù)庫,計(jì)算每個(gè)項(xiàng)的頻次,并篩選出頻繁項(xiàng)(即支持度高于最小支持度的項(xiàng))。根據(jù)頻繁項(xiàng)的支持度降序排列,將每個(gè)事務(wù)的頻繁項(xiàng)插入 FP-tree。 挖掘頻繁項(xiàng)集:
從 FP-tree 中每個(gè)頻繁項(xiàng)出發(fā),構(gòu)建條件模式基,并從中生成條件 FP-tree。遞歸挖掘條件 FP-tree,發(fā)現(xiàn)頻繁項(xiàng)集。 優(yōu)點(diǎn):FP-Growth 算法相比于 Apriori 算法具有更高的效率,特別是在大數(shù)據(jù)集上,因?yàn)樗鼫p少了候選項(xiàng)集的生成,直接通過 FP-tree 進(jìn)行頻繁模式的挖掘。 應(yīng)用:與 Apriori 算法類似,F(xiàn)P-Growth 可用于市場籃子分析,發(fā)現(xiàn)商品間的關(guān)聯(lián)關(guān)系,以優(yōu)化促銷策略。
5. 降維:簡化數(shù)據(jù)
降維用于減少數(shù)據(jù)的特征數(shù)量,同時(shí)盡量保留原始數(shù)據(jù)的信息。
5.1 主成分分析(PCA)
概念:PCA 是通過線性變換減少數(shù)據(jù)維度的方法,保留主要成分。公式:協(xié)方差矩陣計(jì)算公式:
Cov
(
X
,
Y
)
=
1
n
?
1
∑
i
=
1
n
(
X
i
?
X
ˉ
)
(
Y
i
?
Y
ˉ
)
\text{Cov}(X,Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})
Cov(X,Y)=n?11?i=1∑n?(Xi??Xˉ)(Yi??Yˉ)應(yīng)用:在圖像處理中,PCA 常用于壓縮圖片維度。
6. 回歸分析:預(yù)測連續(xù)值
回歸分析用于預(yù)測數(shù)值型變量。
6.1 線性回歸
概念:通過建立輸入變量與輸出變量之間的線性關(guān)系進(jìn)行預(yù)測。公式:
y
=
β
0
+
β
1
x
1
+
β
2
x
2
+
?
+
β
n
x
n
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n
y=β0?+β1?x1?+β2?x2?+?+βn?xn?應(yīng)用:使用線性回歸預(yù)測房價(jià)。
6.2 邏輯回歸
概念:邏輯回歸用于二分類問題,預(yù)測類別概率。公式:
P
(
Y
=
1
∣
X
)
=
1
1
+
e
?
(
β
0
+
β
1
x
1
+
?
+
β
n
x
n
)
P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n)}}
P(Y=1∣X)=1+e?(β0?+β1?x1?+?+βn?xn?)1?應(yīng)用:預(yù)測客戶是否會購買產(chǎn)品。
7. 模型評估:如何衡量模型好壞?
模型評估用于檢驗(yàn)?zāi)P偷念A(yù)測效果。
7.1 準(zhǔn)確率、召回率和F1-score
概念:
準(zhǔn)確率:正確分類的樣本比例。召回率:實(shí)際正樣本中被正確分類為正的比例。F1-score:準(zhǔn)確率和召回率的調(diào)和平均數(shù)。 公式:
準(zhǔn)確率:
Accuracy
=
正確預(yù)測的樣本數(shù)
總樣本數(shù)
\text{Accuracy} = \frac{\text{正確預(yù)測的樣本數(shù)}}{\text{總樣本數(shù)}}
Accuracy=總樣本數(shù)正確預(yù)測的樣本數(shù)?召回率:
Recall
=
正確預(yù)測的正類樣本數(shù)
實(shí)際的正類樣本數(shù)
\text{Recall} = \frac{\text{正確預(yù)測的正類樣本數(shù)}}{\text{實(shí)際的正類樣本數(shù)}}
Recall=實(shí)際的正類樣本數(shù)正確預(yù)測的正類樣本數(shù)?F1-score:
F
1
=
2
×
Precision
×
Recall
Precision
+
Recall
F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
F1=2×Precision+RecallPrecision×Recall? 應(yīng)用:評估垃圾郵件分類器的性能。
結(jié)語
本文完整版的數(shù)據(jù)挖掘主要學(xué)習(xí)內(nèi)容思維導(dǎo)圖:
如需高清完整版思維導(dǎo)圖的小伙伴關(guān)注上面的【AI智數(shù)課堂】公眾號,回復(fù)關(guān)鍵字“數(shù)據(jù)挖掘”自取。
柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘?qū)W什么?有這一篇就夠了
精彩內(nèi)容
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。