柚子快報(bào)激活碼778899分享:西電數(shù)據(jù)挖掘期末復(fù)習(xí)
柚子快報(bào)激活碼778899分享:西電數(shù)據(jù)挖掘期末復(fù)習(xí)
名詞解釋
數(shù)據(jù):數(shù)據(jù)一個(gè)載體,這個(gè)載體蘊(yùn)含著信息。
數(shù)據(jù)集:是數(shù)據(jù)對(duì)象的集合,其中包含著數(shù)據(jù)對(duì)象。
數(shù)據(jù)對(duì)象:是用一組刻畫對(duì)象基本特性的屬性描述。
屬性:是對(duì)象的性質(zhì)或特性,用于描述數(shù)據(jù)的某個(gè)特征。
屬性(特征)類型:按性質(zhì)分為定位屬性、定性屬性、定量屬性、時(shí)間屬性,按表現(xiàn)形式分為數(shù)字?jǐn)?shù)據(jù)、模擬數(shù)據(jù)。
數(shù)據(jù)類型:記錄性數(shù)據(jù),圖數(shù)據(jù),序列數(shù)據(jù),典型的數(shù)據(jù)類型有標(biāo)量、序數(shù)、區(qū)間和比率。
數(shù)據(jù)特性:維度,稀疏性,分辨率
數(shù)據(jù)約簡(jiǎn)主要策略:數(shù)據(jù)立方歸并。維數(shù)約簡(jiǎn)。數(shù)據(jù)壓縮。數(shù)據(jù)塊約簡(jiǎn)。
相似度:是一個(gè)函數(shù),輸出一個(gè)[0,1]之間的實(shí)數(shù)值,用于量化相近程度,兩個(gè)對(duì)象越接近,相似度就越高。
Gini系數(shù)、信息熵、最大錯(cuò)誤率:Gini系數(shù)和信息熵是連續(xù)的,而最大錯(cuò)誤率是不連續(xù)的。都是在p=0.5時(shí)取值最大。在兩端時(shí)取值最小。以Gini系數(shù)為劃分準(zhǔn)則更準(zhǔn)確。
x
=
(
a
1
,
b
1
,
c
1
)
y
=
(
a
2
,
b
2
,
c
2
)
x=(a_1,b_1,c_1)\\ y=(a_2,b_2,c_2)\\
x=(a1?,b1?,c1?)y=(a2?,b2?,c2?) 歐氏距離:
(
a
1
?
a
2
)
2
+
(
b
1
?
b
2
)
2
+
(
c
1
?
c
2
)
2
\sqrt{(a_1-a_2)^2+(b_1-b_2)^2+(c_1-c_2)^2}
(a1??a2?)2+(b1??b2?)2+(c1??c2?)2
?
余弦相似度:
a
1
×
a
2
+
b
1
×
b
2
+
c
1
×
c
2
a
1
2
+
b
1
2
+
c
1
2
+
a
2
2
+
b
2
2
+
c
2
2
a_1\times a_2 +b_1\times b_2+c_1\times c_2 \over \sqrt{a_1^2+b_1^2+c_1^2} +\sqrt{a_2^2+b_2^2+c_2^2}
a12?+b12?+c12?
?+a22?+b22?+c22?
?a1?×a2?+b1?×b2?+c1?×c2?? Jaccard相似系數(shù):
J
=
M
11
M
11
+
M
01
+
M
10
J = {M_{11} \over M_{11}+M_{01}+M_{10}}
J=M11?+M01?+M10?M11??
K-means(流程)
輸入:
數(shù)據(jù)集:包含 n 個(gè)樣本的數(shù)據(jù)集,每個(gè)樣本有 m 個(gè)特征。聚類數(shù) K:用戶事先指定的要將數(shù)據(jù)分成的簇的數(shù)量。
輸出:
K 個(gè)聚類中心:代表每個(gè)簇的中心點(diǎn)。每個(gè)樣本所屬的簇:每個(gè)樣本被分配到的聚類。
聚類過(guò)程(流程):
初始化:隨機(jī)選擇 K 個(gè)樣本作為初始的聚類中心。分配:計(jì)算每個(gè)樣本與 K 個(gè)聚類中心的距離,并將每個(gè)樣本分配到距離最近的聚類中心所代表的簇。更新:重新計(jì)算每個(gè)簇的中心,即將每個(gè)簇中所有樣本的特征均值作為新的聚類中心。迭代:重復(fù)步驟 2 和 3,直到滿足停止條件,如達(dá)到最大迭代次數(shù)或聚類中心不再改變。
K-means 通過(guò)不斷迭代優(yōu)化簇的分配,使得簇內(nèi)樣本的相似度最大化,簇間的相似度最小化。最終得到 K 個(gè)簇的聚類結(jié)果,每個(gè)樣本被歸到其中一個(gè)簇中。
決策樹(流程)
決策樹是一種常用的機(jī)器學(xué)習(xí)算法,它可以用于分類和回歸任務(wù)。在分類任務(wù)中,決策樹通過(guò)對(duì)數(shù)據(jù)集進(jìn)行遞歸的、樹形結(jié)構(gòu)的分割來(lái)進(jìn)行分類。
基本構(gòu)成:
節(jié)點(diǎn)(Node):代表數(shù)據(jù)集中的一個(gè)特征。分支(Branch):代表特征的取值。葉子節(jié)點(diǎn)(Leaf Node):代表最終的分類結(jié)果。
分類過(guò)程:
選擇特征:從數(shù)據(jù)集中選擇最佳的特征來(lái)進(jìn)行分割。常用的指標(biāo)有信息增益、基尼不純度等。分割數(shù)據(jù)集:根據(jù)選定的特征和閾值,將數(shù)據(jù)集分割成不同的子集。遞歸:對(duì)每個(gè)子集重復(fù)上述過(guò)程,直到滿足某個(gè)終止條件,例如達(dá)到最大深度、節(jié)點(diǎn)樣本數(shù)少于閾值等。
分類的步驟:
準(zhǔn)備數(shù)據(jù):收集并準(zhǔn)備帶有標(biāo)簽的數(shù)據(jù)集。選擇最佳特征:通過(guò)某種標(biāo)準(zhǔn)(如信息增益)選擇最佳的特征來(lái)進(jìn)行分割。構(gòu)建決策樹:遞歸地構(gòu)建決策樹,選擇最佳特征并分割數(shù)據(jù)集,直到滿足停止條件。分類:使用構(gòu)建好的決策樹對(duì)新樣本進(jìn)行分類,沿著樹的分支根據(jù)特征值逐步判斷,最終到達(dá)葉子節(jié)點(diǎn)即為分類結(jié)果。
k 折交叉驗(yàn)證(流程)
K 折交叉驗(yàn)證是一種評(píng)估機(jī)器學(xué)習(xí)模型性能的方法,可以在數(shù)據(jù)較少的情況下有效地評(píng)估模型的泛化能力。
步驟:
數(shù)據(jù)集劃分:將數(shù)據(jù)集分成 K 個(gè)大小相似的子集。循環(huán)驗(yàn)證:對(duì)模型進(jìn)行 K 次訓(xùn)練和驗(yàn)證,每次使用其中一個(gè)子集作為驗(yàn)證集,其余 K-1 個(gè)子集作為訓(xùn)練集。評(píng)估性能:每次訓(xùn)練模型后,使用驗(yàn)證集計(jì)算模型的性能指標(biāo)(如準(zhǔn)確率、精確率、召回率等)。平均性能:將 K 次驗(yàn)證得到的性能指標(biāo)取平均作為模型的最終性能評(píng)估指標(biāo)。
K 折交叉驗(yàn)證能夠更充分地利用數(shù)據(jù)集,減少因數(shù)據(jù)劃分不同而引入的偶然性,提高了對(duì)模型性能的評(píng)估可靠性。
DBSCAN 聚類(流程)
DBSCAN是一種基于密度的聚類算法,其主要思想是通過(guò)樣本點(diǎn)周圍的密度來(lái)發(fā)現(xiàn)簇,并能識(shí)別出噪聲點(diǎn)。
選擇參數(shù):設(shè)置半徑 Eps 和最小樣本數(shù) MinPts。尋找核心點(diǎn):計(jì)算每個(gè)樣本點(diǎn)的鄰域,識(shí)別核心點(diǎn)。擴(kuò)展簇:從核心點(diǎn)開始,沿著密度可達(dá)的路徑(相鄰核心點(diǎn)的連接)擴(kuò)展簇。標(biāo)記噪聲點(diǎn):將無(wú)法被核心點(diǎn)直接或間接連接的點(diǎn)標(biāo)記為噪聲點(diǎn)。
優(yōu)、缺點(diǎn)
樸素貝葉斯(分類):
優(yōu)點(diǎn):簡(jiǎn)單有效,對(duì)小樣本數(shù)據(jù)效果好,對(duì)噪聲數(shù)據(jù)的魯棒性強(qiáng)。
缺點(diǎn):樸素假設(shè)可能不符合實(shí)際情況,對(duì)特征相關(guān)性強(qiáng)較強(qiáng)的數(shù)據(jù)不適用。
決策樹(分類):
優(yōu)點(diǎn):利于理解和解釋,能夠處理數(shù)值型和類別型數(shù)據(jù),對(duì)缺失值不敏感。
缺點(diǎn):容易過(guò)擬合,不穩(wěn)定,不適用特征性關(guān)系較強(qiáng)的數(shù)據(jù)。
KNN(分類):
優(yōu)點(diǎn):簡(jiǎn)單、適用廣泛,對(duì)新數(shù)據(jù)集適應(yīng)能力強(qiáng),不需要假設(shè)數(shù)據(jù)分布情況。
缺點(diǎn):計(jì)算開銷大,需要大量存儲(chǔ)空間,對(duì)異常值敏感。
K-means(聚類):
優(yōu)點(diǎn):易于理解實(shí)現(xiàn),計(jì)算效率高,適用廣泛。
缺點(diǎn):需要提前預(yù)定聚類數(shù)量K,對(duì)聚類中心和異常值敏感,可能陷入局部最優(yōu)解。
DBSCAN (聚類):
優(yōu)點(diǎn):不受初始值的影響,能夠處理離群點(diǎn)和噪聲,對(duì)任意形狀的簇都有效。
缺點(diǎn):對(duì)參數(shù)敏感,效率較低,簇密度過(guò)大時(shí),無(wú)法準(zhǔn)確識(shí)別簇的邊界
Apriori(關(guān)聯(lián)規(guī)則):
優(yōu)點(diǎn):易于理解實(shí)現(xiàn),可用于大規(guī)模數(shù)據(jù),靈活性強(qiáng)。
缺點(diǎn):候選集龐大,需要多次掃描數(shù)據(jù)集,計(jì)算和存儲(chǔ)開銷大。
FP-tree(關(guān)聯(lián)規(guī)則):
優(yōu)點(diǎn):不產(chǎn)生候選集,只需掃描兩次數(shù)據(jù)集,可處理連續(xù)值和高基數(shù)數(shù)據(jù)。
缺點(diǎn):對(duì)內(nèi)存要求過(guò)高,F(xiàn)P樹構(gòu)建過(guò)程可能比較緩慢。/
柚子快報(bào)激活碼778899分享:西電數(shù)據(jù)挖掘期末復(fù)習(xí)
精彩鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。