柚子快報激活碼778899分享:西電數(shù)據(jù)挖掘期末復習
柚子快報激活碼778899分享:西電數(shù)據(jù)挖掘期末復習
名詞解釋
數(shù)據(jù):數(shù)據(jù)一個載體,這個載體蘊含著信息。
數(shù)據(jù)集:是數(shù)據(jù)對象的集合,其中包含著數(shù)據(jù)對象。
數(shù)據(jù)對象:是用一組刻畫對象基本特性的屬性描述。
屬性:是對象的性質(zhì)或特性,用于描述數(shù)據(jù)的某個特征。
屬性(特征)類型:按性質(zhì)分為定位屬性、定性屬性、定量屬性、時間屬性,按表現(xiàn)形式分為數(shù)字數(shù)據(jù)、模擬數(shù)據(jù)。
數(shù)據(jù)類型:記錄性數(shù)據(jù),圖數(shù)據(jù),序列數(shù)據(jù),典型的數(shù)據(jù)類型有標量、序數(shù)、區(qū)間和比率。
數(shù)據(jù)特性:維度,稀疏性,分辨率
數(shù)據(jù)約簡主要策略:數(shù)據(jù)立方歸并。維數(shù)約簡。數(shù)據(jù)壓縮。數(shù)據(jù)塊約簡。
相似度:是一個函數(shù),輸出一個[0,1]之間的實數(shù)值,用于量化相近程度,兩個對象越接近,相似度就越高。
Gini系數(shù)、信息熵、最大錯誤率:Gini系數(shù)和信息熵是連續(xù)的,而最大錯誤率是不連續(xù)的。都是在p=0.5時取值最大。在兩端時取值最小。以Gini系數(shù)為劃分準則更準確。
x
=
(
a
1
,
b
1
,
c
1
)
y
=
(
a
2
,
b
2
,
c
2
)
x=(a_1,b_1,c_1)\\ y=(a_2,b_2,c_2)\\
x=(a1?,b1?,c1?)y=(a2?,b2?,c2?) 歐氏距離:
(
a
1
?
a
2
)
2
+
(
b
1
?
b
2
)
2
+
(
c
1
?
c
2
)
2
\sqrt{(a_1-a_2)^2+(b_1-b_2)^2+(c_1-c_2)^2}
(a1??a2?)2+(b1??b2?)2+(c1??c2?)2
?
余弦相似度:
a
1
×
a
2
+
b
1
×
b
2
+
c
1
×
c
2
a
1
2
+
b
1
2
+
c
1
2
+
a
2
2
+
b
2
2
+
c
2
2
a_1\times a_2 +b_1\times b_2+c_1\times c_2 \over \sqrt{a_1^2+b_1^2+c_1^2} +\sqrt{a_2^2+b_2^2+c_2^2}
a12?+b12?+c12?
?+a22?+b22?+c22?
?a1?×a2?+b1?×b2?+c1?×c2?? Jaccard相似系數(shù):
J
=
M
11
M
11
+
M
01
+
M
10
J = {M_{11} \over M_{11}+M_{01}+M_{10}}
J=M11?+M01?+M10?M11??
K-means(流程)
輸入:
數(shù)據(jù)集:包含 n 個樣本的數(shù)據(jù)集,每個樣本有 m 個特征。聚類數(shù) K:用戶事先指定的要將數(shù)據(jù)分成的簇的數(shù)量。
輸出:
K 個聚類中心:代表每個簇的中心點。每個樣本所屬的簇:每個樣本被分配到的聚類。
聚類過程(流程):
初始化:隨機選擇 K 個樣本作為初始的聚類中心。分配:計算每個樣本與 K 個聚類中心的距離,并將每個樣本分配到距離最近的聚類中心所代表的簇。更新:重新計算每個簇的中心,即將每個簇中所有樣本的特征均值作為新的聚類中心。迭代:重復步驟 2 和 3,直到滿足停止條件,如達到最大迭代次數(shù)或聚類中心不再改變。
K-means 通過不斷迭代優(yōu)化簇的分配,使得簇內(nèi)樣本的相似度最大化,簇間的相似度最小化。最終得到 K 個簇的聚類結果,每個樣本被歸到其中一個簇中。
決策樹(流程)
決策樹是一種常用的機器學習算法,它可以用于分類和回歸任務。在分類任務中,決策樹通過對數(shù)據(jù)集進行遞歸的、樹形結構的分割來進行分類。
基本構成:
節(jié)點(Node):代表數(shù)據(jù)集中的一個特征。分支(Branch):代表特征的取值。葉子節(jié)點(Leaf Node):代表最終的分類結果。
分類過程:
選擇特征:從數(shù)據(jù)集中選擇最佳的特征來進行分割。常用的指標有信息增益、基尼不純度等。分割數(shù)據(jù)集:根據(jù)選定的特征和閾值,將數(shù)據(jù)集分割成不同的子集。遞歸:對每個子集重復上述過程,直到滿足某個終止條件,例如達到最大深度、節(jié)點樣本數(shù)少于閾值等。
分類的步驟:
準備數(shù)據(jù):收集并準備帶有標簽的數(shù)據(jù)集。選擇最佳特征:通過某種標準(如信息增益)選擇最佳的特征來進行分割。構建決策樹:遞歸地構建決策樹,選擇最佳特征并分割數(shù)據(jù)集,直到滿足停止條件。分類:使用構建好的決策樹對新樣本進行分類,沿著樹的分支根據(jù)特征值逐步判斷,最終到達葉子節(jié)點即為分類結果。
k 折交叉驗證(流程)
K 折交叉驗證是一種評估機器學習模型性能的方法,可以在數(shù)據(jù)較少的情況下有效地評估模型的泛化能力。
步驟:
數(shù)據(jù)集劃分:將數(shù)據(jù)集分成 K 個大小相似的子集。循環(huán)驗證:對模型進行 K 次訓練和驗證,每次使用其中一個子集作為驗證集,其余 K-1 個子集作為訓練集。評估性能:每次訓練模型后,使用驗證集計算模型的性能指標(如準確率、精確率、召回率等)。平均性能:將 K 次驗證得到的性能指標取平均作為模型的最終性能評估指標。
K 折交叉驗證能夠更充分地利用數(shù)據(jù)集,減少因數(shù)據(jù)劃分不同而引入的偶然性,提高了對模型性能的評估可靠性。
DBSCAN 聚類(流程)
DBSCAN是一種基于密度的聚類算法,其主要思想是通過樣本點周圍的密度來發(fā)現(xiàn)簇,并能識別出噪聲點。
選擇參數(shù):設置半徑 Eps 和最小樣本數(shù) MinPts。尋找核心點:計算每個樣本點的鄰域,識別核心點。擴展簇:從核心點開始,沿著密度可達的路徑(相鄰核心點的連接)擴展簇。標記噪聲點:將無法被核心點直接或間接連接的點標記為噪聲點。
優(yōu)、缺點
樸素貝葉斯(分類):
優(yōu)點:簡單有效,對小樣本數(shù)據(jù)效果好,對噪聲數(shù)據(jù)的魯棒性強。
缺點:樸素假設可能不符合實際情況,對特征相關性強較強的數(shù)據(jù)不適用。
決策樹(分類):
優(yōu)點:利于理解和解釋,能夠處理數(shù)值型和類別型數(shù)據(jù),對缺失值不敏感。
缺點:容易過擬合,不穩(wěn)定,不適用特征性關系較強的數(shù)據(jù)。
KNN(分類):
優(yōu)點:簡單、適用廣泛,對新數(shù)據(jù)集適應能力強,不需要假設數(shù)據(jù)分布情況。
缺點:計算開銷大,需要大量存儲空間,對異常值敏感。
K-means(聚類):
優(yōu)點:易于理解實現(xiàn),計算效率高,適用廣泛。
缺點:需要提前預定聚類數(shù)量K,對聚類中心和異常值敏感,可能陷入局部最優(yōu)解。
DBSCAN (聚類):
優(yōu)點:不受初始值的影響,能夠處理離群點和噪聲,對任意形狀的簇都有效。
缺點:對參數(shù)敏感,效率較低,簇密度過大時,無法準確識別簇的邊界
Apriori(關聯(lián)規(guī)則):
優(yōu)點:易于理解實現(xiàn),可用于大規(guī)模數(shù)據(jù),靈活性強。
缺點:候選集龐大,需要多次掃描數(shù)據(jù)集,計算和存儲開銷大。
FP-tree(關聯(lián)規(guī)則):
優(yōu)點:不產(chǎn)生候選集,只需掃描兩次數(shù)據(jù)集,可處理連續(xù)值和高基數(shù)數(shù)據(jù)。
缺點:對內(nèi)存要求過高,F(xiàn)P樹構建過程可能比較緩慢。/
柚子快報激活碼778899分享:西電數(shù)據(jù)挖掘期末復習
精彩鏈接
本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權,聯(lián)系刪除。