柚子快報(bào)激活碼778899分享：西電數(shù)據(jù)挖掘期末復(fù)習(xí)

Farfetch海外遠(yuǎn)方購(gòu)綜合2025-05-05520

http://yzkb.51969.com/

名詞解釋

數(shù)據(jù)：數(shù)據(jù)一個(gè)載體，這個(gè)載體蘊(yùn)含著信息。

數(shù)據(jù)集：是數(shù)據(jù)對(duì)象的集合，其中包含著數(shù)據(jù)對(duì)象。

數(shù)據(jù)對(duì)象：是用一組刻畫對(duì)象基本特性的屬性描述。

屬性：是對(duì)象的性質(zhì)或特性，用于描述數(shù)據(jù)的某個(gè)特征。

屬性(特征)類型：按性質(zhì)分為定位屬性、定性屬性、定量屬性、時(shí)間屬性，按表現(xiàn)形式分為數(shù)字?jǐn)?shù)據(jù)、模擬數(shù)據(jù)。

數(shù)據(jù)類型：記錄性數(shù)據(jù)，圖數(shù)據(jù)，序列數(shù)據(jù)，典型的數(shù)據(jù)類型有標(biāo)量、序數(shù)、區(qū)間和比率。

數(shù)據(jù)特性：維度，稀疏性，分辨率

數(shù)據(jù)約簡(jiǎn)主要策略：數(shù)據(jù)立方歸并。維數(shù)約簡(jiǎn)。數(shù)據(jù)壓縮。數(shù)據(jù)塊約簡(jiǎn)。

相似度：是一個(gè)函數(shù)，輸出一個(gè)[0,1]之間的實(shí)數(shù)值，用于量化相近程度，兩個(gè)對(duì)象越接近，相似度就越高。

Gini系數(shù)、信息熵、最大錯(cuò)誤率：Gini系數(shù)和信息熵是連續(xù)的，而最大錯(cuò)誤率是不連續(xù)的。都是在p=0.5時(shí)取值最大。在兩端時(shí)取值最小。以Gini系數(shù)為劃分準(zhǔn)則更準(zhǔn)確。

(

)

(

)

x=(a_1,b_1,c_1)\\ y=(a_2,b_2,c_2)\\

x=(a1?,b1?,c1?)y=(a2?,b2?,c2?) 歐氏距離：

(

)

(

)

(

)

\sqrt{(a_1-a_2)^2+(b_1-b_2)^2+(c_1-c_2)^2}

(a1??a2?)2+(b1??b2?)2+(c1??c2?)2

余弦相似度：

a_1\times a_2 +b_1\times b_2+c_1\times c_2 \over \sqrt{a_1^2+b_1^2+c_1^2} +\sqrt{a_2^2+b_2^2+c_2^2}

a12?+b12?+c12?

?+a22?+b22?+c22?

?a1?×a2?+b1?×b2?+c1?×c2?? Jaccard相似系數(shù)：

J = {M_{11} \over M_{11}+M_{01}+M_{10}}

J=M11?+M01?+M10?M11??

K-means(流程)

輸入：

數(shù)據(jù)集：包含 n 個(gè)樣本的數(shù)據(jù)集，每個(gè)樣本有 m 個(gè)特征。聚類數(shù) K：用戶事先指定的要將數(shù)據(jù)分成的簇的數(shù)量。

輸出：

K 個(gè)聚類中心：代表每個(gè)簇的中心點(diǎn)。每個(gè)樣本所屬的簇：每個(gè)樣本被分配到的聚類。

聚類過(guò)程（流程）：

初始化：隨機(jī)選擇 K 個(gè)樣本作為初始的聚類中心。分配：計(jì)算每個(gè)樣本與 K 個(gè)聚類中心的距離，并將每個(gè)樣本分配到距離最近的聚類中心所代表的簇。更新：重新計(jì)算每個(gè)簇的中心，即將每個(gè)簇中所有樣本的特征均值作為新的聚類中心。迭代：重復(fù)步驟 2 和 3，直到滿足停止條件，如達(dá)到最大迭代次數(shù)或聚類中心不再改變。

K-means 通過(guò)不斷迭代優(yōu)化簇的分配，使得簇內(nèi)樣本的相似度最大化，簇間的相似度最小化。最終得到 K 個(gè)簇的聚類結(jié)果，每個(gè)樣本被歸到其中一個(gè)簇中。

決策樹(流程)

決策樹是一種常用的機(jī)器學(xué)習(xí)算法，它可以用于分類和回歸任務(wù)。在分類任務(wù)中，決策樹通過(guò)對(duì)數(shù)據(jù)集進(jìn)行遞歸的、樹形結(jié)構(gòu)的分割來(lái)進(jìn)行分類。

基本構(gòu)成：

節(jié)點(diǎn)（Node）：代表數(shù)據(jù)集中的一個(gè)特征。分支（Branch）：代表特征的取值。葉子節(jié)點(diǎn)（Leaf Node）：代表最終的分類結(jié)果。

分類過(guò)程：

選擇特征：從數(shù)據(jù)集中選擇最佳的特征來(lái)進(jìn)行分割。常用的指標(biāo)有信息增益、基尼不純度等。分割數(shù)據(jù)集：根據(jù)選定的特征和閾值，將數(shù)據(jù)集分割成不同的子集。遞歸：對(duì)每個(gè)子集重復(fù)上述過(guò)程，直到滿足某個(gè)終止條件，例如達(dá)到最大深度、節(jié)點(diǎn)樣本數(shù)少于閾值等。

分類的步驟：

準(zhǔn)備數(shù)據(jù)：收集并準(zhǔn)備帶有標(biāo)簽的數(shù)據(jù)集。選擇最佳特征：通過(guò)某種標(biāo)準(zhǔn)（如信息增益）選擇最佳的特征來(lái)進(jìn)行分割。構(gòu)建決策樹：遞歸地構(gòu)建決策樹，選擇最佳特征并分割數(shù)據(jù)集，直到滿足停止條件。分類：使用構(gòu)建好的決策樹對(duì)新樣本進(jìn)行分類，沿著樹的分支根據(jù)特征值逐步判斷，最終到達(dá)葉子節(jié)點(diǎn)即為分類結(jié)果。

k 折交叉驗(yàn)證(流程)

K 折交叉驗(yàn)證是一種評(píng)估機(jī)器學(xué)習(xí)模型性能的方法，可以在數(shù)據(jù)較少的情況下有效地評(píng)估模型的泛化能力。

步驟：

數(shù)據(jù)集劃分：將數(shù)據(jù)集分成 K 個(gè)大小相似的子集。循環(huán)驗(yàn)證：對(duì)模型進(jìn)行 K 次訓(xùn)練和驗(yàn)證，每次使用其中一個(gè)子集作為驗(yàn)證集，其余 K-1 個(gè)子集作為訓(xùn)練集。評(píng)估性能：每次訓(xùn)練模型后，使用驗(yàn)證集計(jì)算模型的性能指標(biāo)（如準(zhǔn)確率、精確率、召回率等）。平均性能：將 K 次驗(yàn)證得到的性能指標(biāo)取平均作為模型的最終性能評(píng)估指標(biāo)。

K 折交叉驗(yàn)證能夠更充分地利用數(shù)據(jù)集，減少因數(shù)據(jù)劃分不同而引入的偶然性，提高了對(duì)模型性能的評(píng)估可靠性。

DBSCAN 聚類(流程)

DBSCAN是一種基于密度的聚類算法，其主要思想是通過(guò)樣本點(diǎn)周圍的密度來(lái)發(fā)現(xiàn)簇，并能識(shí)別出噪聲點(diǎn)。

選擇參數(shù)：設(shè)置半徑 Eps 和最小樣本數(shù) MinPts。尋找核心點(diǎn)：計(jì)算每個(gè)樣本點(diǎn)的鄰域，識(shí)別核心點(diǎn)。擴(kuò)展簇：從核心點(diǎn)開始，沿著密度可達(dá)的路徑（相鄰核心點(diǎn)的連接）擴(kuò)展簇。標(biāo)記噪聲點(diǎn)：將無(wú)法被核心點(diǎn)直接或間接連接的點(diǎn)標(biāo)記為噪聲點(diǎn)。

優(yōu)、缺點(diǎn)

樸素貝葉斯(分類)：

優(yōu)點(diǎn)：簡(jiǎn)單有效，對(duì)小樣本數(shù)據(jù)效果好，對(duì)噪聲數(shù)據(jù)的魯棒性強(qiáng)。

缺點(diǎn)：樸素假設(shè)可能不符合實(shí)際情況，對(duì)特征相關(guān)性強(qiáng)較強(qiáng)的數(shù)據(jù)不適用。

決策樹(分類)：

優(yōu)點(diǎn)：利于理解和解釋，能夠處理數(shù)值型和類別型數(shù)據(jù)，對(duì)缺失值不敏感。

缺點(diǎn)：容易過(guò)擬合，不穩(wěn)定，不適用特征性關(guān)系較強(qiáng)的數(shù)據(jù)。

KNN(分類)：

優(yōu)點(diǎn)：簡(jiǎn)單、適用廣泛，對(duì)新數(shù)據(jù)集適應(yīng)能力強(qiáng)，不需要假設(shè)數(shù)據(jù)分布情況。

缺點(diǎn)：計(jì)算開銷大，需要大量存儲(chǔ)空間，對(duì)異常值敏感。

K-means(聚類)：

優(yōu)點(diǎn)：易于理解實(shí)現(xiàn)，計(jì)算效率高，適用廣泛。