欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報激活碼778899分享:西電數(shù)據(jù)挖掘期末復習

柚子快報激活碼778899分享:西電數(shù)據(jù)挖掘期末復習

http://yzkb.51969.com/

名詞解釋

數(shù)據(jù):數(shù)據(jù)一個載體,這個載體蘊含著信息。

數(shù)據(jù)集:是數(shù)據(jù)對象的集合,其中包含著數(shù)據(jù)對象。

數(shù)據(jù)對象:是用一組刻畫對象基本特性的屬性描述。

屬性:是對象的性質(zhì)或特性,用于描述數(shù)據(jù)的某個特征。

屬性(特征)類型:按性質(zhì)分為定位屬性、定性屬性、定量屬性、時間屬性,按表現(xiàn)形式分為數(shù)字數(shù)據(jù)、模擬數(shù)據(jù)。

數(shù)據(jù)類型:記錄性數(shù)據(jù),圖數(shù)據(jù),序列數(shù)據(jù),典型的數(shù)據(jù)類型有標量、序數(shù)、區(qū)間和比率。

數(shù)據(jù)特性:維度,稀疏性,分辨率

數(shù)據(jù)約簡主要策略:數(shù)據(jù)立方歸并。維數(shù)約簡。數(shù)據(jù)壓縮。數(shù)據(jù)塊約簡。

相似度:是一個函數(shù),輸出一個[0,1]之間的實數(shù)值,用于量化相近程度,兩個對象越接近,相似度就越高。

Gini系數(shù)、信息熵、最大錯誤率:Gini系數(shù)和信息熵是連續(xù)的,而最大錯誤率是不連續(xù)的。都是在p=0.5時取值最大。在兩端時取值最小。以Gini系數(shù)為劃分準則更準確。

x

=

(

a

1

,

b

1

,

c

1

)

y

=

(

a

2

,

b

2

,

c

2

)

x=(a_1,b_1,c_1)\\ y=(a_2,b_2,c_2)\\

x=(a1?,b1?,c1?)y=(a2?,b2?,c2?) 歐氏距離:

(

a

1

?

a

2

)

2

+

(

b

1

?

b

2

)

2

+

(

c

1

?

c

2

)

2

\sqrt{(a_1-a_2)^2+(b_1-b_2)^2+(c_1-c_2)^2}

(a1??a2?)2+(b1??b2?)2+(c1??c2?)2

?

余弦相似度:

a

1

×

a

2

+

b

1

×

b

2

+

c

1

×

c

2

a

1

2

+

b

1

2

+

c

1

2

+

a

2

2

+

b

2

2

+

c

2

2

a_1\times a_2 +b_1\times b_2+c_1\times c_2 \over \sqrt{a_1^2+b_1^2+c_1^2} +\sqrt{a_2^2+b_2^2+c_2^2}

a12?+b12?+c12?

?+a22?+b22?+c22?

?a1?×a2?+b1?×b2?+c1?×c2?? Jaccard相似系數(shù):

J

=

M

11

M

11

+

M

01

+

M

10

J = {M_{11} \over M_{11}+M_{01}+M_{10}}

J=M11?+M01?+M10?M11??

K-means(流程)

輸入:

數(shù)據(jù)集:包含 n 個樣本的數(shù)據(jù)集,每個樣本有 m 個特征。聚類數(shù) K:用戶事先指定的要將數(shù)據(jù)分成的簇的數(shù)量。

輸出:

K 個聚類中心:代表每個簇的中心點。每個樣本所屬的簇:每個樣本被分配到的聚類。

聚類過程(流程):

初始化:隨機選擇 K 個樣本作為初始的聚類中心。分配:計算每個樣本與 K 個聚類中心的距離,并將每個樣本分配到距離最近的聚類中心所代表的簇。更新:重新計算每個簇的中心,即將每個簇中所有樣本的特征均值作為新的聚類中心。迭代:重復步驟 2 和 3,直到滿足停止條件,如達到最大迭代次數(shù)或聚類中心不再改變。

K-means 通過不斷迭代優(yōu)化簇的分配,使得簇內(nèi)樣本的相似度最大化,簇間的相似度最小化。最終得到 K 個簇的聚類結果,每個樣本被歸到其中一個簇中。

決策樹(流程)

決策樹是一種常用的機器學習算法,它可以用于分類和回歸任務。在分類任務中,決策樹通過對數(shù)據(jù)集進行遞歸的、樹形結構的分割來進行分類。

基本構成:

節(jié)點(Node):代表數(shù)據(jù)集中的一個特征。分支(Branch):代表特征的取值。葉子節(jié)點(Leaf Node):代表最終的分類結果。

分類過程:

選擇特征:從數(shù)據(jù)集中選擇最佳的特征來進行分割。常用的指標有信息增益、基尼不純度等。分割數(shù)據(jù)集:根據(jù)選定的特征和閾值,將數(shù)據(jù)集分割成不同的子集。遞歸:對每個子集重復上述過程,直到滿足某個終止條件,例如達到最大深度、節(jié)點樣本數(shù)少于閾值等。

分類的步驟:

準備數(shù)據(jù):收集并準備帶有標簽的數(shù)據(jù)集。選擇最佳特征:通過某種標準(如信息增益)選擇最佳的特征來進行分割。構建決策樹:遞歸地構建決策樹,選擇最佳特征并分割數(shù)據(jù)集,直到滿足停止條件。分類:使用構建好的決策樹對新樣本進行分類,沿著樹的分支根據(jù)特征值逐步判斷,最終到達葉子節(jié)點即為分類結果。

k 折交叉驗證(流程)

K 折交叉驗證是一種評估機器學習模型性能的方法,可以在數(shù)據(jù)較少的情況下有效地評估模型的泛化能力。

步驟:

數(shù)據(jù)集劃分:將數(shù)據(jù)集分成 K 個大小相似的子集。循環(huán)驗證:對模型進行 K 次訓練和驗證,每次使用其中一個子集作為驗證集,其余 K-1 個子集作為訓練集。評估性能:每次訓練模型后,使用驗證集計算模型的性能指標(如準確率、精確率、召回率等)。平均性能:將 K 次驗證得到的性能指標取平均作為模型的最終性能評估指標。

K 折交叉驗證能夠更充分地利用數(shù)據(jù)集,減少因數(shù)據(jù)劃分不同而引入的偶然性,提高了對模型性能的評估可靠性。

DBSCAN 聚類(流程)

DBSCAN是一種基于密度的聚類算法,其主要思想是通過樣本點周圍的密度來發(fā)現(xiàn)簇,并能識別出噪聲點。

選擇參數(shù):設置半徑 Eps 和最小樣本數(shù) MinPts。尋找核心點:計算每個樣本點的鄰域,識別核心點。擴展簇:從核心點開始,沿著密度可達的路徑(相鄰核心點的連接)擴展簇。標記噪聲點:將無法被核心點直接或間接連接的點標記為噪聲點。

優(yōu)、缺點

樸素貝葉斯(分類):

優(yōu)點:簡單有效,對小樣本數(shù)據(jù)效果好,對噪聲數(shù)據(jù)的魯棒性強。

缺點:樸素假設可能不符合實際情況,對特征相關性強較強的數(shù)據(jù)不適用。

決策樹(分類):

優(yōu)點:利于理解和解釋,能夠處理數(shù)值型和類別型數(shù)據(jù),對缺失值不敏感。

缺點:容易過擬合,不穩(wěn)定,不適用特征性關系較強的數(shù)據(jù)。

KNN(分類):

優(yōu)點:簡單、適用廣泛,對新數(shù)據(jù)集適應能力強,不需要假設數(shù)據(jù)分布情況。

缺點:計算開銷大,需要大量存儲空間,對異常值敏感。

K-means(聚類):

優(yōu)點:易于理解實現(xiàn),計算效率高,適用廣泛。

缺點:需要提前預定聚類數(shù)量K,對聚類中心和異常值敏感,可能陷入局部最優(yōu)解。

DBSCAN (聚類):

優(yōu)點:不受初始值的影響,能夠處理離群點和噪聲,對任意形狀的簇都有效。

缺點:對參數(shù)敏感,效率較低,簇密度過大時,無法準確識別簇的邊界

Apriori(關聯(lián)規(guī)則):

優(yōu)點:易于理解實現(xiàn),可用于大規(guī)模數(shù)據(jù),靈活性強。

缺點:候選集龐大,需要多次掃描數(shù)據(jù)集,計算和存儲開銷大。

FP-tree(關聯(lián)規(guī)則):

優(yōu)點:不產(chǎn)生候選集,只需掃描兩次數(shù)據(jù)集,可處理連續(xù)值和高基數(shù)數(shù)據(jù)。

缺點:對內(nèi)存要求過高,F(xiàn)P樹構建過程可能比較緩慢。/

柚子快報激活碼778899分享:西電數(shù)據(jù)挖掘期末復習

http://yzkb.51969.com/

精彩鏈接

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。

轉(zhuǎn)載請注明,如有侵權,聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/19278050.html

發(fā)布評論

您暫未設置收款碼

請在主題配置——文章設置里上傳

掃描二維碼手機訪問

文章目錄