欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁(yè)綜合正文

評(píng)論

柚子快報(bào)激活碼778899分享：算法第九章聚類

Daraz市場(chǎng)探索者綜合2025-05-05210

柚子快報(bào)激活碼778899分享：算法第九章聚類

http://yzkb.51969.com/

9.1 聚類任務(wù)

在無(wú)監(jiān)督學(xué)習(xí)中，訓(xùn)練樣本的標(biāo)記信息是未知的，目標(biāo)是通過(guò)對(duì)無(wú)標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來(lái)揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律。為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)。此類學(xué)習(xí)任務(wù)中研究最多、應(yīng)用最廣的是“聚類”。聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集，每個(gè)子集稱為一個(gè)簇。通過(guò)這樣的劃分，每個(gè)簇可能對(duì)應(yīng)于一些潛在的概念。這些概念對(duì)聚類算法而。言事先是未知的，聚類過(guò)程僅能自動(dòng)形成簇結(jié)構(gòu)，簇所對(duì)應(yīng)的概念語(yǔ)義需由使用者來(lái)把握和命名。

9.2 性能度量

聚類性能度量亦稱聚類“有效性指標(biāo)”，聚類是將樣本集D劃分為若干互不相交的子集，即樣本簇。直觀上，我們希望物以類聚，即同一簇的樣本盡可能彼此相似，不同簇的樣本盡可能不同。換言之，聚類結(jié)果的簇內(nèi)相似度高且簇間相似度低。聚類性能度量大致有兩類，一類是將聚類結(jié)果與某個(gè)參考模型進(jìn)行比較，稱為外部指標(biāo)；另一類是直接考察聚類結(jié)果而不利用任何參考模型，稱為內(nèi)部指標(biāo)。 1、Jaccard系數(shù)（Jaccard Coefficient，簡(jiǎn)稱JC） 2、FM指數(shù)（Fowlkes and Mallows Index，簡(jiǎn)稱FMI） 3、Rand指數(shù)（Rand Index，簡(jiǎn)稱RI) 顯然上述性能度量的結(jié)果值均在[0,1]區(qū)間，值越大越好。 4、DB指數(shù)（Davies-Bouldin Index，簡(jiǎn)稱DBI） 5、Dunn指數(shù)（Dunn Index，簡(jiǎn)稱DI）顯然，DBI的值越小越好，而DI則相反，值越大越好。

9.3 距離計(jì)算

對(duì)函數(shù)dist(.,.),若它是一個(gè)距離度量，則需滿足一些基本性質(zhì)：非負(fù)性：dist(xi,xj) >= 0; 同一性：dist(xi,xj) = 0當(dāng)且僅當(dāng)xi = xj；對(duì)稱性：dist(xi,xj) = dist(xj,xi) 直遞性：dist(xi,xj) <= dist(xi,xk) + dist(xk, xj) 給定樣本xi = (xi1; xi2; …; xin)與xj = (xj1; xj2; …; xjn), 最常用的是閔可夫斯基距離：當(dāng)p>=1,上式顯然滿足上面四個(gè)性質(zhì)的距離度量基本性質(zhì)。 p = 2時(shí)，閔可夫斯基距離即歐式距離： p = 1時(shí)，閔可夫斯基距離即曼哈頓距離：我們常將屬性劃分為連續(xù)屬性和離散屬性，前者在定義域上有無(wú)窮多個(gè)可能的取值，后者在定義域上是有限個(gè)取值。然而，在討論距離計(jì)算時(shí)，屬性上是否定義了序關(guān)系更為重要。例如定義域?yàn)閧1，2，3}的離散屬性與連續(xù)屬性的性質(zhì)更接近一些，能直接在屬性值上計(jì)算距離：“1” 與 “2”比較接近、與“3”比較遠(yuǎn)，這樣的屬性稱為有序?qū)傩?，而定義域?yàn)閧飛機(jī)，火車(chē)，輪船}這樣的離散屬性則不能在屬性值上計(jì)算距離，稱為無(wú)序?qū)傩?。顯然，閔可夫斯基距離可用于有序?qū)傩浴?對(duì)無(wú)序距離可采用VDM：于是，將閔可夫斯基距離和VDM結(jié)合即可處理混合屬性。假定有Nc個(gè)有序?qū)傩?、N - Nc個(gè)無(wú)序?qū)傩?，不失一般性，令有序?qū)傩耘帕性跓o(wú)序?qū)傩灾?，則：當(dāng)樣本空間中不同屬性的重要性不同時(shí)，可使用加權(quán)距離，以加權(quán)閔可夫斯基距離為例。

9.4 原型聚類

原型聚類亦稱”基于原型的聚類“，此類算法假設(shè)聚類結(jié)構(gòu)能通過(guò)一組原型刻畫(huà)，在現(xiàn)實(shí)聚類任務(wù)中極為常用。

9.4.1 k均值算法

最小化上式并不容易，找到它的最優(yōu)解需考察樣本集D所有可能的簇劃分，這是一個(gè)NP難問(wèn)題。因此，k均值算法采用了貪心策略，通過(guò)迭代優(yōu)化來(lái)近似求解式，算法流程如下：

9.4.2 學(xué)習(xí)向量量化

與K均值算法類似，學(xué)習(xí)向量量化（Learning Vector Quantization，簡(jiǎn)稱LVQ）也是試圖找到一組原型向量來(lái)刻畫(huà)聚類結(jié)構(gòu)，但與一般聚類算法不同的是，LVQ假設(shè)數(shù)據(jù)樣本帶有類別標(biāo)記。學(xué)習(xí)過(guò)程利用樣本的這些監(jiān)督信息來(lái)輔助聚類。給定樣本集D={(x1,y1),(x2,y2),…,(xm, ym)}, 每個(gè)樣本xj是由n個(gè)屬性描述的特征向量（xj1;xj2;…;xjn),yj∈Y是樣本xj的類別標(biāo)記。LVQ的目標(biāo)是學(xué)得一組n維原型向量{p1,p2,…,pq},每個(gè)原型向量代表一個(gè)聚類簇，簇標(biāo)記ti∈Y。LVQ算法如下所示：

9.4.3 高斯混合聚類

與k均值、LVQ用原型向量來(lái)刻畫(huà)聚類結(jié)構(gòu)不同，高斯聚類采用概率模型來(lái)表達(dá)聚類原型。高斯分布的定義：對(duì)n維樣本空間X中的隨機(jī)向量x，若x服從高斯分布，其概率密度函數(shù)為：其中μ是n維均值向量，是∑是nxn的協(xié)方差矩陣。由上式可看出，高斯分布完全由均值向量μ和協(xié)方差矩陣∑這兩個(gè)參數(shù)確定。將概率密度函數(shù)記為p(x|μ，∑)。假設(shè)樣本的生成過(guò)程由高斯混合分布給出：首先根據(jù)a1, a2, …, ak定義的先驗(yàn)分布選擇高斯混合成分，其中ai為選擇第i個(gè)混合成分的概率；然后，根據(jù)被選擇的混合成分的概率密度函數(shù)進(jìn)行采樣，從而生成相應(yīng)的樣本。下面給出高斯混合聚類算法：

9.5 密度聚類

密度聚類亦稱“基于密度的聚類”，此類算法假設(shè)聚類結(jié)構(gòu)能通過(guò)樣本分布的緊密程度確定。通常情形下，密度聚類算法從樣本密度的角度來(lái)考察樣本之間的可連續(xù)性，并基于可連續(xù)樣本不斷擴(kuò)展聚類簇以獲得最終的聚類結(jié)果。 DBSCAN是一種著名的密度聚類算法，它基于一組領(lǐng)域參數(shù)來(lái)刻畫(huà)樣本分布的緊密程度。給定數(shù)據(jù)集D={x1,x2,…,xm},定義下面這幾個(gè)概念：下圖給出DBSCAN算法流程：

9.6 層次聚類

層次聚類試圖在不同層次對(duì)數(shù)據(jù)集進(jìn)行劃分，從而形成樹(shù)形地聚類結(jié)構(gòu)。數(shù)據(jù)集地劃分可采用自底向上地聚合策略，也可采用自頂向下地分拆策略。 AGNES是一種采用自底向上聚合策略的層次聚類算法。AGNES算法描述如圖所示

柚子快報(bào)激活碼778899分享：算法第九章聚類

http://yzkb.51969.com/

相關(guān)文章

評(píng)論可見(jiàn)，查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理，出于傳遞更多信息之目的，不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明，如有侵權(quán)，聯(lián)系刪除。

本文鏈接：http://gantiao.com.cn/post/18931081.html