欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

目錄

柚子快報(bào)激活碼778899分享:算法 第九章 聚類

柚子快報(bào)激活碼778899分享:算法 第九章 聚類

http://yzkb.51969.com/

9.1 聚類任務(wù)

在無(wú)監(jiān)督學(xué)習(xí)中,訓(xùn)練樣本的標(biāo)記信息是未知的,目標(biāo)是通過(guò)對(duì)無(wú)標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來(lái)揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律。為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)。此類學(xué)習(xí)任務(wù)中研究最多、應(yīng)用最廣的是“聚類”。 聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集,每個(gè)子集稱為一個(gè)簇。通過(guò)這樣的劃分,每個(gè)簇可能對(duì)應(yīng)于一些潛在的概念。這些概念對(duì)聚類算法而。言事先是未知的,聚類過(guò)程僅能自動(dòng)形成簇結(jié)構(gòu),簇所對(duì)應(yīng)的概念語(yǔ)義需由使用者來(lái)把握和命名。

9.2 性能度量

聚類性能度量亦稱聚類“有效性指標(biāo)”,聚類是將樣本集D劃分為若干互不相交的子集,即樣本簇。直觀上,我們希望物以類聚,即同一簇的樣本盡可能彼此相似,不同簇的樣本盡可能不同。換言之,聚類結(jié)果的簇內(nèi)相似度高且簇間相似度低。 聚類性能度量大致有兩類,一類是將聚類結(jié)果與某個(gè)參考模型進(jìn)行比較,稱為外部指標(biāo);另一類是直接考察聚類結(jié)果而不利用任何參考模型,稱為內(nèi)部指標(biāo)。 1、Jaccard系數(shù)(Jaccard Coefficient,簡(jiǎn)稱JC) 2、FM指數(shù)(Fowlkes and Mallows Index,簡(jiǎn)稱FMI) 3、Rand指數(shù)(Rand Index,簡(jiǎn)稱RI) 顯然上述性能度量的結(jié)果值均在[0,1]區(qū)間,值越大越好。 4、DB指數(shù)(Davies-Bouldin Index,簡(jiǎn)稱DBI) 5、Dunn指數(shù)(Dunn Index,簡(jiǎn)稱DI) 顯然,DBI的值越小越好,而DI則相反,值越大越好。

9.3 距離計(jì)算

對(duì)函數(shù)dist(.,.),若它是一個(gè)距離度量,則需滿足一些基本性質(zhì): 非負(fù)性:dist(xi,xj) >= 0; 同一性:dist(xi,xj) = 0當(dāng)且僅當(dāng)xi = xj; 對(duì)稱性:dist(xi,xj) = dist(xj,xi) 直遞性:dist(xi,xj) <= dist(xi,xk) + dist(xk, xj) 給定樣本xi = (xi1; xi2; …; xin)與xj = (xj1; xj2; …; xjn), 最常用的是閔可夫斯基距離: 當(dāng)p>=1,上式顯然滿足上面四個(gè)性質(zhì)的距離度量基本性質(zhì)。 p = 2時(shí),閔可夫斯基距離即歐式距離: p = 1時(shí),閔可夫斯基距離即曼哈頓距離: 我們常將屬性劃分為連續(xù)屬性和離散屬性,前者在定義域上有無(wú)窮多個(gè)可能的取值,后者在定義域上是有限個(gè)取值。 然而,在討論距離計(jì)算時(shí),屬性上是否定義了序關(guān)系更為重要。例如定義域?yàn)閧1,2,3}的離散屬性與連續(xù)屬性的性質(zhì)更接近一些,能直接在屬性值上計(jì)算距離:“1” 與 “2”比較接近、與“3”比較遠(yuǎn),這樣的屬性稱為有序?qū)傩?,而定義域?yàn)閧飛機(jī),火車(chē),輪船}這樣的離散屬性則不能在屬性值上計(jì)算距離,稱為無(wú)序?qū)傩?。顯然,閔可夫斯基距離可用于有序?qū)傩浴?對(duì)無(wú)序距離可采用VDM: 于是,將閔可夫斯基距離和VDM結(jié)合即可處理混合屬性。假定有Nc個(gè)有序?qū)傩?、N - Nc個(gè)無(wú)序?qū)傩?,不失一般性,令有序?qū)傩耘帕性跓o(wú)序?qū)傩灾?,則: 當(dāng)樣本空間中不同屬性的重要性不同時(shí),可使用加權(quán)距離,以加權(quán)閔可夫斯基距離為例。

9.4 原型聚類

原型聚類亦稱”基于原型的聚類“,此類算法假設(shè)聚類結(jié)構(gòu)能通過(guò)一組原型刻畫(huà),在現(xiàn)實(shí)聚類任務(wù)中極為常用。

9.4.1 k均值算法

最小化上式并不容易,找到它的最優(yōu)解需考察樣本集D所有可能的簇劃分,這是一個(gè)NP難問(wèn)題。因此,k均值算法采用了貪心策略,通過(guò)迭代優(yōu)化來(lái)近似求解式,算法流程如下:

9.4.2 學(xué)習(xí)向量量化

與K均值算法類似,學(xué)習(xí)向量量化(Learning Vector Quantization,簡(jiǎn)稱LVQ)也是試圖找到一組原型向量來(lái)刻畫(huà)聚類結(jié)構(gòu),但與一般聚類算法不同的是,LVQ假設(shè)數(shù)據(jù)樣本帶有類別標(biāo)記。學(xué)習(xí)過(guò)程利用樣本的這些監(jiān)督信息來(lái)輔助聚類。 給定樣本集D={(x1,y1),(x2,y2),…,(xm, ym)}, 每個(gè)樣本xj是由n個(gè)屬性描述的特征向量(xj1;xj2;…;xjn),yj∈Y是樣本xj的類別標(biāo)記。LVQ的目標(biāo)是學(xué)得一組n維原型向量{p1,p2,…,pq},每個(gè)原型向量代表一個(gè)聚類簇,簇標(biāo)記ti∈Y。LVQ算法如下所示:

9.4.3 高斯混合聚類

與k均值、LVQ用原型向量來(lái)刻畫(huà)聚類結(jié)構(gòu)不同,高斯聚類采用概率模型來(lái)表達(dá)聚類原型。 高斯分布的定義:對(duì)n維樣本空間X中的隨機(jī)向量x,若x服從高斯分布,其概率密度函數(shù)為: 其中μ是n維均值向量,是∑是nxn的協(xié)方差矩陣。由上式可看出,高斯分布完全由均值向量μ和協(xié)方差矩陣∑這兩個(gè)參數(shù)確定。將概率密度函數(shù)記為p(x|μ,∑)。 假設(shè)樣本的生成過(guò)程由高斯混合分布給出:首先根據(jù)a1, a2, …, ak定義的先驗(yàn)分布選擇高斯混合成分,其中ai為選擇第i個(gè)混合成分的概率;然后,根據(jù)被選擇的混合成分的概率密度函數(shù)進(jìn)行采樣,從而生成相應(yīng)的樣本。下面給出高斯混合聚類算法:

9.5 密度聚類

密度聚類亦稱“基于密度的聚類”,此類算法假設(shè)聚類結(jié)構(gòu)能通過(guò)樣本分布的緊密程度確定。通常情形下,密度聚類算法從樣本密度的角度來(lái)考察樣本之間的可連續(xù)性,并基于可連續(xù)樣本不斷擴(kuò)展聚類簇以獲得最終的聚類結(jié)果。 DBSCAN是一種著名的密度聚類算法,它基于一組領(lǐng)域參數(shù)來(lái)刻畫(huà)樣本分布的緊密程度。給定數(shù)據(jù)集D={x1,x2,…,xm},定義下面這幾個(gè)概念: 下圖給出DBSCAN算法流程:

9.6 層次聚類

層次聚類試圖在不同層次對(duì)數(shù)據(jù)集進(jìn)行劃分,從而形成樹(shù)形地聚類結(jié)構(gòu)。數(shù)據(jù)集地劃分可采用自底向上地聚合策略,也可采用自頂向下地分拆策略。 AGNES是一種采用自底向上聚合策略的層次聚類算法。AGNES算法描述如圖所示

柚子快報(bào)激活碼778899分享:算法 第九章 聚類

http://yzkb.51969.com/

相關(guān)文章

評(píng)論可見(jiàn),查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/18931081.html

發(fā)布評(píng)論

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問(wèn)

文章目錄