柚子快報邀請碼778899分享:【Matlab】聚類方法
柚子快報邀請碼778899分享:【Matlab】聚類方法
【Matlab】聚類方法_層次聚類
1.基本思想2.數(shù)據(jù)集介紹3.文件結(jié)構(gòu)4.詳細(xì)代碼及注釋5.運行結(jié)果
1.基本思想
層次聚類的基本思想是將數(shù)據(jù)集中的每個樣本看作一個獨立的簇,然后將這些簇逐步合并成更大的簇,直到最終形成一個包含所有樣本的簇為止。這個過程可以用樹狀圖(dendrogram)來表示,樹狀圖的葉子節(jié)點表示每個樣本,樹的每個節(jié)點表示一個聚類,樹的高度表示聚類的距離或相似度。
層次聚類分為兩種方法:自上而下(AGNES)和自下而上(DIANA)。
自上而下方法(AGNES)從所有數(shù)據(jù)點作為單個簇開始,不斷地將相鄰的簇合并,直到所有點都在一個簇中。這種方法產(chǎn)生的樹狀圖可以用來確定聚類的數(shù)量和最終的聚類結(jié)果。
自下而上方法(DIANA)從每個數(shù)據(jù)點作為一個簇開始,然后逐步將相似的簇合并,直到所有點都在一個簇中。這種方法對于處理大數(shù)據(jù)集比較高效。
在層次聚類中,簇之間的距離可以通過不同的距離度量方法(如歐幾里得距離、曼哈頓距離、切比雪夫距離等)來計算,同時可以選擇不同的聚類合并策略(如單鏈接、完全鏈接、平均鏈接等)來確定簇與簇之間的相似度。
2.數(shù)據(jù)集介紹
鳶尾花(Iris)數(shù)據(jù)集是一個經(jīng)典的數(shù)據(jù)集,用于機(jī)器學(xué)習(xí)和統(tǒng)計學(xué)習(xí)中的分類和聚類問題。該數(shù)據(jù)集包含了三種不同類型的鳶尾花(山鳶尾、變色鳶尾和維吉尼亞鳶尾)的測量數(shù)據(jù),每種花各有50個樣本。每個樣本包含四個特征,即萼片長度、萼片寬度、花瓣長度和花瓣寬度,以及它所屬的鳶尾花類型。
該數(shù)據(jù)集最早由英國統(tǒng)計學(xué)家和生物學(xué)家Ronald Fisher在1936年的一篇論文中介紹,并一直被廣泛用于分類和聚類問題的研究中。由于其簡單性和廣泛應(yīng)用性,鳶尾花數(shù)據(jù)集已成為了機(jī)器學(xué)習(xí)和統(tǒng)計學(xué)習(xí)中的標(biāo)準(zhǔn)數(shù)據(jù)集之一。
本文采用的數(shù)據(jù)是.xlsx格式,前四列為樣本的特征值,最后一列為樣本的標(biāo)簽,標(biāo)簽值為1,2,3
3.文件結(jié)構(gòu)
iris.xlsx % 鳶尾花數(shù)據(jù)集,具體格式參考第2部分
Main.m % 主函數(shù)
4.詳細(xì)代碼及注釋
% 清空變量
warning off % 關(guān)閉報警信息
close all % 關(guān)閉開啟的圖窗
clear % 清空變量
clc % 清空命令行
% 讀取數(shù)據(jù)
data = readtable('iris.xlsx');
X = table2array(data(:, 1:4));
% 調(diào)用層次聚類函數(shù)
Z = linkage(X, 'single');
% 'single'單連接(single linkage)
% 'complete'完全連接(complete linkage)
% 'average'平均連接(average linkage)
% 'weighted'加權(quán)連接(weighted linkage)
% 'centroid'中心連接(centroid linkage)
% 繪制聚類樹狀圖
figure
dendrogram(Z)
title('Dendrogram of Iris Dataset')
xlabel('Samples')
ylabel('Distance')
5.運行結(jié)果
柚子快報邀請碼778899分享:【Matlab】聚類方法
文章鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。