柚子快報(bào)邀請(qǐng)碼778899分享:【數(shù)據(jù)挖掘-思考】分類和聚類
柚子快報(bào)邀請(qǐng)碼778899分享:【數(shù)據(jù)挖掘-思考】分類和聚類
將芝麻和花生分開(kāi),是一個(gè)分類問(wèn)題還是聚類問(wèn)題?
顯而易見(jiàn)的,在日常生活中,這是一個(gè)分類問(wèn)題,在數(shù)據(jù)挖掘領(lǐng)域中,是否也是這樣呢?
通義千問(wèn)的回答:
在數(shù)據(jù)挖掘中,將芝麻和花生分開(kāi)可以根據(jù)不同的場(chǎng)景被視為分類或聚類問(wèn)題:
分類 (Classification): 如果我們已經(jīng)有了一套標(biāo)注好的數(shù)據(jù)集,即一部分芝麻已經(jīng)被標(biāo)記為“芝麻”,一部分綠豆被標(biāo)記為“綠豆”,并且我們的目標(biāo)是基于這些已知的樣本特征來(lái)訓(xùn)練一個(gè)模型,以便對(duì)新的未標(biāo)記物品進(jìn)行預(yù)測(cè)(判斷它是芝麻還是綠豆),那么這個(gè)問(wèn)題就是一個(gè)分類問(wèn)題。聚類 (Clustering): 如果我們沒(méi)有預(yù)先標(biāo)記的數(shù)據(jù),而是有一堆混在一起的種子,我們希望通過(guò)分析種子的大小、顏色、形狀等屬性,將它們自動(dòng)分成幾組,并且假設(shè)這些組能合理地對(duì)應(yīng)到芝麻和綠豆這兩類,那么這就是一個(gè)聚類問(wèn)題。聚類旨在根據(jù)對(duì)象之間的相似性或距離,將它們分組成多個(gè)簇,每簇內(nèi)部的對(duì)象相似度較高,而簇間相似度較低。因此,決定這是分類還是聚類問(wèn)題的關(guān)鍵在于是否有預(yù)定義的類別標(biāo)簽。如果有標(biāo)簽,就是分類;如果沒(méi)有,而是需要自動(dòng)發(fā)現(xiàn)類別,那就是聚類。
這樣學(xué)術(shù)性的回答好復(fù)雜>﹏<
我的老師教給我的:
也就是說(shuō),需要訓(xùn)練數(shù)據(jù),構(gòu)建模型的問(wèn)題是分類問(wèn)題,很顯然這里沒(méi)有用到,所以是聚類問(wèn)題。聚類問(wèn)題關(guān)鍵在于根據(jù)某種標(biāo)準(zhǔn)將相似度高的對(duì)象分到一起。
你能理解嗎?
點(diǎn)贊關(guān)注收藏,獲取更多干貨知識(shí)~
柚子快報(bào)邀請(qǐng)碼778899分享:【數(shù)據(jù)挖掘-思考】分類和聚類
精彩文章
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。