柚子快報(bào)激活碼778899分享:1.6聚類及其他數(shù)據(jù)挖掘問(wèn)題
Clustering(聚集、分類歸并)
聚類特點(diǎn):把items分成一組一組的;例如以上黑點(diǎn)分為三個(gè)Cluster
聚類依據(jù):因?yàn)橥粋€(gè)group里面的點(diǎn)數(shù)據(jù)比較接相似,所以距離比較接近,不同group差異比較大
距離參數(shù)、距離度量(distance metrics)
定義:用于衡量點(diǎn)之間的距離遠(yuǎn)近、是否相似
方法:
歐式距離(Euclidian Diatance):最常用的空間中兩點(diǎn)之間的距離計(jì)算
曼哈頓距離(Manhattan Distance)
馬氏距離(Mahalanobis Diatance)
算法層面:
k-均值(K-Means)
(1)K值:即要將數(shù)據(jù)分為幾個(gè)簇;
(2) 質(zhì)心:可理解為均值,即向量各個(gè)維度取平均值,這個(gè)是我們聚類算法一個(gè)重要的指標(biāo);
(3) 歐式距離
Sequential Leader
Affinity Propagation
(無(wú)監(jiān)督的聚類的)應(yīng)用
客戶劃分
圖像分割
社交網(wǎng)絡(luò)分析
注意:
分類(classification):supervised learning(監(jiān)督學(xué)習(xí),有標(biāo)簽的)
聚類(clustering):unsupervised learning(非監(jiān)督學(xué)習(xí),無(wú)標(biāo)簽的)
沒(méi)有事先人為的標(biāo)簽(例如不區(qū)分好人、壞人;只會(huì)進(jìn)行比如體型相似的人聚在一起)
Hierarchical Clustering(層次聚類)
同一個(gè)group中的items通過(guò)不同層次分類聚在一起關(guān)聯(lián)規(guī)則(Association Rule)
例如從購(gòu)物中產(chǎn)生的交易(Transaction),購(gòu)物小票中挖掘一些有趣的東西:買牛奶面包的人就會(huì)買黃油回歸(Regression)
簡(jiǎn)單的線性回歸(Linear Regression):也可能是多項(xiàng)式的(Polinomio),線性指的是β與x之間的關(guān)系是線性的
線性回歸的過(guò)擬合問(wèn)題
模型不夠強(qiáng)大,誤差高
適中
過(guò)度學(xué)習(xí),過(guò)擬合,誤差度為0可視化(可解釋性)
意義
將原(高維)數(shù)據(jù)可視化、使之更利于分析使用何種算法、模型
將處理結(jié)果可視化,使之更利于解釋、分享、使用
應(yīng)用
性能儀表板(Performance Dashboard)
現(xiàn)金流、銷售額等等以這樣的方式呈現(xiàn)
可視化軟件推薦
在線數(shù)據(jù)可視化工具
Google Chart API
FLOT
Visual.ly
GUI控制
Crossfiler
JavaScript庫(kù)Tangle
等等數(shù)據(jù)預(yù)處理
特點(diǎn):最麻煩、最有挑戰(zhàn)性
避免:garbage in garbage out
存在問(wèn)題:
屬性值缺失
不同的編碼/命名方案
不可行的值
數(shù)據(jù)不一致
離群值
數(shù)據(jù)質(zhì)量評(píng)價(jià):
準(zhǔn)確性
完備性
一致性
可信度
可解釋性
時(shí)效性
數(shù)據(jù)處理過(guò)程
數(shù)據(jù)清洗
填充缺失值
修正不一致數(shù)據(jù)
識(shí)別離群值及噪聲數(shù)據(jù)
數(shù)據(jù)集成
數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)簡(jiǎn)化
柚子快報(bào)激活碼778899分享:1.6聚類及其他數(shù)據(jù)挖掘問(wèn)題
相關(guān)閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。