柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘復(fù)習(xí)
柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘復(fù)習(xí)
一、緒論
分類 classify 上漲或跌
回歸 regression 描述具體數(shù)值
分類模型評(píng)估
1.混淆(誤差)矩陣 confusion matrix
2.ROC曲線 receiver operating characteristic curve?接收者操作特征曲線
3.AUC面積 area under curve ROC曲線下與坐標(biāo)軸圍成的面積,面積越大越好
混淆矩陣
列:預(yù)測(cè)類別
行:真實(shí)歸屬類別
ACC、FPR、TPR、ENR、F1
DBN:深度信念網(wǎng)絡(luò) deep belief network
RBM:restricted Boltzman machine 受限玻爾茲曼機(jī)
CNN:卷積神經(jīng)網(wǎng)絡(luò) convolution neural network
SAE:稀疏流自編碼 Sparse Auto Encoder
通過計(jì)算自編碼輸出和源輸入的誤差,不斷調(diào)節(jié)編碼器的參數(shù),最終訓(xùn)練出模型??捎糜趬嚎s輸入信息,提取有的輸入特征?!続E通過無監(jiān)督學(xué)習(xí)更新參數(shù),使重構(gòu)誤差更小】
算法 algorithm
擬合 fitting
過擬合 overfitting
欠擬合 underfitting
二、
KDD知識(shí)發(fā)現(xiàn) knowledge discovery in database
DM data mining
DL deep learning
ML machine learning
分析源數(shù)據(jù)、確定挖掘目標(biāo)、系統(tǒng)設(shè)計(jì)和開發(fā)
問題定義、數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘及模式評(píng)估
數(shù)據(jù)預(yù)處理:清洗、轉(zhuǎn)換、描述、選擇、抽取
冗余redundant
不均衡imbalance
離群值/異常值 outliers
重復(fù) duplicate
數(shù)據(jù)缺失 incomplete
數(shù)據(jù)噪聲 noisy
數(shù)據(jù)不一致 inconsistent
中位數(shù) median
眾數(shù)mode
截尾平均trimmedmean【去首位2%】
主成分分析PCA principal component analysis 降維 投影 特征選擇
留出法hold-out
自助法 bootstrap
極差range=max-min
分布的五數(shù)概括(five-number summary)中位數(shù)Q2 四分位Q1 Q3 Min max
四分位數(shù)25 50(median) 75
排序:Min Q1 median Q3 Max
箱線圖:盒底Q1 盒頂Q3 中間粗線median 觸頂表示數(shù)據(jù)散布范圍 最遠(yuǎn)1.5IQR(Q3-Q1)【四位數(shù)極差、離群點(diǎn)】
強(qiáng)度挖掘 intension Mining
三、關(guān)聯(lián)規(guī)則挖掘association rule mining
關(guān)聯(lián)規(guī)則挖掘的兩步過程: 1)找出所有的頻繁項(xiàng)集:這些項(xiàng)集出現(xiàn)的頻繁性要滿足最小支持度原則。 2)由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:滿足最小支持度和最小置信度。 Apriori算法原理(尋找頻繁項(xiàng)集) 1)任何一個(gè)頻繁項(xiàng)集的子集必定是頻繁項(xiàng)集; 如,如果{A,B}是頻繁項(xiàng)集,則{A}、{B}都是頻繁項(xiàng)集。 2)任何非頻繁項(xiàng)集的超集都為非頻繁項(xiàng)集 如,如果{A}、{B}是非頻繁項(xiàng)集,則{A,B}是非頻繁項(xiàng)集
Close算法(尋找頻繁項(xiàng)集的方法2)
一個(gè)頻繁閉合項(xiàng)集的所有閉合子集一定是頻繁的。一個(gè)非頻繁閉合項(xiàng)集的所有閉合超集一定是非頻繁的。閉合項(xiàng)集:不能在C中存在小于或等于它的支持度的子集。
如何找閉合項(xiàng)集:取交集,修剪
FP-growth(尋找頻繁項(xiàng)集方法3)
基于項(xiàng)目系列,只用掃描兩次數(shù)據(jù)庫(kù),有順序。
①頻度排序
②信息轉(zhuǎn)變?yōu)榫o縮內(nèi)存結(jié)構(gòu)
FP-tree Frequent Pattern Tree
四、分類方法
建模 training data
測(cè)試 testing data
樸素貝葉斯:假設(shè)樣本特征彼此獨(dú)立,沒有相關(guān)關(guān)系。
先驗(yàn)概率prior probability:根據(jù)以往經(jīng)驗(yàn)和分析得到的概率
后驗(yàn)概率 posterior probability:事情已發(fā)生,判斷事情發(fā)生時(shí)由哪個(gè)原因引起
聯(lián)合概率joint probability:兩個(gè)事情共同發(fā)生的概率
五、聚類方法 clustering
將對(duì)象進(jìn)行自動(dòng)分組。是無標(biāo)簽的無監(jiān)督學(xué)習(xí)
聚類在數(shù)據(jù)挖掘中的典型應(yīng)用有:
1、聚類分析可以作為其它算法的
預(yù)處理
步驟
2、聚類分析可以作為一個(gè)獨(dú)立的工具來
獲得數(shù)據(jù)的分布
情況
3、聚類分析可以完成
孤立點(diǎn)挖掘
衡量聚類效果的標(biāo)準(zhǔn)
?
簇內(nèi)相似度越高、簇間相似度越低,聚類效果越好
聚類技術(shù):
?
劃分法:k均值、k中心點(diǎn)
?
層次法:凝聚層次聚類、分裂層次聚類
?
基于密度的方法:Density-based approach
?
基于模型的方法:Model-based approach
劃分聚類:構(gòu)造數(shù)據(jù)k個(gè)劃分,每一個(gè)劃分就代表一個(gè)簇。每一個(gè)簇至少包含一個(gè)對(duì)象,每一個(gè)對(duì)象屬于且僅屬于一個(gè)簇。
K-means K平均值【歐氏距離】
把n個(gè)對(duì)象分為k個(gè)簇,以使簇內(nèi)具有較高的相似度。相似度計(jì)算根據(jù)一個(gè)簇中對(duì)象平均值進(jìn)行。
k-中心點(diǎn)
( K-medoids ):算法
k
-means算法對(duì)于 孤立點(diǎn)是敏感的。為了解決這個(gè)問題,不采用簇 中的平均值作為參照點(diǎn),可以選用簇
中位置
最中心的對(duì)象,即中心點(diǎn)作為參照點(diǎn)。這樣劃分方法
仍然是基于最小化所有對(duì)象與其參照點(diǎn)之間的相異度之和的原則來執(zhí)行的。【曼哈頓距離】
Partitioning Around Medoids (PAM)算法,是一種常見的 k中心點(diǎn)聚類方法,利用
貪婪搜索
,不一定可以找到最優(yōu)解,但是比窮盡搜索更快。
?
在 K 中心點(diǎn)算法中,每次迭代后的質(zhì)點(diǎn)都是從聚類的樣本點(diǎn)中選取,k中心點(diǎn)算法不采用簇中對(duì)象
的平均值作為簇中心,而選用簇中
離平均值最近的對(duì)象作為簇中心
。
層次聚類:對(duì)給定的數(shù)據(jù)集進(jìn)行層次的分解,直到滿足某種條件。
凝聚
的層次聚類:一種
自底向上
的策略,首先將每個(gè)對(duì)象作為一個(gè)簇,然后合并這些原子簇為越來越大的簇, 直到某個(gè)終結(jié)條件被滿足,如AGNES算法。
?
分裂
的層次聚類:采用
自頂向下
的策略,它首先將所有對(duì)象置于一個(gè)簇中,然后逐漸細(xì)分為越來越小的簇,直到達(dá)到了某個(gè)終結(jié)條件,如DIANA算法
AGNES (AGglomerative NESting):
自底向上凝聚算法,
先將每個(gè)對(duì)象作為一個(gè)簇,然后這些簇根據(jù)某些準(zhǔn)則被一步步地合并。兩個(gè)簇間的相似度由這 兩個(gè)不同簇
中
距離最近的數(shù)據(jù)點(diǎn)對(duì)
的相似度來確定。 聚類的合并過程反復(fù)進(jìn)行直到所有的對(duì)象最終滿足 簇?cái)?shù)目。
算法
5-3 AGNES
(自底向上凝聚算法)
輸入
:
包含
n
個(gè)對(duì)象的數(shù)據(jù)庫(kù),終止條件簇的數(shù)目
k
。
輸出
:
k
個(gè)簇,達(dá)到終止條件規(guī)定簇?cái)?shù)目。
(1)
將每個(gè)對(duì)象當(dāng)成一個(gè)初始簇;
(2) REPEAT
(3)
根據(jù)兩個(gè)簇中最近的數(shù)據(jù)點(diǎn)找到最近的兩個(gè)簇;
(4)
合并兩個(gè)簇,生成新的簇的集合;
(5) UNTIL
達(dá)到定義的簇的數(shù)目;
DIANA
(Divisive ANAlysis)
算法是典型的
分裂聚類方法
。
?
用戶能定義希望得到的簇?cái)?shù)目作為一個(gè)結(jié)束條件。同時(shí),它使用下面兩種測(cè)度方法:
?
簇的直徑
:在一個(gè)簇中的任意兩個(gè)數(shù)據(jù)點(diǎn)的距離中的最大值。
?
平均相異度
(平均距離)
?
?
密度聚類方法
的指導(dǎo)思想是,只要一個(gè)
區(qū)域
中,點(diǎn)的密度大于某個(gè)
閾值
,就把它加到與之相連的簇中去。
(1) DBSCAN
:
Density-Based Spatial Clustering of Applications with Noise,噪聲環(huán)境下的密度聚類算法
(2) OPTICS
:
Ordering Points To Identify the Clustering Structure,基于不同密度的聚類算法
(3) EDNCLUE
:
Density Clustering
,基于一組密度分布函數(shù)的聚類算法
DBSCAN算法:
如果一個(gè)點(diǎn)
q
的區(qū)域內(nèi)包含多于MinPts 個(gè)對(duì)象,則創(chuàng)建一個(gè)q
作為核心對(duì)象的簇。然后,
反復(fù) 地尋找
從這些核心對(duì)象直接密度可達(dá)的對(duì)象,把一些密度可達(dá)簇進(jìn)行合并。當(dāng)沒有新的點(diǎn)可以被添加到任何簇時(shí),該過程結(jié)束。
STING(Statistaical Information Grid_based method)是一種
基于網(wǎng)格的多分辨率聚類技術(shù)
,它將空間區(qū)域劃分為矩形單元。針對(duì)不同級(jí)別的分辨率,通常存在多個(gè)級(jí)別的巨型單元,這些單元形成了一個(gè)層次結(jié)構(gòu):高層的每個(gè)單元被劃分為多個(gè)第一層的單元。高層單元的統(tǒng)計(jì)參數(shù)可以很容易的從底層單元的計(jì)算得到。這些參數(shù)包括屬性無關(guān)的參數(shù)count
、屬性相關(guān)的參數(shù)
m
(平均值)、
s
(標(biāo)準(zhǔn)偏差)、
min
(最小值)、
max
(最大值)以及該單元中屬性值遵循的分布類型。
?
STING算法的主要優(yōu)點(diǎn)是效率高,通過對(duì)數(shù)據(jù)集的一次掃描來計(jì)算單元的統(tǒng)計(jì)信息,因此產(chǎn)生聚類的時(shí)間復(fù)雜度是
O
(
n
)。在建立層次結(jié)構(gòu)以后,查詢的時(shí)間復(fù)雜度是
O
(
g
),
g 遠(yuǎn)小于n
。STING算法采用網(wǎng)格結(jié)構(gòu),有利于并行處理和增量更新。
八、Web挖掘
Web挖掘依靠它所挖掘的信息來源可以分為:
?
Web內(nèi)容挖掘(Web Content Mining)
:
對(duì)站點(diǎn)的Web頁(yè)面的各類信息進(jìn)行集成、概化、分類等,挖掘某類信息所蘊(yùn)含的知識(shí)模式。
?
Web訪問信息挖掘(Web Usage Mining)
:Web訪問信息挖掘是對(duì)用戶訪問Web時(shí)在服務(wù)器方留下的訪問記錄進(jìn)行挖掘。通過分析日志記錄中的規(guī)律,可以識(shí)別用戶的忠實(shí)度、喜好、滿意度,可以 發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。
?
Web結(jié)構(gòu)挖掘(Web Structure Mining):
Web結(jié)構(gòu)挖掘是對(duì)Web頁(yè) 面之間的鏈接結(jié)構(gòu)進(jìn)行挖掘。在整個(gè)Web空間里,有用的知識(shí)不僅包含在Web頁(yè)面的內(nèi)容之中,而且也包含在頁(yè)面的鏈接結(jié)構(gòu)之中。 對(duì)于給定的Web頁(yè)面集合,通過結(jié)構(gòu)挖掘可以發(fā)現(xiàn)頁(yè)面之間的關(guān)聯(lián) 信息,頁(yè)面之間的包含、引用或者從屬關(guān)系等。
信息檢索(Information Retrieval,IR)
是搜索的根基,其目的是幫助用戶從大規(guī)模的文本文檔中
找到所需信息的研究領(lǐng)域。
信息檢索可能經(jīng)常被說成是Web挖掘的初級(jí)階段, 是為了強(qiáng)調(diào)Web挖掘不是簡(jiǎn)單的信息索引或關(guān)鍵詞匹配技術(shù),而是實(shí)現(xiàn)信息濃縮成知識(shí)的過程, 它可以支持更高級(jí)的商業(yè)決策和分析
一些比較有代表性的數(shù)據(jù)源有:
?
Web服務(wù)器
日志
數(shù)據(jù)
?
Web上的
電子商務(wù)
數(shù)據(jù)
?
Web上的
網(wǎng)頁(yè)
?
Web上的網(wǎng)頁(yè)之間的
鏈接
?
Web上的
多媒體
數(shù)據(jù)
柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘復(fù)習(xí)
精彩內(nèi)容
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。