欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

目錄

柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘復(fù)習(xí)

柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘復(fù)習(xí)

http://yzkb.51969.com/

一、緒論

分類 classify 上漲或跌

回歸 regression 描述具體數(shù)值

分類模型評(píng)估

1.混淆(誤差)矩陣 confusion matrix

2.ROC曲線 receiver operating characteristic curve?接收者操作特征曲線

3.AUC面積 area under curve ROC曲線下與坐標(biāo)軸圍成的面積,面積越大越好

混淆矩陣

列:預(yù)測(cè)類別

行:真實(shí)歸屬類別

ACC、FPR、TPR、ENR、F1

DBN:深度信念網(wǎng)絡(luò) deep belief network

RBM:restricted Boltzman machine 受限玻爾茲曼機(jī)

CNN:卷積神經(jīng)網(wǎng)絡(luò) convolution neural network

SAE:稀疏流自編碼 Sparse Auto Encoder

通過計(jì)算自編碼輸出和源輸入的誤差,不斷調(diào)節(jié)編碼器的參數(shù),最終訓(xùn)練出模型??捎糜趬嚎s輸入信息,提取有的輸入特征?!続E通過無監(jiān)督學(xué)習(xí)更新參數(shù),使重構(gòu)誤差更小】

算法 algorithm

擬合 fitting

過擬合 overfitting

欠擬合 underfitting

二、

KDD知識(shí)發(fā)現(xiàn) knowledge discovery in database

DM data mining

DL deep learning

ML machine learning

分析源數(shù)據(jù)、確定挖掘目標(biāo)、系統(tǒng)設(shè)計(jì)和開發(fā)

問題定義、數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘及模式評(píng)估

數(shù)據(jù)預(yù)處理:清洗、轉(zhuǎn)換、描述、選擇、抽取

冗余redundant

不均衡imbalance

離群值/異常值 outliers

重復(fù) duplicate

數(shù)據(jù)缺失 incomplete

數(shù)據(jù)噪聲 noisy

數(shù)據(jù)不一致 inconsistent

中位數(shù) median

眾數(shù)mode

截尾平均trimmedmean【去首位2%】

主成分分析PCA principal component analysis 降維 投影 特征選擇

留出法hold-out

自助法 bootstrap

極差range=max-min

分布的五數(shù)概括(five-number summary)中位數(shù)Q2 四分位Q1 Q3 Min max

四分位數(shù)25 50(median) 75

排序:Min Q1 median Q3 Max

箱線圖:盒底Q1 盒頂Q3 中間粗線median 觸頂表示數(shù)據(jù)散布范圍 最遠(yuǎn)1.5IQR(Q3-Q1)【四位數(shù)極差、離群點(diǎn)】

強(qiáng)度挖掘 intension Mining

三、關(guān)聯(lián)規(guī)則挖掘association rule mining

關(guān)聯(lián)規(guī)則挖掘的兩步過程: 1)找出所有的頻繁項(xiàng)集:這些項(xiàng)集出現(xiàn)的頻繁性要滿足最小支持度原則。 2)由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:滿足最小支持度和最小置信度。 Apriori算法原理(尋找頻繁項(xiàng)集) 1)任何一個(gè)頻繁項(xiàng)集的子集必定是頻繁項(xiàng)集; 如,如果{A,B}是頻繁項(xiàng)集,則{A}、{B}都是頻繁項(xiàng)集。 2)任何非頻繁項(xiàng)集的超集都為非頻繁項(xiàng)集 如,如果{A}、{B}是非頻繁項(xiàng)集,則{A,B}是非頻繁項(xiàng)集

Close算法(尋找頻繁項(xiàng)集的方法2)

一個(gè)頻繁閉合項(xiàng)集的所有閉合子集一定是頻繁的。一個(gè)非頻繁閉合項(xiàng)集的所有閉合超集一定是非頻繁的。閉合項(xiàng)集:不能在C中存在小于或等于它的支持度的子集。

如何找閉合項(xiàng)集:取交集,修剪

FP-growth(尋找頻繁項(xiàng)集方法3)

基于項(xiàng)目系列,只用掃描兩次數(shù)據(jù)庫(kù),有順序。

①頻度排序

②信息轉(zhuǎn)變?yōu)榫o縮內(nèi)存結(jié)構(gòu)

FP-tree Frequent Pattern Tree

四、分類方法

建模 training data

測(cè)試 testing data

樸素貝葉斯:假設(shè)樣本特征彼此獨(dú)立,沒有相關(guān)關(guān)系。

先驗(yàn)概率prior probability:根據(jù)以往經(jīng)驗(yàn)和分析得到的概率

后驗(yàn)概率 posterior probability:事情已發(fā)生,判斷事情發(fā)生時(shí)由哪個(gè)原因引起

聯(lián)合概率joint probability:兩個(gè)事情共同發(fā)生的概率

五、聚類方法 clustering

將對(duì)象進(jìn)行自動(dòng)分組。是無標(biāo)簽的無監(jiān)督學(xué)習(xí)

聚類在數(shù)據(jù)挖掘中的典型應(yīng)用有:

1、聚類分析可以作為其它算法的

預(yù)處理

步驟

2、聚類分析可以作為一個(gè)獨(dú)立的工具來

獲得數(shù)據(jù)的分布

情況

3、聚類分析可以完成

孤立點(diǎn)挖掘

衡量聚類效果的標(biāo)準(zhǔn)

?

簇內(nèi)相似度越高、簇間相似度越低,聚類效果越好

聚類技術(shù):

?

劃分法:k均值、k中心點(diǎn)

?

層次法:凝聚層次聚類、分裂層次聚類

?

基于密度的方法:Density-based approach

?

基于模型的方法:Model-based approach

劃分聚類:構(gòu)造數(shù)據(jù)k個(gè)劃分,每一個(gè)劃分就代表一個(gè)簇。每一個(gè)簇至少包含一個(gè)對(duì)象,每一個(gè)對(duì)象屬于且僅屬于一個(gè)簇。

K-means K平均值【歐氏距離】

把n個(gè)對(duì)象分為k個(gè)簇,以使簇內(nèi)具有較高的相似度。相似度計(jì)算根據(jù)一個(gè)簇中對(duì)象平均值進(jìn)行。

k-中心點(diǎn)

( K-medoids ):算法

k

-means算法對(duì)于 孤立點(diǎn)是敏感的。為了解決這個(gè)問題,不采用簇 中的平均值作為參照點(diǎn),可以選用簇

中位置

最中心的對(duì)象,即中心點(diǎn)作為參照點(diǎn)。這樣劃分方法

仍然是基于最小化所有對(duì)象與其參照點(diǎn)之間的相異度之和的原則來執(zhí)行的。【曼哈頓距離】

Partitioning Around Medoids (PAM)算法,是一種常見的 k中心點(diǎn)聚類方法,利用

貪婪搜索

,不一定可以找到最優(yōu)解,但是比窮盡搜索更快。

?

在 K 中心點(diǎn)算法中,每次迭代后的質(zhì)點(diǎn)都是從聚類的樣本點(diǎn)中選取,k中心點(diǎn)算法不采用簇中對(duì)象

的平均值作為簇中心,而選用簇中

離平均值最近的對(duì)象作為簇中心

。

層次聚類:對(duì)給定的數(shù)據(jù)集進(jìn)行層次的分解,直到滿足某種條件。

凝聚

的層次聚類:一種

自底向上

的策略,首先將每個(gè)對(duì)象作為一個(gè)簇,然后合并這些原子簇為越來越大的簇, 直到某個(gè)終結(jié)條件被滿足,如AGNES算法。

?

分裂

的層次聚類:采用

自頂向下

的策略,它首先將所有對(duì)象置于一個(gè)簇中,然后逐漸細(xì)分為越來越小的簇,直到達(dá)到了某個(gè)終結(jié)條件,如DIANA算法

AGNES (AGglomerative NESting):

自底向上凝聚算法,

先將每個(gè)對(duì)象作為一個(gè)簇,然后這些簇根據(jù)某些準(zhǔn)則被一步步地合并。兩個(gè)簇間的相似度由這 兩個(gè)不同簇

距離最近的數(shù)據(jù)點(diǎn)對(duì)

的相似度來確定。 聚類的合并過程反復(fù)進(jìn)行直到所有的對(duì)象最終滿足 簇?cái)?shù)目。

算法

5-3 AGNES

(自底向上凝聚算法)

輸入

包含

n

個(gè)對(duì)象的數(shù)據(jù)庫(kù),終止條件簇的數(shù)目

k

。

輸出

k

個(gè)簇,達(dá)到終止條件規(guī)定簇?cái)?shù)目。

(1)

將每個(gè)對(duì)象當(dāng)成一個(gè)初始簇;

(2) REPEAT

(3)

根據(jù)兩個(gè)簇中最近的數(shù)據(jù)點(diǎn)找到最近的兩個(gè)簇;

(4)

合并兩個(gè)簇,生成新的簇的集合;

(5) UNTIL

達(dá)到定義的簇的數(shù)目;

DIANA

(Divisive ANAlysis)

算法是典型的

分裂聚類方法

?

用戶能定義希望得到的簇?cái)?shù)目作為一個(gè)結(jié)束條件。同時(shí),它使用下面兩種測(cè)度方法:

?

簇的直徑

:在一個(gè)簇中的任意兩個(gè)數(shù)據(jù)點(diǎn)的距離中的最大值。

?

平均相異度

(平均距離)

?

?

密度聚類方法

的指導(dǎo)思想是,只要一個(gè)

區(qū)域

中,點(diǎn)的密度大于某個(gè)

閾值

,就把它加到與之相連的簇中去。

(1) DBSCAN

Density-Based Spatial Clustering of Applications with Noise,噪聲環(huán)境下的密度聚類算法

(2) OPTICS

Ordering Points To Identify the Clustering Structure,基于不同密度的聚類算法

(3) EDNCLUE

Density Clustering

,基于一組密度分布函數(shù)的聚類算法

DBSCAN算法:

如果一個(gè)點(diǎn)

q

的區(qū)域內(nèi)包含多于MinPts 個(gè)對(duì)象,則創(chuàng)建一個(gè)q

作為核心對(duì)象的簇。然后,

反復(fù) 地尋找

從這些核心對(duì)象直接密度可達(dá)的對(duì)象,把一些密度可達(dá)簇進(jìn)行合并。當(dāng)沒有新的點(diǎn)可以被添加到任何簇時(shí),該過程結(jié)束。

STING(Statistaical Information Grid_based method)是一種

基于網(wǎng)格的多分辨率聚類技術(shù)

,它將空間區(qū)域劃分為矩形單元。針對(duì)不同級(jí)別的分辨率,通常存在多個(gè)級(jí)別的巨型單元,這些單元形成了一個(gè)層次結(jié)構(gòu):高層的每個(gè)單元被劃分為多個(gè)第一層的單元。高層單元的統(tǒng)計(jì)參數(shù)可以很容易的從底層單元的計(jì)算得到。這些參數(shù)包括屬性無關(guān)的參數(shù)count

、屬性相關(guān)的參數(shù)

m

(平均值)、

s

(標(biāo)準(zhǔn)偏差)、

min

(最小值)、

max

(最大值)以及該單元中屬性值遵循的分布類型。

?

STING算法的主要優(yōu)點(diǎn)是效率高,通過對(duì)數(shù)據(jù)集的一次掃描來計(jì)算單元的統(tǒng)計(jì)信息,因此產(chǎn)生聚類的時(shí)間復(fù)雜度是

O

(

n

)。在建立層次結(jié)構(gòu)以后,查詢的時(shí)間復(fù)雜度是

O

(

g

),

g 遠(yuǎn)小于n

。STING算法采用網(wǎng)格結(jié)構(gòu),有利于并行處理和增量更新。

八、Web挖掘

Web挖掘依靠它所挖掘的信息來源可以分為:

?

Web內(nèi)容挖掘(Web Content Mining)

對(duì)站點(diǎn)的Web頁(yè)面的各類信息進(jìn)行集成、概化、分類等,挖掘某類信息所蘊(yùn)含的知識(shí)模式。

?

Web訪問信息挖掘(Web Usage Mining)

:Web訪問信息挖掘是對(duì)用戶訪問Web時(shí)在服務(wù)器方留下的訪問記錄進(jìn)行挖掘。通過分析日志記錄中的規(guī)律,可以識(shí)別用戶的忠實(shí)度、喜好、滿意度,可以 發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。

?

Web結(jié)構(gòu)挖掘(Web Structure Mining):

Web結(jié)構(gòu)挖掘是對(duì)Web頁(yè) 面之間的鏈接結(jié)構(gòu)進(jìn)行挖掘。在整個(gè)Web空間里,有用的知識(shí)不僅包含在Web頁(yè)面的內(nèi)容之中,而且也包含在頁(yè)面的鏈接結(jié)構(gòu)之中。 對(duì)于給定的Web頁(yè)面集合,通過結(jié)構(gòu)挖掘可以發(fā)現(xiàn)頁(yè)面之間的關(guān)聯(lián) 信息,頁(yè)面之間的包含、引用或者從屬關(guān)系等。

信息檢索(Information Retrieval,IR)

是搜索的根基,其目的是幫助用戶從大規(guī)模的文本文檔中

找到所需信息的研究領(lǐng)域。

信息檢索可能經(jīng)常被說成是Web挖掘的初級(jí)階段, 是為了強(qiáng)調(diào)Web挖掘不是簡(jiǎn)單的信息索引或關(guān)鍵詞匹配技術(shù),而是實(shí)現(xiàn)信息濃縮成知識(shí)的過程, 它可以支持更高級(jí)的商業(yè)決策和分析

一些比較有代表性的數(shù)據(jù)源有:

?

Web服務(wù)器

日志

數(shù)據(jù)

?

Web上的

電子商務(wù)

數(shù)據(jù)

?

Web上的

網(wǎng)頁(yè)

?

Web上的網(wǎng)頁(yè)之間的

鏈接

?

Web上的

多媒體

數(shù)據(jù)

柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘復(fù)習(xí)

http://yzkb.51969.com/

精彩內(nèi)容

評(píng)論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/19871951.html

發(fā)布評(píng)論

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄