欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁(yè)綜合正文

評(píng)論

柚子快報(bào)激活碼778899分享：數(shù)據(jù)挖掘復(fù)習(xí)

Auction海外拍賣行綜合2025-09-04650

柚子快報(bào)激活碼778899分享：數(shù)據(jù)挖掘復(fù)習(xí)

http://yzkb.51969.com/

一、緒論

分類 classify 上漲或跌

回歸 regression 描述具體數(shù)值

分類模型評(píng)估

1.混淆（誤差）矩陣 confusion matrix

2.ROC曲線 receiver operating characteristic curve?接收者操作特征曲線

3.AUC面積 area under curve ROC曲線下與坐標(biāo)軸圍成的面積，面積越大越好

混淆矩陣

列：預(yù)測(cè)類別

行：真實(shí)歸屬類別

ACC、FPR、TPR、ENR、F1

DBN:深度信念網(wǎng)絡(luò) deep belief network

RBM:restricted Boltzman machine 受限玻爾茲曼機(jī)

CNN:卷積神經(jīng)網(wǎng)絡(luò) convolution neural network

SAE:稀疏流自編碼 Sparse Auto Encoder

通過(guò)計(jì)算自編碼輸出和源輸入的誤差，不斷調(diào)節(jié)編碼器的參數(shù)，最終訓(xùn)練出模型?？捎糜趬嚎s輸入信息，提取有的輸入特征?！続E通過(guò)無(wú)監(jiān)督學(xué)習(xí)更新參數(shù)，使重構(gòu)誤差更小】

算法 algorithm

擬合 fitting

過(guò)擬合 overfitting

欠擬合 underfitting

二、

KDD知識(shí)發(fā)現(xiàn) knowledge discovery in database

DM data mining

DL deep learning

ML machine learning

分析源數(shù)據(jù)、確定挖掘目標(biāo)、系統(tǒng)設(shè)計(jì)和開發(fā)

問(wèn)題定義、數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘及模式評(píng)估

數(shù)據(jù)預(yù)處理：清洗、轉(zhuǎn)換、描述、選擇、抽取

冗余redundant

不均衡imbalance

離群值/異常值 outliers

重復(fù) duplicate

數(shù)據(jù)缺失 incomplete

數(shù)據(jù)噪聲 noisy

數(shù)據(jù)不一致 inconsistent

中位數(shù) median

眾數(shù)mode

截尾平均trimmedmean【去首位2%】

主成分分析PCA principal component analysis 降維投影特征選擇

留出法hold-out

自助法 bootstrap

極差range=max-min

分布的五數(shù)概括（five-number summary）中位數(shù)Q2 四分位Q1 Q3 Min max

四分位數(shù)25 50(median) 75

排序：Min Q1 median Q3 Max

箱線圖：盒底Q1 盒頂Q3 中間粗線median 觸頂表示數(shù)據(jù)散布范圍最遠(yuǎn)1.5IQR(Q3-Q1)【四位數(shù)極差、離群點(diǎn)】

強(qiáng)度挖掘 intension Mining

三、關(guān)聯(lián)規(guī)則挖掘association rule mining

關(guān)聯(lián)規(guī)則挖掘的兩步過(guò)程： 1）找出所有的頻繁項(xiàng)集：這些項(xiàng)集出現(xiàn)的頻繁性要滿足最小支持度原則。 2）由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則：滿足最小支持度和最小置信度。 Apriori算法原理（尋找頻繁項(xiàng)集） 1）任何一個(gè)頻繁項(xiàng)集的子集必定是頻繁項(xiàng)集；如，如果{A,B}是頻繁項(xiàng)集，則{A}、{B}都是頻繁項(xiàng)集。 2）任何非頻繁項(xiàng)集的超集都為非頻繁項(xiàng)集如，如果{A}、{B}是非頻繁項(xiàng)集，則{A,B}是非頻繁項(xiàng)集

Close算法（尋找頻繁項(xiàng)集的方法2）

一個(gè)頻繁閉合項(xiàng)集的所有閉合子集一定是頻繁的。一個(gè)非頻繁閉合項(xiàng)集的所有閉合超集一定是非頻繁的。閉合項(xiàng)集：不能在C中存在小于或等于它的支持度的子集。

如何找閉合項(xiàng)集：取交集，修剪

FP-growth（尋找頻繁項(xiàng)集方法3）

基于項(xiàng)目系列，只用掃描兩次數(shù)據(jù)庫(kù)，有順序。

①頻度排序

②信息轉(zhuǎn)變?yōu)榫o縮內(nèi)存結(jié)構(gòu)

FP-tree Frequent Pattern Tree

四、分類方法

建模 training data

測(cè)試 testing data

樸素貝葉斯：假設(shè)樣本特征彼此獨(dú)立，沒(méi)有相關(guān)關(guān)系。

先驗(yàn)概率prior probability：根據(jù)以往經(jīng)驗(yàn)和分析得到的概率

后驗(yàn)概率 posterior probability：事情已發(fā)生，判斷事情發(fā)生時(shí)由哪個(gè)原因引起

聯(lián)合概率joint probability：兩個(gè)事情共同發(fā)生的概率

五、聚類方法 clustering

將對(duì)象進(jìn)行自動(dòng)分組。是無(wú)標(biāo)簽的無(wú)監(jiān)督學(xué)習(xí)

聚類在數(shù)據(jù)挖掘中的典型應(yīng)用有：

1、聚類分析可以作為其它算法的

預(yù)處理

步驟

2、聚類分析可以作為一個(gè)獨(dú)立的工具來(lái)

獲得數(shù)據(jù)的分布

情況

3、聚類分析可以完成

孤立點(diǎn)挖掘

衡量聚類效果的標(biāo)準(zhǔn)

簇內(nèi)相似度越高、簇間相似度越低，聚類效果越好

聚類技術(shù)：

劃分法：k均值、k中心點(diǎn)

層次法：凝聚層次聚類、分裂層次聚類

基于密度的方法：Density-based approach

基于模型的方法：Model-based approach

劃分聚類：構(gòu)造數(shù)據(jù)k個(gè)劃分，每一個(gè)劃分就代表一個(gè)簇。每一個(gè)簇至少包含一個(gè)對(duì)象，每一個(gè)對(duì)象屬于且僅屬于一個(gè)簇。

K-means K平均值【歐氏距離】

把n個(gè)對(duì)象分為k個(gè)簇，以使簇內(nèi)具有較高的相似度。相似度計(jì)算根據(jù)一個(gè)簇中對(duì)象平均值進(jìn)行。

k-中心點(diǎn)

（ K-medoids ）:算法

-means算法對(duì)于孤立點(diǎn)是敏感的。為了解決這個(gè)問(wèn)題，不采用簇中的平均值作為參照點(diǎn)，可以選用簇

中位置

最中心的對(duì)象，即中心點(diǎn)作為參照點(diǎn)。這樣劃分方法

仍然是基于最小化所有對(duì)象與其參照點(diǎn)之間的相異度之和的原則來(lái)執(zhí)行的?！韭D距離】

Partitioning Around Medoids (PAM)算法，是一種常見(jiàn)的 k中心點(diǎn)聚類方法，利用

貪婪搜索

，不一定可以找到最優(yōu)解，但是比窮盡搜索更快。

在 K 中心點(diǎn)算法中，每次迭代后的質(zhì)點(diǎn)都是從聚類的樣本點(diǎn)中選取，k中心點(diǎn)算法不采用簇中對(duì)象

的平均值作為簇中心，而選用簇中

離平均值最近的對(duì)象作為簇中心

。

層次聚類：對(duì)給定的數(shù)據(jù)集進(jìn)行層次的分解，直到滿足某種條件。

凝聚

的層次聚類：一種

自底向上

的策略，首先將每個(gè)對(duì)象作為一個(gè)簇，然后合并這些原子簇為越來(lái)越大的簇，直到某個(gè)終結(jié)條件被滿足，如AGNES算法。

分裂

的層次聚類：采用

自頂向下

的策略，它首先將所有對(duì)象置于一個(gè)簇中，然后逐漸細(xì)分為越來(lái)越小的簇，直到達(dá)到了某個(gè)終結(jié)條件，如DIANA算法

AGNES (AGglomerative NESting)：

自底向上凝聚算法，

先將每個(gè)對(duì)象作為一個(gè)簇，然后這些簇根據(jù)某些準(zhǔn)則被一步步地合并。兩個(gè)簇間的相似度由這兩個(gè)不同簇

中

距離最近的數(shù)據(jù)點(diǎn)對(duì)

的相似度來(lái)確定。聚類的合并過(guò)程反復(fù)進(jìn)行直到所有的對(duì)象最終滿足簇?cái)?shù)目。

算法

5-3 AGNES

（自底向上凝聚算法）

輸入

：

包含

個(gè)對(duì)象的數(shù)據(jù)庫(kù)，終止條件簇的數(shù)目

。

輸出

：

個(gè)簇，達(dá)到終止條件規(guī)定簇?cái)?shù)目。

(1)

將每個(gè)對(duì)象當(dāng)成一個(gè)初始簇；

(2) REPEAT

(3)

根據(jù)兩個(gè)簇中最近的數(shù)據(jù)點(diǎn)找到最近的兩個(gè)簇；

(4)

合并兩個(gè)簇，生成新的簇的集合；

(5) UNTIL

達(dá)到定義的簇的數(shù)目；

DIANA

(Divisive ANAlysis)

算法是典型的

分裂聚類方法

。

用戶能定義希望得到的簇?cái)?shù)目作為一個(gè)結(jié)束條件。同時(shí)，它使用下面兩種測(cè)度方法：

簇的直徑

：在一個(gè)簇中的任意兩個(gè)數(shù)據(jù)點(diǎn)的距離中的最大值。

平均相異度

（平均距離）

密度聚類方法

的指導(dǎo)思想是，只要一個(gè)

區(qū)域

中，點(diǎn)的密度大于某個(gè)

閾值

，就把它加到與之相連的簇中去。

(1) DBSCAN

：

Density-Based Spatial Clustering of Applications with Noise，噪聲環(huán)境下的密度聚類算法

(2) OPTICS

：

Ordering Points To Identify the Clustering Structure，基于不同密度的聚類算法

(3) EDNCLUE

：

Density Clustering

，基于一組密度分布函數(shù)的聚類算法

DBSCAN算法：

如果一個(gè)點(diǎn)

的區(qū)域內(nèi)包含多于MinPts 個(gè)對(duì)象，則創(chuàng)建一個(gè)q

作為核心對(duì)象的簇。然后，

反復(fù) 地尋找

從這些核心對(duì)象直接密度可達(dá)的對(duì)象，把一些密度可達(dá)簇進(jìn)行合并。當(dāng)沒(méi)有新的點(diǎn)可以被添加到任何簇時(shí)，該過(guò)程結(jié)束。

STING(Statistaical Information Grid_based method)是一種

基于網(wǎng)格的多分辨率聚類技術(shù)

，它將空間區(qū)域劃分為矩形單元。針對(duì)不同級(jí)別的分辨率，通常存在多個(gè)級(jí)別的巨型單元，這些單元形成了一個(gè)層次結(jié)構(gòu)：高層的每個(gè)單元被劃分為多個(gè)第一層的單元。高層單元的統(tǒng)計(jì)參數(shù)可以很容易的從底層單元的計(jì)算得到。這些參數(shù)包括屬性無(wú)關(guān)的參數(shù)count

、屬性相關(guān)的參數(shù)

（平均值）、

(標(biāo)準(zhǔn)偏差)、

min

(最小值)、

max

(最大值)以及該單元中屬性值遵循的分布類型。

STING算法的主要優(yōu)點(diǎn)是效率高，通過(guò)對(duì)數(shù)據(jù)集的一次掃描來(lái)計(jì)算單元的統(tǒng)計(jì)信息，因此產(chǎn)生聚類的時(shí)間復(fù)雜度是

(

)。在建立層次結(jié)構(gòu)以后，查詢的時(shí)間復(fù)雜度是

(

g 遠(yuǎn)小于n

。STING算法采用網(wǎng)格結(jié)構(gòu)，有利于并行處理和增量更新。

八、Web挖掘

Web挖掘依靠它所挖掘的信息來(lái)源可以分為：

Web內(nèi)容挖掘（Web Content Mining）

：

對(duì)站點(diǎn)的Web頁(yè)面的各類信息進(jìn)行集成、概化、分類等，挖掘某類信息所蘊(yùn)含的知識(shí)模式。

Web訪問(wèn)信息挖掘（Web Usage Mining）

：Web訪問(wèn)信息挖掘是對(duì)用戶訪問(wèn)Web時(shí)在服務(wù)器方留下的訪問(wèn)記錄進(jìn)行挖掘。通過(guò)分析日志記錄中的規(guī)律，可以識(shí)別用戶的忠實(shí)度、喜好、滿意度，可以發(fā)現(xiàn)潛在用戶，增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。

Web結(jié)構(gòu)挖掘（Web Structure Mining）：

Web結(jié)構(gòu)挖掘是對(duì)Web頁(yè) 面之間的鏈接結(jié)構(gòu)進(jìn)行挖掘。在整個(gè)Web空間里，有用的知識(shí)不僅包含在Web頁(yè)面的內(nèi)容之中，而且也包含在頁(yè)面的鏈接結(jié)構(gòu)之中。對(duì)于給定的Web頁(yè)面集合，通過(guò)結(jié)構(gòu)挖掘可以發(fā)現(xiàn)頁(yè)面之間的關(guān)聯(lián) 信息，頁(yè)面之間的包含、引用或者從屬關(guān)系等。

信息檢索（Information Retrieval，IR）

是搜索的根基，其目的是幫助用戶從大規(guī)模的文本文檔中

找到所需信息的研究領(lǐng)域。

信息檢索可能經(jīng)常被說(shuō)成是Web挖掘的初級(jí)階段，是為了強(qiáng)調(diào)Web挖掘不是簡(jiǎn)單的信息索引或關(guān)鍵詞匹配技術(shù)，而是實(shí)現(xiàn)信息濃縮成知識(shí)的過(guò)程，它可以支持更高級(jí)的商業(yè)決策和分析

一些比較有代表性的數(shù)據(jù)源有：

Web服務(wù)器

日志

數(shù)據(jù)

Web上的

電子商務(wù)

數(shù)據(jù)

Web上的

網(wǎng)頁(yè)

Web上的網(wǎng)頁(yè)之間的

鏈接

Web上的