柚子快報(bào)邀請(qǐng)碼778899分享：人工智能數(shù)據(jù)挖掘期末背誦

Tokopedia印尼優(yōu)選綜合2025-05-05450

http://yzkb.51969.com/

一．選擇題

1. 將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是數(shù)據(jù)預(yù)處理的任務(wù)

A、頻繁模式挖掘 B、分類和預(yù)測(cè) C、數(shù)據(jù)預(yù)處理?D、數(shù)據(jù)流挖掘

2. 以下屬于關(guān)聯(lián)分析的是

?A. CPU性能分析 ?B. 購物籃分析?C. 自動(dòng)判斷鳶尾花類別 D. 股票趨勢(shì)建模

3. 下面哪個(gè)不屬于數(shù)據(jù)的屬性類型

?A. 標(biāo)稱 ???B. 序數(shù) ???C. 區(qū)間 ???D. 相異

4. 在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu)，這樣的任務(wù)稱為頻繁子圖挖掘

5. 以下關(guān)于決策樹的說法哪項(xiàng)是錯(cuò)誤的：

?A. 冗余屬性不會(huì)對(duì)決策樹的準(zhǔn)確率造成不利的影響

?B. 子樹可能在決策樹中重復(fù)多次

?C. 決策樹算法對(duì)于噪聲的干擾非常敏感（錯(cuò)誤的）

?D. 尋找最佳決策樹是NP完全問題

6. 決策樹中不包含以下哪種節(jié)點(diǎn)

?A. 根結(jié)點(diǎn)（root ?node）

?B. 內(nèi)部結(jié)點(diǎn)(internal ?node)

?C. 外部結(jié)點(diǎn)(external ?node)

?D. 葉結(jié)點(diǎn)(leaf ?node)

7. 關(guān)于K均值和DBSCAN的比較，以下說法不正確的是

?A. K均值丟棄被它識(shí)別為噪聲的對(duì)象，而DBSCAN一般聚類所有對(duì)象

?B. K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念

?C. K均值很難處理非球形的簇和不同大小的簇，DBSCAN可以處理不同大小和不同形狀的簇

?D. K均值可以發(fā)現(xiàn)不是明顯分離的簇，即便簇有重疊也可以發(fā)現(xiàn)，但是DBSCAN會(huì)合并有重疊的簇

8. ?下面哪個(gè)屬于映射數(shù)據(jù)到新的空間的方法

?A. 傅里葉變換????B. 特征加權(quán) ???C. 漸進(jìn)抽樣 ???D. 維歸約

9. 以下哪種分類方法可以較好地避免樣本的不平衡問題

?A. KNN????B. SVM ???C.Bayes D. 神經(jīng)網(wǎng)絡(luò)

10. 以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法

?A. 嵌入 ???B. 過濾 C. 包裝 D.抽樣

11. 通過聚集多個(gè)分類器的預(yù)測(cè)來提高分類準(zhǔn)確率的技術(shù)稱為：組合（ensemble）

A、組合(ensemble)?B、聚集(aggregate) C、合并(combination) D、投票(voting)

BIRCH是一種聚類算法

A、分類器 B、聚類算法?C、關(guān)聯(lián)分析算法 D、特征選擇算法

檢測(cè)一元正態(tài)分布中的離群點(diǎn)，屬于異常檢測(cè)中的基于?統(tǒng)計(jì)方法?的離群點(diǎn)檢測(cè)

統(tǒng)計(jì)?法?B、鄰近度 C、密度 D、聚類技術(shù)

14. AI的英文縮寫是 Artificial Intelligence

A、 Automatic Intelligence B、 Artificial Intelligence

C、 Automatic Information D、 Artificial Information

15. 在抽樣方法中，當(dāng)合適的樣本容量很難確定時(shí)，可以使用的抽樣方法是漸進(jìn)抽樣

A、有放回的簡(jiǎn)單隨機(jī)抽樣 B、?放回的簡(jiǎn)單隨機(jī)抽樣 C、分層抽樣 D、漸進(jìn)抽樣

16. 以下哪些算法是基于規(guī)則的分類器

?A. C4.5?B. KNN C. Naive ?Bayes D. ANN

17. 下列哪個(gè)不是專門用于可視化時(shí)間空間數(shù)據(jù)的技術(shù)

? A. 等高線圖 B. 餅圖?C. 曲面圖 D. 矢量場(chǎng)圖

18. 假定用于分析的數(shù)據(jù)包包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序)：

13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題：使用按箱平均值平滑方法對(duì)上述數(shù)據(jù)進(jìn)行平滑，箱的深度為3。第二個(gè)箱子值為：

?A. 18.3?B. 22.6 C. 26.8 D. 27.9

19. 下面那種不屬于數(shù)據(jù)預(yù)處理的方法

A. 變量代換 B. 離散化 C. 聚集 D. 估計(jì)遺漏值

20. 離群點(diǎn)是一個(gè)觀測(cè)值，它與其他觀測(cè)值的差別如此之大，以至于懷疑它是由不同的機(jī)制產(chǎn)生的

A、邊界點(diǎn) B、質(zhì)??C、離群點(diǎn)?D、核?點(diǎn)

二. 填空題

1. 目前兩種流行、有效的有損數(shù)據(jù)壓縮方法是：小波變換和主要成分分析

2. 決策樹對(duì)噪聲數(shù)據(jù)有很好的健壯性且能學(xué)習(xí)析取表達(dá)式

3. 兩個(gè)數(shù)理統(tǒng)計(jì)的最基本的方法是參數(shù)估計(jì)和假設(shè)檢驗(yàn)

4. 模糊數(shù)學(xué)由扎德Zadeh等人于1965年提出

5. 協(xié)同過濾算法包括:

基于記憶的協(xié)同過濾推薦(Memory-based)和基于模型的算法(Model-based)

6. 維歸約常用的線性代數(shù)技術(shù)有主成分分析和奇異值分解

7. 分類模型的誤差大致分為兩種訓(xùn)練誤差和泛化誤差

8. 利用先驗(yàn)原理可以幫助減少頻繁項(xiàng)集產(chǎn)生時(shí)需要探查的候選項(xiàng)個(gè)數(shù)

9. 數(shù)據(jù)挖掘的預(yù)測(cè)建模任務(wù)主要包括分類和回歸

10. 聚類分析是指把一個(gè)給定的數(shù)據(jù)集分成不同的簇或類

三. 簡(jiǎn)答題

1. 什么是屬性子集選擇？常見的屬性子集選擇方法有哪幾種？

屬性子集選擇通過刪除不相關(guān)或冗余的屬性減少數(shù)據(jù)量，屬性子集選擇常用貪心算法，通過局部最優(yōu)解,期望導(dǎo)致全局最優(yōu)解。它的目標(biāo)是找出最小屬性集，使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布。

常?的?法有：過濾法、包裝法、嵌?法。

詳細(xì)闡述數(shù)據(jù)挖掘的主要步驟

數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程

數(shù)據(jù)挖掘主要步驟包括定義問題、建立數(shù)據(jù)挖掘庫、分析數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建立模型、評(píng)價(jià)模型和實(shí)施

①定義問題：了解數(shù)據(jù)和業(yè)務(wù)問題，對(duì)目標(biāo)有一個(gè)清晰明確的定義，即決定到底想干什么。

②建立數(shù)據(jù)挖掘庫：建?數(shù)據(jù)挖掘庫包括以下?個(gè)步驟：數(shù)據(jù)收集、數(shù)據(jù)描述、選擇、數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)清理、合并與整合、構(gòu)建元數(shù)據(jù)、加載數(shù)據(jù)挖掘庫、維護(hù)數(shù)據(jù)挖掘庫。

③分析數(shù)據(jù):找到對(duì)預(yù)測(cè)輸出影響最大的數(shù)據(jù)字段和決定是否需要定義導(dǎo)出字段。

④準(zhǔn)備數(shù)據(jù):此步驟分為四個(gè)部分：選擇變量、選擇記錄、創(chuàng)建新變量、轉(zhuǎn)換變量。

⑤建立模型:先用一部分?jǐn)?shù)據(jù)建立模型，再用剩下的數(shù)據(jù)來測(cè)試和驗(yàn)證這個(gè)得到的模型。

訓(xùn)練和測(cè)試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分為兩部分，一部分用于模型訓(xùn)練，另一個(gè)用于模型測(cè)試。

⑥評(píng)價(jià)模型:模型建立好之后，必須評(píng)價(jià)得到的結(jié)果、解釋模型的價(jià)值,從測(cè)試集中得到的準(zhǔn)確率只對(duì)?于建?模型的數(shù)據(jù)有意義。

在實(shí)際應(yīng)用中，先在小范圍內(nèi)應(yīng)用，取得測(cè)試數(shù)據(jù)，覺得滿意后再向大范圍推廣。

⑦實(shí)施:模型建立并經(jīng)過驗(yàn)證之后，可以有兩種主要的使用方法。一種是提供給分析人員做參考，另一

種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。

3. 什么是聚類？

聚類就是對(duì)?量未知標(biāo)注的數(shù)據(jù)集，按數(shù)據(jù)的內(nèi)在相似性將數(shù)據(jù)集劃分為多個(gè)類別，使類別內(nèi)的數(shù)據(jù)相似度較

??類別間的數(shù)據(jù)相似度較?，其本質(zhì)上是根據(jù)某種相似性進(jìn)行抽象的過程.

Jaccard系數(shù)

數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集；規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來；規(guī)律表示是盡可能以用戶可理解的方式（如可視化）將找出的規(guī)律表示出來。

柚子快報(bào)邀請(qǐng)碼778899分享：人工智能數(shù)據(jù)挖掘期末背誦

http://yzkb.51969.com/

精彩鏈接

評(píng)論可見，查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理，出于傳遞更多信息之目的，不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明，如有侵權(quán)，聯(lián)系刪除。

本文鏈接：http://gantiao.com.cn/post/19246361.html