柚子快報(bào)邀請(qǐng)碼778899分享：機(jī)器學(xué)習(xí)概述

Megamarket優(yōu)選市場(chǎng)綜合2025-05-26440

http://yzkb.51969.com/

一、什么是機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是一種人工智能技術(shù)，通過(guò)對(duì)數(shù)據(jù)的學(xué)習(xí)和分析，讓計(jì)算機(jī)系統(tǒng)自動(dòng)提高其性能。簡(jiǎn)而言之，機(jī)器學(xué)習(xí)是一種從數(shù)據(jù)中學(xué)習(xí)規(guī)律和模式的方法，通過(guò)數(shù)據(jù)來(lái)預(yù)測(cè)、分類(lèi)或者決策。

二、機(jī)器學(xué)習(xí)的工作原理

機(jī)器學(xué)習(xí)的工作原理主要包括以下幾個(gè)步驟：

數(shù)據(jù)收集：首先需要收集數(shù)據(jù)并將其轉(zhuǎn)化為可以計(jì)算的形式，例如數(shù)值、文本或圖像等。數(shù)據(jù)預(yù)處理：數(shù)據(jù)收集后，需要對(duì)數(shù)據(jù)進(jìn)行清洗、去除異常值、缺失值處理、特征選擇等預(yù)處理步驟。特征工程：是指在機(jī)器學(xué)習(xí)中對(duì)原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換、組合和選擇等處理，以提取更有用的特征或?qū)傩?，以幫助機(jī)器學(xué)習(xí)算法更好地理解和處理數(shù)據(jù)。簡(jiǎn)而言之，特征工程就是對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理，以提取有用信息來(lái)輔助機(jī)器學(xué)習(xí)。模型選擇：根據(jù)問(wèn)題的特點(diǎn)和數(shù)據(jù)的特征選擇適合的機(jī)器學(xué)習(xí)算法和模型。模型訓(xùn)練（機(jī)器學(xué)習(xí)）：利用已有數(shù)據(jù)對(duì)所選的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練，從而使模型能夠?qū)W習(xí)數(shù)據(jù)中的規(guī)律和模式。模型評(píng)估：訓(xùn)練完成后，需要對(duì)模型進(jìn)行評(píng)估和調(diào)整，以檢查其性能和精度，并進(jìn)行優(yōu)化。模型應(yīng)用：經(jīng)過(guò)訓(xùn)練和優(yōu)化后，機(jī)器學(xué)習(xí)模型可以用于新數(shù)據(jù)的預(yù)測(cè)、分類(lèi)、聚類(lèi)等任務(wù)。

三、數(shù)據(jù)簡(jiǎn)介

數(shù)據(jù)簡(jiǎn)介在數(shù)據(jù)集中一般：

一行數(shù)據(jù)我們稱(chēng)為一個(gè)樣本一列數(shù)據(jù)我們稱(chēng)為一個(gè)特征有些數(shù)據(jù)有目標(biāo)值（標(biāo)簽值），有些數(shù)據(jù)沒(méi)有標(biāo)簽值數(shù)據(jù)類(lèi)型構(gòu)成

數(shù)據(jù)類(lèi)型一：特征值+目標(biāo)值（目標(biāo)值是連續(xù)的和離散的）數(shù)據(jù)類(lèi)型二：只有特征值，沒(méi)有目標(biāo)值數(shù)據(jù)分割

機(jī)器學(xué)習(xí)一般的數(shù)據(jù)集會(huì)劃分為兩個(gè)部分：

訓(xùn)練數(shù)據(jù)：用于訓(xùn)練，構(gòu)建模型測(cè)試數(shù)據(jù)：在模型檢驗(yàn)時(shí)使用，用于評(píng)估模型是否有效劃分比例：

訓(xùn)練集：70% 80% 75%測(cè)試集：30% 20% 25%

四、特征工程

什么是特征工程是指在機(jī)器學(xué)習(xí)中對(duì)原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換、組合和選擇等處理，以提取更有用的特征或?qū)傩?，以幫助機(jī)器學(xué)習(xí)算法更好地理解和處理數(shù)據(jù)。簡(jiǎn)而言之，特征工程就是對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理，以提取有用信息來(lái)輔助機(jī)器學(xué)習(xí)。為什么要用到特征工程特征工程是機(jī)器學(xué)習(xí)中非常重要的一環(huán)，因?yàn)楹玫奶卣髂軌蛱岣咚惴ǖ木群托?，甚至決定了機(jī)器學(xué)習(xí)模型的上限。因此，進(jìn)行特征工程需要根據(jù)具體問(wèn)題和數(shù)據(jù)特點(diǎn)進(jìn)行靈活選擇和處理，以達(dá)到最佳效果。特征工程包含的內(nèi)容

特征提?。簭脑紨?shù)據(jù)中提取特征，通常是利用數(shù)學(xué)和統(tǒng)計(jì)方法對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換和降維，例如主成分分析（PCA）、奇異值分解（SVD）等。特征轉(zhuǎn)換（特征預(yù)處理）：將提取的特征進(jìn)行轉(zhuǎn)換，以符合算法的需求，例如將類(lèi)別特征轉(zhuǎn)換為數(shù)值特征，或者對(duì)數(shù)值特征進(jìn)行標(biāo)準(zhǔn)化。特征降維：指在某些限定條件下，降低隨機(jī)變量（特征）個(gè)數(shù)，得到一組“不相關(guān)”主變量的過(guò)程特征選擇：根據(jù)特征的重要性和相關(guān)性等指標(biāo)，選擇最具有代表性的特征，以減少計(jì)算復(fù)雜度和提高算法性能。

五、機(jī)器學(xué)習(xí)算法分類(lèi)

監(jiān)督學(xué)習(xí) 輸入數(shù)據(jù)是由輸入特征值和目標(biāo)值所組成。函數(shù)的輸出可以是一個(gè)連續(xù)的值（稱(chēng)為回歸），或是輸出有限個(gè)離散值（稱(chēng)為分類(lèi)）

回歸問(wèn)題例如：預(yù)測(cè)房?jī)r(jià)，根據(jù)集擬合出一條連續(xù)曲線(xiàn) 分類(lèi)問(wèn)題例如：根據(jù)腫瘤特征判斷良性還是惡性，得到的是結(jié)果是“良性”或者“惡性”，是離散的無(wú)監(jiān)督學(xué)習(xí) 輸入數(shù)據(jù)是由輸入特征值組成，沒(méi)有目標(biāo)值。輸入數(shù)據(jù)沒(méi)有被標(biāo)記，也沒(méi)有確定的結(jié)果，樣本數(shù)據(jù)類(lèi)別未知；需要根據(jù)樣本間的相似性對(duì)樣本集進(jìn)行類(lèi)別劃分。

有監(jiān)督，無(wú)監(jiān)督算法對(duì)比：半監(jiān)督學(xué)習(xí) 訓(xùn)練集同時(shí)包含有標(biāo)記樣本數(shù)據(jù)和未標(biāo)記樣本數(shù)據(jù)

監(jiān)督學(xué)習(xí)訓(xùn)練方式和半監(jiān)督學(xué)習(xí)訓(xùn)練方式的區(qū)別:

數(shù)據(jù)量不同：監(jiān)督學(xué)習(xí)需要大量有標(biāo)簽的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練，而半監(jiān)督學(xué)習(xí)則可以利用部分有標(biāo)簽數(shù)據(jù)和大量無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練。模型的預(yù)測(cè)能力：監(jiān)督學(xué)習(xí)的模型在處理未知數(shù)據(jù)時(shí)需要有標(biāo)簽的數(shù)據(jù)作為參考，而半監(jiān)督學(xué)習(xí)的模型可以更好地利用未標(biāo)記數(shù)據(jù)來(lái)提高預(yù)測(cè)能力。訓(xùn)練時(shí)間：由于半監(jiān)督學(xué)習(xí)使用了更多的數(shù)據(jù)進(jìn)行訓(xùn)練，因此需要更長(zhǎng)的時(shí)間來(lái)完成模型的訓(xùn)練。精度：半監(jiān)督學(xué)習(xí)的模型在某些情況下可以比監(jiān)督學(xué)習(xí)的模型具有更好的精度，尤其是當(dāng)標(biāo)記數(shù)據(jù)很少的時(shí)候。應(yīng)用場(chǎng)景：監(jiān)督學(xué)習(xí)適用于已經(jīng)有標(biāo)簽數(shù)據(jù)的問(wèn)題，例如分類(lèi)和回歸等問(wèn)題，而半監(jiān)督學(xué)習(xí)適用于數(shù)據(jù)集標(biāo)簽數(shù)量較少或標(biāo)簽數(shù)據(jù)難以獲得的問(wèn)題。強(qiáng)化學(xué)習(xí) 實(shí)質(zhì)就是make decisions問(wèn)題，即自動(dòng)進(jìn)行決策，并且可以做連續(xù)決策。強(qiáng)化學(xué)習(xí)的的目標(biāo)就是獲得最多的累計(jì)獎(jiǎng)勵(lì)。

強(qiáng)化學(xué)習(xí)的五個(gè)元素： agent、action、reward、environment、observation 監(jiān)督學(xué)習(xí)的強(qiáng)化學(xué)習(xí)的對(duì)比：四種學(xué)習(xí)算法的小結(jié)

六、模型評(píng)估

模型評(píng)估是模型開(kāi)發(fā)過(guò)程不可或缺的一部分。它有助于發(fā)現(xiàn)表達(dá)數(shù)據(jù)的最佳模型和所選模型將來(lái)工作的性能如何。

按照數(shù)據(jù)集的目標(biāo)值不同，可以把模型評(píng)估分為分類(lèi)模型評(píng)估和回歸模型評(píng)估。

分類(lèi)模型評(píng)估例如：腫瘤良性、惡性預(yù)測(cè)模型

準(zhǔn)確率：預(yù)測(cè)正確的數(shù)占樣本總數(shù)的比例。其他評(píng)價(jià)指標(biāo)：精確率、召回率、F1-score、AUC指標(biāo)等。回歸模型評(píng)估例如：房?jī)r(jià)預(yù)測(cè)模型

均方根誤差（Root Mean Squared Error，RMSE） RMSE是一個(gè)衡量回歸模型誤差率的常用公式。不過(guò)，它僅能比較誤差是相同單位的模型。均方根誤差公式舉例：假設(shè)有一個(gè)房?jī)r(jià)預(yù)測(cè)模型，只有五個(gè)樣本，對(duì)應(yīng)的真實(shí)值為：100，120，125，230，400 預(yù)測(cè)值為：105，119，120，230，410 則均方根誤差求解得：

[

(

105

100

)

(

119

120

)

(

120

125

)

(

230

)

(

410

400

)

]

5.495

RMSE=\sqrt[2]{\frac{[(105-100)^2+(119-120)^2+(120-125)^2+(230-230)^2+(410-400)^2]}{5}}=5.495

RMSE=25[(105?100)2+(119?120)2+(120?125)2+(230?230)2+(410?400)2]?

?=5.495 擬合模型評(píng)估用于評(píng)價(jià)訓(xùn)練好的模型的表現(xiàn)效果，其表現(xiàn)效果大致可以分為兩類(lèi)：過(guò)擬合、欠擬合。

欠擬合（under-fitting）：模型學(xué)習(xí)的太過(guò)粗糙，在訓(xùn)練集中的樣本數(shù)據(jù)特征關(guān)系都沒(méi)有學(xué)出來(lái)。過(guò)擬合（over-fitting）：所建的機(jī)器學(xué)習(xí)模型或者是深度學(xué)習(xí)模型在訓(xùn)練樣本中表現(xiàn)得過(guò)于優(yōu)越，導(dǎo)致在測(cè)試數(shù)據(jù)集中表現(xiàn)不佳。

柚子快報(bào)邀請(qǐng)碼778899分享：機(jī)器學(xué)習(xí)概述

http://yzkb.51969.com/