柚子快報(bào)邀請(qǐng)碼778899分享:機(jī)器學(xué)習(xí)概述
柚子快報(bào)邀請(qǐng)碼778899分享:機(jī)器學(xué)習(xí)概述
一、什么是機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是一種人工智能技術(shù),通過(guò)對(duì)數(shù)據(jù)的學(xué)習(xí)和分析,讓計(jì)算機(jī)系統(tǒng)自動(dòng)提高其性能。簡(jiǎn)而言之,機(jī)器學(xué)習(xí)是一種從數(shù)據(jù)中學(xué)習(xí)規(guī)律和模式的方法,通過(guò)數(shù)據(jù)來(lái)預(yù)測(cè)、分類(lèi)或者決策。
二、機(jī)器學(xué)習(xí)的工作原理
機(jī)器學(xué)習(xí)的工作原理主要包括以下幾個(gè)步驟:
數(shù)據(jù)收集:首先需要收集數(shù)據(jù)并將其轉(zhuǎn)化為可以計(jì)算的形式,例如數(shù)值、文本或圖像等。 數(shù)據(jù)預(yù)處理:數(shù)據(jù)收集后,需要對(duì)數(shù)據(jù)進(jìn)行清洗、去除異常值、缺失值處理、特征選擇等預(yù)處理步驟。 特征工程: 是指在機(jī)器學(xué)習(xí)中對(duì)原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換、組合和選擇等處理,以提取更有用的特征或?qū)傩?,以幫助機(jī)器學(xué)習(xí)算法更好地理解和處理數(shù)據(jù)。簡(jiǎn)而言之,特征工程就是對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,以提取有用信息來(lái)輔助機(jī)器學(xué)習(xí)。 模型選擇:根據(jù)問(wèn)題的特點(diǎn)和數(shù)據(jù)的特征選擇適合的機(jī)器學(xué)習(xí)算法和模型。 模型訓(xùn)練(機(jī)器學(xué)習(xí)):利用已有數(shù)據(jù)對(duì)所選的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,從而使模型能夠?qū)W習(xí)數(shù)據(jù)中的規(guī)律和模式。 模型評(píng)估:訓(xùn)練完成后,需要對(duì)模型進(jìn)行評(píng)估和調(diào)整,以檢查其性能和精度,并進(jìn)行優(yōu)化。 模型應(yīng)用:經(jīng)過(guò)訓(xùn)練和優(yōu)化后,機(jī)器學(xué)習(xí)模型可以用于新數(shù)據(jù)的預(yù)測(cè)、分類(lèi)、聚類(lèi)等任務(wù)。
三、數(shù)據(jù)簡(jiǎn)介
數(shù)據(jù)簡(jiǎn)介 在數(shù)據(jù)集中一般:
一行數(shù)據(jù)我們稱(chēng)為一個(gè)樣本一列數(shù)據(jù)我們稱(chēng)為一個(gè)特征有些數(shù)據(jù)有目標(biāo)值(標(biāo)簽值),有些數(shù)據(jù)沒(méi)有標(biāo)簽值 數(shù)據(jù)類(lèi)型構(gòu)成
數(shù)據(jù)類(lèi)型一:特征值+目標(biāo)值(目標(biāo)值是連續(xù)的和離散的)數(shù)據(jù)類(lèi)型二:只有特征值,沒(méi)有目標(biāo)值 數(shù)據(jù)分割
機(jī)器學(xué)習(xí)一般的數(shù)據(jù)集會(huì)劃分為兩個(gè)部分:
訓(xùn)練數(shù)據(jù):用于訓(xùn)練,構(gòu)建模型測(cè)試數(shù)據(jù):在模型檢驗(yàn)時(shí)使用,用于評(píng)估模型是否有效 劃分比例:
訓(xùn)練集:70% 80% 75%測(cè)試集:30% 20% 25%
四、特征工程
什么是特征工程 是指在機(jī)器學(xué)習(xí)中對(duì)原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換、組合和選擇等處理,以提取更有用的特征或?qū)傩?,以幫助機(jī)器學(xué)習(xí)算法更好地理解和處理數(shù)據(jù)。簡(jiǎn)而言之,特征工程就是對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,以提取有用信息來(lái)輔助機(jī)器學(xué)習(xí)。 為什么要用到特征工程 特征工程是機(jī)器學(xué)習(xí)中非常重要的一環(huán),因?yàn)楹玫奶卣髂軌蛱岣咚惴ǖ木群托?,甚至決定了機(jī)器學(xué)習(xí)模型的上限。因此,進(jìn)行特征工程需要根據(jù)具體問(wèn)題和數(shù)據(jù)特點(diǎn)進(jìn)行靈活選擇和處理,以達(dá)到最佳效果。 特征工程包含的內(nèi)容
特征提?。簭脑紨?shù)據(jù)中提取特征,通常是利用數(shù)學(xué)和統(tǒng)計(jì)方法對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換和降維,例如主成分分析(PCA)、奇異值分解(SVD)等。特征轉(zhuǎn)換(特征預(yù)處理):將提取的特征進(jìn)行轉(zhuǎn)換,以符合算法的需求,例如將類(lèi)別特征轉(zhuǎn)換為數(shù)值特征,或者對(duì)數(shù)值特征進(jìn)行標(biāo)準(zhǔn)化。特征降維:指在某些限定條件下,降低隨機(jī)變量(特征)個(gè)數(shù),得到一組“不相關(guān)”主變量的過(guò)程特征選擇:根據(jù)特征的重要性和相關(guān)性等指標(biāo),選擇最具有代表性的特征,以減少計(jì)算復(fù)雜度和提高算法性能。
五、機(jī)器學(xué)習(xí)算法分類(lèi)
監(jiān)督學(xué)習(xí) 輸入數(shù)據(jù)是由輸入特征值和目標(biāo)值所組成。函數(shù)的輸出可以是一個(gè)連續(xù)的值(稱(chēng)為回歸),或是輸出有限個(gè)離散值(稱(chēng)為分類(lèi))
回歸問(wèn)題 例如:預(yù)測(cè)房?jī)r(jià),根據(jù)集擬合出一條連續(xù)曲線(xiàn) 分類(lèi)問(wèn)題 例如:根據(jù)腫瘤特征判斷良性還是惡性,得到的是結(jié)果是“良性”或者“惡性”,是離散的 無(wú)監(jiān)督學(xué)習(xí) 輸入數(shù)據(jù)是由輸入特征值組成,沒(méi)有目標(biāo)值。輸入數(shù)據(jù)沒(méi)有被標(biāo)記,也沒(méi)有確定的結(jié)果,樣本數(shù)據(jù)類(lèi)別未知;需要根據(jù)樣本間的相似性對(duì)樣本集進(jìn)行類(lèi)別劃分。
有監(jiān)督,無(wú)監(jiān)督算法對(duì)比: 半監(jiān)督學(xué)習(xí) 訓(xùn)練集同時(shí)包含有標(biāo)記樣本數(shù)據(jù)和未標(biāo)記樣本數(shù)據(jù)
監(jiān)督學(xué)習(xí)訓(xùn)練方式和半監(jiān)督學(xué)習(xí)訓(xùn)練方式的區(qū)別:
數(shù)據(jù)量不同:監(jiān)督學(xué)習(xí)需要大量有標(biāo)簽的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,而半監(jiān)督學(xué)習(xí)則可以利用部分有標(biāo)簽數(shù)據(jù)和大量無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練。模型的預(yù)測(cè)能力:監(jiān)督學(xué)習(xí)的模型在處理未知數(shù)據(jù)時(shí)需要有標(biāo)簽的數(shù)據(jù)作為參考,而半監(jiān)督學(xué)習(xí)的模型可以更好地利用未標(biāo)記數(shù)據(jù)來(lái)提高預(yù)測(cè)能力。訓(xùn)練時(shí)間:由于半監(jiān)督學(xué)習(xí)使用了更多的數(shù)據(jù)進(jìn)行訓(xùn)練,因此需要更長(zhǎng)的時(shí)間來(lái)完成模型的訓(xùn)練。精度:半監(jiān)督學(xué)習(xí)的模型在某些情況下可以比監(jiān)督學(xué)習(xí)的模型具有更好的精度,尤其是當(dāng)標(biāo)記數(shù)據(jù)很少的時(shí)候。應(yīng)用場(chǎng)景:監(jiān)督學(xué)習(xí)適用于已經(jīng)有標(biāo)簽數(shù)據(jù)的問(wèn)題,例如分類(lèi)和回歸等問(wèn)題,而半監(jiān)督學(xué)習(xí)適用于數(shù)據(jù)集標(biāo)簽數(shù)量較少或標(biāo)簽數(shù)據(jù)難以獲得的問(wèn)題。 強(qiáng)化學(xué)習(xí) 實(shí)質(zhì)就是make decisions問(wèn)題,即自動(dòng)進(jìn)行決策,并且可以做連續(xù)決策。強(qiáng)化學(xué)習(xí)的的目標(biāo)就是獲得最多的累計(jì)獎(jiǎng)勵(lì)。
強(qiáng)化學(xué)習(xí)的五個(gè)元素: agent、action、reward、environment、observation 監(jiān)督學(xué)習(xí)的強(qiáng)化學(xué)習(xí)的對(duì)比: 四種學(xué)習(xí)算法的小結(jié)
六、模型評(píng)估
模型評(píng)估是模型開(kāi)發(fā)過(guò)程不可或缺的一部分。它有助于發(fā)現(xiàn)表達(dá)數(shù)據(jù)的最佳模型和所選模型將來(lái)工作的性能如何。
按照數(shù)據(jù)集的目標(biāo)值不同,可以把模型評(píng)估分為分類(lèi)模型評(píng)估和回歸模型評(píng)估。
分類(lèi)模型評(píng)估 例如:腫瘤良性、惡性預(yù)測(cè)模型
準(zhǔn)確率: 預(yù)測(cè)正確的數(shù)占樣本總數(shù)的比例。 其他評(píng)價(jià)指標(biāo): 精確率、召回率、F1-score、AUC指標(biāo)等。 回歸模型評(píng)估 例如:房?jī)r(jià)預(yù)測(cè)模型
均方根誤差(Root Mean Squared Error,RMSE) RMSE是一個(gè)衡量回歸模型誤差率的常用公式。不過(guò),它僅能比較誤差是相同單位的模型。 均方根誤差公式 舉例: 假設(shè)有一個(gè)房?jī)r(jià)預(yù)測(cè)模型,只有五個(gè)樣本,對(duì)應(yīng)的 真實(shí)值為:100,120,125,230,400 預(yù)測(cè)值為:105,119,120,230,410 則均方根誤差求解得:
R
M
S
E
=
[
(
105
?
100
)
2
+
(
119
?
120
)
2
+
(
120
?
125
)
2
+
(
230
?
230
)
2
+
(
410
?
400
)
2
]
5
2
=
5.495
RMSE=\sqrt[2]{\frac{[(105-100)^2+(119-120)^2+(120-125)^2+(230-230)^2+(410-400)^2]}{5}}=5.495
RMSE=25[(105?100)2+(119?120)2+(120?125)2+(230?230)2+(410?400)2]?
?=5.495 擬合 模型評(píng)估用于評(píng)價(jià)訓(xùn)練好的模型的表現(xiàn)效果,其表現(xiàn)效果大致可以分為兩類(lèi):過(guò)擬合、欠擬合。
欠擬合(under-fitting):模型學(xué)習(xí)的太過(guò)粗糙,在訓(xùn)練集中的樣本數(shù)據(jù)特征關(guān)系都沒(méi)有學(xué)出來(lái)。過(guò)擬合(over-fitting):所建的機(jī)器學(xué)習(xí)模型或者是深度學(xué)習(xí)模型在訓(xùn)練樣本中表現(xiàn)得過(guò)于優(yōu)越,導(dǎo)致在測(cè)試數(shù)據(jù)集中表現(xiàn)不佳。
柚子快報(bào)邀請(qǐng)碼778899分享:機(jī)器學(xué)習(xí)概述
推薦閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。