欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報激活碼778899分享:機(jī)器學(xué)習(xí)筆記(二)回歸

柚子快報激活碼778899分享:機(jī)器學(xué)習(xí)筆記(二)回歸

http://yzkb.51969.com/

目錄

一、線性回歸

1.1 線性回歸模型

1.2 損失函數(shù)

均方誤差 (MSE)

殘差(Residuals)

最優(yōu)擬合線

損失函數(shù)的優(yōu)化(梯度下降法)

?編輯

1.3 線性回歸的評價標(biāo)準(zhǔn)

決定系數(shù)或R方

均方根誤差(RSME)

殘差標(biāo)準(zhǔn)誤差(RSE)

自由度

1.4 假設(shè)檢驗(yàn)

驗(yàn)證假設(shè)

1.5 多元線性回歸的一些考慮

線性回歸的過擬合和欠擬合

偏差(Bias):

方差(Variance):

? ?偏差-方差折中

過擬合

欠擬合

1.6 線性回歸代碼

二、多項式回歸

三、嶺回歸?(Ridge Regression)

定義

多重共線性

優(yōu)缺點(diǎn)和使用場景

代碼

四、LASSO 回歸 (LASSO Regression)

一、線性回歸

線性回歸是一種用于預(yù)測的統(tǒng)計方法,特別適用于連續(xù)值預(yù)測。?線性回歸通過最小化誤差的平方和來尋找一個線性關(guān)系,用于預(yù)測一個變量(因變量)基于一個或多個其他變量(自變量)的值。

1.1 線性回歸模型

簡單線性回歸:僅涉及兩個變量,一個是自變量,一個是因變量,公式為: 其中 y 是因變量,x 是自變量,m 是斜率,b 是截距。 多元線性回歸:涉及多個自變量,形式為:

1.2 損失函數(shù)

?損失函數(shù)是機(jī)器學(xué)習(xí)中用來衡量模型預(yù)測值與真實(shí)值之間差異的一個函數(shù)。損失函數(shù)的值越小,表示模型的預(yù)測值與真實(shí)值越接近,模型的性能越好。在回歸問題中,常用的損失函數(shù)是均方誤差(MSE)。

均方誤差 (MSE)

殘差(Residuals)

線性回歸中,預(yù)測值(predicted)與觀測值的差值稱為殘差,殘差的本質(zhì)是模型的隨機(jī)誤差(Random Error),是必然存在且不可學(xué)習(xí)的參數(shù)。

上圖藍(lán)色點(diǎn)表示觀測值,紅色點(diǎn)表示預(yù)測值。

最優(yōu)擬合線

最優(yōu)擬合線指的是線性回歸模型中的一條直線,它是通過擬合訓(xùn)練數(shù)據(jù)得出的,使得這條直線與訓(xùn)練數(shù)據(jù)的殘差(觀測值與模型預(yù)測值之間的差異)之和最小化。

損失函數(shù)的優(yōu)化(梯度下降法)

梯度下降法:是一種用于優(yōu)化函數(shù)的迭代算法。它的基本思想是使用負(fù)梯度方向來逐步更新參數(shù),使得目標(biāo)函數(shù)的值逐漸減小,直到達(dá)到局部最小值或全局最小值。梯度下降算法會迭代地更新模型的參數(shù),使得損失函數(shù)逐漸減小,直到達(dá)到收斂條件。 算法思想:先找到下降最快的方向,走到新位置再調(diào)整方向,不斷重復(fù),直到走到最低點(diǎn)。 若學(xué)習(xí)率太大,損失函數(shù)有可能快速達(dá)到最優(yōu)值,也有可能迭代很多次也達(dá)不到最優(yōu)值, 若學(xué)習(xí)率太小,則需要更多的迭代次數(shù)達(dá)到最優(yōu)值。

1.3 線性回歸的評價標(biāo)準(zhǔn)

我們可以使用多種評價指標(biāo)度量當(dāng)前的模型性能,最常用的指標(biāo)包括:

R方(R2) 也稱作決定系數(shù) 均方根誤差(RSME)或殘差標(biāo)準(zhǔn)誤差(RSE)

決定系數(shù)或R方

R方指標(biāo),也稱為R-Square,用于評估回歸模型擬合程度。值范圍在0~1之間,數(shù)值越大表示擬合效果越好,即能夠更好地解釋因變量的變異性。

數(shù)學(xué)表達(dá)式:

其中RSS表示殘差平方和(Residual sum of Square),TSS表示總偏差平方和(Total Sum of Squares),總偏差平方和簡稱總平方和。

其中RSS表示殘差平方和,TSS表示總偏差平方和,總偏差平方和簡稱總平方和。

殘差平方和(RSS)的含義是衡量實(shí)際觀測值和模型預(yù)測值的差異 總平方和(TSS)的含義是衡量樣本的分散程度。

均方根誤差(RSME)

均方根誤差是殘差方差的平方根,表示模型對數(shù)據(jù)的絕對擬合程度,即觀測值與預(yù)測值的接近程度。模型的預(yù)測誤差的大小,數(shù)值越小表示模型的預(yù)測能力越好。

殘差標(biāo)準(zhǔn)誤差(RSE)

為了使這個估計量無偏,我們需將殘差平方和除以自由度(n-2),而不是模型中數(shù)據(jù)點(diǎn)的總數(shù)。這個術(shù)語被稱為殘差標(biāo)準(zhǔn)誤差(RSE)

自由度

在線性回歸中,自由度通常用于衡量模型中參數(shù)的數(shù)量。

具體來說,在簡單線性回歸中,有兩個參數(shù)需要估計:斜率和截距。因此,自由度為樣本數(shù)量減去參數(shù)的數(shù)量,即n?2。

在多元線性回歸中,參數(shù)的數(shù)量取決于模型中的自變量數(shù)量。如果有 ?p 個自變量,則自由度為 n?p?1,其中 n 是樣本數(shù)量

R方比RSME更好。因?yàn)榫礁`差的值取決于變量的單位(即它不是一個歸一化的度量),它可以隨著變量單位的改變而改變。

1.4 假設(shè)檢驗(yàn)

驗(yàn)證假設(shè)

線性回歸是一種參數(shù)化方法,這意味著它對數(shù)據(jù)進(jìn)行分析時做出了一些假設(shè)。為了成功進(jìn)行回歸分析,驗(yàn)證以下假設(shè)是至關(guān)重要的:

線性:需要假設(shè)因變量和自變量之間存在線性關(guān)系。如果線性關(guān)系不能清晰呈現(xiàn),可以對變量X或Y進(jìn)行數(shù)據(jù)轉(zhuǎn)換(對數(shù)轉(zhuǎn)換、多項式轉(zhuǎn)換、指數(shù)轉(zhuǎn)換等)以解決問題。 誤差不相關(guān)性:殘差項之間是相互獨(dú)立的,即殘差項是隨機(jī)分布的,與觀測變量無相關(guān)關(guān)系。如下圖第一張圖片的殘差項是相互獨(dú)立的,后一張圖片不滿足假設(shè) 殘差是正態(tài)分布:殘差是符合均值為0或接近0的正態(tài)分布,我們基于這種先驗(yàn),可以判斷當(dāng)前的擬合直線是否為最優(yōu)直線,判斷方法是累加所有數(shù)據(jù)點(diǎn)的殘差項是否為0或接近0。如果殘差項不是正態(tài)分布,表明數(shù)據(jù)存在一些異常數(shù)據(jù)點(diǎn),必須仔細(xì)檢查數(shù)據(jù)點(diǎn)以訓(xùn)練更好的模型。 同方差性:誤差是正態(tài)分布的,并具有相同的方差。這意味著對于不同的輸入值,誤差的方差是個固定值。如果違背了這個假設(shè),參數(shù)估計就有可能產(chǎn)生偏差,導(dǎo)致對顯著性的統(tǒng)計檢驗(yàn)結(jié)果過高或者過低,從而得到錯誤的結(jié)論。這種情況就稱為異方差性。通常,非恒定方差出現(xiàn)在存在異常值或極端杠桿值的情況下。 非共線性:兩個預(yù)測變量之間不存在線性關(guān)系,也就是說,特征之間不應(yīng)該存在相關(guān)性。同樣地,共線性也會導(dǎo)致估計偏差。 存在異常值:異常值會嚴(yán)重影響參數(shù)估計。理想情況下,必須在使用線性回歸擬合模型之前就除去異常值。

1.5 多元線性回歸的一些考慮

上節(jié)假設(shè)對于多元線性回歸仍然成立,多元線性回歸還需考慮額外的因素。

過擬合:當(dāng)向模型添加越來越多的變量時,模型可能變得過于復(fù)雜,并且通常最終會記住訓(xùn)練集中的所有數(shù)據(jù)點(diǎn),這種現(xiàn)象稱為模型的過擬合,導(dǎo)致高訓(xùn)練準(zhǔn)確率和非常低的測試準(zhǔn)確率。 多重過線性:多重共線性是指多元線性回歸模型中,可能存在一些相關(guān)的變量,即一個特征可以是其他一個或幾個特征的線性組合。如果存在多重共線性,求損失函數(shù)時矩陣會不可逆,導(dǎo)致求出結(jié)果會與實(shí)際不同,有所偏差。 特征選擇:隨著更多變量的存在,從給定特征池中選擇最佳的預(yù)測變量集合成為建立相關(guān)性更強(qiáng)且更好模型的重要任務(wù)。

線性回歸的過擬合和欠擬合

偏差(Bias): 偏差是指模型的預(yù)測值與真實(shí)值之間的差異,即模型的平均預(yù)測值與真實(shí)值之間的差距。

偏差是由訓(xùn)練數(shù)據(jù)造成的誤差。偏差是衡量模型在未來未見數(shù)據(jù)上可能的準(zhǔn)確性指標(biāo)高偏差的模型傾向于對訓(xùn)練數(shù)據(jù)擬合不足,即模型過于簡單或欠擬合。假設(shè)有足夠的訓(xùn)練數(shù)據(jù),復(fù)雜模型可以進(jìn)行準(zhǔn)確的預(yù)測。而過于簡單的模型則很可能在預(yù)測方面表現(xiàn)糟糕。例如,線性模型在復(fù)雜數(shù)據(jù)集上可能具有較高的偏差,因?yàn)樗鼈儫o法捕捉數(shù)據(jù)中的非線性關(guān)系。 方差(Variance):

方差是指模型在不同數(shù)據(jù)集上的預(yù)測值之間的變化程度,模型對訓(xùn)練數(shù)據(jù)的敏感性,它量化了當(dāng)輸入數(shù)據(jù)發(fā)生變化時模型的反應(yīng)程度。高方差的模型傾向于對訓(xùn)練數(shù)據(jù)過度擬合,即模型過于復(fù)雜或過擬合。如果方差較高,即使在訓(xùn)練數(shù)據(jù)集發(fā)生微小變化時,模型也會發(fā)生劇烈變化。例如,高階多項式模型在擬合噪聲較多的數(shù)據(jù)時可能具有較高的方差,因?yàn)樗鼈儠L試捕捉數(shù)據(jù)中的每一個細(xì)微的變化。

? ?偏差-方差折中

在追求模型的最佳性能時,我們需要保持偏差和方差的平衡。在機(jī)器學(xué)習(xí)領(lǐng)域,偏差和方差之間存在一定的反向相關(guān)性。如下圖:

提高模型復(fù)雜度時,偏差會降低,方差會增加 降低模型復(fù)雜度時,偏差會增加,方差會減小

過擬合

具有較低的偏差和較高的方差時,會導(dǎo)致過擬合。

模型學(xué)習(xí)到數(shù)據(jù)中的每一個模式和噪聲,以至于影響模型在未來未見數(shù)據(jù)集上的性能時,就被稱為過擬合。模型非常好地擬合了數(shù)據(jù),以至于將數(shù)據(jù)中的噪聲誤認(rèn)為是模式。

當(dāng)模型具有較低的偏差和較高的方差時,它會記住數(shù)據(jù)并導(dǎo)致過擬合。過擬合導(dǎo)致模型變得特定而不是通用。這通常會導(dǎo)致高訓(xùn)練精度和非常低的測試精度。

檢測到過擬合是有用的,但它并沒有解決實(shí)際問題。有幾種方法可以預(yù)防過擬合,如下所述:

交叉驗(yàn)證 如果訓(xùn)練數(shù)據(jù)太少,則添加更多相關(guān)且干凈的數(shù)據(jù) 如果訓(xùn)練數(shù)據(jù)太大,則進(jìn)行一些特征選擇并移除不必要的特征 正則化降低模型復(fù)雜度

欠擬合

具有較高的偏差和較低的方差時,從而導(dǎo)致欠擬合。

當(dāng)模型無法從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí),也無法泛化測試數(shù)據(jù)集時,就被稱為欠擬合,這種問題很容易通過性能指標(biāo)來檢測。

當(dāng)模型具有較高的偏差和較低的方差時,它最終不能泛化數(shù)據(jù),從而導(dǎo)致欠擬合。它無法從數(shù)據(jù)中找到隱藏的基本模式,這通常會導(dǎo)致訓(xùn)練精度低且測試精度非常低。防止欠擬合的方法如下:

提高模型復(fù)雜度 增加訓(xùn)練數(shù)據(jù)的特征數(shù)量 從數(shù)據(jù)中去除噪聲

1.6 線性回歸代碼

# ==1.===導(dǎo)入Python庫代碼:

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import statsmodels.api as sm

import seaborn as sns

#忽略警告

import warnings

warnings.filterwarnings('ignore')

# ==2.===加載數(shù)據(jù)

#數(shù)據(jù)導(dǎo)入csv

# data = pd.read_csv( "advertising.csv" )

# data.head() #使用 head() 方法查看數(shù)據(jù)集的前幾行

#生成示例數(shù)據(jù)

# 隨機(jī)數(shù)種子為0

np.random.seed(0)

# 長度為100的隨機(jī)數(shù)組X1,數(shù)組中的元素取自于0到1之間的均勻分布。

X1 = np.random.rand(100)

X2 = np.random.rand(100)

X3 = np.random.rand(100)

# np.random.randn(100)生成了一個長度為100的隨機(jī)數(shù)組,

# 其中的每個元素都是獨(dú)立且服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù)。

y = 2 + 3*X1 + 4*X2 + 5*X3 + np.random.randn(100)

# 創(chuàng)建數(shù)據(jù)框

data = pd.DataFrame({'X1': X1, 'X2': X2, 'X3': X3, 'y': y})

# 添加常數(shù)列

# 在第一列添加了一個值為1的常數(shù)列,用于代表截距項。

X = sm.add_constant(data[['X1', 'X2', 'X3']])

# 繪制目標(biāo)變量與預(yù)測變量的散點(diǎn)圖

plt.figure(figsize=(10, 6))

plt.subplot(1, 3, 1)

plt.scatter(data['X1'], data['y'], color='blue', label='X1 vs y')

plt.xlabel('X1')

plt.ylabel('y')

plt.legend()

plt.subplot(1, 3, 2)

plt.scatter(data['X2'], data['y'], color='green', label='X2 vs y')

plt.xlabel('X2')

plt.ylabel('y')

plt.legend()

plt.subplot(1, 3, 3)

plt.scatter(data['X3'], data['y'], color='red', label='X3 vs y')

plt.xlabel('X3')

plt.ylabel('y')

plt.legend()

plt.tight_layout()

plt.show()

# 繪制所有變量的熱力圖

plt.figure(figsize=(10, 8))

# 繪制熱力圖以發(fā)現(xiàn)所有變量的相關(guān)性

sns.heatmap(data.corr(method='pearson'), annot=True, vmax=1, square=True, cmap="Blues")

# sns.heatmap(data.corr(), cmap = 'YlGnBu', annot = True ,annot_kws={"size": 10})

plt.title('Correlation Heatmap')

plt.show()

# 擬合線性模型

model = sm.OLS(data['y'], X).fit()

# 打印模型摘要

print(model.summary())

結(jié)果分析:

OLS(Ordinary Least Squares)回歸結(jié)果中,我們通常關(guān)注以下幾個主要指標(biāo):

系數(shù)(coef):表示自變量的系數(shù)估計值,即自變量對因變量的影響程度。系數(shù)的正負(fù)表示影響的方向,系數(shù)的大小表示影響的強(qiáng)度。 標(biāo)準(zhǔn)誤差(std err):表示系數(shù)估計值的標(biāo)準(zhǔn)誤差,即系數(shù)估計的不確定性程度。標(biāo)準(zhǔn)誤差越小,表示系數(shù)估計越準(zhǔn)確。 t統(tǒng)計量(t):表示系數(shù)估計值除以標(biāo)準(zhǔn)誤差得到的t值,用于檢驗(yàn)系數(shù)是否顯著不等于零。t統(tǒng)計量的絕對值越大,表示系數(shù)估計值越顯著。 P值(P>|t|):表示系數(shù)的顯著性水平,即系數(shù)是否顯著不等于零。通常以0.05作為顯著性水平,如果P值小于0.05,則可以拒絕系數(shù)等于零的原假設(shè),認(rèn)為系數(shù)是顯著的。 置信區(qū)間([0.025 0.975]):表示系數(shù)的置信區(qū)間,即在置信水平為95%下,系數(shù)真值所在的區(qū)間范圍。通常用來評估系數(shù)估計的準(zhǔn)確性和穩(wěn)定性。 R-squared(R方):表示模型擬合優(yōu)度的度量,介于0和1之間。R方越接近1,表示模型擬合的好;越接近0,表示模型擬合的差。 Adj. R-squared(調(diào)整R方):在多元回歸中,由于自變量個數(shù)增加可能導(dǎo)致R方增加而不一定代表模型擬合的改善,因此引入了調(diào)整R方來對自變量個數(shù)進(jìn)行懲罰,以更準(zhǔn)確地評估模型擬合優(yōu)度。 F統(tǒng)計量(F-statistic):表示模型整體的顯著性檢驗(yàn)結(jié)果,用于檢驗(yàn)?zāi)P偷臄M合是否顯著。通常以0.05作為顯著性水平,如果F統(tǒng)計量的P值小于0.05,則可以拒絕模型不顯著的原假設(shè),認(rèn)為模型是顯著的。

? ? ? ? ? ? ? ? ? ? ?OLS Regression Results ? ?OLS回歸結(jié)果 ? ? ? ? ? ? ? ? ? ? ? ? ========================================================================= Dep. Variable:? ?因變量(響應(yīng)變量)名稱。?y ?

R-squared: ?0.804? ?決定系數(shù),表示因變量的變異性可以由自變量解釋的比例。越接近1表示擬合程度越好,說明模型可以解釋因變量變異性的80.4%。 Model: OLS ?使用的回歸模型的名稱。

Adj. R-squared: ? ? ? ? ? ? ? ? ?0.797調(diào)整后的決定系數(shù)(Adjusted R-squared)考慮了模型中使用的自變量數(shù)量,以防止模型過度擬合。在這個例子中,Adj. R-squared為0.797,與R-squared非常接近,表示模型的解釋能力基本不受自變量數(shù)量的影響。 Method: ? ? ? ? ? ? ? ? Least Squares ?估計參數(shù)的方法,這里是最小二乘法。

F-statistic: ? ? ? ? ? ? ? ? ? ? 130.9? F統(tǒng)計量,用于檢驗(yàn)?zāi)P偷恼w顯著性。 Date: ? ? ? ? ? ? ? ?Thu, 25 Apr 2024 ?進(jìn)行回歸分析的日期。

Prob (F-statistic): ? ? ? ? ? 8.47e-34?? F統(tǒng)計量的p值,表示模型的整體顯著性。 Time: ? ? ? ? ? ? ? ? ? ? ? ?08:18:07 ?進(jìn)行回歸分析的時間。

Log-Likelihood: ? ? ? ? ? ? ? ?-132.97 No. Observations: ? ? ? ? ? ? ? ? 100 ?觀測樣本的數(shù)量。

AIC: ? ? ? ? ? ? ? ? ? ? ? ? ? ? 273.9 Df Residuals: ? ? ? ? ? ? ? ? ? ? ?96 ?殘差的自由度,表示殘差向量中自由變化的元素數(shù)量。

BIC: ? ? ? ? ? ? ? ? ? ? ? ? ? ? 284.4 Df Model: ? ? ? ? ? ? ? ? ? ? ? ? ? 3 ? ? ? 模型中自變量的數(shù)量。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? Covariance Type: ? ? ? ? ? ?nonrobust? ? ? 協(xié)方差類型,這里是非魯棒的(nonrobust)協(xié)方差。 ? ? ? ? ? ? ? ? ? ? ? ? ?? =========================================================================

coef: 回歸系數(shù),表示自變量的系數(shù)估計值。std err: 回歸系數(shù)的標(biāo)準(zhǔn)誤差。

t統(tǒng)計量,用于檢驗(yàn)回歸系數(shù)的顯著性。P>|t|: t統(tǒng)計量的p值,表示回歸系數(shù)的顯著性。所有的P值都小于0.05,表明所有的系數(shù)都是顯著的

[0.025 0.975]: 回歸系數(shù)的置信區(qū)間,表示置信水平為95%的置信區(qū)間。

1.588和2.865是每個系數(shù)的95%置信區(qū)間的下限和上限。可以合理地估計這些系數(shù)的取值范圍在1.588到2.865之間。 ? ? ? ? ? ? ? ? ?coef ? ?std err ? ? ? ? ?t ? ? ?P>|t| ? ? ?[0.025 ? ? ?0.975] ------------------------------------------------------------------------------ const ? ? ? ? ?2.2266 ? ? ?0.322 ? ? ?6.924 ? ? ?0.000 ? ? ? 1.588 ? ? ? 2.865 X1 ? ? ? ? ? ? 2.4362 ? ? ?0.325 ? ? ?7.500 ? ? ?0.000 ? ? ? 1.791 ? ? ? 3.081 X2 ? ? ? ? ? ? 3.5860 ? ? ?0.341 ? ? 10.521 ? ? ?0.000 ? ? ? 2.909 ? ? ? 4.263 X3 ? ? ? ? ? ? 5.2479 ? ? ?0.312 ? ? 16.812 ? ? ?0.000 ? ? ? 4.628 ? ? ? 5.868 ========================================================================= Omnibus: ? ? ? ? ? ? ? ? ? ? ? ?0.024 ?Omnibus檢驗(yàn)的統(tǒng)計量,用于檢驗(yàn)?zāi)P偷恼龖B(tài)性。

Durbin-Watson: ? ? ? ? ? ? ? ? ? 2.404??Durbin-Watson統(tǒng)計量,用于檢驗(yàn)殘差的自相關(guān)性。 Prob(Omnibus): ? ? ? ? ? ? ? ? ?0.988 ? Omnibus檢驗(yàn)的p值。

Jarque-Bera (JB): ? ? ? ? ? ? ? ?0.118? ?Jarque-Bera檢驗(yàn)的統(tǒng)計量,用于檢驗(yàn)殘差的正態(tài)性。 Skew: ? ? ? ? ? ? ? ? ? ? ? ? ? 0.034 ?殘差的偏度。

Prob(JB): ? ? ? ? ? ? ? ? ? ? ? ?0.943? Jarque-Bera檢驗(yàn)的p值。 Kurtosis: ? ? ? ? ? ? ? ? ? ? ? 2.846 ? 殘差的峰度。

Cond. No. ? ? ? ? ? ? ? ? ? ? ? ? 6.79? 條件數(shù),用于檢驗(yàn)矩陣的奇異性。 =========================================================================Notes:

[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

二、多項式回歸

多項式回歸是一種線性回歸的擴(kuò)展,它通過增加預(yù)測變量的高次項來擬合非線性關(guān)系的數(shù)據(jù)。以下是多項式回歸的主要知識點(diǎn):

多項式模型:多項式模型是線性回歸模型的一種擴(kuò)展,它可以用來擬合非線性關(guān)系的數(shù)據(jù)。多項式模型的一般形式為:?=?0+?1?+?2?2+…+????+?y=β0?+β1?x+β2?x2+…+βn?xn+?其中,?y 是因變量,?x 是自變量,?0,?1,…,??β0?,β1?,…,βn? 是模型的系數(shù),?? 是誤差項。 高次項:多項式模型中的高次項是指 ?x 的冪次大于1的項,例如 ?2,?3,…,??x2,x3,…,xn。通過增加高次項,可以使模型更加靈活,能夠擬合更復(fù)雜的數(shù)據(jù)模式。 過擬合和欠擬合:與線性回歸模型一樣,多項式回歸模型也面臨著過擬合和欠擬合的問題。過擬合指模型過度擬合訓(xùn)練數(shù)據(jù),導(dǎo)致在新數(shù)據(jù)上表現(xiàn)不佳;欠擬合指模型未能很好地擬合訓(xùn)練數(shù)據(jù),導(dǎo)致模型預(yù)測能力不足。在實(shí)踐中,需要通過調(diào)整模型復(fù)雜度來解決過擬合和欠擬合問題。 模型評估:評估多項式回歸模型的常用指標(biāo)包括R方值、均方誤差(MSE)、均方根誤差(RMSE)等。R方值用于衡量模型擬合的優(yōu)度,越接近1表示模型擬合得越好;MSE和RMSE用于衡量模型預(yù)測的準(zhǔn)確性,值越小表示預(yù)測越準(zhǔn)確。 特征工程:在多項式回歸中,特征工程也是非常重要的。除了添加高次項外,還可以進(jìn)行特征選擇、特征變換、特征縮放等操作,以提高模型的性能和穩(wěn)定性。 交叉驗(yàn)證:為了評估模型的泛化能力,通常會使用交叉驗(yàn)證技術(shù)來驗(yàn)證模型在新數(shù)據(jù)上的表現(xiàn)。通過將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,并多次重復(fù)訓(xùn)練和測試過程,可以更全面地評估模型的性能。

import numpy as np

import matplotlib.pyplot as plt

from sklearn.preprocessing import PolynomialFeatures

from sklearn.linear_model import LinearRegression

from sklearn.metrics import r2_score

# 創(chuàng)建一些示例數(shù)據(jù)

np.random.seed(0)

X = 2 * np.random.rand(100, 1) - 1

y = 2 * X**3 - 3 * X**2 +10

# 對特征進(jìn)行多項式轉(zhuǎn)換

poly_features = PolynomialFeatures(degree=3, include_bias=False)

X_poly = poly_features.fit_transform(X)

# 創(chuàng)建并擬合多項式回歸模型

poly_reg = LinearRegression()

poly_reg.fit(X_poly, y)

# 輸出多項式模型的系數(shù)

print("Coefficients of polynomial model:", poly_reg.coef_)

# 計算R2

y_pred = poly_reg.predict(X_poly)

r2 = r2_score(y, y_pred)

print("R-squared score:", r2)

# 繪制原始數(shù)據(jù)和擬合的多項式回歸曲線

plt.scatter(X, y, color='blue', label='Original Data')

# 生成用于繪制回歸曲線的數(shù)據(jù)點(diǎn)

X_test = np.linspace(-1, 1, 100).reshape(-1, 1)

X_test_poly = poly_features.transform(X_test)

y_pred_plot = poly_reg.predict(X_test_poly)

# 繪制回歸曲線

plt.plot(X_test, y_pred_plot, color='red', label='Polynomial Regression')

plt.xlabel('X')

plt.ylabel('y')

plt.title('Polynomial Regression')

plt.legend()

plt.show()

三、嶺回歸?(Ridge Regression)

定義

嶺回歸是一種用于處理多重共線性(multicollinearity)問題的線性回歸技術(shù)。

多重共線性

共線性是指自變量之間存在高度相關(guān)性的情況,這可能導(dǎo)致回歸系數(shù)的估計不穩(wěn)定。

在共線性存在的情況下,回歸模型可能對訓(xùn)練數(shù)據(jù)非常敏感,使得小的數(shù)據(jù)變化也會導(dǎo)致較大的系數(shù)變化。這種情況通常被稱為多重共線性。

在線性回歸中,如果自變量之間存在高度相關(guān)性,就會導(dǎo)致回歸系數(shù)的估計不穩(wěn)定,可能會出現(xiàn)過度擬合的情況。嶺回歸通過在損失函數(shù)中添加一個正則化項(L2范數(shù))來解決普通最小二乘法的過擬合問題。,可以有效地緩解這個問題。

L2 正則化:通過懲罰較大的權(quán)重來防止過擬合

嶺回歸的損失函數(shù)形式如下:

其中:

yi 是觀察值的目標(biāo)變量。

xij 是第 i 個觀察值的第 j 個自變量。

β0,β1,...,βp 是回歸系數(shù)。

λ 是嶺回歸的超參數(shù),用于控制正則化的強(qiáng)度。較大的 λ 會導(dǎo)致回歸系數(shù)更趨向于零,從而減小過度擬合的風(fēng)險。

嶺回歸的損失函數(shù)在普通最小二乘法(Ordinary Least Squares, OLS)的基礎(chǔ)上添加了一個正則化項,這是解決共線性問題的關(guān)鍵之一。通過對回歸系數(shù)的估計引入正則化項,使得模型更加穩(wěn)定。這有助于處理高度相關(guān)的自變量,提高模型的泛化能力。嶺回歸的名稱來源于它引入的正則化項的形狀,形象地描述為一個嶺。

嶺回歸通過引入正則化項,限制回歸系數(shù)的增長,從而在一定程度上緩解了共線性問題。正則化項的形式為

這正則化項的作用有以下幾點(diǎn):

控制系數(shù)的大?。赫齽t化項對回歸系數(shù)進(jìn)行懲罰,使得模型更傾向于選擇較小的系數(shù)。通過限制系數(shù)的增長,嶺回歸降低了對訓(xùn)練數(shù)據(jù)中噪聲的過度敏感性。

防止過度擬合:共線性可能導(dǎo)致過度擬合,即模型過于復(fù)雜,過度適應(yīng)訓(xùn)練數(shù)據(jù)中的噪聲,而失去了對新數(shù)據(jù)的泛化能力。正則化項的引入有助于避免過度擬合,使模型更具有泛化能力。

穩(wěn)定估計:通過對系數(shù)的大小進(jìn)行限制,嶺回歸可以產(chǎn)生相對穩(wěn)定的估計。即使在存在共線性的情況下,模型對數(shù)據(jù)的變化也更為魯棒,系數(shù)估計更加穩(wěn)定。

總體來說,通過對回歸系數(shù)增加正則化項,嶺回歸在解決共線性問題時能夠提供更為穩(wěn)健和可靠的估計。這種方式把共線性帶來的不穩(wěn)定性降低到一個可以接受的水平,使得模型更適用于實(shí)際數(shù)據(jù)分析和預(yù)測。

優(yōu)缺點(diǎn)和使用場景

優(yōu)點(diǎn):

可以處理多重共線性問題,提高模型的穩(wěn)定性和泛化能力; 相對于普通最小二乘法,可以得到更可靠的系數(shù)估計; 對于數(shù)據(jù)量較小、特征較多的情況,效果更為明顯。

缺點(diǎn):

嶺回歸引入的正則化項可能會導(dǎo)致系數(shù)估計偏向于零,從而影響模型的解釋性; 需要手動調(diào)節(jié)超參數(shù)?。

使用場景:

當(dāng)數(shù)據(jù)集存在多重共線性時; 當(dāng)需要穩(wěn)定且泛化能力強(qiáng)的回歸模型時; 對于高維數(shù)據(jù)集,尤其是特征數(shù)量比樣本數(shù)量大的情況。

代碼

四、LASSO 回歸 (LASSO Regression)

模型名稱優(yōu)點(diǎn)缺點(diǎn)使用場景判斷方法線性回歸(Linear Regression)解釋性強(qiáng),模型簡單容易受到異常值影響,線性假設(shè)可能不成立關(guān)系簡單,小規(guī)模數(shù)據(jù)散點(diǎn)圖呈直線或接近直線形狀,相關(guān)系數(shù)接近1或-1,線性回歸模型R方較大,殘差隨機(jī)分布多項式回歸(Polynomial Regression)能夠擬合非線性數(shù)據(jù)容易過擬合,模型復(fù)雜度高關(guān)系非線性散點(diǎn)圖呈曲線形狀,相關(guān)系數(shù)接近1或-1,多項式回歸模型R方較大,殘差隨機(jī)分布嶺回歸(Ridge Regression)能夠處理多重共線性問題模型解釋性差特征數(shù)量大于樣本數(shù)量,數(shù)據(jù)存在多重共線性散點(diǎn)圖呈直線或接近直線形狀,相關(guān)系數(shù)接近1或-1,嶺回歸模型R方較大,殘差隨機(jī)分布,方差膨脹因子,條件數(shù),相關(guān)矩陣,模型的擬合效果Lasso回歸(Lasso Regression)能夠進(jìn)行特征選擇模型解釋性差特征數(shù)量遠(yuǎn)大于樣本數(shù)量,需要特征選擇散點(diǎn)圖呈直線或接近直線形狀,相關(guān)系數(shù)接近1或-1,Lasso回歸模型R方較大,殘差隨機(jī)分布彈性網(wǎng)回歸(Elastic Net Regression)結(jié)合了嶺回歸和Lasso回歸的優(yōu)點(diǎn)模型解釋性差特征數(shù)量遠(yuǎn)大于樣本數(shù)量,數(shù)據(jù)存在多重共線性,需要特征選擇散點(diǎn)圖呈直線或接近直線形狀,相關(guān)系數(shù)接近1或-1,彈性網(wǎng)回歸模型R方較大,殘差隨機(jī)分布

柚子快報激活碼778899分享:機(jī)器學(xué)習(xí)筆記(二)回歸

http://yzkb.51969.com/

好文閱讀

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/19162109.html

發(fā)布評論

您暫未設(shè)置收款碼

請在主題配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄