欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

目錄

柚子快報(bào)激活碼778899分享:邏輯回歸 回歸問(wèn)題原理

柚子快報(bào)激活碼778899分享:邏輯回歸 回歸問(wèn)題原理

http://yzkb.51969.com/

回歸問(wèn)題是一種常見(jiàn)的監(jiān)督機(jī)器學(xué)習(xí)任務(wù),在很多領(lǐng)域均有廣泛應(yīng)用。其典型應(yīng)用包括銷量預(yù)測(cè)、庫(kù)存預(yù)測(cè)、股票價(jià)格預(yù)測(cè)、天氣預(yù)測(cè)等。本問(wèn)將討論線性回歸,包括線性回歸模型的目標(biāo)函數(shù)(損失函數(shù)和正則函數(shù))、線性回歸模型的優(yōu)化求解、回歸任務(wù)的性能指標(biāo)、線性回歸模型的超參數(shù)調(diào)優(yōu)以及使用sklearn實(shí)現(xiàn)線性回歸模型的應(yīng)用案例。

線性回歸簡(jiǎn)介

回歸分析:回歸分析法指利用數(shù)據(jù)統(tǒng)計(jì)原理,對(duì)大量統(tǒng)計(jì)數(shù)據(jù)進(jìn)行數(shù)學(xué)處理,并確定因變量Y與某些自變量X的相關(guān)關(guān)系,建立一個(gè)相關(guān)性較好的回歸方程(函數(shù)表達(dá)式),并加以外推,用于預(yù)測(cè)今后的因變量的變化分析方法?;貧w的目標(biāo)是學(xué)習(xí)一個(gè)輸入X到輸出Y的映射f,并根據(jù)該模型預(yù)測(cè)新的測(cè)試數(shù)據(jù)x對(duì)應(yīng)的響應(yīng)y=f(x),公式:

f

(

x

,

w

)

=

w

T

+

b

f(x,w) = w^T+b

f(x,w)=wT+b 線性回歸模型,包括一元線性回歸模型、多元線性回歸和多項(xiàng)式線性回歸模型等。

依據(jù)定義的因變量與單個(gè)自變量可以構(gòu)建如下模型:Y = w0 + w1 x (簡(jiǎn)單線性回歸)依據(jù)定義的因變量與多個(gè)自變量可以構(gòu)建如下模型:Y = w0 + w1x1 + w2x2 +…+wnxn(多元線性回歸)依據(jù)定義的因變量與多個(gè)自變量可以構(gòu)建如下模型:Y = w0 + w1x + w2x2 + …+ wnxn(多項(xiàng)式線性回歸)

核心思想:從連續(xù)型統(tǒng)計(jì)數(shù)據(jù)中得到數(shù)學(xué)模型,然后將該數(shù)學(xué)模型用于預(yù)測(cè)。

回歸是用來(lái)估計(jì)數(shù)據(jù)元素之間的數(shù)值關(guān)系

用來(lái)處理回歸問(wèn)題的,主要對(duì)數(shù)值型數(shù)據(jù)進(jìn)行預(yù)測(cè)

應(yīng)用:如股票預(yù)測(cè),網(wǎng)站點(diǎn)擊量預(yù)測(cè)等等

一元線性回歸

線性回歸模型是利用線性擬合的方式探尋數(shù)據(jù)背后的規(guī)律。先通過(guò)搭建線性回歸模型尋找這些散點(diǎn)(也稱樣本點(diǎn))背后的趨勢(shì)線(也稱回歸曲線),再利用回歸曲線進(jìn)行一些簡(jiǎn)單的預(yù)測(cè)分析或因果關(guān)系分析。

在線性回歸中,我們根據(jù)特征變量(也稱自變量)來(lái)預(yù)測(cè)反應(yīng)變量(也稱因變量)。根據(jù)特征變量的個(gè)數(shù)可將線性回歸模型分為一元線性回歸和多元線性回歸。

一元線性回歸模型又稱為簡(jiǎn)單線性回歸模型,其形式可以表示為:y=ax+b,其中,y為因變量,x為自變量,a為回歸系數(shù),b為截距。

示例:

輸入(x)輸出(y)0.55.00.65.50.86.01.16.81.47.0……

import matplotlib.pyplot as plt

x = [0.5, 0.6, 0.8, 1.1, 1.4]

y = [5.0, 5.5, 6.0, 6.8, 7.0]

plt.scatter(x,y)

預(yù)測(cè)(目標(biāo))函數(shù):y = w0+w1x x: 輸入 y: 輸出 w0和w1: 模型參數(shù)

所謂模型訓(xùn)練,就是根據(jù)已知的x和y,找到最佳的模型參數(shù)w0 和 w1,盡可能精確地描述出輸入和輸出的關(guān)系。

5.0 = w0 + w1 × 0.5 5.5 = w0 + w1 × 0.6

單樣本誤差:

根據(jù)預(yù)測(cè)函數(shù)求出輸入為x時(shí)的預(yù)測(cè)值:y’ = w0 + w1x,單樣本誤差為(y - y’)2。

總樣本誤差:

把所有單樣本誤差相加即是總樣本誤差:

損失函數(shù)

所以損失函數(shù)就是總樣本誤差關(guān)于模型參數(shù)的函數(shù),該函數(shù)屬于三維數(shù)學(xué)模型,即需要找到一組w0 ,w1使得loss取極小值。

**核心:**找到w0和w1的值,使得預(yù)測(cè)值和真實(shí)值之間的平均差異最小。

**損失:**機(jī)器學(xué)習(xí)模型關(guān)于單個(gè)樣本的預(yù)測(cè)值與真實(shí)值的差,損失越小,模型越好;如果預(yù)測(cè)值與真實(shí)值相等,就是沒(méi)有損失。

**損失函數(shù):**用于計(jì)算損失的函數(shù)模型每一次預(yù)測(cè)的好壞用損失函數(shù)來(lái)度量。

常見(jiàn)的損失函數(shù):

平均平方誤差(Mean Squared Error (MSE)):也稱為 L2 Loss,是機(jī)器學(xué)習(xí)、深度學(xué)習(xí)回歸任務(wù)中最常用的一種損失函數(shù),對(duì)離群點(diǎn)敏感。平均絕對(duì)誤差( Mean Absolute Error(MAE)):也稱為L(zhǎng)1 Loss,使用絕對(duì)值,L1損失對(duì)離群點(diǎn)不敏感。胡伯損失(Huber):綜合了L2損失和L1損失的優(yōu)點(diǎn)。

線性回歸模型的優(yōu)化求解

模型的目標(biāo)函數(shù)確定后,我們就可以采用合適的優(yōu)化方法尋找最佳的模型參數(shù)。在線性回歸模型中,模型參數(shù)包括線性回歸系數(shù)w1,和截距w0。 當(dāng)訓(xùn)練數(shù)據(jù)集不大時(shí),最小二乘線性回歸可采用解析求解法求解,解析求解法涉及到大量公式推導(dǎo),此處暫不做講解。除此以外還可以使用梯度下降法求解。

梯度下降(Gradient Descent)

梯度下降法是求解無(wú)約束優(yōu)化問(wèn)題最常用的方法之一,亦被稱為最速下降法。最小二乘回歸和嶺回歸均可采用梯度下降法求解,Lasso回歸由于目標(biāo)函數(shù)中有L1正則函數(shù)而不可導(dǎo),因此不能采用梯度下降法求解。梯度下降法是一種基于搜索的最優(yōu)化方法,在機(jī)器學(xué)習(xí)中,熟練的使用梯度法(下降法或上升法)求取目標(biāo)函數(shù)的最優(yōu)解是非常重要的。線性回歸算法模型的本質(zhì)就是最小化一個(gè)損失函數(shù),然后求出損失函數(shù)的參數(shù)的數(shù)學(xué)解; 梯度下降法是在機(jī)器學(xué)習(xí)領(lǐng)域中最小化損失函數(shù)的最為常用的方法。

假如你迷失在山上的濃霧之中,完全看不見(jiàn)下山的方向,你能感覺(jué)到的只有腳下的路面坡度??焖俚竭_(dá)山腳的一個(gè)策略就是沿著最陡的方向下坡。這就是梯度下降的做法:通過(guò)測(cè)量參數(shù)向量θ相關(guān)的損失函數(shù)的局部梯度,并不斷沿著降低梯度的方向調(diào)整,直到梯度將為0,達(dá)到最小值! 每下降一步都去選擇最陡峭的方向,然后踏出一步。因此沒(méi)迭代一次需要考慮兩個(gè)變量,一個(gè)是方向(朝哪邊走),一個(gè)是步長(zhǎng)(走多少)。方向就是向量θ的斜率,步長(zhǎng)是一個(gè)超參數(shù)叫做學(xué)習(xí)率(learning_rate)。

學(xué)習(xí)速率(learning_rate)

學(xué)習(xí)率是一個(gè)超參數(shù),常用字母η表示,學(xué)習(xí)率的取值會(huì)影響獲得最優(yōu)解的速度;η 太小,算法需要經(jīng)過(guò)大量迭代才能收斂,這將耗費(fèi)很長(zhǎng)時(shí)間;反過(guò)來(lái)學(xué)習(xí)率太大,可能會(huì)越過(guò)最小值直接到達(dá)另一邊,甚至有可能比之前的起點(diǎn)還要高,這會(huì)導(dǎo)致算法發(fā)散,值越來(lái)越大,無(wú)法找到最優(yōu)解。學(xué)習(xí)率是超參數(shù)需要手動(dòng)調(diào)節(jié),取值范圍一般在[0, 1]之間。下圖展示了不同學(xué)習(xí)率對(duì)梯度下降的影響。

梯度下降陷阱

并不是所有的損失函數(shù)都是二次曲線(看起來(lái)像碗),有的可能看著像洞、山脈、高原或者各種不規(guī)則的地形,導(dǎo)致很難收斂到最小值。如下圖所示,梯度下降的兩個(gè)主要挑戰(zhàn):如果隨機(jī)初始化θ,算法從左側(cè)起步,那么會(huì)收斂到一個(gè)布局最小值,而不是全局最小值。如果從右側(cè)起步,那么需要很長(zhǎng)時(shí)間才能越過(guò)正片“高原”,如果迭代次數(shù)太少,將永遠(yuǎn)無(wú)法到達(dá)全局最小值。

? 幸好,線性回歸模型的MSE損失函數(shù)恰好是一個(gè)凸函數(shù),這意味著連接曲線上任意兩點(diǎn)的線段永遠(yuǎn)不會(huì)根曲線相交。也就是說(shuō)不存在局部最小值,只有一個(gè)全局最小值。同時(shí)它也是一個(gè)連續(xù)函數(shù),所以斜率不會(huì)產(chǎn)生陡峭的變化。這兩點(diǎn)保證即便是亂走,MSE損失函數(shù)的梯度下降都可以趨近到全局最小值,只需要等待足夠的時(shí)間,學(xué)習(xí)率也不需要太高。MSE損失函數(shù)雖然是碗狀的,但有些時(shí)候如果不同特征的尺寸差距巨大,那么它也有可能是一個(gè)非常平坦的碗,像盤子一樣。這樣的話雖然最終還是會(huì)抵達(dá)最小值,但是這需要花費(fèi)大量的時(shí)間。因此應(yīng)用梯度下降時(shí),需要保證所欲特征值的大小比例都差不多(比如使用特征工程對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,標(biāo)準(zhǔn)化 StandarScaler),否則收斂的時(shí)間會(huì)很長(zhǎng)。

? 要實(shí)現(xiàn)梯度下降,你需要計(jì)算每個(gè)模型關(guān)于參數(shù)θj,損失函數(shù)會(huì)改變多少。這被稱為偏導(dǎo)數(shù)。關(guān)于參數(shù)θj的損失函數(shù)的偏導(dǎo)數(shù),計(jì)作:

公式推導(dǎo)太難寫,此處省略…

?

? 梯度下降有很多種類可以選擇,不同種類有各自的特點(diǎn),下面將介紹梯度下降的分類

梯度下降分類

批量梯度下降:

在計(jì)算梯度下降的每一步時(shí),都是基于完整的訓(xùn)練集X的。這就是為什么該算法被稱為批量梯度下降,每一步都使用整批訓(xùn)練數(shù)據(jù)。因此面對(duì)非常龐大的訓(xùn)練集時(shí),算法會(huì)變得極慢。但是,梯度下降算法隨特征數(shù)量擴(kuò)展的表現(xiàn)比較好。如果要訓(xùn)練的線性模型擁有幾十萬(wàn)個(gè)特征,使用梯度下降比標(biāo)準(zhǔn)方程或者SVD要快很多。并且能夠達(dá)到最小值,在最小值處停止。一旦有了梯度向量,哪個(gè)點(diǎn)向上,就朝反方向下坡。也就是θ-ΔMSE(θ)。這時(shí)學(xué)習(xí)率η就發(fā)揮作用了:用梯度向量乘以η確定下坡步長(zhǎng)的大小,梯度下降的公式:

θ(下一步)=θ-ηΔMSE(θ)

批量梯度下降的主要問(wèn)題是它要用整個(gè)訓(xùn)練集來(lái)計(jì)算每一步的梯度,所以訓(xùn)練集很大時(shí),算法會(huì)特別慢。與之相反的就是隨機(jī)梯度下降。

隨機(jī)梯度下降:

隨機(jī)梯度下降每一步在訓(xùn)練集中隨機(jī)選擇一個(gè)實(shí)例,并且僅基于該單個(gè)實(shí)例來(lái)計(jì)算梯度。顯然這讓算法變得快很多,因?yàn)槊看蔚贾恍枰僮魃倭康臄?shù)據(jù)。它也可以被用來(lái)訓(xùn)練海量的數(shù)據(jù)集,因此每次迭代只需要在內(nèi)存中運(yùn)行一個(gè)實(shí)例即可。另一方面,由于算法的隨即性質(zhì),它比批量梯度下降要不規(guī)則的多。損失函數(shù)將不再是緩緩降低直到最小值,而是不斷上下波動(dòng),但從整體來(lái)看,還是在慢慢下降。隨著時(shí)間的推移最終會(huì)非常接近最小值,但是即使它到達(dá)了最小值,依然還會(huì)持續(xù)反彈,永遠(yuǎn)不會(huì)停止。所以算法停下來(lái)的參數(shù)值肯定時(shí)足夠好的,但不是最優(yōu)的。

當(dāng)損失函數(shù)非常不規(guī)則時(shí),隨機(jī)梯度下降其實(shí)可以幫助算法跳出局部最小值,所以相比批量梯度下降,它對(duì)找到全局最小值更有優(yōu)勢(shì)。隨機(jī)性的好處在于可以逃離局部最優(yōu),但缺點(diǎn)是永遠(yuǎn)定位不出最小值。要解決這個(gè)困境,可以通過(guò)逐步降低學(xué)習(xí)率。開(kāi)始的步長(zhǎng)比較大,然后越來(lái)越小,讓算法盡量靠近全局最小值。這個(gè)過(guò)程叫做模擬退火。

? 由于實(shí)例是隨機(jī)選取的,因此某些實(shí)例可能每個(gè)輪次中被選取幾次,而其他實(shí)例則可能根本不被選取。如果要確保算法在每個(gè)輪次都遍歷每個(gè)實(shí)例,則另一種方法是對(duì)訓(xùn)練集進(jìn)行混洗(確保同時(shí)對(duì)輸入特征和標(biāo)簽進(jìn)行混洗),然后逐個(gè)實(shí)例進(jìn)行遍歷,然后對(duì)其進(jìn)行再次混洗,以此類推。但是這種方法通常收斂緩慢。

小批量梯度下降

小批量梯度下降在每一步中,不是根據(jù)完整得訓(xùn)練集或僅基于一個(gè)實(shí)例來(lái)計(jì)算梯度,小批量梯度下降在稱為小型批量的隨機(jī)實(shí)例集上計(jì)算梯度。小批量梯度下降優(yōu)于隨機(jī)梯度下降的主要優(yōu)點(diǎn)是,可以通過(guò)矩陣操作的硬件優(yōu)化來(lái)提高性能,特別是在使用GPU時(shí)。小批量梯度下降最終將比隨機(jī)梯度下降走得更接近最小值,但它可能很難擺脫局部最小值。

以下三種梯度下降類型得比較圖:

線性回歸算法的比較

m為訓(xùn)練實(shí)例的數(shù)量(行數(shù),樣本數(shù)量),n為特征數(shù)量(列數(shù))

算法m很大核外支持n很大超參數(shù)要求縮放Scikit-Learn標(biāo)準(zhǔn)方程快否慢0否N/ASVD快否慢0否LinearRegression批量GD慢否快2是SGDRegressor隨機(jī)GD快是快>=2是SGDRegressor小批量GD快是快>=2是SGDRegressor

多變量函數(shù)的梯度下降

左邊是假設(shè)函數(shù),右邊是損失函數(shù)。因?yàn)橛袃蓚€(gè)參數(shù)θ0和θ1,這使得我們的損失函數(shù)在三維圖形上類似一個(gè)碗型。根據(jù)不同的訓(xùn)練集,會(huì)得到不同的碗型,底部平面的任何一個(gè)點(diǎn)表示了一個(gè)θ0和θ1,而這個(gè)三維圖形在該點(diǎn)上的垂直高度即代表了相應(yīng)的損失函數(shù)值。

以上內(nèi)容為簡(jiǎn)單線性回歸的原理以及一些概念,學(xué)習(xí)回歸分析必須掌握的內(nèi)容。

柚子快報(bào)激活碼778899分享:邏輯回歸 回歸問(wèn)題原理

http://yzkb.51969.com/

推薦文章

評(píng)論可見(jiàn),查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/18834187.html

發(fā)布評(píng)論

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問(wèn)

文章目錄