柚子快報(bào)邀請(qǐng)碼778899分享:神經(jīng)網(wǎng)絡(luò)-邏輯回歸
柚子快報(bào)邀請(qǐng)碼778899分享:神經(jīng)網(wǎng)絡(luò)-邏輯回歸
引入
可以看到我們?cè)谟疫呍偌由弦粋€(gè)樣例值時(shí),擬合線發(fā)生了偏轉(zhuǎn),這導(dǎo)致原本的決策邊界發(fā)生了很大的變動(dòng),使得原本正確的判斷被錯(cuò)誤分類(lèi)??梢?jiàn)之前的線性回歸算法是有問(wèn)題的,我們將學(xué)習(xí)一種新的算法-邏輯回歸來(lái)處理這種分類(lèi)問(wèn)題。
介紹
我們不再采用一條擬合直線而是采用一條
S
S
S型的曲線,也就是右邊的
s
i
g
m
o
i
d
sigmoid
sigmoid函數(shù)也稱(chēng)為
l
o
g
i
s
t
i
c
logistic
logistic函數(shù)。我們?nèi)匀粫?huì)使用一條直線
z
=
w
→
?
x
→
+
b
z=\overrightarrow{\mathrm{w}}\cdot\overrightarrow{\mathrm{x}}+b
z=w
?x
+b,然后將這個(gè)
z
z
z作為自變量帶入
s
i
g
m
o
i
d
sigmoid
sigmoid函數(shù)繼續(xù)計(jì)算,求出最終的結(jié)果。
f
w
?
,
b
(
x
?
)
=
P
(
y
=
1
∣
x
?
;
w
?
,
b
)
f_{\vec{w},b}(\vec{\mathrm{x}})=P(y=1|\vec{\mathrm{x}};\vec{\mathrm{w}},b)
fw
,b?(x
)=P(y=1∣x
;w
,b),表示在給定特征向量為
x
?
\vec{x}
x
的情況下輸出類(lèi)別
y
=
1
y=1
y=1的條件概率。
決策邊界
我們看到了一個(gè)線性的決策邊界,我們選擇閾值為
0.5
0.5
0.5。因此,當(dāng)
z
=
0
z=0
z=0就是一個(gè)判斷條件,我們通過(guò)帶入
w
,
b
w,b
w,b的參數(shù)值就可以得到一個(gè)決策邊界。這是一個(gè)非線性的決策邊界,帶入合適的參數(shù)值我們可以看到一個(gè)圓形的決策邊界。
代價(jià)函數(shù)
如果我們?nèi)匀皇褂弥暗淖钚《朔ㄟM(jìn)行計(jì)算,那么得到的代價(jià)函數(shù)將會(huì)是一個(gè)非凸函數(shù)。我們引入一個(gè)新的概念-損失函數(shù),也就是單個(gè)樣本的誤差,而我們之前提到的代價(jià)函數(shù)則是在整個(gè)訓(xùn)練集上,是所有樣本誤差的平均,也就是損失函數(shù)的平均。可以看到,這個(gè)損失函數(shù)的定義是一個(gè)伯努利分布,我們有一個(gè)更好的寫(xiě)法。接下來(lái)我們從最大似然估計(jì)的角度解釋一下這個(gè)函數(shù)是怎么計(jì)算的我們已經(jīng)知道了原來(lái)的函數(shù)
f
w
,
b
(
x
?
)
f_{w,b}(\vec{x})
fw,b?(x
)表示在給定特征向量為
x
?
\vec{x}
x
的情況下輸出類(lèi)別
y
=
1
y=1
y=1的條件概率。假設(shè)我們的輸出樣本有
0
0
0或
1
1
1這兩類(lèi)。那么我們就有:
P
(
y
=
1
∣
x
?
;
w
?
,
b
)
=
f
w
,
b
(
x
?
)
P
(
y
=
0
∣
x
?
;
w
?
,
b
)
=
1
?
f
w
,
b
(
x
?
)
\begin{aligned}&P(y=1|\vec{x};\vec{w},b)=f_{w,b}(\vec{x})\\&P(y=0|\vec{x};\vec{w},b)=1-f_{w,b}(\vec{x})\end{aligned}
?P(y=1∣x
;w
,b)=fw,b?(x
)P(y=0∣x
;w
,b)=1?fw,b?(x
)?寫(xiě)成一個(gè)式子就是
P
(
y
∣
x
?
;
w
?
,
b
)
=
f
w
,
b
(
x
?
)
y
(
1
?
f
w
,
b
(
x
?
)
)
1
?
y
P(y|\vec{x};\vec{w},b)=f_{w,b}(\vec{x})^y(1-f_{w,b}(\vec{x}))^{1-y}
P(y∣x
;w
,b)=fw,b?(x
)y(1?fw,b?(x
))1?y其中的
y
y
y僅可以取
0
0
0或
1
1
1,接下來(lái)我們可以使用最大似然估計(jì)(計(jì)算同時(shí)出現(xiàn)最大的概率)來(lái)求解我們的系數(shù)值。
J
(
w
?
,
b
)
=
∏
i
=
1
m
(
f
w
?
,
b
(
x
(
i
)
)
)
y
(
i
)
(
1
?
f
w
?
,
b
(
x
(
i
)
)
)
1
?
y
(
i
)
J(\vec{w},b)=\prod_{i=1}^m(f_{\vec{w},b}(x^{(i)}))^{y^{(i)}}(1-f_{\vec{w},b}(x^{(i)}))^{1-y^{(i)}}
J(w
,b)=∏i=1m?(fw
,b?(x(i)))y(i)(1?fw
,b?(x(i)))1?y(i),其中
m
m
m為樣本個(gè)數(shù)。由于概率連乘之后的結(jié)果趨近于無(wú)窮小,我們對(duì)其取對(duì)數(shù)使其相加求平均值,同時(shí)取反得到最小值。得到表達(dá)式為:
J
(
w
?
,
b
)
=
?
l
n
J
(
w
?
,
b
)
=
?
1
m
∑
i
=
1
m
(
y
(
i
)
l
o
g
(
f
w
?
,
b
(
x
(
i
)
)
)
+
(
1
?
y
(
i
)
)
l
o
g
(
1
?
f
w
?
,
b
(
x
(
i
)
)
)
)
J(\vec{w},b)=-lnJ(\vec{w},b)=-{\frac{1}{m}}\sum_{i=1}^m(y^{(i)}log(f_{\vec{w},b}(x^{(i)}))+(1-y^{(i)})log(1-f_{\vec{w},b}(x^{(i)})))
J(w
,b)=?lnJ(w
,b)=?m1?∑i=1m?(y(i)log(fw
,b?(x(i)))+(1?y(i))log(1?fw
,b?(x(i))))參照:“損失函數(shù)”是如何設(shè)計(jì)出來(lái)的?直觀理解“最小二乘法”和“極大似然估計(jì)法”_嗶哩嗶哩_bilibili
梯度下降
我們可以和線性回歸一樣使用我們熟悉的梯度下降方法使得代價(jià)函數(shù)最小。同時(shí)還需要使用向量化和特征縮放。
過(guò)擬合問(wèn)題
我們使用線性回歸問(wèn)題舉例,我們第一個(gè)函數(shù)過(guò)于簡(jiǎn)單,導(dǎo)致很多數(shù)據(jù)都無(wú)法擬合,對(duì)于這種情況我們稱(chēng)之為欠擬合或高偏差。第三個(gè)函數(shù)又過(guò)于復(fù)雜,一旦數(shù)據(jù)集發(fā)生了一點(diǎn)點(diǎn)變動(dòng),那么我們的結(jié)果就會(huì)改變,對(duì)于訓(xùn)練數(shù)據(jù)都完美契合,可是如果出現(xiàn)一個(gè)新的數(shù)據(jù)就無(wú)法適應(yīng),對(duì)于這種情況稱(chēng)之為過(guò)擬合或者高方差。而中間的函數(shù)則具有普遍性,雖然不是對(duì)于每個(gè)數(shù)據(jù)都完美擬合,但是可以對(duì)沒(méi)出現(xiàn)的數(shù)據(jù)有一個(gè)很好的預(yù)測(cè)。選擇相對(duì)較好的模型的順序:方差小,偏差小 > 方差小,偏差大 > 方差大,偏差小 > 方差大,偏差大。方差小,偏差大之所以在實(shí)際中排位相對(duì)靠前,是因?yàn)樗容^穩(wěn)定。很多時(shí)候?qū)嶋H中無(wú)法獲得非常全面的數(shù)據(jù)集,那么,如果一個(gè)模型在可獲得的樣本上有較小的方差,說(shuō)明它對(duì)不同數(shù)據(jù)集的敏感度不高,可以期望它對(duì)新數(shù)據(jù)集的預(yù)測(cè)效果比較穩(wěn)定。
解決過(guò)擬合
增大訓(xùn)練集數(shù)量
增大訓(xùn)練集的數(shù)量,但是有時(shí)候我們可能沒(méi)有足夠的訓(xùn)練集。
減少特征數(shù)量
選擇真正需要的特征,減少多項(xiàng)式的指數(shù),但是這樣可能會(huì)丟棄一些真正需要的特征。
正則化
前面的減少特征數(shù)量就是將參數(shù)值
w
i
w_i
wi?置為
0
0
0,但是正則化會(huì)柔和一些,可以將參數(shù)值減小,這樣可以保留全部的特征。
正則化
我們使用均方誤差和正則項(xiàng)相結(jié)合得到一個(gè)代價(jià)函數(shù),通過(guò)均方誤差來(lái)擬合數(shù)據(jù),通過(guò)正則項(xiàng)來(lái)保證
w
j
w_j
wj?參數(shù)不會(huì)太大,
b
b
b的選擇對(duì)于最終結(jié)果沒(méi)有影響,同時(shí)使用相同的
2
m
2m
2m縮放保證數(shù)量的改變不會(huì)產(chǎn)生影響。同時(shí)引入了一個(gè)新的函數(shù)
λ
\lambda
λ和
α
\alpha
α的作用一樣,當(dāng)
λ
\lambda
λ過(guò)小時(shí)會(huì)過(guò)擬合,當(dāng)
λ
\lambda
λ過(guò)大時(shí)會(huì)欠擬合,需要選擇一個(gè)合適的值。我們現(xiàn)在的梯度下降函數(shù)發(fā)生了改變,注意
w
j
w_j
wj?由于其余的
w
j
w_j
wj?求偏導(dǎo)為0,因此只有一個(gè)
w
j
w_j
wj?和前面的
x
j
(
i
)
x_{j}^{(i)}
xj(i)?一樣。對(duì)于邏輯回歸,僅僅只是
f
w
?
,
b
(
x
)
f_{\vec{w},b}(x)
fw
,b?(x)發(fā)生了改變。
柚子快報(bào)邀請(qǐng)碼778899分享:神經(jīng)網(wǎng)絡(luò)-邏輯回歸
好文推薦
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。