柚子快報激活碼778899分享:機器學習數學公式推導之高斯分布
柚子快報激活碼778899分享:機器學習數學公式推導之高斯分布
文章目錄
1、介紹引入1.1 頻率派的觀點1.2 貝葉斯派的觀點1.3 小結
2、數學基礎2.1 二階中心矩2.2 樣本方差2.3 高斯分布2.3.1 一維情況 MLE2.3.2 多維情況
本文參考 B站UP: shuhuai008 跳轉 ??
1、介紹引入
在統(tǒng)計學和概率論中,
P
(
x
∣
k
)
P(x|k)
P(x∣k) 通常表示在給定條件
k
k
k 下,事件
x
x
x 發(fā)生的條件概率。條件概率是描述兩個或多個事件之間關系的概率,其中一個事件的發(fā)生依賴于另一個事件的發(fā)生。 具體來說,
P
(
x
∣
k
)
P(x|k)
P(x∣k) 的定義是:在事件
k
k
k 已經發(fā)生的條件下,事件
x
x
x 發(fā)生的概率。這個定義可以用以下公式來表示:
P
(
x
∣
k
)
=
P
(
x
∩
k
)
P
(
k
)
P(x|k) = \frac{P(x \cap k)}{P(k)}
P(x∣k)=P(k)P(x∩k)?
其中,
P
(
x
∩
k
)
P(x \cap k)
P(x∩k) 表示事件
x
x
x 和事件
k
k
k 同時發(fā)生的概率,而
P
(
k
)
P(k)
P(k) 表示事件
k
k
k 發(fā)生的概率。
P1 系列一 緒論-資料介紹
P2 系列一 緒論-頻率派VS貝葉斯派
對概率的詮釋有兩大學派,一種是頻率派另一種是貝葉斯派。后面我們對觀測集采用下面記號:
頻率—> 統(tǒng)計機器學習 優(yōu)化模型 Loss function
貝葉斯 —> 概率圖模型 求積分
X
N
×
p
=
(
x
1
,
x
2
,
?
,
x
N
)
T
,
x
i
=
(
x
i
1
,
x
i
2
,
?
,
x
i
p
)
T
X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}
XN×p?=(x1?,x2?,?,xN?)T,xi?=(xi1?,xi2?,?,xip?)T 這個記號表示有
N
N
N 個樣本,每個樣本都是
p
p
p 維向量。其中每個觀測都是由
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ) 生成的。
1.1 頻率派的觀點
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ)中的
θ
\theta
θ 是一個常量。對于
N
N
N 個觀測來說觀測集的概率為
p
(
X
∣
θ
)
=
i
i
d
∏
i
=
1
N
p
(
x
i
∣
θ
)
)
p(X|\theta)\mathop{=}\limits _{iid}\prod\limits _{i=1}^{N}p(x_{i}|\theta))
p(X∣θ)iid=?i=1∏N?p(xi?∣θ)) 。為了求
θ
\theta
θ 的大小,我們采用最大對數似然MLE的方法:
θ
M
L
E
=
a
r
g
m
a
x
θ
log
?
p
(
X
∣
θ
)
=
i
i
d
a
r
g
m
a
x
θ
∑
i
=
1
N
log
?
p
(
x
i
∣
θ
)
\theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)
θMLE?=θargmax?logp(X∣θ)iid=?θargmax?i=1∑N?logp(xi?∣θ)
1.2 貝葉斯派的觀點
全概率
P
(
B
)
=
∑
i
=
1
n
P
(
A
i
)
P
(
B
∣
A
i
)
P(B) = \sum_{i=1}^{n} P(A_i) P(B|A_i)
P(B)=i=1∑n?P(Ai?)P(B∣Ai?)
貝葉斯
P
(
A
i
∣
B
)
=
P
(
A
i
)
P
(
B
∣
A
i
)
∑
j
=
1
n
P
(
A
j
)
P
(
B
∣
A
j
)
P(A_i|B) = \frac{P(A_i) P(B|A_i)}{\sum_{j=1}^{n} P(A_j) P(B|A_j)}
P(Ai?∣B)=∑j=1n?P(Aj?)P(B∣Aj?)P(Ai?)P(B∣Ai?)?
這里,P(A_i|B) 表示在事件 $ B $ 已經發(fā)生的條件下,事件 $ A_i $ 發(fā)生的條件概率。公式的分母是事件 $ B $ 的全概率,即 $ P(B) $,它是通過全概率公式計算得到的。
貝葉斯派認為
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ) 中的
θ
\theta
θ 不是一個常量。這個
θ
\theta
θ 滿足一個預設的先驗的分布
θ
~
p
(
θ
)
\theta\sim p(\theta)
θ~p(θ) 。于是根據貝葉斯定理依賴觀測集參數的后驗可以寫成:
p
(
θ
∣
X
)
=
p
(
X
∣
θ
)
?
p
(
θ
)
p
(
X
)
=
p
(
X
∣
θ
)
?
p
(
θ
)
∫
θ
p
(
X
∣
θ
)
?
p
(
θ
)
d
θ
p(\theta|X)=\frac{p(X|\theta)\cdot p(\theta)}{p(X)}=\frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta}
p(θ∣X)=p(X)p(X∣θ)?p(θ)?=θ∫?p(X∣θ)?p(θ)dθp(X∣θ)?p(θ)? 為了求
θ
\theta
θ?? 的值,我們要最大化這個參數后驗MAP:
?注意:這里還有個P(X) 省去,因為在關于
θ
\theta
θ?的函數中,X相當于常量
θ
M
A
P
=
a
r
g
m
a
x
θ
p
(
θ
∣
X
)
=
a
r
g
m
a
x
θ
p
(
X
∣
θ
)
?
p
(
θ
)
\theta_{MAP}=\mathop{argmax}\limits _{\theta}p(\theta|X)=\mathop{argmax}\limits _{\theta}p(X|\theta)\cdot p(\theta)
θMAP?=θargmax?p(θ∣X)=θargmax?p(X∣θ)?p(θ) 其中第二個等號是由于分母和
θ
\theta
θ 沒有關系。求解這個
θ
\theta
θ 值后計算
p
(
X
∣
θ
)
?
p
(
θ
)
∫
θ
p
(
X
∣
θ
)
?
p
(
θ
)
d
θ
\frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta}
θ∫?p(X∣θ)?p(θ)dθp(X∣θ)?p(θ)?
,就得到了參數的后驗概率。其中
p
(
X
∣
θ
)
p(X|\theta)
p(X∣θ)? 叫似然,是我們的模型分布。得到了參數的后驗分布后,我們可以將這個分布用于預測貝葉斯預測:
注意:邊緣概率 應為p(x,t|X)=p(x|t,X)p(t|X) 聯合概率密度與條件概率的結合
p
(
x
n
e
w
∣
X
)
=
∫
θ
p
(
x
n
e
w
∣
θ
)
?
p
(
θ
∣
X
)
d
θ
p(x_{new}|X)=\int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|X)d\theta
p(xnew?∣X)=θ∫?p(xnew?∣θ)?p(θ∣X)dθ
其中積分中的被乘數是模型,乘數是后驗分布。
1.3 小結
頻率派和貝葉斯派分別給出了一系列的機器學習算法。頻率派的觀點導出了一系列的統(tǒng)計機器學習算法而貝葉斯派導出了概率圖理論。在應用頻率派的 MLE 方法時最優(yōu)化理論占有重要地位。而貝葉斯派的算法無論是后驗概率的建模還是應用這個后驗進行推斷時積分占有重要地位。因此采樣積分方法如 MCMC 有很多應用。
2、數學基礎
冪集P?指原集合中所有的子集(包括全集和空集)構成的集族。 群:一個集合對二元運算封閉,且有單位元、逆元,滿足結合律 阿貝爾群:滿足交換律的群 環(huán):阿貝爾群+乘法 域:若逆運算也封閉,則稱為域or代數,相當于對除法也封閉了。
在概率統(tǒng)計理論中,如果變量序列或者其他隨機變量有相同的概率分布,并且互相獨立,那么這些隨機變量是獨立同分布(iid) 【概率論與數理統(tǒng)計】一個視頻讓你明白分布函數,概率密度函數,分布律,聯合概率密度,聯合分布函數,聯合分布律,邊緣概率密度,邊緣分布函數都是什么意義和概念_嗶哩嗶哩_bilibili 理解容易 如何通俗地解釋協(xié)方差|馬同學圖解數學_嗶哩嗶哩_bilibili 理解容易 如何用概率論解決真實問題?用隨機變量去建模,最大的難題是相關關系_嗶哩嗶哩_bilibili 理解難度高 卡方分布 (chi-square distribution) - 統(tǒng)計學_嗶哩嗶哩_bilibili 容易理解
2.1 二階中心矩
二階中心矩是數據與其均值之差的平方的平均值。對于一組數據
X
=
{
x
1
,
x
2
,
…
,
x
n
}
X = \{x_1, x_2, \ldots, x_n\}
X={x1?,x2?,…,xn?},其二階中心矩
M
2
M_2
M2? 的 LaTeX 公式為:
M
2
=
1
n
∑
i
=
1
n
(
x
i
?
μ
)
2
M_2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2
M2?=n1?i=1∑n?(xi??μ)2
其中,
μ
\mu
μ 是數據的均值,即
μ
=
1
n
∑
i
=
1
n
x
i
\mu = \frac{1}{n} \sum_{i=1}^{n} x_i
μ=n1?∑i=1n?xi?。但注意,在二階中心矩的嚴格定義中,我們通常使用總體均值
μ
\mu
μ。然而,在實際應用中,當我們只有樣本數據時,我們可能會用樣本均值
x
ˉ
\bar{x}
xˉ 來代替
μ
\mu
μ。
2.2 樣本方差
樣本方差是樣本數據與其樣本均值之差的平方的平均值,但通常我們會乘以一個因子
n
n
?
1
\frac{n}{n-1}
n?1n?(稱為貝塞爾校正因子)來得到無偏估計。對于一組樣本數據
X
=
{
x
1
,
x
2
,
…
,
x
n
}
X = \{x_1, x_2, \ldots, x_n\}
X={x1?,x2?,…,xn?},其樣本方差
s
2
s^2
s2? 的 LaTeX 公式為:
s
2
=
1
n
?
1
∑
i
=
1
n
(
x
i
?
x
ˉ
)
2
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
s2=n?11?i=1∑n?(xi??xˉ)2
其中,
x
ˉ
\bar{x}
xˉ 是樣本均值,即
x
ˉ
=
1
n
∑
i
=
1
n
x
i
\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
xˉ=n1?∑i=1n?xi??。
總結
二階中心矩通常使用總體均值來計算,但在只有樣本數據時,也可以用樣本均值來近似。樣本方差是二階中心矩在樣本數據上的具體應用,但乘以了一個貝塞爾校正因子
n
n
?
1
\frac{n}{n-1}
n?1n? 以得到無偏估計。LaTeX 公式清晰地展示了這些統(tǒng)計量的數學表達式。
P3 (系列二) 數學基礎-概率-高斯分布1 極大似然估計
2.3 高斯分布
2.3.1 一維情況 MLE
一維情況 最大似然估計
高斯分布(Gaussian distribution)和正態(tài)分布(Normal distribution)在統(tǒng)計學和概率論中是同一個概念的不同稱呼。
當說一個隨機變量
Y
Y
Y 服從正態(tài)分布(或高斯分布),并且其分布的參數是均值(mean)
μ
\mu
μ 和標準差(standard deviation)
σ
\sigma
σ 時,我們寫作
Y
~
N
(
μ
,
σ
2
)
Y \sim N(\mu, \sigma^2)
Y~N(μ,σ2)。注意,雖然你寫的是
Y
~
N
(
μ
,
σ
)
Y \sim N(\mu, \sigma)
Y~N(μ,σ),但通常標準差
σ
\sigma
σ 是以平方的形式
σ
2
\sigma^2
σ2 出現在正態(tài)分布的表示中,以表示方差(variance)。方差是標準差的平方,它衡量了數據分布的離散程度。
正態(tài)分布的概率密度函數(Probability Density Function, PDF)為:
f
(
y
∣
μ
,
σ
2
)
=
1
2
π
σ
2
e
?
(
y
?
μ
)
2
2
σ
2
f(y|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(y-\mu)^2}{2\sigma^2}}
f(y∣μ,σ2)=2πσ2
?1?e?2σ2(y?μ)2?
正態(tài)分布之所以重要,是因為很多自然現象和社會現象都近似地服從正態(tài)分布,或者可以通過適當的變換(如對數變換)轉換為正態(tài)分布。此外,中心極限定理也說明了在許多獨立同分布的隨機變量之和的分布趨向于正態(tài)分布。
MLE: maximum liklihood estimation 最大似然估計
高斯分布在機器學習中占有舉足輕重的作用。在 MLE 方法中:
θ
=
(
μ
,
Σ
)
=
(
μ
,
σ
2
)
,
θ
M
L
E
=
a
r
g
m
a
x
θ
log
?
p
(
X
∣
θ
)
=
i
i
d
a
r
g
m
a
x
θ
∑
i
=
1
N
log
?
p
(
x
i
∣
θ
)
\theta=(\mu,\Sigma)=(\mu,\sigma^{2}),\theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)
θ=(μ,Σ)=(μ,σ2),θMLE?=θargmax?logp(X∣θ)iid=?θargmax?i=1∑N?logp(xi?∣θ) 一般地,高斯分布的概率密度函數PDF寫為:
p
(
x
∣
μ
,
Σ
)
=
1
(
2
π
)
p
/
2
∣
Σ
∣
1
/
2
e
?
1
2
(
x
?
μ
)
T
Σ
?
1
(
x
?
μ
)
p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}
p(x∣μ,Σ)=(2π)p/2∣Σ∣1/21?e?21?(x?μ)TΣ?1(x?μ) 帶入 MLE 中我們考慮一維的情況
log
?
p
(
X
∣
θ
)
=
∑
i
=
1
N
log
?
p
(
x
i
∣
θ
)
=
∑
i
=
1
N
log
?
1
2
π
σ
exp
?
(
?
(
x
i
?
μ
)
2
/
2
σ
2
)
\log p(X|\theta)=\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)=\sum\limits _{i=1}^{N}\log\frac{1}{\sqrt{2\pi}\sigma}\exp(-(x_{i}-\mu)^{2}/2\sigma^{2})
logp(X∣θ)=i=1∑N?logp(xi?∣θ)=i=1∑N?log2π
?σ1?exp(?(xi??μ)2/2σ2) 首先對
μ
\mu
μ 的極值可以得到 :
μ
M
L
E
=
a
r
g
m
a
x
μ
log
?
p
(
X
∣
θ
)
=
a
r
g
m
a
x
μ
∑
i
=
1
N
(
x
i
?
μ
)
2
\mu_{MLE}=\mathop{argmax}\limits _{\mu}\log p(X|\theta)=\mathop{argmax}\limits _{\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}
μMLE?=μargmax?logp(X∣θ)=μargmax?i=1∑N?(xi??μ)2 于是:
?
?
μ
∑
i
=
1
N
(
x
i
?
μ
)
2
=
0
?
μ
M
L
E
=
1
N
∑
i
=
1
N
x
i
\frac{\partial}{\partial\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}=0\longrightarrow\mu_{MLE}=\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}
?μ??i=1∑N?(xi??μ)2=0?μMLE?=N1?i=1∑N?xi?
μ
M
L
E
=
1
N
∑
i
=
1
N
x
i
\mu_{MLE}=\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}
μMLE?=N1?i=1∑N?xi?
σ
M
L
E
2
=
1
N
∑
i
=
1
N
(
x
i
?
μ
)
2
\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}
σMLE2?=N1?i=1∑N?(xi??μ)2
其次對
θ
\theta
θ 中的另一個參數
σ
\sigma
σ? ,有:
σ
M
L
E
=
a
r
g
m
a
x
σ
log
?
p
(
X
∣
θ
)
=
a
r
g
m
a
x
σ
∑
i
=
1
N
[
?
log
?
σ
?
1
2
σ
2
(
x
i
?
μ
)
2
]
=
a
r
g
m
i
n
σ
∑
i
=
1
N
[
log
?
σ
+
1
2
σ
2
(
x
i
?
μ
)
2
]
\begin{align} \sigma_{MLE}=\mathop{argmax}\limits _{\sigma}\log p(X|\theta)&=\mathop{argmax}\limits _{\sigma}\sum\limits _{i=1}^{N}[-\log\sigma-\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]\nonumber\\ &=\mathop{argmin}\limits _{\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}] \end{align}
σMLE?=σargmax?logp(X∣θ)?=σargmax?i=1∑N?[?logσ?2σ21?(xi??μ)2]=σargmin?i=1∑N?[logσ+2σ21?(xi??μ)2]?? 于是:
?
?
σ
∑
i
=
1
N
[
log
?
σ
+
1
2
σ
2
(
x
i
?
μ
)
2
]
=
0
?
σ
M
L
E
2
=
1
N
∑
i
=
1
N
(
x
i
?
μ
)
2
\frac{\partial}{\partial\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]=0\longrightarrow\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}
?σ??i=1∑N?[logσ+2σ21?(xi??μ)2]=0?σMLE2?=N1?i=1∑N?(xi??μ)2 值得注意的是,上面的推導中,首先對
μ
\mu
μ 求 MLE, 然后利用這個結果求
σ
M
L
E
\sigma_{MLE}
σMLE? ,因此可以預期的是對數據集求期望時
E
D
[
μ
M
L
E
]
\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]
ED?[μMLE?] 是無偏差的:
E
D
[
μ
M
L
E
]
=
E
D
[
1
N
∑
i
=
1
N
x
i
]
=
1
N
∑
i
=
1
N
E
D
[
x
i
]
=
μ
\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\frac{1}{N}\sum\limits _{i=1}^{N}\mathbb{E}_{\mathcal{D}}[x_{i}]=\mu
ED?[μMLE?]=ED?[N1?i=1∑N?xi?]=N1?i=1∑N?ED?[xi?]=μ 但是當對
σ
M
L
E
\sigma_{MLE}
σMLE? 求 期望的時候由于使用了單個數據集的
μ
M
L
E
\mu_{MLE}
μMLE?,因此對所有數據集求期望的時候我們會發(fā)現
σ
M
L
E
\sigma_{MLE}
σMLE?? 是 有偏的:
? 下面公式推導
σ
M
L
E
2
=
1
N
∑
i
=
1
N
(
x
i
?
μ
M
L
E
)
2
\sigma_{MLE}^{2} =\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2}
σMLE2?=N1?i=1∑N?(xi??μMLE?)2
有偏的原因是因為用樣本均值代替總體均值,假如本身系統(tǒng)設計時均值是已知的。只用mle算方差的話,除以n也還是無偏估計
E
D
[
σ
M
L
E
2
]
=
E
D
[
1
N
∑
i
=
1
N
(
x
i
?
μ
M
L
E
)
2
]
=
E
D
[
1
N
∑
i
=
1
N
(
x
i
2
?
2
x
i
μ
M
L
E
+
μ
M
L
E
2
)
=
E
D
[
1
N
∑
i
=
1
N
x
i
2
?
μ
M
L
E
2
]
=
E
D
[
1
N
∑
i
=
1
N
x
i
2
?
μ
2
+
μ
2
?
μ
M
L
E
2
]
=
E
D
[
1
N
∑
i
=
1
N
x
i
2
?
μ
2
]
?
E
D
[
μ
M
L
E
2
?
μ
2
]
=
σ
2
?
(
E
D
[
μ
M
L
E
2
]
?
μ
2
)
=
σ
2
?
(
E
D
[
μ
M
L
E
2
]
?
E
D
2
[
μ
M
L
E
]
)
=
σ
2
?
V
a
r
[
μ
M
L
E
]
=
σ
2
?
V
a
r
[
1
N
∑
i
=
1
N
x
i
]
=
σ
2
?
1
N
2
∑
i
=
1
N
V
a
r
[
x
i
]
=
N
?
1
N
σ
2
\begin{align} \mathbb{E}_{\mathcal{D}}[\sigma_{MLE}^{2}]&=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}^{2}-2x_{i}\mu_{MLE}+\mu_{MLE}^{2})\nonumber \\&=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu_{MLE}^{2}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu^{2}+\mu^{2}-\mu_{MLE}^{2}]\nonumber\\ &= \mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu^{2}]-\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}-\mu^{2}]=\sigma^{2}-(\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}]-\mu^{2})\nonumber\\&=\sigma^{2}-(\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}]-\mathbb{E}_{\mathcal{D}}^{2}[\mu_{MLE}])=\sigma^{2}-Var[\mu_{MLE}]\nonumber\\&=\sigma^{2}-Var[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\sigma^{2}-\frac{1}{N^{2}}\sum\limits _{i=1}^{N}Var[x_{i}]=\frac{N-1}{N}\sigma^{2} \end{align}
ED?[σMLE2?]?=ED?[N1?i=1∑N?(xi??μMLE?)2]=ED?[N1?i=1∑N?(xi2??2xi?μMLE?+μMLE2?)=ED?[N1?i=1∑N?xi2??μMLE2?]=ED?[N1?i=1∑N?xi2??μ2+μ2?μMLE2?]=ED?[N1?i=1∑N?xi2??μ2]?ED?[μMLE2??μ2]=σ2?(ED?[μMLE2?]?μ2)=σ2?(ED?[μMLE2?]?ED2?[μMLE?])=σ2?Var[μMLE?]=σ2?Var[N1?i=1∑N?xi?]=σ2?N21?i=1∑N?Var[xi?]=NN?1?σ2??
所以:
σ
^
2
=
1
N
?
1
∑
i
=
1
N
(
x
i
?
μ
)
2
\hat{\sigma}^{2}=\frac{1}{N-1}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}
σ^2=N?11?i=1∑N?(xi??μ)2
P4 (系列二) 數學基礎-概率-高斯分布2 極大似然估計 有偏vs無偏
2.3.2 多維情況
P5 (系列二) 數學基礎-概率-高斯分布3 從概率密度角度觀察
多維高斯分布(Multivariate Gaussian Distribution,MGD)的采樣過程是什么樣的?-CSDN博客 pdf: probability density function 即為概率密度函數
多維高斯分布表達式為:
p
(
x
∣
μ
,
Σ
)
=
1
(
2
π
)
p
/
2
∣
Σ
∣
1
/
2
e
?
1
2
(
x
?
μ
)
T
Σ
?
1
(
x
?
μ
)
p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}
p(x∣μ,Σ)=(2π)p/2∣Σ∣1/21?e?21?(x?μ)TΣ?1(x?μ) 其中
x
,
μ
∈
R
p
,
Σ
∈
R
p
×
p
x,\mu\in\mathbb{R}^{p},\Sigma\in\mathbb{R}^{p\times p}
x,μ∈Rp,Σ∈Rp×p ,
Σ
\Sigma
Σ 為協(xié)方差矩陣,一般而言也是半正定矩陣。這里我們只考慮正定矩陣。首先我們處理指數上的數字,指數上的數字可以記為
x
x
x 和
μ
\mu
μ 之間的馬氏距離。對于對稱的協(xié)方差矩陣可進行特征值分解,
這里二次型U當作是正交矩陣,那么u的逆等于u的轉置
Σ
=
U
Λ
U
T
=
(
u
1
,
u
2
,
?
,
u
p
)
d
i
a
g
(
λ
i
)
(
u
1
,
u
2
,
?
,
u
p
)
T
=
∑
i
=
1
p
u
i
λ
i
u
i
T
\Sigma=U\Lambda U^{T}=(u_{1},u_{2},\cdots,u_{p})diag(\lambda_{i})(u_{1},u_{2},\cdots,u_{p})^{T}=\sum\limits _{i=1}^{p}u_{i}\lambda_{i}u_{i}^{T}
Σ=UΛUT=(u1?,u2?,?,up?)diag(λi?)(u1?,u2?,?,up?)T=i=1∑p?ui?λi?uiT?? ,于是:
Σ
?
1
=
∑
i
=
1
p
u
i
1
λ
i
u
i
T
\Sigma^{-1}=\sum\limits _{i=1}^{p}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T}
Σ?1=i=1∑p?ui?λi?1?uiT?
Δ
=
(
x
?
μ
)
T
Σ
?
1
(
x
?
μ
)
=
∑
i
=
1
p
(
x
?
μ
)
T
u
i
1
λ
i
u
i
T
(
x
?
μ
)
=
∑
i
=
1
p
y
i
2
λ
i
\Delta=(x-\mu)^{T}\Sigma^{-1}(x-\mu)=\sum\limits _{i=1}^{p}(x-\mu)^{T}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T}(x-\mu)=\sum\limits _{i=1}^{p}\frac{y_{i}^{2}}{\lambda_{i}}
Δ=(x?μ)TΣ?1(x?μ)=i=1∑p?(x?μ)Tui?λi?1?uiT?(x?μ)=i=1∑p?λi?yi2??
我們注意到
y
i
y_{i}
yi? 是
x
?
μ
x-\mu
x?μ 在特征向量
u
i
u_{i}
ui? 上的投影長度,因此上式子就是
Δ
\Delta
Δ 取不同值時的同心橢圓。
(
x
?
μ
)
T
Σ
?
1
(
x
?
μ
)
即為
x
與
μ
馬式距離
(x-\mu)^{T}\Sigma^{-1}(x-\mu) 即為x與\mu馬式距離
(x?μ)TΣ?1(x?μ)即為x與μ馬式距離
P6 (系列二) 數學基礎-概率-高斯分布4 局限性
下面我們看多維高斯模型在實際應用時的兩個問題 高斯定理的局限性
參數
Σ
,
μ
\Sigma,\mu
Σ,μ 的自由度為
O
(
p
2
)
O(p^{2})
O(p2) 對于維度很高的數據其自由度太高。解決方案:高自由度的來源是
Σ
\Sigma
Σ 有
p
(
p
+
1
)
2
\frac{p(p+1)}{2}
2p(p+1)? 個自由參數 —> 由于是 PxP 對稱矩陣, 首先 (PxP-P) /2 將矩陣對稱軸挖去,且將對稱的部分除以2,然后加上對稱軸。 可以假設其是對角矩陣,甚至在各向同性假設中假設其對角線上的元素都相同。前一種的算法有 Factor Analysis,后一種有概率 PCA(p-PCA) 。 第二個問題是單個高斯分布是單峰的,對有多個峰的數據分布不能得到好的結果。解決方案:高斯混合GMM 模型(多個高斯進行混合)。
P7 系列二 數學基礎-概率-高斯分布5- 求邊緣概率及條件概率
下面對多維高斯分布的常用定理進行介紹。
我們記
x
=
(
x
1
,
x
2
,
?
,
x
p
)
T
=
(
x
a
,
m
×
1
,
x
b
,
n
×
1
)
T
,
μ
=
(
μ
a
,
m
×
1
,
μ
b
,
n
×
1
)
,
Σ
=
(
Σ
a
a
Σ
a
b
Σ
b
a
Σ
b
b
)
x=(x_1, x_2,\cdots,x_p)^T=(x_{a,m\times 1}, x_{b,n\times1})^T,\mu=(\mu_{a,m\times1}, \mu_{b,n\times1}),\Sigma=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}
x=(x1?,x2?,?,xp?)T=(xa,m×1?,xb,n×1?)T,μ=(μa,m×1?,μb,n×1?),Σ=(Σaa?Σba??Σab?Σbb??),已知
x
~
N
(
μ
,
Σ
)
x\sim\mathcal{N}(\mu,\Sigma)
x~N(μ,Σ)?。
首先是一個高斯分布的定理:
定理:已知
x
~
N
(
μ
,
Σ
)
,
y
~
A
x
+
b
x\sim\mathcal{N}(\mu,\Sigma), y\sim Ax+b
x~N(μ,Σ),y~Ax+b,那么
y
~
N
(
A
μ
+
b
,
A
Σ
A
T
)
y\sim\mathcal{N}(A\mu+b, A\Sigma A^T)
y~N(Aμ+b,AΣAT)。
證明:
E
[
y
]
=
E
[
A
x
+
b
]
=
A
E
[
x
]
+
b
=
A
μ
+
b
\mathbb{E}[y]=\mathbb{E}[Ax+b]=A\mathbb{E}[x]+b=A\mu+b
E[y]=E[Ax+b]=AE[x]+b=Aμ+b,
V
a
r
[
y
]
=
V
a
r
[
A
x
+
b
]
=
V
a
r
[
A
x
]
=
A
?
V
a
r
[
x
]
?
A
T
Var[y]=Var[Ax+b]=Var[Ax]=A\cdot Var[x]\cdot A^T
Var[y]=Var[Ax+b]=Var[Ax]=A?Var[x]?AT。
下面利用這個定理得到
p
(
x
a
)
,
p
(
x
b
)
,
p
(
x
a
∣
x
b
)
,
p
(
x
b
∣
x
a
)
p(x_a),p(x_b),p(x_a|x_b),p(x_b|x_a)
p(xa?),p(xb?),p(xa?∣xb?),p(xb?∣xa?) 這四個量。
x
a
=
(
I
m
×
m
O
m
×
n
)
)
(
x
a
x
b
)
x_a=\begin{pmatrix}\mathbb{I}_{m\times m}&\mathbb{O}_{m\times n})\end{pmatrix}\begin{pmatrix}x_a\\x_b\end{pmatrix}
xa?=(Im×m??Om×n?)?)(xa?xb??),代入定理中得到: 其中
I
m
×
m
{I}_{m\times m}
Im×m?為單位矩陣
E
[
x
a
]
=
(
I
O
)
(
μ
a
μ
b
)
=
μ
a
V
a
r
[
x
a
]
=
(
I
O
)
(
Σ
a
a
Σ
a
b
Σ
b
a
Σ
b
b
)
(
I
O
)
=
Σ
a
a
\mathbb{E}[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}=\mu_a\\ Var[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}\mathbb{I}\\\mathbb{O}\end{pmatrix}=\Sigma_{aa}
E[xa?]=(I?O?)(μa?μb??)=μa?Var[xa?]=(I?O?)(Σaa?Σba??Σab?Σbb??)(IO?)=Σaa? 所以
x
a
~
N
(
μ
a
,
Σ
a
a
)
x_a\sim\mathcal{N}(\mu_a,\Sigma_{aa})
xa?~N(μa?,Σaa?)。 同樣的,
x
b
~
N
(
μ
b
,
Σ
b
b
)
x_b\sim\mathcal{N}(\mu_b,\Sigma_{bb})
xb?~N(μb?,Σbb?)?。
下面開始條件概率
對于兩個條件概率,我們引入三個量:(下面三個都是構造性變量)
x
b
?
a
=
x
b
?
Σ
b
a
Σ
a
a
?
1
x
a
μ
b
?
a
=
μ
b
?
Σ
b
a
Σ
a
a
?
1
μ
a
Σ
b
b
?
a
=
Σ
b
b
?
Σ
b
a
Σ
a
a
?
1
Σ
a
b
x_{b\cdot a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a\\ \mu_{b\cdot a}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a\\ \Sigma_{bb\cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}
xb?a?=xb??Σba?Σaa?1?xa?μb?a?=μb??Σba?Σaa?1?μa?Σbb?a?=Σbb??Σba?Σaa?1?Σab? 特別的,最后一個式子叫做
Σ
b
b
\Sigma_{bb}
Σbb? 的 Schur Complementary。可以看到:
x
b
?
a
=
(
?
Σ
b
a
Σ
a
a
?
1
I
n
×
n
)
(
x
a
x
b
)
x_{b\cdot a}=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}x_a\\x_b\end{pmatrix}
xb?a?=(?Σba?Σaa?1??In×n??)(xa?xb??) 所以: 下面都是套公式
E
[
x
b
?
a
]
=
(
?
Σ
b
a
Σ
a
a
?
1
I
n
×
n
)
(
μ
a
μ
b
)
=
μ
b
?
a
V
a
r
[
x
b
?
a
]
=
(
?
Σ
b
a
Σ
a
a
?
1
I
n
×
n
)
(
Σ
a
a
Σ
a
b
Σ
b
a
Σ
b
b
)
(
?
Σ
a
a
?
1
Σ
b
a
T
I
n
×
n
)
=
Σ
b
b
?
a
?
?
>
由(
32
)可知
\mathbb{E}[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}=\mu_{b\cdot a}\\ Var[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}-\Sigma_{aa}^{-1}\Sigma_{ba}^T\\\mathbb{I}_{n\times n}\end{pmatrix}=\Sigma_{bb\cdot a} --> 由(32)可知
E[xb?a?]=(?Σba?Σaa?1??In×n??)(μa?μb??)=μb?a?Var[xb?a?]=(?Σba?Σaa?1??In×n??)(Σaa?Σba??Σab?Σbb??)(?Σaa?1?ΣbaT?In×n??)=Σbb?a???>由(32)可知 利用這三個量可以得到
x
b
=
x
b
?
a
+
Σ
b
a
Σ
a
a
?
1
x
a
x_b=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a
xb?=xb?a?+Σba?Σaa?1?xa?。因此:
E
[
x
b
∣
x
a
]
=
μ
b
?
a
+
Σ
b
a
Σ
a
a
?
1
x
a
\mathbb{E}[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a
E[xb?∣xa?]=μb?a?+Σba?Σaa?1?xa?
V
a
r
[
x
b
∣
x
a
]
=
Σ
b
b
?
a
Var[x_b|x_a]=\Sigma_{bb\cdot a}
Var[xb?∣xa?]=Σbb?a? 這里同樣用到了定理。 同樣:
x
a
?
b
=
x
a
?
Σ
a
b
Σ
b
b
?
1
x
b
μ
a
?
b
=
μ
a
?
Σ
a
b
Σ
b
b
?
1
μ
b
Σ
a
a
?
b
=
Σ
a
a
?
Σ
a
b
Σ
b
b
?
1
Σ
b
a
x_{a\cdot b}=x_a-\Sigma_{ab}\Sigma_{bb}^{-1}x_b\\ \mu_{a\cdot b}=\mu_a-\Sigma_{ab}\Sigma_{bb}^{-1}\mu_b\\ \Sigma_{aa\cdot b}=\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba}
xa?b?=xa??Σab?Σbb?1?xb?μa?b?=μa??Σab?Σbb?1?μb?Σaa?b?=Σaa??Σab?Σbb?1?Σba? 所以:
E
[
x
a
∣
x
b
]
=
μ
a
?
b
+
Σ
a
b
Σ
b
b
?
1
x
b
\mathbb{E}[x_a|x_b]=\mu_{a\cdot b}+\Sigma_{ab}\Sigma_{bb}^{-1}x_b
E[xa?∣xb?]=μa?b?+Σab?Σbb?1?xb?
V
a
r
[
x
a
∣
x
b
]
=
Σ
a
a
?
b
Var[x_a|x_b]=\Sigma_{aa\cdot b}
Var[xa?∣xb?]=Σaa?b?
注意,此時求的是Xb關于Xa的條件概率分布,因此這里認為Xa已知Xb跟Xa關系的那個式子,就算是體現了Xa與Xb的一個條件關系,對給定的Xa,有固定映射的Xb,所以此時E(Xb)為給定條件Xa下的E(Xb),亦即E(Xb|Xa)了。
P8 系列二 數學基礎-概率-高斯分布6 求聯合概率分布
下面利用上邊四個量,求解線性模型:
定理 已知
x
~
N
(
μ
,
Σ
)
,
y
~
A
x
+
b
x\sim\mathcal{N}(\mu,\Sigma), y\sim Ax+b
x~N(μ,Σ),y~Ax+b,那么
y
~
N
(
A
μ
+
b
,
A
Σ
A
T
)
y\sim\mathcal{N}(A\mu+b, A\Sigma A^T)
y~N(Aμ+b,AΣAT)?。
已知:
p
(
x
)
=
N
(
μ
,
Λ
?
1
)
,
p
(
y
∣
x
)
=
N
(
A
x
+
b
,
L
?
1
)
p(x)=\mathcal{N}(\mu,\Lambda^{-1}),p(y|x)=\mathcal{N}(Ax+b,L^{-1})
p(x)=N(μ,Λ?1),p(y∣x)=N(Ax+b,L?1),求解:
p
(
y
)
,
p
(
x
∣
y
)
p(y),p(x|y)
p(y),p(x∣y)。
解:==令
y
=
A
x
+
b
+
?
,
?
~
N
(
0
,
L
?
1
)
y=Ax+b+\epsilon,\epsilon\sim\mathcal{N}(0,L^{-1})
y=Ax+b+?,?~N(0,L?1),==所以
E
[
y
]
=
E
[
A
x
+
b
+
?
]
=
A
μ
+
b
\mathbb{E}[y]=\mathbb{E}[Ax+b+\epsilon]=A\mu+b
E[y]=E[Ax+b+?]=Aμ+b,
V
a
r
[
y
]
=
A
Λ
?
1
A
T
+
L
?
1
Var[y]=A \Lambda^{-1}A^T+L^{-1}
Var[y]=AΛ?1AT+L?1,因此:
p
(
y
)
=
N
(
A
μ
+
b
,
L
?
1
+
A
Λ
?
1
A
T
)
p(y)=\mathcal{N}(A\mu+b,L^{-1}+A\Lambda^{-1}A^T)
p(y)=N(Aμ+b,L?1+AΛ?1AT) 引入
z
=
(
x
y
)
z=\begin{pmatrix}x\\y\end{pmatrix}
z=(xy?),我們可以得到
C
o
v
[
x
,
y
]
=
E
[
(
x
?
E
[
x
]
)
(
y
?
E
[
y
]
)
T
]
Cov[x,y]=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T]
Cov[x,y]=E[(x?E[x])(y?E[y])T]。對于這個協(xié)方差可以直接計算:
C
o
v
(
x
,
y
)
=
E
[
(
x
?
μ
)
(
A
x
?
A
μ
+
?
)
T
]
=
E
[
(
x
?
μ
)
(
x
?
μ
)
T
A
T
]
=
V
a
r
[
x
]
A
T
=
Λ
?
1
A
T
\begin{align} Cov(x,y)&=\mathbb{E}[(x-\mu)(Ax-A\mu+\epsilon)^T]=\mathbb{E}[(x-\mu)(x-\mu)^TA^T]=Var[x]A^T=\Lambda^{-1}A^T \end{align}
Cov(x,y)?=E[(x?μ)(Ax?Aμ+?)T]=E[(x?μ)(x?μ)TAT]=Var[x]AT=Λ?1AT?? 注意到協(xié)方差矩陣的對稱性,所以
p
(
z
)
=
N
(
μ
A
μ
+
b
)
,
(
Λ
?
1
Λ
?
1
A
T
A
Λ
?
1
L
?
1
+
A
Λ
?
1
A
T
)
)
p(z)=\mathcal{N}\begin{pmatrix}\mu\\A\mu+b\end{pmatrix},\begin{pmatrix}\Lambda^{-1}&\Lambda^{-1}A^T\\A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T\end{pmatrix})
p(z)=N(μAμ+b?),(Λ?1AΛ?1?Λ?1ATL?1+AΛ?1AT?))。根據之前的公式,我們可以得到:
E
[
x
∣
y
]
=
μ
+
Λ
?
1
A
T
(
L
?
1
+
A
Λ
?
1
A
T
)
?
1
(
y
?
A
μ
?
b
)
\mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b)
E[x∣y]=μ+Λ?1AT(L?1+AΛ?1AT)?1(y?Aμ?b)
V
a
r
[
x
∣
y
]
=
Λ
?
1
?
Λ
?
1
A
T
(
L
?
1
+
A
Λ
?
1
A
T
)
?
1
A
Λ
?
1
Var[x|y]=\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1}
Var[x∣y]=Λ?1?Λ?1AT(L?1+AΛ?1AT)?1AΛ?1
柚子快報激活碼778899分享:機器學習數學公式推導之高斯分布
文章鏈接
本文內容根據網絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉載請注明,如有侵權,聯系刪除。