柚子快報(bào)邀請(qǐng)碼778899分享:VideoMoCo論文筆記
柚子快報(bào)邀請(qǐng)碼778899分享:VideoMoCo論文筆記
MoCo 方法回顧
把對(duì)比學(xué)習(xí)看成了一個(gè)分類問題,用當(dāng)前圖像上提取到的 feature
q
q
q 與當(dāng)前圖像進(jìn)行 augmentation 得到的 feature
k
+
k_+
k+? 以及其他圖像上提取到的 feature
k
k
k 分別計(jì)算內(nèi)積,內(nèi)積的結(jié)果作為分類概率,并用交叉熵?fù)p失函數(shù)進(jìn)行優(yōu)化:
L
q
=
?
log
?
exp
?
(
q
?
k
+
/
τ
)
∑
i
=
0
K
exp
?
(
q
?
k
i
/
τ
)
L_q=-\log{\frac{\exp(q\cdot k_+/\tau)}{\sum_{i=0}^K\exp(q\cdot k_i/\tau)}}
Lq?=?log∑i=0K?exp(q?ki?/τ)exp(q?k+?/τ)? 本質(zhì)是一個(gè)分類問題,希望同一張圖片經(jīng)過不同 augmentation 提取的特征能分到一類,不同的圖片提取到的特征分到不同的類。 訓(xùn)練過程中,query_encoder 是直接訓(xùn)練的,key_encoder 是根據(jù) query_encoder 逐漸更新的:
θ
k
←
m
θ
k
+
(
1
?
m
)
θ
q
\theta_k\leftarrow m\theta_k+(1-m)\theta_q
θk?←mθk?+(1?m)θq? 這是為了保證 key 盡量穩(wěn)定,否則如果 key_encoder 變化太快的話,提取到的 feature 差異就會(huì)很大,再去比較 feature 是不是一致就沒有意義了,因?yàn)榫W(wǎng)絡(luò)都變了。
VideoMoCo 的改進(jìn)
Temporally Adversarial Learning
該模塊可以看作在時(shí)間維度上進(jìn)行的 augmentation,通過對(duì)抗訓(xùn)練使 encoder 在時(shí)間維度上更穩(wěn)定。生成器預(yù)測(cè)每一幀的重要性,并且刪掉其中 25%最重要的幀,判別器希望抽幀后提取的特征與抽幀前相同。這里與一般的 GAN 思路略有差別,VideoMoCo 里生成器希望生成的視頻盡量不同,判別器希望學(xué)到的特征盡量相同。
Temporal Decay
越早計(jì)算的 key,采用的模型與 query 差距越大,因此 VideoMoCo 根據(jù) key 進(jìn)入隊(duì)列的時(shí)間,逐步降低了 key 的權(quán)重:
L
q
=
?
log
?
exp
?
(
q
?
k
+
/
τ
)
∑
i
=
0
K
t
i
?
exp
?
(
q
?
k
i
/
τ
)
L_q=-\log{\frac{\exp(q\cdot k_+/\tau)}{\sum_{i=0}^Kt^i\cdot\exp(q\cdot k_i/\tau)}}
Lq?=?log∑i=0K?ti?exp(q?ki?/τ)exp(q?k+?/τ)?
Experiments
柚子快報(bào)邀請(qǐng)碼778899分享:VideoMoCo論文筆記
相關(guān)文章
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。