柚子快報(bào)邀請(qǐng)碼778899分享：VideoMoCo論文筆記

Zando跨境時(shí)尚坊綜合2025-05-05390

http://yzkb.51969.com/

MoCo 方法回顧

把對(duì)比學(xué)習(xí)看成了一個(gè)分類問題，用當(dāng)前圖像上提取到的 feature

q 與當(dāng)前圖像進(jìn)行 augmentation 得到的 feature

k_+

k+? 以及其他圖像上提取到的 feature

k 分別計(jì)算內(nèi)積，內(nèi)積的結(jié)果作為分類概率，并用交叉熵?fù)p失函數(shù)進(jìn)行優(yōu)化：

log

exp

(

)

∑

exp

(

)

L_q=-\log{\frac{\exp(q\cdot k_+/\tau)}{\sum_{i=0}^K\exp(q\cdot k_i/\tau)}}

Lq?=?log∑i=0K?exp(q?ki?/τ)exp(q?k+?/τ)? 本質(zhì)是一個(gè)分類問題，希望同一張圖片經(jīng)過不同 augmentation 提取的特征能分到一類，不同的圖片提取到的特征分到不同的類。訓(xùn)練過程中，query_encoder 是直接訓(xùn)練的，key_encoder 是根據(jù) query_encoder 逐漸更新的：

←

(

)

\theta_k\leftarrow m\theta_k+(1-m)\theta_q

θk?←mθk?+(1?m)θq? 這是為了保證 key 盡量穩(wěn)定，否則如果 key_encoder 變化太快的話，提取到的 feature 差異就會(huì)很大，再去比較 feature 是不是一致就沒有意義了，因?yàn)榫W(wǎng)絡(luò)都變了。

VideoMoCo 的改進(jìn)

Temporally Adversarial Learning

該模塊可以看作在時(shí)間維度上進(jìn)行的 augmentation，通過對(duì)抗訓(xùn)練使 encoder 在時(shí)間維度上更穩(wěn)定。生成器預(yù)測(cè)每一幀的重要性，并且刪掉其中 25%最重要的幀，判別器希望抽幀后提取的特征與抽幀前相同。這里與一般的 GAN 思路略有差別，VideoMoCo 里生成器希望生成的視頻盡量不同，判別器希望學(xué)到的特征盡量相同。

Temporal Decay

越早計(jì)算的 key，采用的模型與 query 差距越大，因此 VideoMoCo 根據(jù) key 進(jìn)入隊(duì)列的時(shí)間，逐步降低了 key 的權(quán)重：

log

exp

(

)

∑

exp

(

)

L_q=-\log{\frac{\exp(q\cdot k_+/\tau)}{\sum_{i=0}^Kt^i\cdot\exp(q\cdot k_i/\tau)}}

Lq?=?log∑i=0K?ti?exp(q?ki?/τ)exp(q?k+?/τ)?