柚子快報邀請碼778899分享:論文閱讀 ESVC論文筆記
柚子快報邀請碼778899分享:論文閱讀 ESVC論文筆記
ESVC: COMBINING ADAPTIVE STYLE FUSION AND MULTI-LEVEL FEATURE DISENTANGLEMENT FOR EXPRESSIVE SINGING VOICE CONVERSION閱讀筆記
發(fā)現(xiàn)問題
雖然SVC在自然度和相似度方面都取得了很好的效果,但音頻中除了歌手身份之外,情感表達也是傳遞歌手感情和態(tài)度的必要條件,現(xiàn)有的模型在情感表達上還有待提升。 歌曲的情感元素與歌手的身份是非常糾結(jié)的,所以加強一個可能會削弱另一個,導致整體表現(xiàn)力的缺乏。因此,有必要引入身份聚類損失來抵消情感聚類帶來的身份偏見。
解決問題
提出一種表達性的SVC框架即ESVC,它可以同時轉(zhuǎn)換歌手的身份和情感風格, ESVC結(jié)合了風格融合和特征分離的思想,力求在情感風格和歌手身份方面最大限度地忠實 具體實現(xiàn): 采用自適應實例歸—化(AdalN)取代添加功能,融合內(nèi)容特征和風格特征??紤]到信息泄露的可能性,引入了兩種面向解糾纏的方法來解耦不同種類的歌唱特征。(1)互信息(MI)用于降低語言內(nèi)容、基頻(FO)和歌手、情感表達特征之間的相關性。(2)對抗性三聯(lián)體損失則用于解耦身份和情感元素。
模型結(jié)構(gòu)
選擇ContentVec作為內(nèi)容編碼器,基于ppg的ContentVec模型有望貢獻更多的純內(nèi)容信息,包含更少的非語言信息。基于hifi-gan的生成器,它以內(nèi)容變量z、表達嵌入g和基頻特征f0為條件,重構(gòu)原始波形x。
實現(xiàn)方法
1、AdaIN ResBlock模塊 目的:為了充分融合內(nèi)容特征和風格特征,在后驗編碼器、歸—化流、FO解碼器和解碼器四個模塊中引入了兩個具有自適應實例歸-化(AdalN)殘塊。 其中,c和g分別表示單通道的內(nèi)容特征映射和表達嵌入。μ(·)和σ(·)表示通道均值和標準差。通過線性投影從g中得到調(diào)制項Lσ(g)和加法項Lμ(g),作為風格遷移的影響因素。通過它,在每個通道中,可以將風格特征有機地注入到內(nèi)容特征中。此外,殘塊的整合可以進一步增加轉(zhuǎn)換歌曲的自然度和風格表現(xiàn)力。 2、Mutual Information 損失 MI損失用于減少內(nèi)容表示xc、歌手與情感表示g和FO表示FO之間的相互依賴關系。利用一種對抗的思想,使各表征解耦更干凈。變分對比對數(shù)比上界(vCLUB)來測量MI。 I(X, Y):表示隨機變量X和Y之間的互信息。I(X, Y)的值越小,表示X和Y之間的X相互依賴程度越低,即它們之間的相關性越小。p(X,Y):表示X和Y的聯(lián)合概率分布。
q
θ
(
Y
1
X
)
q\theta(Y_1X)
qθ(Y1?X):表示給定×時, Y的條件概率分布,它是一個變分分布,用來近似真實X的條件概率分布 p(Y | X)。p(X)和p(Y):分別表示X和Y的邊緣概率分布?;バ畔(X, Y)等于在X和Y的聯(lián)合分布下,給定X時, Y的條件概率分布的對數(shù)X期望值,減去X和Y的邊緣分布下, Y的條件概率分布的對數(shù)期望值。 公式3 是公式 2 的無偏估計,互信息^I(X, Y)等于所有樣本對(xi, yi)和(xi, yj)的對數(shù)概率比值之和,再除以樣本數(shù)量的平方。它通過樣本數(shù)據(jù)來近似計算兩個隨機變量之間的互信息,從而衡量它們之間的相關性。 其中
I
^
(
x
c
,
g
)
\widehat I(x_ {c} , g)
I
(xc?,g) :表示內(nèi)容表示xc和表達表示g之間的互信息。
I
^
(
x
c
,
f
o
)
\widehat I(x_c, fo)
I
(xc?,fo):表示內(nèi)容表示 xc 和音高表示 f0 之間的互信息。
I
^
(
g
,
f
o
)
\widehat I(g, fo)
I
(g,fo):表示表達表示g和音高表示fo之間的互信息。 互信息損失LMI等于內(nèi)容表示、表達表示和音高表示兩兩之間的互信息之和。通過最小化 LMI,可以降低這些唱歌特征表示之間的相關性,從而實現(xiàn)特征解耦。 3、Adversarial Triplet 損失 為了解決不能很好地將兩種不同類型的表達元素(歌手身份和情感風格)同時轉(zhuǎn)換。以往的研究旨在將身份與風格直接解耦,但這種解耦只是利用了同一樣本的特征。 在融合前將情感嵌入和身份嵌入連接起來,然后對不同樣本之間的混合嵌入進行聚類。我們采用三元損失作為聚類的向?qū)А?/p>
三元組損失: 其中
a
i
a_i
ai?,
p
i
p_i
pi?,
n
i
n_i
ni?構(gòu)成兩個三元組,表示第i批的嵌入對,分別包括歌手空間和情感空間的錨點樣本、正樣本和負樣本。d(.)為L1距離。
α
1
\alpha_1
α1?,
α
2
\alpha_2
α2?是在正對和負對之間的距離邊界,小于0的一個值,不然當
a
i
a_i
ai?,
p
i
p_i
pi?,
n
i
n_i
ni?都等0時,既滿足條件,但都等于0時不符合要求。它們在正對和負對之間強制執(zhí)行距離界限。通過對歌手身份和情感風格的對抗性三重體Lsin和Lemo的損失,可以保證所有正對之間的距離比負對之間的距離要小。 總損失: 總損失函數(shù)包括:對抗損失Ladv(G)和Ladv(D), KL損失Lkl, mel和FO重構(gòu)損失Lrec和Lfo,特征匹配損失Lfm(G),另一部分是由權(quán)值入MI控制的互信息損失LMI。最后1是對抗性三聯(lián)體損失,包括情緒導向損失Lemo和歌手導向損失Lsin.
柚子快報邀請碼778899分享:論文閱讀 ESVC論文筆記
精彩內(nèi)容
本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。