欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報邀請碼778899分享:論文閱讀 ESVC論文筆記

柚子快報邀請碼778899分享:論文閱讀 ESVC論文筆記

http://yzkb.51969.com/

ESVC: COMBINING ADAPTIVE STYLE FUSION AND MULTI-LEVEL FEATURE DISENTANGLEMENT FOR EXPRESSIVE SINGING VOICE CONVERSION閱讀筆記

發(fā)現(xiàn)問題

雖然SVC在自然度和相似度方面都取得了很好的效果,但音頻中除了歌手身份之外,情感表達也是傳遞歌手感情和態(tài)度的必要條件,現(xiàn)有的模型在情感表達上還有待提升。 歌曲的情感元素與歌手的身份是非常糾結(jié)的,所以加強一個可能會削弱另一個,導致整體表現(xiàn)力的缺乏。因此,有必要引入身份聚類損失來抵消情感聚類帶來的身份偏見。

解決問題

提出一種表達性的SVC框架即ESVC,它可以同時轉(zhuǎn)換歌手的身份和情感風格, ESVC結(jié)合了風格融合和特征分離的思想,力求在情感風格和歌手身份方面最大限度地忠實 具體實現(xiàn): 采用自適應實例歸—化(AdalN)取代添加功能,融合內(nèi)容特征和風格特征??紤]到信息泄露的可能性,引入了兩種面向解糾纏的方法來解耦不同種類的歌唱特征。(1)互信息(MI)用于降低語言內(nèi)容、基頻(FO)和歌手、情感表達特征之間的相關性。(2)對抗性三聯(lián)體損失則用于解耦身份和情感元素。

模型結(jié)構(gòu)

選擇ContentVec作為內(nèi)容編碼器,基于ppg的ContentVec模型有望貢獻更多的純內(nèi)容信息,包含更少的非語言信息。基于hifi-gan的生成器,它以內(nèi)容變量z、表達嵌入g和基頻特征f0為條件,重構(gòu)原始波形x。

實現(xiàn)方法

1、AdaIN ResBlock模塊 目的:為了充分融合內(nèi)容特征和風格特征,在后驗編碼器、歸—化流、FO解碼器和解碼器四個模塊中引入了兩個具有自適應實例歸-化(AdalN)殘塊。 其中,c和g分別表示單通道的內(nèi)容特征映射和表達嵌入。μ(·)和σ(·)表示通道均值和標準差。通過線性投影從g中得到調(diào)制項Lσ(g)和加法項Lμ(g),作為風格遷移的影響因素。通過它,在每個通道中,可以將風格特征有機地注入到內(nèi)容特征中。此外,殘塊的整合可以進一步增加轉(zhuǎn)換歌曲的自然度和風格表現(xiàn)力。 2、Mutual Information 損失 MI損失用于減少內(nèi)容表示xc、歌手與情感表示g和FO表示FO之間的相互依賴關系。利用一種對抗的思想,使各表征解耦更干凈。變分對比對數(shù)比上界(vCLUB)來測量MI。 I(X, Y):表示隨機變量X和Y之間的互信息。I(X, Y)的值越小,表示X和Y之間的X相互依賴程度越低,即它們之間的相關性越小。p(X,Y):表示X和Y的聯(lián)合概率分布。

q

θ

(

Y

1

X

)

q\theta(Y_1X)

qθ(Y1?X):表示給定×時, Y的條件概率分布,它是一個變分分布,用來近似真實X的條件概率分布 p(Y | X)。p(X)和p(Y):分別表示X和Y的邊緣概率分布?;バ畔(X, Y)等于在X和Y的聯(lián)合分布下,給定X時, Y的條件概率分布的對數(shù)X期望值,減去X和Y的邊緣分布下, Y的條件概率分布的對數(shù)期望值。 公式3 是公式 2 的無偏估計,互信息^I(X, Y)等于所有樣本對(xi, yi)和(xi, yj)的對數(shù)概率比值之和,再除以樣本數(shù)量的平方。它通過樣本數(shù)據(jù)來近似計算兩個隨機變量之間的互信息,從而衡量它們之間的相關性。 其中

I

^

(

x

c

,

g

)

\widehat I(x_ {c} , g)

I

(xc?,g) :表示內(nèi)容表示xc和表達表示g之間的互信息。

I

^

(

x

c

,

f

o

)

\widehat I(x_c, fo)

I

(xc?,fo):表示內(nèi)容表示 xc 和音高表示 f0 之間的互信息。

I

^

(

g

,

f

o

)

\widehat I(g, fo)

I

(g,fo):表示表達表示g和音高表示fo之間的互信息。 互信息損失LMI等于內(nèi)容表示、表達表示和音高表示兩兩之間的互信息之和。通過最小化 LMI,可以降低這些唱歌特征表示之間的相關性,從而實現(xiàn)特征解耦。 3、Adversarial Triplet 損失 為了解決不能很好地將兩種不同類型的表達元素(歌手身份和情感風格)同時轉(zhuǎn)換。以往的研究旨在將身份與風格直接解耦,但這種解耦只是利用了同一樣本的特征。 在融合前將情感嵌入和身份嵌入連接起來,然后對不同樣本之間的混合嵌入進行聚類。我們采用三元損失作為聚類的向?qū)А?/p>

三元組損失: 其中

a

i

a_i

ai?,

p

i

p_i

pi?,

n

i

n_i

ni?構(gòu)成兩個三元組,表示第i批的嵌入對,分別包括歌手空間和情感空間的錨點樣本、正樣本和負樣本。d(.)為L1距離。

α

1

\alpha_1

α1?,

α

2

\alpha_2

α2?是在正對和負對之間的距離邊界,小于0的一個值,不然當

a

i

a_i

ai?,

p

i

p_i

pi?,

n

i

n_i

ni?都等0時,既滿足條件,但都等于0時不符合要求。它們在正對和負對之間強制執(zhí)行距離界限。通過對歌手身份和情感風格的對抗性三重體Lsin和Lemo的損失,可以保證所有正對之間的距離比負對之間的距離要小。 總損失: 總損失函數(shù)包括:對抗損失Ladv(G)和Ladv(D), KL損失Lkl, mel和FO重構(gòu)損失Lrec和Lfo,特征匹配損失Lfm(G),另一部分是由權(quán)值入MI控制的互信息損失LMI。最后1是對抗性三聯(lián)體損失,包括情緒導向損失Lemo和歌手導向損失Lsin.

柚子快報邀請碼778899分享:論文閱讀 ESVC論文筆記

http://yzkb.51969.com/

精彩內(nèi)容

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/19392857.html

發(fā)布評論

您暫未設置收款碼

請在主題配置——文章設置里上傳

掃描二維碼手機訪問

文章目錄