VITS是一種結(jié)合變分推理、標(biāo)準(zhǔn)化流和對抗訓(xùn)練的端到端文本到語音(TTS)模型,使用預(yù)先訓(xùn)練好的語音編碼器將文本轉(zhuǎn)化為語音。
VITS由Jaehyeon Kim等人在2021年6月11日發(fā)布的論文中首次提出2021年6月21日,西北工業(yè)大學(xué)與騰訊AI實驗室也發(fā)表了VITS同架構(gòu)論文 Glone WineGAN: Learning Speech Representations from GAN-based Yartatlonal Auto-Encoder For High Fideliy Flow-based Speech Synthesis。
區(qū)別于傳統(tǒng)模型的 TTS 系統(tǒng), VITS 模型利用VAE捕捉文本韻律和Flow重建音頻細(xì)節(jié),從而實現(xiàn)從文本直接到音頻的端到端處理方案。
也就是說,傳統(tǒng)模型下的 TTS 需要經(jīng)過文本到聲學(xué)特征再到聲波兩步,而在VITS模型下只需要一步就完成了,從而消除了兩個模型銜接帶來的誤差。
同時,VITS對GAN的訓(xùn)練是全面的,對每個模塊都有效;而相對來說,傳統(tǒng)模型 TTS對GAN的訓(xùn)練一般只應(yīng)用在聲碼器上。
依據(jù) VITS 模型的整體結(jié)構(gòu),使用VITS的工作流程如下:(1)準(zhǔn)備某個角色聲音的大量干聲語料,以訓(xùn)練聲碼器和語音合成模型。
這是使用VITS的先決條件。
目前,經(jīng)過許多開發(fā)人員的研究,已經(jīng)可以在預(yù)訓(xùn)練模型基礎(chǔ)上進(jìn)行快速微調(diào),從而得到較為優(yōu)秀的角色語音模型和聲碼器了。
(2)將角色語音模型和聲碼器放到 VITS 項目環(huán)境中,使用文本通過預(yù)先訓(xùn)練好的模型(聲碼器)生成語音信號。
(3)語音模型會將語音表示根據(jù)特征生成波形語音。
當(dāng)然,生成的語音質(zhì)量受預(yù)訓(xùn)練的語音模型和聲碼器的質(zhì)量影響,或者說它與收到訓(xùn)練物料,也就是干聲語料的時長與質(zhì)量有關(guān)。
在跨境電商業(yè)務(wù)和社交媒體領(lǐng)域,可以訓(xùn)練專屬的模型與聲碼器,再配以文本,即可生成大量優(yōu)質(zhì)的商業(yè)音頻,節(jié)省大量的音頻錄制時間。
并且,AI模型不會出現(xiàn)情緒波動,從而保證了音頻內(nèi)容的穩(wěn)定性。
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

VITS(變分推理、標(biāo)準(zhǔn)化流和對抗訓(xùn)練的文本到語音模型)是一種端到端的TTS系統(tǒng),它使用預(yù)先訓(xùn)練好的語音編碼器直接將文本轉(zhuǎn)化為語音,與傳統(tǒng)TTS系統(tǒng)相比,VITS消除了兩個模型銜接帶來的誤差,并全面訓(xùn)練GAN以提高效果,VITS在跨境電商和社交媒體領(lǐng)域具有應(yīng)用潛力,能夠生成高質(zhì)量的商業(yè)音頻,節(jié)省音頻錄制時間,并保證音頻內(nèi)容的穩(wěn)定性。