數(shù)字人框架解析
數(shù)字人系統(tǒng)復(fù)雜,涵蓋多模塊功能。
了解其框架,探索科技新領(lǐng)域。
數(shù)字人框架現(xiàn)代數(shù)字人系統(tǒng)的框架根據(jù)具體需求和應(yīng)用場景的不同而有所差異,主要包括以下四個模塊。
1. 語音合成與識別使用語音合成技術(shù)將文本轉(zhuǎn)換為語音,為數(shù)字人賦予語音交互能力。
利用語音識別技術(shù),將用戶的語音指令轉(zhuǎn)換為文本或命令,以實現(xiàn)與數(shù)字人的語音交互。
2.人物形象、動作與面部表情傳統(tǒng)數(shù)字人形象主要利用 2D 或 3D 建模軟件, 根據(jù)采集到的數(shù)據(jù)創(chuàng)建數(shù)字人的3D模型,通過添加骨骼系統(tǒng),以實現(xiàn)動畫效果。
智能模型制作數(shù)字人形象,則是根據(jù)收集和準(zhǔn)備用于訓(xùn)練智能模型的數(shù)據(jù),例如真實人物的運動捕捉數(shù)據(jù)、面部表情數(shù)據(jù)等,利用機器學(xué)習(xí)模型,使用標(biāo)注數(shù)據(jù)模型,學(xué)習(xí)與預(yù)測數(shù)字人的行為與面部表情。
3.音視頻合成真人驅(qū)動下,使用動作捕捉的方式,音視頻能夠保持一致。
非真人驅(qū)動下,音頻需要預(yù)先錄制或者通過TTS 用文本轉(zhuǎn)換成語音,面部表情則根據(jù)算法使用語音進行驅(qū)動與同步,從而保證音頻與面面、口形、表情等的對齊與一致。
4.交互真人驅(qū)動下的交互都是由真人完成的。
非真人驅(qū)動下,傳統(tǒng)數(shù)字人沒有交互或只能通過識別出的預(yù)置關(guān)鍵詞對應(yīng)的文本轉(zhuǎn)換為語音進行回復(fù);在機器學(xué)習(xí)下智能交互,則可以將識別或抓取到的關(guān)鍵詞交給語言模型進行加工反饋,再將文字通過模型的形式輸出,既保證了互動性,又使得音色不會失真。
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。