柚子快報(bào)邀請(qǐng)碼778899分享:Whisper
柚子快報(bào)邀請(qǐng)碼778899分享:Whisper
文章目錄
使后感
Paper Review
個(gè)人覺(jué)得有趣的
Log Mel spectrogram & STFT
Training
cross-attention輸入
cross-attention輸出
positional encoding
數(shù)據(jù)
Decoding
為什么可以有時(shí)間戳的信息
Model
Encoder
Decoder
時(shí)間戳
一小句的時(shí)間戳
一個(gè)單詞的時(shí)間戳
Test code
QKV attention
Text token 里 關(guān)于positional_embedding 的 offset
Faster Whisper
VAD
使后感
因?yàn)檫\(yùn)用里需要考慮到時(shí)效和準(zhǔn)確性,類(lèi)似于YOLO,只考慮 tiny, base,和small 的模型。準(zhǔn)確率基本反應(yīng)了模型的大小,即越大的模型有越高的準(zhǔn)確率
Paper Review
個(gè)人覺(jué)得有趣的
這里的feature不是直接的聲音array,但log-mel spectrogram 也不是陌生的。mel 比 STFT更少的特征數(shù)量,也更接近人類(lèi)感知,Mel 頻譜通過(guò)在較低頻率提供更多的分辨率,有助于減少背景噪音的影響。
整個(gè)結(jié)構(gòu)也是很一目了然,喜聞樂(lè)見(jiàn)的transformer。 但是有限制: 16,000Hz的audio sample, 80 channels,25 millisseconds的窗口,移動(dòng)距離為 10 milliseconds
為啥可以得到 時(shí)間軸對(duì)應(yīng)的Txt, 這個(gè)得感謝decoding.py 里 “begin time” 和 “end time”
faster whisper 和 原生的whisper都是 用的基于MEL的。對(duì)STFT的優(yōu)化都采用了hann_window,只不過(guò)faster whisper是numpy,原生的是torch。這里的處理套路兩個(gè)一樣。
Lo
柚子快報(bào)邀請(qǐng)碼778899分享:Whisper
文章鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。