柚子快報邀請碼778899分享:Whisper
柚子快報邀請碼778899分享:Whisper
文章目錄
使后感
Paper Review
個人覺得有趣的
Log Mel spectrogram & STFT
Training
cross-attention輸入
cross-attention輸出
positional encoding
數(shù)據(jù)
Decoding
為什么可以有時間戳的信息
Model
Encoder
Decoder
時間戳
一小句的時間戳
一個單詞的時間戳
Test code
QKV attention
Text token 里 關(guān)于positional_embedding 的 offset
Faster Whisper
VAD
使后感
因為運用里需要考慮到時效和準確性,類似于YOLO,只考慮 tiny, base,和small 的模型。準確率基本反應(yīng)了模型的大小,即越大的模型有越高的準確率
Paper Review
個人覺得有趣的
這里的feature不是直接的聲音array,但log-mel spectrogram 也不是陌生的。mel 比 STFT更少的特征數(shù)量,也更接近人類感知,Mel 頻譜通過在較低頻率提供更多的分辨率,有助于減少背景噪音的影響。
整個結(jié)構(gòu)也是很一目了然,喜聞樂見的transformer。 但是有限制: 16,000Hz的audio sample, 80 channels,25 millisseconds的窗口,移動距離為 10 milliseconds
為啥可以得到 時間軸對應(yīng)的Txt, 這個得感謝decoding.py 里 “begin time” 和 “end time”
faster whisper 和 原生的whisper都是 用的基于MEL的。對STFT的優(yōu)化都采用了hann_window,只不過faster whisper是numpy,原生的是torch。這里的處理套路兩個一樣。
Lo
柚子快報邀請碼778899分享:Whisper
文章鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。