柚子快報邀請碼778899分享：Whisper

Bestbuy優(yōu)選購綜合2025-08-28260

http://yzkb.51969.com/

文章目錄

使后感

Paper Review

個人覺得有趣的

Log Mel spectrogram & STFT

Training

cross-attention輸入

cross-attention輸出

positional encoding

數(shù)據(jù)

Decoding

為什么可以有時間戳的信息

Model

Encoder

Decoder

時間戳

一小句的時間戳

一個單詞的時間戳

Test code

QKV attention

Text token 里關(guān)于positional_embedding 的 offset

Faster Whisper

VAD

使后感

因為運用里需要考慮到時效和準確性，類似于YOLO，只考慮 tiny, base,和small 的模型。準確率基本反應(yīng)了模型的大小，即越大的模型有越高的準確率

Paper Review

個人覺得有趣的

這里的feature不是直接的聲音array，但log-mel spectrogram 也不是陌生的。mel 比 STFT更少的特征數(shù)量，也更接近人類感知，Mel 頻譜通過在較低頻率提供更多的分辨率，有助于減少背景噪音的影響。

整個結(jié)構(gòu)也是很一目了然，喜聞樂見的transformer。但是有限制： 16，000Hz的audio sample， 80 channels，25 millisseconds的窗口，移動距離為 10 milliseconds

為啥可以得到時間軸對應(yīng)的Txt, 這個得感謝decoding.py 里 “begin time” 和 “end time”

faster whisper 和原生的whisper都是用的基于MEL的。對STFT的優(yōu)化都采用了hann_window，只不過faster whisper是numpy，原生的是torch。這里的處理套路兩個一樣。

柚子快報邀請碼778899分享：Whisper

http://yzkb.51969.com/

文章鏈接

評論可見，查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理，出于傳遞更多信息之目的，不代表金鑰匙跨境贊同其觀點和立場。

轉(zhuǎn)載請注明，如有侵權(quán)，聯(lián)系刪除。

本文鏈接：http://gantiao.com.cn/post/18377808.html

發(fā)布評論

取消回復

您暫未設(shè)置收款碼

請在主題配置——文章設(shè)置里上傳

金鑰匙跨境

掃描二維碼手機訪問

文章目錄

欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

柚子快報邀請碼778899分享：Whisper

隨便看看

特朗普要求美國最高法院暫停執(zhí)行TikTok強制出售令

最新留言

您暫未設(shè)置收款碼