欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報邀請碼778899分享:Whisper

柚子快報邀請碼778899分享:Whisper

http://yzkb.51969.com/

文章目錄

使后感

Paper Review

個人覺得有趣的

Log Mel spectrogram & STFT

Training

cross-attention輸入

cross-attention輸出

positional encoding

數(shù)據(jù)

Decoding

為什么可以有時間戳的信息

Model

Encoder

Decoder

時間戳

一小句的時間戳

一個單詞的時間戳

Test code

QKV attention

Text token 里 關(guān)于positional_embedding 的 offset

Faster Whisper

VAD

使后感

因為運用里需要考慮到時效和準確性,類似于YOLO,只考慮 tiny, base,和small 的模型。準確率基本反應(yīng)了模型的大小,即越大的模型有越高的準確率

Paper Review

個人覺得有趣的

這里的feature不是直接的聲音array,但log-mel spectrogram 也不是陌生的。mel 比 STFT更少的特征數(shù)量,也更接近人類感知,Mel 頻譜通過在較低頻率提供更多的分辨率,有助于減少背景噪音的影響。

整個結(jié)構(gòu)也是很一目了然,喜聞樂見的transformer。 但是有限制: 16,000Hz的audio sample, 80 channels,25 millisseconds的窗口,移動距離為 10 milliseconds

為啥可以得到 時間軸對應(yīng)的Txt, 這個得感謝decoding.py 里 “begin time” 和 “end time”

faster whisper 和 原生的whisper都是 用的基于MEL的。對STFT的優(yōu)化都采用了hann_window,只不過faster whisper是numpy,原生的是torch。這里的處理套路兩個一樣。

Lo

柚子快報邀請碼778899分享:Whisper

http://yzkb.51969.com/

文章鏈接

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/18377808.html

發(fā)布評論

您暫未設(shè)置收款碼

請在主題配置——文章設(shè)置里上傳

掃描二維碼手機訪問

文章目錄