欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

目錄

柚子快報(bào)邀請(qǐng)碼778899分享:Whisper

柚子快報(bào)邀請(qǐng)碼778899分享:Whisper

http://yzkb.51969.com/

文章目錄

使后感

Paper Review

個(gè)人覺(jué)得有趣的

Log Mel spectrogram & STFT

Training

cross-attention輸入

cross-attention輸出

positional encoding

數(shù)據(jù)

Decoding

為什么可以有時(shí)間戳的信息

Model

Encoder

Decoder

時(shí)間戳

一小句的時(shí)間戳

一個(gè)單詞的時(shí)間戳

Test code

QKV attention

Text token 里 關(guān)于positional_embedding 的 offset

Faster Whisper

VAD

使后感

因?yàn)檫\(yùn)用里需要考慮到時(shí)效和準(zhǔn)確性,類(lèi)似于YOLO,只考慮 tiny, base,和small 的模型。準(zhǔn)確率基本反應(yīng)了模型的大小,即越大的模型有越高的準(zhǔn)確率

Paper Review

個(gè)人覺(jué)得有趣的

這里的feature不是直接的聲音array,但log-mel spectrogram 也不是陌生的。mel 比 STFT更少的特征數(shù)量,也更接近人類(lèi)感知,Mel 頻譜通過(guò)在較低頻率提供更多的分辨率,有助于減少背景噪音的影響。

整個(gè)結(jié)構(gòu)也是很一目了然,喜聞樂(lè)見(jiàn)的transformer。 但是有限制: 16,000Hz的audio sample, 80 channels,25 millisseconds的窗口,移動(dòng)距離為 10 milliseconds

為啥可以得到 時(shí)間軸對(duì)應(yīng)的Txt, 這個(gè)得感謝decoding.py 里 “begin time” 和 “end time”

faster whisper 和 原生的whisper都是 用的基于MEL的。對(duì)STFT的優(yōu)化都采用了hann_window,只不過(guò)faster whisper是numpy,原生的是torch。這里的處理套路兩個(gè)一樣。

Lo

柚子快報(bào)邀請(qǐng)碼778899分享:Whisper

http://yzkb.51969.com/

文章鏈接

評(píng)論可見(jiàn),查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/18377808.html

發(fā)布評(píng)論

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問(wèn)

文章目錄