柚子快報激活碼778899分享：音視頻淺談音頻鑒黃技術(shù)

Sendo跨境速達(dá)港綜合2025-05-05390

http://yzkb.51969.com/

隨著互聯(lián)網(wǎng)的迅猛發(fā)展和網(wǎng)絡(luò)智能化的普及，音視頻內(nèi)容已成為互聯(lián)網(wǎng)傳播的主流形式，各大視頻網(wǎng)站、直播平臺及短視頻應(yīng)用不斷涌現(xiàn)，為億萬用戶提供了豐富多樣的娛樂和資訊內(nèi)容。然而，這種繁榮背后也隱藏著不容忽視的問題：不良音頻信息的傳播日益猖獗，給社會風(fēng)氣、青少年健康成長以及國家安全帶來了嚴(yán)重威脅。

傳統(tǒng)的音頻不良信息檢測主要依賴于人工審核，這種方式不僅效率低下，而且容易受到人為因素的影響，導(dǎo)致誤判或漏判的情況頻發(fā)。隨著音視頻內(nèi)容數(shù)量的激增，單純依靠人力進(jìn)行監(jiān)管已無法滿足實際需求。為此，一些企業(yè)嘗試通過分類或關(guān)鍵字檢測等傳統(tǒng)算法來開發(fā)服務(wù)接口，如百度、網(wǎng)易云等服務(wù)接口，又如格雷盒子、凈網(wǎng)大師等軟件，但這些技術(shù)僅針對含有不良文字和圖片內(nèi)容的信息進(jìn)行攔截。作為視頻信息的重要一部分，音頻的不良信息檢測可以起到重要的補(bǔ)充作用，而目前這方面的工作仍需要依靠人工進(jìn)行審核，在造成人力浪費(fèi)的同時也存在誤判漏判的情況[1]。

?技術(shù)應(yīng)用

為此騰訊云安全天御團(tuán)隊成功研發(fā)了基于音頻的鑒黃系統(tǒng)，并已廣泛應(yīng)用于騰訊云的點(diǎn)播、直播等業(yè)務(wù)中，顯著提高了色情內(nèi)容的識別與過濾效率。該系統(tǒng)每日能夠處理超過億條的音視頻內(nèi)容，準(zhǔn)確識別數(shù)十萬條色情音視頻，準(zhǔn)確率高達(dá)95%以上。在面對音頻內(nèi)容和場景多樣性、信噪比低、音頻時長短以及語音質(zhì)量參差不齊等問題，騰訊云采用了i-vector系統(tǒng)來確保較長音頻的準(zhǔn)確快速識別，同時利用DNN embedding系統(tǒng)對短音頻進(jìn)行特定檢測，兩者相互補(bǔ)充，結(jié)合多種信道補(bǔ)償算法，確保了系統(tǒng)的高效性和實時性。此外，為了確保訓(xùn)練模型的準(zhǔn)確性，騰訊云在樣本標(biāo)注方面進(jìn)行了精細(xì)化處理，對色情音頻進(jìn)行了多標(biāo)簽區(qū)分，如色情尖叫聲、喘息聲等，以提升模型的識別能力。[2]? ??

聲網(wǎng)也提供了一站式智能語音識別方案，開發(fā)者只需要在應(yīng)用中集成聲網(wǎng) Agora SDK，即可讓音頻在 Agora SD-RTN網(wǎng)絡(luò)中實時傳輸?shù)倪^程中完成語音內(nèi)容識別與審核。首先通過獨(dú)家研發(fā)的 AI 音頻降噪引擎消除背景音，優(yōu)化音頻質(zhì)量，讓語音更加清晰，再通過不同的模塊來檢測，將語音轉(zhuǎn)化為文字通過內(nèi)容安全引擎進(jìn)一步過濾，結(jié)合“多意義上下文短文本垃圾檢測”、“Deep Learning 垃圾檢測”、“規(guī)則引擎”和“分類器”等模塊，過濾掉音頻中涉政、涉黃、暴恐、辱罵等違規(guī)內(nèi)容。人工審核團(tuán)隊可以通過 Web 端后臺，對機(jī)器審核的結(jié)果進(jìn)行抽查和復(fù)審，不斷優(yōu)化機(jī)器審核的準(zhǔn)確率。[3]

數(shù)美科技旗下的全棧式智能內(nèi)容識別產(chǎn)品“天凈”，能夠通過智能音頻過濾技術(shù)提供強(qiáng)有力的音頻內(nèi)容識別支持。智能音頻過濾技術(shù)采用基于ffmpeg的音頻信息動態(tài)轉(zhuǎn)碼技術(shù)、基于深度學(xué)習(xí)的語音識別技術(shù)和智能特色語義分析技術(shù)，能夠?qū)^大部分音頻格式進(jìn)行多場景、多維度地檢測與識別,其中包括涉政、涉黃、廣告導(dǎo)流等諸多類型。[4]

百度內(nèi)容審核平臺的音頻內(nèi)容安全模塊[5]聲紋檢測及文本審核能力，能有效識別色情、嬌喘、違禁、辱罵等違規(guī)語音內(nèi)容，支持短音頻實時檢測、長音頻及音頻流異步檢測等多種方式。

此外，網(wǎng)易易盾也提出了基于高精度多語種ASR模型、嬌喘ASMR等聲紋技術(shù)能力的自研算法，結(jié)合豐富的場景策略經(jīng)驗，能夠精準(zhǔn)識別色情、敏感、謾罵等違規(guī)音頻內(nèi)容[6]。? ?

方法介紹

基于音頻的鑒黃技術(shù)包括了基于內(nèi)容的音頻分類算法[7]以及基于聲音事件檢測的算法[8]。

基于內(nèi)容的音頻檢測常依賴于諸如梅爾倒譜系數(shù)（MFCC）等特性來實現(xiàn)音頻的初步文本化，再利用文本分類模型來判斷音頻內(nèi)容。這種方法的研究重心主要在于兩個子任務(wù)：音頻文本化，即語音識別和文本分類。如麻旭妍[9]提出了一種結(jié)合音頻分類技術(shù)和模式匹配的方法。在此方法中，首先進(jìn)行濾波、預(yù)處理和端點(diǎn)檢測，以實現(xiàn)部分音頻的分類與處理，從而進(jìn)一步提純音頻，降低雜質(zhì)并優(yōu)化運(yùn)算時空。其次，通過對比音頻的幾個特征參數(shù)，選定符合研究需求的MFCC特征參數(shù)。最后，利用LBG矢量量化和歐氏距離法進(jìn)行檢測識別。司朋舉[10]通過收集和分析色情音頻及文字小說，整理構(gòu)建了色情音頻和文本數(shù)據(jù)集，并融合語音識別與文本分類技術(shù)，提出了CA-PAD算法。然而，僅依賴內(nèi)容的音頻分類方法進(jìn)行不良信息檢測存在一些問題。初步語音識別的準(zhǔn)確性會直接影響后續(xù)音頻內(nèi)容檢測的誤判率。同時，這種方法忽略了音頻信號本身的時域、頻域等特征信息。此外，對于包含無文本內(nèi)容的音頻，如色情歌曲、呻吟聲或環(huán)境音等，基于內(nèi)容的音頻分類檢測方法難以有效應(yīng)用，且無法確定事件發(fā)生的具體時間。

音頻事件檢測（Sound Event Detection，簡稱SED）[11]是自然語言處理領(lǐng)域的一個重要子任務(wù)，它提供了一種有效的聲學(xué)場景分類方法。該技術(shù)涵蓋了場景分類、聲音事件檢測等多個方面，為電影、電視、直播及短視頻等特定場景的內(nèi)容檢測提供了出色的解決方案，因此，音頻事件檢測算法在音頻場景分析、自然語言處理、信息檢索系統(tǒng)、音頻情感分析和軟件工程等多個領(lǐng)域均發(fā)揮了關(guān)鍵作用。近年來，隨著聲音事件檢測的實際需求不斷增長，該技術(shù)已引起國內(nèi)外研究者的廣泛關(guān)注。其主要目標(biāo)是識別音頻中的特定事件及其起始時間，目前在安全監(jiān)控、情景分析、視頻檢索以及智能家居等多個領(lǐng)域均有重要應(yīng)用。SED的常規(guī)做法是采用強(qiáng)標(biāo)簽數(shù)據(jù)（即同時標(biāo)注了事件及其發(fā)生時間的音頻數(shù)據(jù)）進(jìn)行有監(jiān)督學(xué)習(xí)。然而，這種方法存在標(biāo)注過程耗時、易受主觀因素影響的問題，且難以充分利用現(xiàn)實中大量的未標(biāo)記音頻數(shù)據(jù)。相對而言，弱標(biāo)簽數(shù)據(jù)（僅標(biāo)注事件類別的音頻數(shù)據(jù)）和無標(biāo)簽數(shù)據(jù)（無任何標(biāo)注的音頻數(shù)據(jù)）更易獲取。鑒于僅依賴弱標(biāo)簽數(shù)據(jù)在實際應(yīng)用中存在的諸多挑戰(zhàn)，宮法明等[12]利用大量的未標(biāo)記音頻數(shù)據(jù)，結(jié)合少量的強(qiáng)標(biāo)簽和弱標(biāo)簽數(shù)據(jù)進(jìn)行輔助訓(xùn)練。通過多層神經(jīng)網(wǎng)絡(luò)提取音頻的幀和段特征，并迭代優(yōu)化這些特征所產(chǎn)生的分類損失，從而構(gòu)建了一個半監(jiān)督學(xué)習(xí)的色情音頻事件檢測模型。? ?

在互聯(lián)網(wǎng)的廣闊天地中，信息傳播渠道眾多，但不良信息的存在也不容忽視。隨著社會對青少年身心健康的日益重視，以及國家對網(wǎng)絡(luò)內(nèi)容監(jiān)管的加強(qiáng)，有效監(jiān)控軟件平臺上的不良音頻傳播顯得尤為重要。得益于計算機(jī)和人工智能技術(shù)的進(jìn)步，我們現(xiàn)在能夠利用智能音頻內(nèi)容審核系統(tǒng)，自動識別和標(biāo)注音頻中的事件及其時間，從而極大地提高了審核效率，減輕了工作人員的負(fù)擔(dān)，同時也為企業(yè)節(jié)省了人力成本。這一技術(shù)的應(yīng)用，不僅有助于企業(yè)更好地遵守互聯(lián)網(wǎng)內(nèi)容傳播規(guī)定，也是維護(hù)網(wǎng)絡(luò)環(huán)境清朗、保護(hù)青少年身心健康的重要舉措，為各方的長遠(yuǎn)發(fā)展提供了堅實保障。? ?

參考文獻(xiàn)：

[1]?音頻不良信息檢測關(guān)鍵技術(shù)研究與應(yīng)用.

[2]?https://cloud.tencent.com/developer/article/1357559

[3] https://www.infoq.cn/article/ky2XV6ZF6LMhUKTUYMx9

[4]?https://zhuanlan.zhihu.com/p/340214746

[5]?https://ai.baidu.com/tech/speech/speechcensoring

[6]?https://dun.163.com/product/audio-detection

[7]?Text classification: a recent overview

[8]?Sound event detection in real life audio using perceptual linear predictive feature with neural network

[9]?基于MFCC的不良音頻檢測的研究

[10]?面向色情音頻檢測的內(nèi)容分類研究

[11]?BLSTM-HMM hybrid system combined with sound activity detection network for polyphonic Sound Event Detection