柚子快報激活碼778899分享:音視頻 淺談音頻鑒黃技術(shù)
柚子快報激活碼778899分享:音視頻 淺談音頻鑒黃技術(shù)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展和網(wǎng)絡(luò)智能化的普及,音視頻內(nèi)容已成為互聯(lián)網(wǎng)傳播的主流形式,各大視頻網(wǎng)站、直播平臺及短視頻應(yīng)用不斷涌現(xiàn),為億萬用戶提供了豐富多樣的娛樂和資訊內(nèi)容。然而,這種繁榮背后也隱藏著不容忽視的問題:不良音頻信息的傳播日益猖獗,給社會風(fēng)氣、青少年健康成長以及國家安全帶來了嚴(yán)重威脅。
傳統(tǒng)的音頻不良信息檢測主要依賴于人工審核,這種方式不僅效率低下,而且容易受到人為因素的影響,導(dǎo)致誤判或漏判的情況頻發(fā)。隨著音視頻內(nèi)容數(shù)量的激增,單純依靠人力進(jìn)行監(jiān)管已無法滿足實際需求。為此,一些企業(yè)嘗試通過分類或關(guān)鍵字檢測等傳統(tǒng)算法來開發(fā)服務(wù)接口,如百度、網(wǎng)易云等服務(wù)接口,又如格雷盒子、凈網(wǎng)大師等軟件,但這些技術(shù)僅針對含有不良文字和圖片內(nèi)容的信息進(jìn)行攔截。作為視頻信息的重要一部分,音頻的不良信息檢測可以起到重要的補(bǔ)充作用,而目前這方面的工作仍需要依靠人工進(jìn)行審核,在造成人力浪費(fèi)的同時也存在誤判漏判的情況[1]。
?技術(shù)應(yīng)用
為此騰訊云安全天御團(tuán)隊成功研發(fā)了基于音頻的鑒黃系統(tǒng),并已廣泛應(yīng)用于騰訊云的點(diǎn)播、直播等業(yè)務(wù)中,顯著提高了色情內(nèi)容的識別與過濾效率。該系統(tǒng)每日能夠處理超過億條的音視頻內(nèi)容,準(zhǔn)確識別數(shù)十萬條色情音視頻,準(zhǔn)確率高達(dá)95%以上。在面對音頻內(nèi)容和場景多樣性、信噪比低、音頻時長短以及語音質(zhì)量參差不齊等問題,騰訊云采用了i-vector系統(tǒng)來確保較長音頻的準(zhǔn)確快速識別,同時利用DNN embedding系統(tǒng)對短音頻進(jìn)行特定檢測,兩者相互補(bǔ)充,結(jié)合多種信道補(bǔ)償算法,確保了系統(tǒng)的高效性和實時性。此外,為了確保訓(xùn)練模型的準(zhǔn)確性,騰訊云在樣本標(biāo)注方面進(jìn)行了精細(xì)化處理,對色情音頻進(jìn)行了多標(biāo)簽區(qū)分,如色情尖叫聲、喘息聲等,以提升模型的識別能力。[2]? ??
聲網(wǎng)也提供了一站式智能語音識別方案,開發(fā)者只需要在應(yīng)用中集成聲網(wǎng) Agora SDK,即可讓音頻在 Agora SD-RTN網(wǎng)絡(luò)中實時傳輸?shù)倪^程中完成語音內(nèi)容識別與審核。首先通過獨(dú)家研發(fā)的 AI 音頻降噪引擎消除背景音,優(yōu)化音頻質(zhì)量,讓語音更加清晰,再通過不同的模塊來檢測,將語音轉(zhuǎn)化為文字通過內(nèi)容安全引擎進(jìn)一步過濾,結(jié)合“多意義上下文短文本垃圾檢測”、“Deep Learning 垃圾檢測”、“規(guī)則引擎”和“分類器”等模塊,過濾掉音頻中涉政、涉黃、暴恐、辱罵等違規(guī)內(nèi)容。人工審核團(tuán)隊可以通過 Web 端后臺,對機(jī)器審核的結(jié)果進(jìn)行抽查和復(fù)審,不斷優(yōu)化機(jī)器審核的準(zhǔn)確率。[3]
數(shù)美科技旗下的全棧式智能內(nèi)容識別產(chǎn)品“天凈”,能夠通過智能音頻過濾技術(shù)提供強(qiáng)有力的音頻內(nèi)容識別支持。智能音頻過濾技術(shù)采用基于ffmpeg的音頻信息動態(tài)轉(zhuǎn)碼技術(shù)、基于深度學(xué)習(xí)的語音識別技術(shù)和智能特色語義分析技術(shù),能夠?qū)^大部分音頻格式進(jìn)行多場景、多維度地檢測與識別,其中包括涉政、涉黃、廣告導(dǎo)流等諸多類型。[4]
百度內(nèi)容審核平臺的音頻內(nèi)容安全模塊[5]聲紋檢測及文本審核能力,能有效識別色情、嬌喘、違禁、辱罵等違規(guī)語音內(nèi)容,支持短音頻實時檢測、長音頻及音頻流異步檢測等多種方式。
此外,網(wǎng)易易盾也提出了基于高精度多語種ASR模型、嬌喘ASMR等聲紋技術(shù)能力的自研算法,結(jié)合豐富的場景策略經(jīng)驗,能夠精準(zhǔn)識別色情、敏感、謾罵等違規(guī)音頻內(nèi)容[6]。? ?
方法介紹
基于音頻的鑒黃技術(shù)包括了基于內(nèi)容的音頻分類算法[7]以及基于聲音事件檢測的算法[8]。
基于內(nèi)容的音頻檢測常依賴于諸如梅爾倒譜系數(shù)(MFCC)等特性來實現(xiàn)音頻的初步文本化,再利用文本分類模型來判斷音頻內(nèi)容。這種方法的研究重心主要在于兩個子任務(wù):音頻文本化,即語音識別和文本分類。如麻旭妍[9]提出了一種結(jié)合音頻分類技術(shù)和模式匹配的方法。在此方法中,首先進(jìn)行濾波、預(yù)處理和端點(diǎn)檢測,以實現(xiàn)部分音頻的分類與處理,從而進(jìn)一步提純音頻,降低雜質(zhì)并優(yōu)化運(yùn)算時空。其次,通過對比音頻的幾個特征參數(shù),選定符合研究需求的MFCC特征參數(shù)。最后,利用LBG矢量量化和歐氏距離法進(jìn)行檢測識別。司朋舉[10]通過收集和分析色情音頻及文字小說,整理構(gòu)建了色情音頻和文本數(shù)據(jù)集,并融合語音識別與文本分類技術(shù),提出了CA-PAD算法。然而,僅依賴內(nèi)容的音頻分類方法進(jìn)行不良信息檢測存在一些問題。初步語音識別的準(zhǔn)確性會直接影響后續(xù)音頻內(nèi)容檢測的誤判率。同時,這種方法忽略了音頻信號本身的時域、頻域等特征信息。此外,對于包含無文本內(nèi)容的音頻,如色情歌曲、呻吟聲或環(huán)境音等,基于內(nèi)容的音頻分類檢測方法難以有效應(yīng)用,且無法確定事件發(fā)生的具體時間。
音頻事件檢測(Sound Event Detection,簡稱SED)[11]是自然語言處理領(lǐng)域的一個重要子任務(wù),它提供了一種有效的聲學(xué)場景分類方法。該技術(shù)涵蓋了場景分類、聲音事件檢測等多個方面,為電影、電視、直播及短視頻等特定場景的內(nèi)容檢測提供了出色的解決方案,因此,音頻事件檢測算法在音頻場景分析、自然語言處理、信息檢索系統(tǒng)、音頻情感分析和軟件工程等多個領(lǐng)域均發(fā)揮了關(guān)鍵作用。近年來,隨著聲音事件檢測的實際需求不斷增長,該技術(shù)已引起國內(nèi)外研究者的廣泛關(guān)注。其主要目標(biāo)是識別音頻中的特定事件及其起始時間,目前在安全監(jiān)控、情景分析、視頻檢索以及智能家居等多個領(lǐng)域均有重要應(yīng)用。SED的常規(guī)做法是采用強(qiáng)標(biāo)簽數(shù)據(jù)(即同時標(biāo)注了事件及其發(fā)生時間的音頻數(shù)據(jù))進(jìn)行有監(jiān)督學(xué)習(xí)。然而,這種方法存在標(biāo)注過程耗時、易受主觀因素影響的問題,且難以充分利用現(xiàn)實中大量的未標(biāo)記音頻數(shù)據(jù)。相對而言,弱標(biāo)簽數(shù)據(jù)(僅標(biāo)注事件類別的音頻數(shù)據(jù))和無標(biāo)簽數(shù)據(jù)(無任何標(biāo)注的音頻數(shù)據(jù))更易獲取。鑒于僅依賴弱標(biāo)簽數(shù)據(jù)在實際應(yīng)用中存在的諸多挑戰(zhàn),宮法明等[12]利用大量的未標(biāo)記音頻數(shù)據(jù),結(jié)合少量的強(qiáng)標(biāo)簽和弱標(biāo)簽數(shù)據(jù)進(jìn)行輔助訓(xùn)練。通過多層神經(jīng)網(wǎng)絡(luò)提取音頻的幀和段特征,并迭代優(yōu)化這些特征所產(chǎn)生的分類損失,從而構(gòu)建了一個半監(jiān)督學(xué)習(xí)的色情音頻事件檢測模型。? ?
在互聯(lián)網(wǎng)的廣闊天地中,信息傳播渠道眾多,但不良信息的存在也不容忽視。隨著社會對青少年身心健康的日益重視,以及國家對網(wǎng)絡(luò)內(nèi)容監(jiān)管的加強(qiáng),有效監(jiān)控軟件平臺上的不良音頻傳播顯得尤為重要。得益于計算機(jī)和人工智能技術(shù)的進(jìn)步,我們現(xiàn)在能夠利用智能音頻內(nèi)容審核系統(tǒng),自動識別和標(biāo)注音頻中的事件及其時間,從而極大地提高了審核效率,減輕了工作人員的負(fù)擔(dān),同時也為企業(yè)節(jié)省了人力成本。這一技術(shù)的應(yīng)用,不僅有助于企業(yè)更好地遵守互聯(lián)網(wǎng)內(nèi)容傳播規(guī)定,也是維護(hù)網(wǎng)絡(luò)環(huán)境清朗、保護(hù)青少年身心健康的重要舉措,為各方的長遠(yuǎn)發(fā)展提供了堅實保障。? ?
參考文獻(xiàn):
[1]?音頻不良信息檢測關(guān)鍵技術(shù)研究與應(yīng)用.
[2]?https://cloud.tencent.com/developer/article/1357559
[3] https://www.infoq.cn/article/ky2XV6ZF6LMhUKTUYMx9
[4]?https://zhuanlan.zhihu.com/p/340214746
[5]?https://ai.baidu.com/tech/speech/speechcensoring
[6]?https://dun.163.com/product/audio-detection
[7]?Text classification: a recent overview
[8]?Sound event detection in real life audio using perceptual linear predictive feature with neural network
[9]?基于MFCC的不良音頻檢測的研究
[10]?面向色情音頻檢測的內(nèi)容分類研究
[11]?BLSTM-HMM hybrid system combined with sound activity detection network for polyphonic Sound Event Detection
[12]?基于改進(jìn)教師-學(xué)生模型的色情音頻事件檢測
柚子快報激活碼778899分享:音視頻 淺談音頻鑒黃技術(shù)
推薦閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。