柚子快報激活碼778899分享:淺談開放詞匯目標(biāo)檢測
柚子快報激活碼778899分享:淺談開放詞匯目標(biāo)檢測
1. 引言
隨著人工智能技術(shù)的快速發(fā)展,開放詞匯物體檢測(Open-Vocabulary Object Detection)已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的一個重要研究方向。開放詞匯物體檢測的目標(biāo)是使機(jī)器能夠識別并定位圖像中未在訓(xùn)練集中出現(xiàn)的新類別的物體,這對于機(jī)器人技術(shù)、自動駕駛等領(lǐng)域具有重要的應(yīng)用價值。然而,由于缺乏足夠的標(biāo)注數(shù)據(jù)和復(fù)雜的場景變化,這一任務(wù)面臨著巨大的挑戰(zhàn)。
近年來,研究者們提出了許多創(chuàng)新的方法來解決開放詞匯物體檢測的問題。其中,一些研究聚焦于通過深度學(xué)習(xí)模型,如Vision Transformers,進(jìn)行自我訓(xùn)練以提高檢測性能。另一些研究則探索了如何利用多模態(tài)上下文知識或場景圖發(fā)現(xiàn)等方法來增強(qiáng)模型的泛化能力。此外,還有研究 者嘗試通過偽標(biāo)簽、偽邊界框標(biāo)簽等方式生成更多的訓(xùn)練樣本,以解決數(shù)據(jù)稀缺的問題。
本文將對上述各種方法進(jìn)行詳細(xì)的綜述,并探討它們的優(yōu)點(diǎn)和局限性。我們還將討論當(dāng)前開放詞匯物體檢測面臨的主要挑戰(zhàn)以及可能的解決方案。希望通過這篇綜述,讀者能對開放詞匯物體檢測有一個全面而深入的理解,為未來的研究提供參考。
2 視覺-語言匹配與檢測
視覺-語言匹配與檢測是計(jì)算機(jī)視覺和自然語言處理交叉領(lǐng)域的一個重要研究方向,主要關(guān)注如何通過理解圖像內(nèi)容和描述來實(shí)現(xiàn)對圖像中物體的準(zhǔn)確定位和識別。這涉及到從自然語言描述中提取出有意義的特征,然后將這些特征映射到圖像中的具體位置,以實(shí)現(xiàn)精確的物體檢測。
2016年,Sergio等人提出了一種新穎的對象檢索方法,該方法結(jié)合了類別和實(shí)例級別的語義,用于處理開放詞匯的自然語言查詢[1]。這種方法在數(shù)據(jù)集上的表現(xiàn)優(yōu)于現(xiàn)有的方法,并證明了其適應(yīng)性。2022年,Bravo等人提出了一種基于圖像處理的開放式方法,通過LO引導(dǎo)的圖像-標(biāo)題匹配技術(shù)實(shí)現(xiàn)了對象分類的分級和分組[2]。同年,Long等人引入了一種細(xì)粒度的視覺-文本提示適應(yīng)階段,用于開放詞匯檢測(OVD),增強(qiáng)了自我訓(xùn)練范式[3]。2023年,Liu等人探索了AI-based目標(biāo)檢測翻譯(AI-Based ODT)應(yīng)用在EFL學(xué)生詞匯學(xué)習(xí)中的有效性[4]。同年,另一篇論文探討了從預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型的視覺-語言對應(yīng)關(guān)系,使用了一種新的視覺-語言映射[5]。此外,還有研究介紹了開放詞匯屬性檢測(OVAD)任務(wù)及其相應(yīng)的OVAD基準(zhǔn)[6],以及一種基于對象特征的對稱分析框架[7]。最后,一篇論文提出了使用預(yù)訓(xùn)練視覺和語言模型的偽標(biāo)簽進(jìn)行開放詞匯目標(biāo)檢測的新方法[8]。
這些論文都關(guān)注了視覺-語言匹配與檢測的問題,并提出了各種不同的解決方案。共同點(diǎn)在于他們都試圖通過理解自然語言描述來提高目標(biāo)檢測的效果,并且都采用了一些形式的自我訓(xùn)練或半監(jiān)督學(xué)習(xí)策略。不同之處在于他們解決問題的方法和側(cè)重點(diǎn)各不相同。例如,Sergio等人側(cè)重于類別和實(shí)例級別的語義[1],而Bravo等人則側(cè)重于圖像處理和LO引導(dǎo)的匹配技術(shù)[2]。Long等人的研究更注重細(xì)粒度的視覺-文本提示適應(yīng)階段[3],而Liu等人則關(guān)注AI-based目標(biāo)檢測翻譯在教育中的應(yīng)用[4]??偟膩碚f,這些研究都在推動視覺-語言匹配與檢測領(lǐng)域的發(fā)展,為解決實(shí)際問題提供了有價值的思路和方法。
3 多模態(tài)知識與檢測
多模態(tài)知識與檢測是近年來的研究熱點(diǎn),主要關(guān)注如何結(jié)合視覺和語言信息來提高目標(biāo)檢測的性能。特別是在開放詞匯的目標(biāo)檢測中,這種方法可以更好地處理新類別的對象,而不需要為每個新類
別單獨(dú)訓(xùn)練模型。以下是該方向的一些最新研究論文的總結(jié):
2022年,一篇論文提出了一種新穎的開放詞匯目標(biāo)檢測框架,專門用于從圖像-文本對數(shù)據(jù)中進(jìn)行目標(biāo)檢測[9]。該方法引入了一個開放詞匯的目標(biāo)檢測器,并在COCO和LVIS等數(shù)據(jù)集上取得了優(yōu)越的性能。同年,另一篇論文介紹了ViLD,這是一種使用兩階段檢測器(學(xué)生)的視覺和語言知識蒸餾的訓(xùn)練方法[10]。它通過顯示類別文本和圖像區(qū)域來超越先前的最新技術(shù)。
到了2023年,一篇文章引入了一種細(xì)粒度的視覺-文本協(xié)議驅(qū)動的自訓(xùn)練范式,用于開放詞匯檢測(VTP-OVD)[11]。該方法通過更強(qiáng)大的細(xì)粒度對齊來增強(qiáng)自我訓(xùn)練范式。同年,Xu等人提出了一種
多模態(tài)上下文知識蒸餾框架,用于開放詞匯目標(biāo)檢測(ovD)[12]。該方法解決了以前的檢測框架的問題,強(qiáng)調(diào)了模型多模態(tài)上下文知識的需求。到2024年,Open Vocabulary Object Detection (OVOD)的目標(biāo)是識別新的對象,解決視覺和語言模型的零樣本能力問題[13]。為了進(jìn)一步提高對未見新類的泛化能力,這篇論文引入了一種新穎而
簡單的技術(shù),強(qiáng)調(diào)了對分布的新類泛化的需要。同年,另一篇論文介紹了一種描述符增強(qiáng)的開放詞匯檢測器,用于圖像分類任務(wù)[14]。該方法利用條件上下文提示和分層文本描述符,超越了最先進(jìn)的技術(shù)。
對比這些論文,它們都集中在開放詞匯的目標(biāo)檢測上,并嘗試結(jié)合視覺和語言信息來提高性能。相同點(diǎn)是它們都采用了知識蒸餾或自訓(xùn)練的方法來增強(qiáng)模型的能力。不同點(diǎn)在于每篇論文都提出了不
同的技術(shù)和策略來解決這個問題。例如,一些論文重點(diǎn)關(guān)注如何更好地處理新類別的對象[9][13],而另一些則側(cè)重于如何更好地融合視覺和語言信息[10][12]。此外,這些論文在實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)集選擇和
評估指標(biāo)上也有所不同。
4 開放詞匯物體檢測
開放詞匯物體檢測(Open-Vocabulary Object Detection,OVD)是計(jì)算機(jī)視覺領(lǐng)域的一個重要研究方向,其目標(biāo)是擴(kuò)大詞匯表的大小以便檢測訓(xùn)練詞匯之外的新類別對象。這種方法可以有效地處理那
些在訓(xùn)練階段未出現(xiàn)過的對象類別,從而提高模型的泛化能力。
2021年,Zareian等人提出了一種新穎的開放詞匯物體檢測方法[15]。該方法通過增強(qiáng)有限對象類別的物體檢測器,如圖像-標(biāo)題對,優(yōu)于零樣本方法。該方法在沒有提供邊界框注釋的情況下提高了對象的檢測和定位精度。2022年,一篇論文介紹了F-VLM,一種利用Froch視覺和語言模型的新型開放詞匯物體檢測方法[16]。該方法使用凍結(jié)的VLM作為局部敏感特征,是一種強(qiáng)大的區(qū)域分類器,性能超過了之前的LVIS分類器。同年,Minderer等人引入了一種將圖像-文本模型轉(zhuǎn)移到開放詞匯物體檢測的強(qiáng)大方法[17],并展示了適應(yīng)策略和正則化對于零樣本文本條件和一次樣本圖像條件物體檢測的強(qiáng)大性能。另一篇研究提出了一種新的OVD框架,包括提議挖掘和預(yù)測均衡,提高了在新類別上的預(yù)測效率[18]。
到了2023年,一篇論文引入了一種基于場景圖的開放詞匯物體檢測網(wǎng)絡(luò)SGDN[19],解決了傳統(tǒng)檢測和非類別對象的問題。該方法引入了SGDecoder,整合了稀疏場景圖引導(dǎo)注意力(SSGA)和SGPred機(jī)
制,實(shí)現(xiàn)了場景圖提取和對象定位之間的增強(qiáng)。另一篇論文探討了區(qū)域感知開放詞匯視覺變換器(RO-VIT)[20],這是一種對比圖像-文本預(yù)訓(xùn)練配方,解決了圖像級預(yù)訓(xùn)練和物體檢測之間的差距。Song等
人提出了Propt-ovD框架[21],利用CLIP的類嵌入作為提示,引導(dǎo)變換器解碼器檢測基類和新類的對象。最后一篇研究引入了一種新的偽字幕標(biāo)簽(PCL)用于通過從視覺-語言模型中提取知識來檢測新對象
[22]。
這些論文都關(guān)注了開放詞匯物體檢測的問題,并提出了各種不同的解決方案。他們都試圖通過擴(kuò)大詞匯表、改進(jìn)模型架構(gòu)或引入新的技術(shù)來提高模型的性能。然而,他們的方法各有側(cè)重:一些研究側(cè)重于利用圖像-文本配對或場景圖進(jìn)行目標(biāo)檢測;另一些研究則側(cè)重于利用語言模型或轉(zhuǎn)換器進(jìn)行目標(biāo)檢測;還有一些研究則側(cè)重于提出新的框架或技術(shù)來提高目標(biāo)檢測的效率和精度??偟膩碚f,這些研究都在推動開放詞匯物體檢測領(lǐng)域的發(fā)展,為解決實(shí)際問題提供了有力的工具。
2022年,Gao等人引入了一種基于新穎對象類別的物體檢測方法[23]。該方法在COCO新類別、PASCAL VOC、Objects365和LVIS等數(shù)據(jù)集上均取得了優(yōu)于當(dāng)前最先進(jìn)方法的結(jié)果。同年,Rasheed等人提出了一種針對弱監(jiān)督開放詞匯檢測(OVD)的新穎的對象中心對齊方法
[24],強(qiáng)調(diào)了CLIP模型和圖像級監(jiān)督的重要性,并通過最小化對象和圖像表示來提高性能。
5 總結(jié)與展望
在過去的研究中,我們看到了開放詞匯物體檢測領(lǐng)域的各種創(chuàng)新和進(jìn)步。這些研究涵蓋了從基于AI的物體檢測翻譯應(yīng)用到理解機(jī)器人中的物體描述,再到使用視覺-語言匹配進(jìn)行開放詞匯物體檢測
等多個方面。此外,一些研究還探討了如何通過改進(jìn)偽標(biāo)簽、利用細(xì)粒度描述符以及探索多模態(tài)上下文知識等方法來提高開放詞匯物體檢測的效果。
然而,盡管取得了顯著的進(jìn)步,但開放詞匯物體檢測領(lǐng)域仍存在許多挑戰(zhàn)和問題需要解決。例如,如何在沒有3D注釋的情況下進(jìn)行點(diǎn)云物體檢測,如何將對象放入上下文中以進(jìn)行開放詞匯3D檢測,以及如何縮小對象和圖像級表示之間的差距等問題。這些問題的解決將有助于進(jìn)一步推動該領(lǐng)域的發(fā)展。
展望未來,我們期待看到更多關(guān)于開放詞匯物體檢測的研究,特別是那些能夠解決當(dāng)前存在的問題并提出新的方法和技術(shù)的研究。同時,我們也希望看到更多跨學(xué)科的研究,因?yàn)檫@將有助于我們更
全面地理解和解決這個問題??偟膩碚f,開放詞匯物體檢測是一個充滿挑戰(zhàn)和機(jī)遇的領(lǐng)域,我們期待著在這個領(lǐng)域取得更多的突破。
6 參考文獻(xiàn)
[1] Guadarrama, Sergio,Rodner, Erik,Saenko, Kate Darrell, Trevor. 2016. Understanding object descriptions in robotics by open-vocabulary object retrieval and detection, INTERNATIONAL JOURNAL OF ROBOTICS RESEARCH
[2] Maria A Bravo,Sudhanshu Mittal Thomas Brox. 2022. Localized Vision-Language Matching for Open-vocabulary Object Detection, arxiv
[3] Yanxin Long,Jianhua Han,Runhui Huang,Xu Hang,Yi Zhu,Chunjing Xu Xiaodan Liang. 2022. P$^3$OVD: Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object
Detection, arxiv
[4] PeiLin Liu ChiuJung Chen. 2023. Using an AI-Based Object Detection Translation Application for English Vocabulary Learning, EDUCATIONAL TECHNOLOGY & SOCIETY
[5] Ziyi Li,Qinye Zhou,Xiaoyun Zhang,Ya Zhang,Yanfeng Wang Weidi Xie. 2023. Openvocabulary Object Segmentation with Diffusion Models, arxiv
[6] Mara A Bravo,Sudhanshu Mittal,Simon Ging Thomas Brox. 2023. Open-vocabulary Attribute Detection, arxiv
[7] Luting Wang,Yi Liu,Penghui Du,Zihan Ding,Yue Liao,Qiaosong Qi,Biaolong Chen Si Liu. 2023. Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection, arxiv
[8] Shiyu Zhao,Samuel Schulter,Long Zhao,Zhixing Zhang,Vijay Kumar B G,Yumin Suh,Manmohan Chandraker Dimitris N Metaxas. 2023. Improving Pseudo Labels for Open Vocabulary Object Detection, arxiv
[9] Chuang Lin,Peize Sun,Yi Jiang,Ping Luo,Lizhen Qu,Gholamreza Haffari,Zehuan Yuan Jianfei Cai. 2022. Learning Object-Language Alignments for Open-Vocabulary Object Detection, arxiv
[10] Xiuye Gu,TsungYi Lin,Weicheng Kuo Yin Cui. 2022. Open-vocabulary Object Detection via Vision and Language Knowledge Distillation, arxiv
[11] Long, Yanxin,Han, Jianhua,Huang, Runhui,Xu, Hang,Zhu, Yi,Xu, Chunjing Liang, Xiaodan. 2023. Fine-Grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object
Detection, IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS
[12] Yifan Xu,Mengdan Zhang,Xiaoshan Yang Changsheng Xu. 2023. Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object Detection, arxiv
[13] Joonhyun Jeong,Geondo Park,Jayeon Yoo,Hyungsik Jung Heesu Kim. 2024. ProxyDet: Synthesizing Proxy Novel Classes via Classwise Mixup for Open-Vocabulary Object Detection, arxiv
[14] Sheng Jin,Xueying Jiang,Jiaxing Huang,Lewei Lu Shijian Lu. 2024. LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors, arxiv
[15] Alireza Zareian,Kevin Dela Rosa,Derek Hao Hu ShihFu Chang. 2021. Open-Vocabulary Object Detection Using Captions, arxiv
[16] Weicheng Kuo,Yin Cui,Xiuye Gu,AJ Piergiovanni Anelia Angelova. 2022. F-VLM: OpenVocabulary Object Detection upon Frozen Vision and Language Models, arxiv
[17] Matthias Minderer,Alexey Gritsenko,Austin Stone,Maxim Neumann,Dirk Weissenborn,Alexey Dosovitskiy,Aravindh Mahendran,Anurag Arnab,Mostafa Dehghani,Zhuoran Shen,Xiao Wang,Xiaohua Zhai,Thomas Kipf Neil Houlsby. 2022. Simple
Open-Vocabulary Object Detection with Vision Transformers, arxiv
[18] Peixian Chen,Kekai Sheng,Mengdan Zhang,Mingbao Lin,Yunhang Shen,Shaohui Lin,Bo Ren Ke Li. 2022. Open Vocabulary Object Detection with Proposal Mining and Prediction Equalization, arxiv
[19] Hengcan Shi,Munawar Hayat Jianfei Cai. 2023. Open-Vocabulary Object Detection via Scene Graph Discovery, arxiv
[20] Dahun Kim,Anelia Angelova Weicheng Kuo. 2023. Region-Aware Pretraining for OpenVocabulary Object Detection with Vision Transformers, arxiv
[21] Hwanjun Song Jihwan Bang. 2023. Prompt-Guided Transformers for End-to-End OpenVocabulary Object Detection, arxiv
[22] HanCheol Cho,Won Young Jhoo,Wooyoung Kang Byungseok Roh. 2023. Open-Vocabulary Object Detection using Pseudo Caption Labels, arxiv
[23] Mingfei Gao,Chen Xing,Juan Carlos Niebles,Junnan Li,Ran Xu,Wenhao Liu Caiming Xiong. 2022. Open Vocabulary Object Detection with Pseudo Bounding-Box Labels, arxiv
[24] Hanoona Rasheed,Muhammad Maaz,Muhammad Uzair Khattak,Salman Khan Fahad Shahbaz Khan. 2022. Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection, arxiv
希望今天的分享,能帶給大家些許啟發(fā),也歡迎大家一起留言共建~
寫在最后,歡迎大家下載我們的inBuilder低代碼平臺開源社區(qū)版,加入我們,開啟開發(fā)之旅!
柚子快報激活碼778899分享:淺談開放詞匯目標(biāo)檢測
好文推薦
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。