柚子快報(bào)激活碼778899分享:自然語言處理 大模型+自動(dòng)駕駛
柚子快報(bào)激活碼778899分享:自然語言處理 大模型+自動(dòng)駕駛
論文:https://arxiv.org/pdf/2401.08045.pdf
大型基礎(chǔ)模型的興起,它們基于廣泛的數(shù)據(jù)集進(jìn)行訓(xùn)練,正在徹底改變?nèi)斯ぶ悄茴I(lǐng)域的面貌。例如SAM、DALL-E2和GPT-4這樣的模型通過提取復(fù)雜的模式,并在不同任務(wù)中有效地執(zhí)行,從而作為廣泛AI應(yīng)用的強(qiáng)大構(gòu)建塊。自動(dòng)駕駛,作為AI應(yīng)用的一個(gè)活躍前沿,仍然面臨著缺乏專門的視覺基礎(chǔ)模型(Vision Foundation Models,VFMs)的挑戰(zhàn)。全面訓(xùn)練數(shù)據(jù)的稀缺、多傳感器集成的需求和多樣的任務(wù)特定架構(gòu)對(duì)該領(lǐng)域VFMs的發(fā)展構(gòu)成了重大障礙。本文深入探討了為自動(dòng)駕駛量身定制VFMs的關(guān)鍵挑戰(zhàn),并概述了未來的發(fā)展方向。通過對(duì)250多篇論文的系統(tǒng)分析,我們剖析了VFM開發(fā)的基本技術(shù),包括數(shù)據(jù)準(zhǔn)備、預(yù)訓(xùn)練策略和下游任務(wù)適應(yīng)。此外,我們還探索了如NeRF、擴(kuò)散模型、3D高斯噴濺和世界模型等關(guān)鍵進(jìn)展,為未來研究提供了全面的路線圖。為了賦能研究者,我們建立并維護(hù)了Forge VFM4AD,一個(gè)開放獲取的存儲(chǔ)庫,不斷更新自動(dòng)駕駛VFMs鍛造的最新進(jìn)展。
自動(dòng)駕駛(AD)技術(shù)的迅速發(fā)展正在重塑交通運(yùn)輸領(lǐng)域,開啟了一個(gè)由AI驅(qū)動(dòng)的未來。傳統(tǒng)的自動(dòng)駕駕駛感知系統(tǒng)依賴于模塊化架構(gòu),使用專門的算法來處理特定任務(wù),例如對(duì)象檢測 Lang et al. (2019);Mao, Xue, et al. (2021),語義分割 Y. Guo, Liu, Georgiou, 和 Lew (2018);X. Yan et al. (2022),以及深度估計(jì) Ming, Meng, Fan, 和 Yu (2021)。每個(gè)任務(wù)通常由一個(gè)單獨(dú)的模型解決,這些模型通常是在特定任務(wù)標(biāo)簽上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)。然而,這些分隔的組件在提升單個(gè)任務(wù)性能的同時(shí)犧牲了更廣泛的上下文理解和數(shù)據(jù)關(guān)系。這種方法通常導(dǎo)致輸出不一致,并限制了系統(tǒng)處理長尾案例的能力。
大規(guī)?;A(chǔ)模型,尤其是自然語言處理(NLP)領(lǐng)域的 Brown et al. (2020);OpenAI (2023),已成為人工智能領(lǐng)域的強(qiáng)大力量。這些模型在訓(xùn)練時(shí)使用了廣泛多樣的數(shù)據(jù)集,并經(jīng)常利用自監(jiān)著學(xué)習(xí)技術(shù)。一旦訓(xùn)練完成,它們可以通過微調(diào)來適應(yīng)廣泛的特定任務(wù)。像GPT-3/4 Brown et al. (2020);OpenAI (2023)這樣的數(shù)十億參數(shù)模型在零/少次射擊學(xué)習(xí)中的成功尤其值得注意。它們在少次射擊學(xué)習(xí)方面的卓越能力使它們能夠有效地處理分布外的AD數(shù)據(jù)情景,例如遇到未知對(duì)象。此外,它們在推理方面的內(nèi)在能力使它們非常適合需要邏輯處理和明智決策的任務(wù)。
盡管大型基礎(chǔ)模型確實(shí)在各個(gè)領(lǐng)域產(chǎn)生了革命性的影響,但它們對(duì)AD的影響尚未達(dá)到預(yù)期。將現(xiàn)有的在2D數(shù)據(jù)或其他領(lǐng)域的文本模態(tài)上訓(xùn)練的視覺基礎(chǔ)模型(VFMs)直接應(yīng)用于AD任務(wù)已被證明是明顯不足的。這些模型缺乏利用對(duì)AD感知任務(wù)至關(guān)重要的豐富3D信息的能力,例如深度估計(jì)。此外,AD架構(gòu)的內(nèi)在異質(zhì)性和多傳感器融合的必要性給VFMs的直接適應(yīng)帶來了額外挑戰(zhàn)。這一挑戰(zhàn)由高效處理多樣化傳感器數(shù)據(jù)(例如激光雷達(dá)、相機(jī)、雷達(dá))并無縫適應(yīng)AD領(lǐng)域內(nèi)各種下游任務(wù)的VFMs需求進(jìn)一步加劇。
在自動(dòng)駕駛發(fā)展的背景下,兩個(gè)關(guān)鍵因素阻礙了視覺基礎(chǔ)模型的進(jìn)展:- 數(shù)據(jù)稀缺性:由于隱私問題、安全規(guī)定和捕捉真實(shí)世界駕駛場景的復(fù)雜性,AD數(shù)據(jù)本質(zhì)上是有限的。此外,AD數(shù)據(jù)必須滿足嚴(yán)格的要求,包括多傳感器對(duì)齊(例如激光雷達(dá)、相機(jī)、雷達(dá))和時(shí)間一致性。
任務(wù)異質(zhì)性:自動(dòng)駕駛呈現(xiàn)出一系列不同的任務(wù),每個(gè)任務(wù)都需要不同的輸入形式(例如相機(jī)、激光雷達(dá)、雷達(dá))和輸出格式(例如3D邊界框、車道線、深度圖)。這種異質(zhì)性對(duì)VFMs構(gòu)成了挑戰(zhàn),因?yàn)獒槍?duì)一個(gè)任務(wù)優(yōu)化的架構(gòu)在其他任務(wù)上的表現(xiàn)往往不令人滿意。因此,開發(fā)一個(gè)能夠高效處理多傳感器數(shù)據(jù)并在各種不同下游任務(wù)中表現(xiàn)良好的單一通用架構(gòu)和表示仍然是一個(gè)重大障礙。
盡管存在這些挑戰(zhàn),但有跡象表明,為自動(dòng)駕駛開發(fā)大型視覺基礎(chǔ)模型的前景正在逐漸顯現(xiàn)。通過持續(xù)收集 Caesar et al. (2020);Mao, Niu, et al. (2021)和先進(jìn)模擬技術(shù)的不斷發(fā)展 X. Li et al. (2023);Z. Yang et al. (2023a)為解決數(shù)據(jù)稀缺問題提供了可能。此外,感知領(lǐng)域的最新進(jìn)展,尤其是轉(zhuǎn)向統(tǒng)一表示法,利用鳥瞰圖(BEV) Z. Li, Wang, et al. (2022);Philion 和 Fidler (2020),和占用表示法 X. Tian, Jiang, et al. (2023),為缺乏通用表示法和架構(gòu)的問題提供了潛在的解決方案。
本文深入探討了為自動(dòng)駕駛發(fā)展大型視覺基礎(chǔ)模型的關(guān)鍵技術(shù),如圖1所示。我們的探索從在基礎(chǔ)模型、現(xiàn)有框架和任務(wù)方面建立全面背景開始,以及發(fā)展表示法,概述我們的核心動(dòng)機(jī)在第2節(jié)中。隨后,我們在第3節(jié)深入研究現(xiàn)有數(shù)據(jù)集和數(shù)據(jù)模擬技術(shù),強(qiáng)調(diào)了像生成對(duì)抗網(wǎng)絡(luò)(GANs)、神經(jīng)輻射場(NeRFs)、擴(kuò)散模型和3D高斯噴濺(3DGS)等技術(shù)在解決自動(dòng)駕駛固有數(shù)據(jù)稀缺性方面的關(guān)鍵作用。在這個(gè)基礎(chǔ)上,第4節(jié)分析了有效訓(xùn)練VFMs在未標(biāo)記真實(shí)世界數(shù)據(jù)上的自我訓(xùn)練技術(shù)。最后,為了彌合訓(xùn)練有素的VFMs和下游任務(wù)之間的差距,第5節(jié)探討了將在其他領(lǐng)域發(fā)展的基礎(chǔ)模型應(yīng)用于AD領(lǐng)域。我們審視了所學(xué)到的寶貴經(jīng)驗(yàn)和潛在適應(yīng)性,以實(shí)現(xiàn)自動(dòng)駕駛中多樣化下游任務(wù)的有效性能。
與現(xiàn)有的綜述論文 Firoozi et al. (2023);Y. Huang, Chen, 和 Li (2023);J. Sun et al. (2023);Z. Yang, Jia, Li, 和 Yan (2023)不同,這些論文囊括了在各個(gè)領(lǐng)域應(yīng)用大型基礎(chǔ)模型,本文通過專注于為自動(dòng)駕駛挑戰(zhàn)量身定制的大型視覺基礎(chǔ)模型的發(fā)展提出了一種新的方法。這種獨(dú)特的視角使我們能夠更深入地探討構(gòu)建VFMs所需的基本原則和技術(shù)進(jìn)步,以推動(dòng)該領(lǐng)域的實(shí)質(zhì)性進(jìn)展。
本工作的主要貢獻(xiàn)可以總結(jié)如下:
我們采用了一個(gè)統(tǒng)一的流程來發(fā)展自動(dòng)駕駛的大型視覺基礎(chǔ)模型(VFMs)。這個(gè)流程包括對(duì)數(shù)據(jù)準(zhǔn)備、自監(jiān)著學(xué)習(xí)和適應(yīng)的全面審查。 我們系統(tǒng)地分類了提出框架內(nèi)每個(gè)過程的現(xiàn)有工作,如圖2所示。我們的分析提供了細(xì)致的分類、深入的比較,并在每個(gè)部分總結(jié)了洞見。 我們深入探討了在為自動(dòng)駕駛打造視覺基礎(chǔ)模型(VFMs)時(shí)遇到的關(guān)鍵挑戰(zhàn)。通過對(duì)超過250篇綜述論文的洞察,我們總結(jié)了關(guān)鍵方面,并提出了未來研究的方向。
數(shù)據(jù)準(zhǔn)備?
在自動(dòng)駕駛的背景下,鑒于確保人類安全所涉及的高風(fēng)險(xiǎn),處理復(fù)雜駕駛場景的穩(wěn)健性至關(guān)重要。自動(dòng)駕駛系統(tǒng)必須有效地應(yīng)對(duì)各種挑戰(zhàn),包括交通參與者、天氣條件、照明以及道路狀況。然而,收集涵蓋所有可能場景的數(shù)據(jù)集(如意外的行人相關(guān)交通事故)是不切實(shí)際且效率低下的。此外,基于合成數(shù)據(jù)訓(xùn)練的模型可能難以有效地概括到現(xiàn)實(shí)世界場景,因?yàn)閿?shù)據(jù)分布可能存在差異。因此,問題的關(guān)鍵在于生成逼真且可控制的數(shù)據(jù)。值得鼓舞的是,最近的進(jìn)展,特別是在擴(kuò)散模型和NeRF方面,已經(jīng)產(chǎn)生了模糊了現(xiàn)實(shí)與機(jī)器生成界限的圖像,為解決數(shù)據(jù)稀缺提供了有希望的技術(shù)支持。
本節(jié)不僅深入研究利用現(xiàn)有數(shù)據(jù)集,還探索了以成本效益和高效方式收集、合成或增強(qiáng)自動(dòng)駕駛數(shù)據(jù)的多種方法。這包括生成對(duì)抗網(wǎng)絡(luò)、擴(kuò)散模型、神經(jīng)輻射場和3D高斯噴濺等技術(shù)。表2提供了這些數(shù)據(jù)生成方法的概覽。
自監(jiān)著學(xué)習(xí)訓(xùn)練?
在獲取大量逼真數(shù)據(jù)后,有效的預(yù)訓(xùn)練范式對(duì)于從龐大數(shù)據(jù)集中提取一般信息和構(gòu)建視覺基礎(chǔ)模型至關(guān)重要。
自監(jiān)著學(xué)習(xí)(self supervised learning),即在大量未標(biāo)記數(shù)據(jù)上進(jìn)行訓(xùn)練,已在多個(gè)領(lǐng)域顯示出潛力,如自然語言處理和特定的圖像處理應(yīng)用。此外,它為自動(dòng)駕駛的視覺基礎(chǔ)模型(VFMs)的發(fā)展帶來了新的前景。如表3所示,我們對(duì)構(gòu)建自動(dòng)駕駛VFMs的自監(jiān)著學(xué)習(xí)范式進(jìn)行了全面的綜述,涵蓋了所有自監(jiān)著或無監(jiān)督方式的努力。這些方法被歸類為五個(gè)主要類型,包括基于對(duì)比的、基于重構(gòu)的、基于蒸餾的、基于渲染的和基于世界模型的。
適配
雖然當(dāng)前缺乏為自動(dòng)駕駛量身定制的視覺基礎(chǔ)模型(Vision Foundation Model)構(gòu)成了挑戰(zhàn),但我們可以分析現(xiàn)有基礎(chǔ)模型的應(yīng)用,例如來自其他領(lǐng)域的視覺基礎(chǔ)模型、多模態(tài)基礎(chǔ)模型和大型語言模型(Large Language Models),以增強(qiáng)我們的理解。表5清晰地總結(jié)了一些著名模型。通過檢查現(xiàn)有解決方案的局限性,我們已經(jīng)提取了關(guān)鍵見解,并提出了專門為自動(dòng)駕駛定制的視覺基礎(chǔ)模型。
結(jié)論
基礎(chǔ)模型的出現(xiàn)已根本性地改變了人工智能的格局,其在革新自動(dòng)駕駛方面的潛力不可否認(rèn)。本文深入探討了為自動(dòng)駕駛專門打造視覺基礎(chǔ)模型(VFM)的核心問題,重點(diǎn)突出了數(shù)據(jù)生成、預(yù)訓(xùn)練和適應(yīng)性等關(guān)鍵技術(shù)。然而,朝著穩(wěn)健且適應(yīng)性強(qiáng)的自動(dòng)駕駛感知系統(tǒng)邁進(jìn)的道路依然充滿挑戰(zhàn)。我們希望我們的調(diào)查和平臺(tái)能夠促進(jìn)未來在安全關(guān)鍵的自動(dòng)駕駛領(lǐng)域內(nèi)視覺基礎(chǔ)模型的研究。
柚子快報(bào)激活碼778899分享:自然語言處理 大模型+自動(dòng)駕駛
參考鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。