柚子快報(bào)激活碼778899分享：自然語言處理大模型+自動(dòng)駕駛

ePRICE跨境價(jià)優(yōu)綜合2025-05-05210

http://yzkb.51969.com/

論文：https://arxiv.org/pdf/2401.08045.pdf

大型基礎(chǔ)模型的興起，它們基于廣泛的數(shù)據(jù)集進(jìn)行訓(xùn)練，正在徹底改變?nèi)斯ぶ悄茴I(lǐng)域的面貌。例如SAM、DALL-E2和GPT-4這樣的模型通過提取復(fù)雜的模式，并在不同任務(wù)中有效地執(zhí)行，從而作為廣泛AI應(yīng)用的強(qiáng)大構(gòu)建塊。自動(dòng)駕駛，作為AI應(yīng)用的一個(gè)活躍前沿，仍然面臨著缺乏專門的視覺基礎(chǔ)模型（Vision Foundation Models，VFMs）的挑戰(zhàn)。全面訓(xùn)練數(shù)據(jù)的稀缺、多傳感器集成的需求和多樣的任務(wù)特定架構(gòu)對(duì)該領(lǐng)域VFMs的發(fā)展構(gòu)成了重大障礙。本文深入探討了為自動(dòng)駕駛量身定制VFMs的關(guān)鍵挑戰(zhàn)，并概述了未來的發(fā)展方向。通過對(duì)250多篇論文的系統(tǒng)分析，我們剖析了VFM開發(fā)的基本技術(shù)，包括數(shù)據(jù)準(zhǔn)備、預(yù)訓(xùn)練策略和下游任務(wù)適應(yīng)。此外，我們還探索了如NeRF、擴(kuò)散模型、3D高斯噴濺和世界模型等關(guān)鍵進(jìn)展，為未來研究提供了全面的路線圖。為了賦能研究者，我們建立并維護(hù)了Forge VFM4AD，一個(gè)開放獲取的存儲(chǔ)庫，不斷更新自動(dòng)駕駛VFMs鍛造的最新進(jìn)展。

自動(dòng)駕駛（AD）技術(shù)的迅速發(fā)展正在重塑交通運(yùn)輸領(lǐng)域，開啟了一個(gè)由AI驅(qū)動(dòng)的未來。傳統(tǒng)的自動(dòng)駕駕駛感知系統(tǒng)依賴于模塊化架構(gòu)，使用專門的算法來處理特定任務(wù)，例如對(duì)象檢測 Lang et al. (2019)；Mao, Xue, et al. (2021)，語義分割 Y. Guo, Liu, Georgiou, 和 Lew (2018)；X. Yan et al. (2022)，以及深度估計(jì) Ming, Meng, Fan, 和 Yu (2021)。每個(gè)任務(wù)通常由一個(gè)單獨(dú)的模型解決，這些模型通常是在特定任務(wù)標(biāo)簽上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)。然而，這些分隔的組件在提升單個(gè)任務(wù)性能的同時(shí)犧牲了更廣泛的上下文理解和數(shù)據(jù)關(guān)系。這種方法通常導(dǎo)致輸出不一致，并限制了系統(tǒng)處理長尾案例的能力。

大規(guī)?；A(chǔ)模型，尤其是自然語言處理（NLP）領(lǐng)域的 Brown et al. (2020)；OpenAI (2023)，已成為人工智能領(lǐng)域的強(qiáng)大力量。這些模型在訓(xùn)練時(shí)使用了廣泛多樣的數(shù)據(jù)集，并經(jīng)常利用自監(jiān)著學(xué)習(xí)技術(shù)。一旦訓(xùn)練完成，它們可以通過微調(diào)來適應(yīng)廣泛的特定任務(wù)。像GPT-3/4 Brown et al. (2020)；OpenAI (2023)這樣的數(shù)十億參數(shù)模型在零/少次射擊學(xué)習(xí)中的成功尤其值得注意。它們在少次射擊學(xué)習(xí)方面的卓越能力使它們能夠有效地處理分布外的AD數(shù)據(jù)情景，例如遇到未知對(duì)象。此外，它們在推理方面的內(nèi)在能力使它們非常適合需要邏輯處理和明智決策的任務(wù)。

盡管大型基礎(chǔ)模型確實(shí)在各個(gè)領(lǐng)域產(chǎn)生了革命性的影響，但它們對(duì)AD的影響尚未達(dá)到預(yù)期。將現(xiàn)有的在2D數(shù)據(jù)或其他領(lǐng)域的文本模態(tài)上訓(xùn)練的視覺基礎(chǔ)模型（VFMs）直接應(yīng)用于AD任務(wù)已被證明是明顯不足的。這些模型缺乏利用對(duì)AD感知任務(wù)至關(guān)重要的豐富3D信息的能力，例如深度估計(jì)。此外，AD架構(gòu)的內(nèi)在異質(zhì)性和多傳感器融合的必要性給VFMs的直接適應(yīng)帶來了額外挑戰(zhàn)。這一挑戰(zhàn)由高效處理多樣化傳感器數(shù)據(jù)（例如激光雷達(dá)、相機(jī)、雷達(dá)）并無縫適應(yīng)AD領(lǐng)域內(nèi)各種下游任務(wù)的VFMs需求進(jìn)一步加劇。

在自動(dòng)駕駛發(fā)展的背景下，兩個(gè)關(guān)鍵因素阻礙了視覺基礎(chǔ)模型的進(jìn)展：- 數(shù)據(jù)稀缺性：由于隱私問題、安全規(guī)定和捕捉真實(shí)世界駕駛場景的復(fù)雜性，AD數(shù)據(jù)本質(zhì)上是有限的。此外，AD數(shù)據(jù)必須滿足嚴(yán)格的要求，包括多傳感器對(duì)齊（例如激光雷達(dá)、相機(jī)、雷達(dá)）和時(shí)間一致性。

任務(wù)異質(zhì)性：自動(dòng)駕駛呈現(xiàn)出一系列不同的任務(wù)，每個(gè)任務(wù)都需要不同的輸入形式（例如相機(jī)、激光雷達(dá)、雷達(dá)）和輸出格式（例如3D邊界框、車道線、深度圖）。這種異質(zhì)性對(duì)VFMs構(gòu)成了挑戰(zhàn)，因?yàn)獒槍?duì)一個(gè)任務(wù)優(yōu)化的架構(gòu)在其他任務(wù)上的表現(xiàn)往往不令人滿意。因此，開發(fā)一個(gè)能夠高效處理多傳感器數(shù)據(jù)并在各種不同下游任務(wù)中表現(xiàn)良好的單一通用架構(gòu)和表示仍然是一個(gè)重大障礙。

盡管存在這些挑戰(zhàn)，但有跡象表明，為自動(dòng)駕駛開發(fā)大型視覺基礎(chǔ)模型的前景正在逐漸顯現(xiàn)。通過持續(xù)收集 Caesar et al. (2020)；Mao, Niu, et al. (2021)和先進(jìn)模擬技術(shù)的不斷發(fā)展 X. Li et al. (2023)；Z. Yang et al. (2023a)為解決數(shù)據(jù)稀缺問題提供了可能。此外，感知領(lǐng)域的最新進(jìn)展，尤其是轉(zhuǎn)向統(tǒng)一表示法，利用鳥瞰圖（BEV） Z. Li, Wang, et al. (2022)；Philion 和 Fidler (2020)，和占用表示法 X. Tian, Jiang, et al. (2023)，為缺乏通用表示法和架構(gòu)的問題提供了潛在的解決方案。

本文深入探討了為自動(dòng)駕駛發(fā)展大型視覺基礎(chǔ)模型的關(guān)鍵技術(shù)，如圖1所示。我們的探索從在基礎(chǔ)模型、現(xiàn)有框架和任務(wù)方面建立全面背景開始，以及發(fā)展表示法，概述我們的核心動(dòng)機(jī)在第2節(jié)中。隨后，我們在第3節(jié)深入研究現(xiàn)有數(shù)據(jù)集和數(shù)據(jù)模擬技術(shù)，強(qiáng)調(diào)了像生成對(duì)抗網(wǎng)絡(luò)（GANs）、神經(jīng)輻射場（NeRFs）、擴(kuò)散模型和3D高斯噴濺（3DGS）等技術(shù)在解決自動(dòng)駕駛固有數(shù)據(jù)稀缺性方面的關(guān)鍵作用。在這個(gè)基礎(chǔ)上，第4節(jié)分析了有效訓(xùn)練VFMs在未標(biāo)記真實(shí)世界數(shù)據(jù)上的自我訓(xùn)練技術(shù)。最后，為了彌合訓(xùn)練有素的VFMs和下游任務(wù)之間的差距，第5節(jié)探討了將在其他領(lǐng)域發(fā)展的基礎(chǔ)模型應(yīng)用于AD領(lǐng)域。我們審視了所學(xué)到的寶貴經(jīng)驗(yàn)和潛在適應(yīng)性，以實(shí)現(xiàn)自動(dòng)駕駛中多樣化下游任務(wù)的有效性能。

與現(xiàn)有的綜述論文 Firoozi et al. (2023)；Y. Huang, Chen, 和 Li (2023)；J. Sun et al. (2023)；Z. Yang, Jia, Li, 和 Yan (2023)不同，這些論文囊括了在各個(gè)領(lǐng)域應(yīng)用大型基礎(chǔ)模型，本文通過專注于為自動(dòng)駕駛挑戰(zhàn)量身定制的大型視覺基礎(chǔ)模型的發(fā)展提出了一種新的方法。這種獨(dú)特的視角使我們能夠更深入地探討構(gòu)建VFMs所需的基本原則和技術(shù)進(jìn)步，以推動(dòng)該領(lǐng)域的實(shí)質(zhì)性進(jìn)展。

本工作的主要貢獻(xiàn)可以總結(jié)如下：

我們采用了一個(gè)統(tǒng)一的流程來發(fā)展自動(dòng)駕駛的大型視覺基礎(chǔ)模型（VFMs）。這個(gè)流程包括對(duì)數(shù)據(jù)準(zhǔn)備、自監(jiān)著學(xué)習(xí)和適應(yīng)的全面審查。我們系統(tǒng)地分類了提出框架內(nèi)每個(gè)過程的現(xiàn)有工作，如圖2所示。我們的分析提供了細(xì)致的分類、深入的比較，并在每個(gè)部分總結(jié)了洞見。我們深入探討了在為自動(dòng)駕駛打造視覺基礎(chǔ)模型（VFMs）時(shí)遇到的關(guān)鍵挑戰(zhàn)。通過對(duì)超過250篇綜述論文的洞察，我們總結(jié)了關(guān)鍵方面，并提出了未來研究的方向。

數(shù)據(jù)準(zhǔn)備?

在自動(dòng)駕駛的背景下，鑒于確保人類安全所涉及的高風(fēng)險(xiǎn)，處理復(fù)雜駕駛場景的穩(wěn)健性至關(guān)重要。自動(dòng)駕駛系統(tǒng)必須有效地應(yīng)對(duì)各種挑戰(zhàn)，包括交通參與者、天氣條件、照明以及道路狀況。然而，收集涵蓋所有可能場景的數(shù)據(jù)集（如意外的行人相關(guān)交通事故）是不切實(shí)際且效率低下的。此外，基于合成數(shù)據(jù)訓(xùn)練的模型可能難以有效地概括到現(xiàn)實(shí)世界場景，因?yàn)閿?shù)據(jù)分布可能存在差異。因此，問題的關(guān)鍵在于生成逼真且可控制的數(shù)據(jù)。值得鼓舞的是，最近的進(jìn)展，特別是在擴(kuò)散模型和NeRF方面，已經(jīng)產(chǎn)生了模糊了現(xiàn)實(shí)與機(jī)器生成界限的圖像，為解決數(shù)據(jù)稀缺提供了有希望的技術(shù)支持。

本節(jié)不僅深入研究利用現(xiàn)有數(shù)據(jù)集，還探索了以成本效益和高效方式收集、合成或增強(qiáng)自動(dòng)駕駛數(shù)據(jù)的多種方法。這包括生成對(duì)抗網(wǎng)絡(luò)、擴(kuò)散模型、神經(jīng)輻射場和3D高斯噴濺等技術(shù)。表2提供了這些數(shù)據(jù)生成方法的概覽。

自監(jiān)著學(xué)習(xí)訓(xùn)練?

在獲取大量逼真數(shù)據(jù)后，有效的預(yù)訓(xùn)練范式對(duì)于從龐大數(shù)據(jù)集中提取一般信息和構(gòu)建視覺基礎(chǔ)模型至關(guān)重要。

自監(jiān)著學(xué)習(xí)（self supervised learning），即在大量未標(biāo)記數(shù)據(jù)上進(jìn)行訓(xùn)練，已在多個(gè)領(lǐng)域顯示出潛力，如自然語言處理和特定的圖像處理應(yīng)用。此外，它為自動(dòng)駕駛的視覺基礎(chǔ)模型（VFMs）的發(fā)展帶來了新的前景。如表3所示，我們對(duì)構(gòu)建自動(dòng)駕駛VFMs的自監(jiān)著學(xué)習(xí)范式進(jìn)行了全面的綜述，涵蓋了所有自監(jiān)著或無監(jiān)督方式的努力。這些方法被歸類為五個(gè)主要類型，包括基于對(duì)比的、基于重構(gòu)的、基于蒸餾的、基于渲染的和基于世界模型的。

適配

雖然當(dāng)前缺乏為自動(dòng)駕駛量身定制的視覺基礎(chǔ)模型（Vision Foundation Model）構(gòu)成了挑戰(zhàn)，但我們可以分析現(xiàn)有基礎(chǔ)模型的應(yīng)用，例如來自其他領(lǐng)域的視覺基礎(chǔ)模型、多模態(tài)基礎(chǔ)模型和大型語言模型（Large Language Models），以增強(qiáng)我們的理解。表5清晰地總結(jié)了一些著名模型。通過檢查現(xiàn)有解決方案的局限性，我們已經(jīng)提取了關(guān)鍵見解，并提出了專門為自動(dòng)駕駛定制的視覺基礎(chǔ)模型。

結(jié)論

基礎(chǔ)模型的出現(xiàn)已根本性地改變了人工智能的格局，其在革新自動(dòng)駕駛方面的潛力不可否認(rèn)。本文深入探討了為自動(dòng)駕駛專門打造視覺基礎(chǔ)模型（VFM）的核心問題，重點(diǎn)突出了數(shù)據(jù)生成、預(yù)訓(xùn)練和適應(yīng)性等關(guān)鍵技術(shù)。然而，朝著穩(wěn)健且適應(yīng)性強(qiáng)的自動(dòng)駕駛感知系統(tǒng)邁進(jìn)的道路依然充滿挑戰(zhàn)。我們希望我們的調(diào)查和平臺(tái)能夠促進(jìn)未來在安全關(guān)鍵的自動(dòng)駕駛領(lǐng)域內(nèi)視覺基礎(chǔ)模型的研究。

柚子快報(bào)激活碼778899分享：自然語言處理大模型+自動(dòng)駕駛

http://yzkb.51969.com/

參考鏈接

評(píng)論可見，查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理，出于傳遞更多信息之目的，不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請(qǐng)注明，如有侵權(quán)，聯(lián)系刪除。

本文鏈接：http://gantiao.com.cn/post/19322283.html