欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

目錄

柚子快報(bào)邀請(qǐng)碼778899分享:自動(dòng)駕駛合集53

柚子快報(bào)邀請(qǐng)碼778899分享:自動(dòng)駕駛合集53

http://yzkb.51969.com/

?#?PanoSSC

對(duì)于一個(gè)安全的自動(dòng)駕駛系統(tǒng)而言,準(zhǔn)確的理解當(dāng)前的3D場(chǎng)景是至關(guān)重要的。自動(dòng)駕駛車(chē)輛通過(guò)利用傳感器采集到的數(shù)據(jù)信息以及感知算法對(duì)當(dāng)前場(chǎng)景包含的各類(lèi)元素進(jìn)行準(zhǔn)確的感知和理解對(duì)于下游的規(guī)控任務(wù)起到了非常重要的作用。

最近,由于Occupancy Network感知算法可以更加有效的感知任意大小的物體、部分被遮擋的物體以及當(dāng)前數(shù)據(jù)集中沒(méi)有預(yù)先定義好的目標(biāo)類(lèi)別,而受到了來(lái)自工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注,目前已經(jīng)有很多出色的Occupancy Network感知算法。

目前而言,在語(yǔ)義分割任務(wù)中,基于視覺(jué)的相關(guān)感知算法已經(jīng)取得了和激光雷達(dá)感知算法相接近的表現(xiàn)性能,但是相關(guān)的實(shí)例提取任務(wù)相對(duì)研究的較少??紤]到理解周?chē)h(huán)境中的具體實(shí)例目標(biāo)可以消除目標(biāo)不一致的語(yǔ)義預(yù)測(cè)結(jié)果以及相鄰目標(biāo)的混合預(yù)測(cè)問(wèn)題,而這些預(yù)測(cè)上的混淆問(wèn)題很有可能會(huì)損害下游規(guī)劃模塊的安全性。基于上述考慮,我們提出了一種新穎的單目全景3D場(chǎng)景重建方法,稱(chēng)之為PanoSSC。通過(guò)相關(guān)的實(shí)驗(yàn)結(jié)果可以證明,相比于其它的單目算法模型,我們提出的PanoSSC算法模型在SemanticKITTI數(shù)據(jù)集上實(shí)現(xiàn)了更具競(jìng)爭(zhēng)力的表現(xiàn)性能。同時(shí),PanoSSC還是首個(gè)僅依靠視覺(jué)信息來(lái)解決戶(hù)外全景3D場(chǎng)景重建的算法模型。

PanoSSC算法模型實(shí)現(xiàn)了室外場(chǎng)景的單目場(chǎng)景的重建任務(wù)

論文鏈接:https://arxiv.org/pdf/2406.07037

網(wǎng)絡(luò)模型的整體架構(gòu)&細(xì)節(jié)梳理

語(yǔ)義占用預(yù)測(cè)是將當(dāng)前的3D立體空間劃分成網(wǎng)格體素的形式,并且通過(guò)算法模型來(lái)預(yù)測(cè)每個(gè)體素的具體語(yǔ)義標(biāo)簽類(lèi)別。全景3D場(chǎng)景重建任務(wù)將會(huì)進(jìn)一步預(yù)測(cè)屬于前景類(lèi)別的每個(gè)體素的實(shí)例序號(hào)。在詳細(xì)介紹本文提出的PanoSSC全景3D場(chǎng)景重建算法之前,下圖展示了我們提出的PanoSSC算法模型的整體網(wǎng)絡(luò)結(jié)構(gòu)。

提出的PanoSSC單目全景3D場(chǎng)景重建模型的整體網(wǎng)絡(luò)結(jié)構(gòu)圖

通過(guò)上述的PanoSSC算法模型整體網(wǎng)絡(luò)結(jié)構(gòu)圖可以看出,我們提出的算法模型包括圖像編碼器模塊,2D向3D空間轉(zhuǎn)換的視角轉(zhuǎn)換模塊,語(yǔ)義柵格預(yù)測(cè)頭模塊以及基于Transformer的掩碼解碼器頭模塊。

最后,受到Panoptic SegFormer算法模型的啟發(fā),我們采用了一個(gè)基于掩碼的策略將最終掩碼解碼器層的預(yù)測(cè)掩碼結(jié)果與語(yǔ)義占用頭的背景結(jié)果合并,以獲得3D體素化場(chǎng)景的占用、語(yǔ)義和實(shí)例物體序號(hào)信息。

3D Mask Decoder(3D掩碼解碼器)

為了提升算法模型前景實(shí)例的重建和分割質(zhì)量,我們將體素特征輸入到實(shí)例補(bǔ)全頭模塊中實(shí)現(xiàn)實(shí)例感知語(yǔ)義占用的預(yù)測(cè)。我們提出了一個(gè)基于Transformer的3D掩碼解碼器作為實(shí)例補(bǔ)全頭模塊,從給定的查詢(xún)中預(yù)測(cè)類(lèi)別屬性以及3D掩碼信息,其網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。

3D Mask Decoder模塊的具體實(shí)現(xiàn)流程

Mask-wise merging inference(掩碼合并推理)

為了進(jìn)一步細(xì)化前景實(shí)例的重建質(zhì)量。我們?yōu)?D掩碼設(shè)計(jì)了一種掩碼合并策略。具體而言,在算法模型推理的過(guò)程中只需要語(yǔ)義占用頭的背景預(yù)測(cè)結(jié)果,同時(shí)將屬于前景類(lèi)別的體素設(shè)置為空。然后,我們將來(lái)自實(shí)例補(bǔ)全頭模塊輸出的3D掩碼逐個(gè)合并到語(yǔ)義占用的預(yù)測(cè)結(jié)果當(dāng)中。由于每個(gè)掩碼只代表一個(gè)前景實(shí)例,因此可以分配一個(gè)唯一的索引號(hào)。

下面的偽代碼具體說(shuō)明了我們掩碼合并推理的整體邏輯情況

Mask-wise Merging算法的偽代碼整體流程

訓(xùn)練策略

實(shí)驗(yàn)結(jié)果&評(píng)價(jià)指標(biāo)

定量分析部分

為了驗(yàn)證我們提出的算法模型PanoSSC對(duì)于語(yǔ)義場(chǎng)景補(bǔ)全任務(wù)的有效性,我們?cè)赟emanticKITTI數(shù)據(jù)集上與其它的算法模型進(jìn)行了對(duì)比實(shí)驗(yàn),相關(guān)的實(shí)驗(yàn)結(jié)果如下所示。

不同算法模型在SemanticKITTI數(shù)據(jù)集上的語(yǔ)義場(chǎng)景補(bǔ)全結(jié)果匯總

通過(guò)匯總的實(shí)驗(yàn)結(jié)果可以看出,我們提出的算法模型在主要的mIoU評(píng)測(cè)指標(biāo)上實(shí)現(xiàn)了與SOTA想接近的性能。此外,我們提出的算法模型有助于區(qū)分相似的目標(biāo)類(lèi)別,并顯著提高卡車(chē)以及其他車(chē)輛的重建效果。

此外,為了驗(yàn)證我們提出算法模型對(duì)于全景3D場(chǎng)景重建任務(wù)的有效性,我們將提出的算法模型與其它的算法模型進(jìn)行了實(shí)驗(yàn)對(duì)比,相關(guān)的結(jié)果如下所示。

不同算法模型在SemanticKITTI數(shù)據(jù)集上全景3D場(chǎng)景補(bǔ)全結(jié)果匯總

通過(guò)上述的實(shí)驗(yàn)結(jié)果可以看出,我們提出的算法模型的場(chǎng)景補(bǔ)全性能明顯優(yōu)于對(duì)SSC方法的輸出進(jìn)行聚類(lèi)的算法。與MonoScene算法模型相比,我們提出的PanoSSC算法模型的全景重建質(zhì)量更高,特別是對(duì)于前景類(lèi)別。

此外,為了更加直觀的展示各個(gè)算法模型在不同類(lèi)別上的表現(xiàn)性能,我們也將相關(guān)實(shí)驗(yàn)結(jié)果進(jìn)行了匯總,如下所示

不同算法模型針對(duì)不同類(lèi)別的重建性能

通過(guò)實(shí)驗(yàn)結(jié)果可以看出,與對(duì)語(yǔ)義占用頭和TPVFormer模型的輸出結(jié)果進(jìn)行歐氏聚類(lèi)相比,添加實(shí)例補(bǔ)全頭模塊可以大大提高算法模型對(duì)于卡車(chē)和其他車(chē)輛的全景重建質(zhì)量。可以進(jìn)一步的證明我們提出的網(wǎng)絡(luò)模型可以更準(zhǔn)確地區(qū)分這三個(gè)相似的目標(biāo)類(lèi)別:汽車(chē)、卡車(chē)和其他車(chē)輛。

定量分析部分

下圖展示了不同的算法模型對(duì)于全景3D場(chǎng)景重建效果可視化圖,通過(guò)實(shí)驗(yàn)結(jié)果可以看出,我們提出的PanoSSC算法模型具有最佳的重建效果。

不同算法模型的全景3D場(chǎng)景重建效果

結(jié)論

在本文中,我們提出了一種新穎的體素化場(chǎng)景理解方法,稱(chēng)之為PanoSSC,該方法可以解決室外語(yǔ)義占用預(yù)測(cè)和全景三維場(chǎng)景重建任務(wù)。在SemanticKITTI數(shù)據(jù)集上的相關(guān)實(shí)驗(yàn)結(jié)果表明,我們提出的PanoSSC算法模型在語(yǔ)義占用預(yù)測(cè)任務(wù)上的表現(xiàn)與最先進(jìn)的單目方法相當(dāng)。

#?生成式AI成最大贏家!自動(dòng)駕駛的下一個(gè)風(fēng)口?

剛剛,CVPR 2024 正式公布了最佳論文、最佳學(xué)生論文等獎(jiǎng)項(xiàng)。來(lái)自谷歌、美國(guó)·加州大學(xué)圣迭戈分校等2篇論文獲得了最佳論文獎(jiǎng),來(lái)自德國(guó)·圖賓根大學(xué)和OSU的2篇論文獲得了最佳學(xué)生論文獎(jiǎng)。

2024 年?CVPR?(Computer Vision and Pattern Recogntion Conference) 即國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議,于6月17日至21日正在美國(guó)西雅圖召開(kāi)。2024?年,今年共提交了11532份有效論文,2719篇論文被接收,錄用率為23.6%。

https://cvpr.thecvf.com/

最佳論文

Generative Image Dynamics

Google Research?(美國(guó)·谷歌研究院 )

https://generative-dynamics.github.io/

摘? ?要:我們提出了一種建模場(chǎng)景運(yùn)動(dòng)圖像空間先驗(yàn)的方法。我們的先驗(yàn)是從真實(shí)視頻序列中提取的一系列運(yùn)動(dòng)軌跡中學(xué)習(xí)得到的,這些視頻展示了自然的、振蕩的動(dòng)態(tài),比如樹(shù)木、花朵、蠟燭和在風(fēng)中搖曳的衣服。我們?cè)诟道锶~域中建模了這種密集的、長(zhǎng)期的運(yùn)動(dòng)先驗(yàn):給定一張單獨(dú)的圖像,我們訓(xùn)練的模型使用頻率協(xié)調(diào)的擴(kuò)散抽樣過(guò)程來(lái)預(yù)測(cè)一個(gè)頻譜體積,可以將其轉(zhuǎn)換為跨越整個(gè)視頻的運(yùn)動(dòng)紋理。除了基于圖像的渲染模塊,這些軌跡還可以用于許多下游應(yīng)用,比如將靜止圖像轉(zhuǎn)換為無(wú)縫循環(huán)的視頻,或者通過(guò)將頻譜體積解釋為圖像空間的模態(tài)基礎(chǔ)來(lái)讓用戶(hù)在真實(shí)圖片中與對(duì)象進(jìn)行真實(shí)交互,從而近似對(duì)象動(dòng)態(tài)。

Rich Human Feedback for Text-to-lmage Generation

University of California, San Diego?(美國(guó)·加州大學(xué)圣迭戈分校)

https://arxiv.org/abs/2312.10240

近期的文本到圖像(T2I)生成模型,如?Stable Diffusion?和 Imagen,在基于文本描述生成高分辨率圖像方面取得了顯著進(jìn)展。然而,許多生成的圖像仍然存在問(wèn)題,例如偽影/不合理性、與文本描述不一致以及美學(xué)質(zhì)量低下。受到強(qiáng)化學(xué)習(xí)與人類(lèi)反饋(RLHF)在大型語(yǔ)言模型中的成功啟發(fā),之前的研究收集了人類(lèi)提供的圖像評(píng)分反饋,并訓(xùn)練了一個(gè)獎(jiǎng)勵(lì)模型來(lái)改進(jìn) T2I 生成。在本文中,我們通過(guò)以下方式豐富了反饋信號(hào):(i)標(biāo)記與文本不一致或不合理的圖像區(qū)域,以及(ii)注釋文本提示中被誤述或缺失的單詞。我們收集了在18K個(gè)生成的圖像(RichHF-18K)上提供這樣豐富的人類(lèi)反饋,并訓(xùn)練了一個(gè)多模態(tài) Transformer 來(lái)自動(dòng)預(yù)測(cè)豐富的反饋。我們展示了預(yù)測(cè)的豐富人類(lèi)反饋可以用于改進(jìn)圖像生成,例如通過(guò)選擇高質(zhì)量的訓(xùn)練數(shù)據(jù)來(lái)微調(diào)和改進(jìn)生成模型,或者通過(guò)創(chuàng)建具有預(yù)測(cè)熱圖的掩碼來(lái)修復(fù)問(wèn)題區(qū)域。值得注意的是,這些改進(jìn)適用于超出用于收集人類(lèi)反饋數(shù)據(jù)的圖像生成模型(Stable Diffusion變體)的模型(Muse)。

最佳學(xué)生論文

Mip-Splatting: Alias-free 3D Gaussian Splatting

University of Tübingen?(德國(guó)·圖賓根大學(xué))

https://github.com/autonomousvision/mip-splatting(代碼已開(kāi)源)

摘? ?要:進(jìn)來(lái),3D高斯點(diǎn)染已經(jīng)展示出令人印象深刻的新視角合成結(jié)果,達(dá)到了高保真度和高效率。然而,在改變采樣率(例如,通過(guò)改變焦距或相機(jī)距離)時(shí),可以觀察到明顯的偽影。我們發(fā)現(xiàn),這種現(xiàn)象的源頭可以歸因于缺乏 3D 頻率約束和使用 2D 膨脹濾波器。為了解決這個(gè)問(wèn)題,我們引入了一個(gè) 3D 平滑濾波器,該濾波器基于輸入視圖引起的最大采樣頻率約束了 3D 高斯基元的大小,消除了放大時(shí)的高頻偽影。此外,用 2D Mip 濾波器替換 2D 膨脹,這模擬了 2D 盒濾波器,有效地減輕了混疊和膨脹問(wèn)題。我們的評(píng)估,包括在單尺度圖像上進(jìn)行訓(xùn)練并在多個(gè)尺度上進(jìn)行測(cè)試的情況,驗(yàn)證了我們方法的有效性。

BioCLlP: A Vision Foundation Model for the Tree of Life

The Ohio State University (美國(guó)·俄亥俄州立大學(xué))

https://imageomics.github.io/bioclip/(數(shù)據(jù)代碼已開(kāi)源)

https://arxiv.org/abs/2311.18803

摘要:從無(wú)人機(jī)到個(gè)人手機(jī),收集到的自然界圖像越來(lái)越豐富,成為了生物信息的重要來(lái)源。針對(duì)從圖像中提取與生物學(xué)相關(guān)信息的科學(xué)和保護(hù)需求,計(jì)算方法和工具(尤其是計(jì)算機(jī)視覺(jué)方法)如雨后春筍般涌現(xiàn)。然而,大多數(shù)方法都是為特定任務(wù)而設(shè)計(jì)的定制方法,并不容易適應(yīng)或擴(kuò)展到新的問(wèn)題、背景和數(shù)據(jù)集。針對(duì)圖像上的一般性生物學(xué)問(wèn)題,我們急需一個(gè)視覺(jué)模型。為了解決這個(gè)問(wèn)題,我們策劃并發(fā)布了 TreeOfLife-10M,這是迄今為止最大、最多樣化的 ML 準(zhǔn)備好的生物圖像數(shù)據(jù)集。然后,我們開(kāi)發(fā)了 BioCLIP,這是一個(gè)基于生命樹(shù)的基礎(chǔ)模型,利用了 TreeOfLife-10M 所捕捉到的生物學(xué)的獨(dú)特屬性,即植物、動(dòng)物和真菌的圖像豐富多樣,以及豐富的結(jié)構(gòu)化生物學(xué)知識(shí)。我們對(duì)我們的方法進(jìn)行了嚴(yán)格的基準(zhǔn)測(cè)試,涉及到多樣化的細(xì)粒度生物分類(lèi)任務(wù),并發(fā)現(xiàn) BioCLIP 在各項(xiàng)任務(wù)中始終表現(xiàn)出色,顯著優(yōu)于現(xiàn)有的基線方法(絕對(duì)優(yōu)勢(shì)達(dá)到16%到17%)。內(nèi)在評(píng)估表明,BioCLIP 已學(xué)會(huì)了符合生命樹(shù)的分層表示,揭示了其強(qiáng)大的泛化能力。

其他獎(jiǎng)項(xiàng)

#?Agent Attention

全新注意力范式!清華Agent Attention:無(wú)縫集成Softmax和Linear

本文介紹了一種新型的注意力機(jī)制Agent Attention,它結(jié)合了Softmax Attention和Linear Attention的優(yōu)點(diǎn)。Agent Attention通過(guò)引入Agent token來(lái)平衡Query token與Key-value對(duì)之間的關(guān)系,提高了Transformer模型的效率和性能。

有趣的是,本文展示了 Agent attention 等效于 Linear attention 的廣義形式。因此,代理注意力無(wú)縫集成了強(qiáng)大的 Softmax attention 和高效的 Linear attention。

作者通過(guò)大量實(shí)驗(yàn)表明,Agent attention 在各種視覺(jué)任務(wù)中證明了有效性,包括圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割和圖像生成。而且,代理注意力在高分辨率場(chǎng)景中表現(xiàn)出顯著的性能,這得益于其線性注意力性質(zhì)。例如,當(dāng)應(yīng)用于 Stable Diffusion 時(shí),Agent attention 會(huì)加速生成并顯著提高圖像生成質(zhì)量,且無(wú)需任何額外的訓(xùn)練。

圖1:Softmax Attention,Linear Attention 以及 Agent Attention

1 Agent Attention:集成 Softmax 和 Linear 注意力機(jī)制

論文名稱(chēng):Agent Attention: On the Integration of Softmax and Linear Attention (Arxiv 2023.12)

論文地址:https://arxiv.org/pdf/2312.08874

代碼鏈接:https://github.com/LeapLabTHU/Agent-Attention

1.1 Agent Attention 集成 Softmax Attention 和 Linear Attention 的優(yōu)勢(shì)

將 Transformer 和 Self attention 引入視覺(jué)領(lǐng)域會(huì)帶來(lái)巨大的挑戰(zhàn)?,F(xiàn)代 Transformer 模型通常采用 Softmax attention,計(jì)算每個(gè) Query 和 Key 之間的相似度,導(dǎo)致計(jì)算復(fù)雜度隨 token 數(shù)量呈二次方關(guān)系。為了解決這個(gè)問(wèn)題,現(xiàn)有的工作通過(guò)設(shè)計(jì)高效的注意力機(jī)制來(lái)降低計(jì)算復(fù)雜度。比如,Swin Transformer[1]減少了感受野,將 Self-Attention 的計(jì)算限制在局部窗口上。PVT[2]采用稀疏 Attention,通過(guò)減少 Key 和 Value 的數(shù)量來(lái)減輕計(jì)算負(fù)擔(dān)。盡管這些方法很有效,但它們不可避免地?fù)p害了對(duì)遠(yuǎn)程關(guān)系進(jìn)行建模的能力,并且仍然不如全局 Self-Attention。

由于全局 Self-Attention 的內(nèi)在冗余,Agent token 的數(shù)量可以設(shè)計(jì)為遠(yuǎn)小于 Query token 的數(shù)量。作者發(fā)現(xiàn)簡(jiǎn)單地匯集原始 Query token 來(lái)當(dāng)做 Agent token 的效果就非常好。這個(gè)做法可以將 Softmax Attention 的二次復(fù)雜度降低到線性復(fù)雜度,同時(shí)保留了全局上下文建模能力。有趣的是,如圖 1 所示,Agent Attention 可以看作是廣義的線性注意力。換句話(huà)說(shuō),Agent Attention 集成了 Softmax 和線性注意力,并享受二者的優(yōu)勢(shì)。

1.2 Softmax Attention 和 Linear Attention 計(jì)算范式

1.3 Agent Transformer

Softmax 和 Linear 注意力要么計(jì)算復(fù)雜度過(guò)高,要么模型表達(dá)能力不足。以前的研究通常將這兩種注意力范式視為不同的方法,并嘗試降低 Softmax Attention 的計(jì)算成本或提高 Linear Attention 的性能。Agent Attention 集成了 Softmax Attention 和 Linear Attention,同時(shí)享受線性復(fù)雜度和高表現(xiàn)力的好處。

首先將 Softmax 和 Linear Attention 縮寫(xiě)為:

多樣性恢復(fù)模塊

盡管 Agent Attention 受益于低計(jì)算復(fù)雜度和高模型表達(dá)能力,但它也受到特征多樣性不足的影響。作為補(bǔ)救措施,作者遵循[5]的做法并采用深度卷積 (DWC) 模塊來(lái)保留特征多樣性。

在這些設(shè)計(jì)的基礎(chǔ)上,作者提出了一種新的 Agent Attention 模塊,其可以表述為:

式中,??。

Agent Attention 模塊的優(yōu)勢(shì)

1) 高效計(jì)算和強(qiáng)表達(dá)能力:?之前的工作通常將 Softmax Attention 和 Linear Attention 視為兩種不同的注意力范式,旨在解決它們各自的局限性。作為這兩種注意力形式的無(wú)縫集成,Agent Attention 繼承了兩者的優(yōu)點(diǎn),同時(shí)具有較低的計(jì)算復(fù)雜度和高模型表達(dá)能力。

2) 大感受野:?Agent Attention 可以在保持相同數(shù)量的計(jì)算量的同時(shí)采用較大的感受野。得益于線性復(fù)雜度,Agent Attention 可以在保持線性計(jì)算量的同時(shí)享受大甚至全局感受野的優(yōu)勢(shì)。

1.4 感知任務(wù)實(shí)驗(yàn)結(jié)果

ImageNet-1K 實(shí)驗(yàn)結(jié)果

如圖3所示,在各種模型中將 Softmax Attention 替換為 Agent Attention 可以顯著提高性能。例如,Agent-PVT-S 在僅使用 30% 的參數(shù)和 40% 的 FLOPs 時(shí)超過(guò)了 PVT-L。Agent-Swin-T/S 在保持相似 FLOPs 的同時(shí)比 SwinT/S 高出 1.3% 和 0.7%。這些結(jié)果明確證明 Agent Attention 方法具有優(yōu)勢(shì),且能夠適應(yīng)不同的架構(gòu)。

圖3:ImageNet-1K 實(shí)驗(yàn)結(jié)果

作者通過(guò)在各種設(shè)備上部署模型來(lái)進(jìn)一步進(jìn)行實(shí)際速度測(cè)量。圖4說(shuō)明了本文模型在 CPU 上實(shí)現(xiàn)了 1.7 到 2.1 倍的推理速度,同時(shí)提高了性能。在 RTX3090 GPU 和 A100 GPU 上,本文模型也實(shí)現(xiàn)了 1.4 倍到 1.7 倍的推理速度。

圖4:ImageNet 上的 Accuracy-Runtime 曲線。運(yùn)行時(shí)使用圖像分辨率 224×224 進(jìn)行測(cè)試

COCO 目標(biāo)檢測(cè)實(shí)驗(yàn)結(jié)果

作者將本文模型應(yīng)用于 RetinaNet、Mask R-CNN 和 Cascade Mask R-CNN 框架來(lái)評(píng)估本文方法的性能。使用具有不同檢測(cè)頭的 1x 和 3x schedules 進(jìn)行了一系列實(shí)驗(yàn)。如圖5所示,本文模型在所有配置中都表現(xiàn)出一致的增強(qiáng)。Agent-PVT 優(yōu)于 PVT 模型,box AP 從 +3.9 增加到 +4.7,而 Agent-Swin 超過(guò) Swin 模型高達(dá) +1.5 box AP。這些實(shí)質(zhì)性的改進(jìn)可以歸因于大感受野,證明了 Agent Attention 在高分辨率場(chǎng)景的有效性。

圖5:COCO 目標(biāo)檢測(cè)實(shí)驗(yàn)結(jié)果

ADE20K 語(yǔ)義分割實(shí)驗(yàn)結(jié)果

作者將本文模型應(yīng)用于2個(gè)分割模型,SemanticFPN 和 UperNet。結(jié)果如圖6所示。值得注意的是,Agent-PVT-T 和 Agent-Swin-T 比 PVT-T 和 Swin-T 高 +3.61 和 +2.17 的 mIoU。結(jié)果表明本文模型與各種分割 Backbone 兼容,并且都實(shí)現(xiàn)了改進(jìn)。

圖6:ADE20K 語(yǔ)義分割實(shí)驗(yàn)結(jié)果

1.5 生成任務(wù)實(shí)驗(yàn)結(jié)果

擴(kuò)散模型的出現(xiàn)使得生成高分辨率和高質(zhì)量的圖像成為可能。然而,當(dāng)前的擴(kuò)散模型主要使用具有全局感受野的 Softmax Attention,導(dǎo)致計(jì)算成本大,且生成速度慢。作者將 Agent Attention 應(yīng)用于 Stable Diffusion[6],希望提高模型的生成速度。經(jīng)過(guò)簡(jiǎn)單的調(diào)整,使用 Agent Attention (稱(chēng)為 AgentSD) 的 Stable Diffusion 的生成速度展示出顯著改進(jìn),并且在沒(méi)有任何額外訓(xùn)練的情況下產(chǎn)生了更好的圖像質(zhì)量。

作者實(shí)際上將 Agent Attention 應(yīng)用于 ToMeSD 模型[7]。ToMeSD 在 Stable Diffusion 的注意力計(jì)算之前減少了 token 的數(shù)量,提高了生成速度。盡管如此,合并后的 token 數(shù)量仍然很大,導(dǎo)致持續(xù)的復(fù)雜度和延遲。因此,作者將 ToMeSD 模型中的 Softmax Attention 替換為 Agent Attention,以進(jìn)一步提高速度。作者通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),通過(guò) token merging[8]生成 Agent token 時(shí),Agent Attention 可以直接應(yīng)用于 Stable Diffusion 和 ToMeSD 模型,而不需要任何額外的訓(xùn)練。除此之外,作者通過(guò)在早期擴(kuò)散生成步驟中應(yīng)用 Agent Attention 并保持后面的步驟不變來(lái)獲得顯著提升。

作者定量比較了 AgentSD 與 Stable Diffusion 和 ToMeSD。如圖7所示,ToMeSD 在保持相似圖像質(zhì)量的同時(shí)加速了 Stable Diffusion。AgentSD 不僅進(jìn)一步加速了 ToMeSD,而且顯著提高了圖像生成質(zhì)量。具體而言,在保持卓越的圖像生成質(zhì)量的同時(shí),與 Stable Diffusion 和 ToMeSD 相比,AgentSD 的生成速度提高了 1.84 倍和 1.69 倍。在等效的生成速度下,與 ToMeSD 相比,AgentSD 生成 FID 分?jǐn)?shù)低 0.9。

圖7:Stable Diffusion, ToMeSD 和 AgentSD 的定量結(jié)果

作者在圖8中展示了一些可視化結(jié)果。與 Stable Diffusion 和 ToMeSD 相比,AgentSD 顯著地減少了歧義和生成錯(cuò)誤。例如,在第1列中,Stable Diffusion 和 ToMeSD 產(chǎn)生一條腿和兩個(gè)尾巴的鳥(niǎo)類(lèi),而 AgentSD 的樣本沒(méi)有表現(xiàn)出這個(gè)問(wèn)題。在第3列中,當(dāng)提供 "A high quality photo of a mitten" 的 prompt 時(shí),Stable Diffusion 和 ToMeSD 錯(cuò)誤地生成貓,而 AgentSD 產(chǎn)生了正確的圖像。

圖8:由 Stable Diffusion、ToMeSD (r = 40%) 和 AgentSD (r = 40%) 生成的樣本

用于微調(diào)的 AgentSD

作者將代理注意力應(yīng)用于基于 SD 的 Dreambooth[9],以驗(yàn)證其在微調(diào)下的性能。當(dāng)微調(diào)時(shí),Agent Attention 可以集成到所有擴(kuò)散生成步驟中,與原始 Dreambooth 相比,生成速度提高了 2.2 倍。

1.6 大感受野和高分辨率

現(xiàn)代視覺(jué) Transformer 通常將 Self-Attention 的計(jì)算限制在局部窗口上,以降低計(jì)算復(fù)雜度,比如 Swin。如下圖9所示,作者逐漸擴(kuò)展 Swin 的窗口大小從 7^27^2 到 56^256^2 。顯然,隨著感受野的擴(kuò)展,模型的性能不斷提高。這表明,雖然窗口注意力范式是有效的,但它不可避免地?fù)p害了 Self-Attention 的遠(yuǎn)程建模能力,仍然不如全局注意力機(jī)制。由于 Agent Attention 的線性復(fù)雜度,可以從全局感受野中受益,同時(shí)仍然保持相同的計(jì)算復(fù)雜度。

圖9:基于 Agent-Swin-T 的窗口大小消融實(shí)驗(yàn)結(jié)果

受 Softmax attention 的二次復(fù)雜度的限制,當(dāng)前的視覺(jué) Transformer 通常通過(guò)增加模型深度和寬度來(lái)擴(kuò)大。作者也嘗試了 EfficientNet 中提出的提升輸入分辨率的方法,結(jié)果如圖10所示。

圖10:通過(guò)增加分辨率來(lái)縮放模型

與 DeiT-B 相比,Agent-DeiT-B 實(shí)現(xiàn)了 0.2 的精度增益,而 448^2448^2 分辨率下的 Agent-DeiT-S 僅用四分之一的參數(shù)達(dá)到了 83.1% 的精度。作者在縮放 Agent-PVT-M 和 Agent-Swin-S 時(shí)觀察到了類(lèi)似的趨勢(shì),在圖11中,作者逐漸增加 Agent-Swin-S、Swin-S 和 Swin-B 的分辨率。在高分辨率場(chǎng)景中,本文模型性能始終比較優(yōu)越。

圖11:增加分辨率到 256×256, 288×288, 320×320, 352×352, 384×384 的結(jié)果

1.7 與其他線性注意力機(jī)制的對(duì)比

作者使用 DeiT-T 和 Swin-T 將本文的 Agent Attention 與其他 Linear Attention 方法進(jìn)行比較。如圖12所示,各種 Linear Attention 方法替換 DeiT-T 和 Swin-T 所采用的 Softmax Attention 通常會(huì)導(dǎo)致顯著的性能下降。值得注意的是,本文模型優(yōu)于其他方法以及 Softmax 基線模型。

圖12:不同線性注意設(shè)計(jì)的比較

Agent token 數(shù)量的消融實(shí)驗(yàn)結(jié)果

模型的計(jì)算復(fù)雜度可以通過(guò)改變 Agent token 的數(shù)量來(lái)加以調(diào)節(jié)。如圖13所示,可以觀察到減少淺層中的 agent token 數(shù)量對(duì)性能沒(méi)有不利的影響。但是,在更深層中減少 agent token 的數(shù)量導(dǎo)致性能下降。

圖13:Agent token 數(shù)量的消融實(shí)驗(yàn)結(jié)果

參考

^Swin Transformer: Hierarchical Vision Transformer using Shifted Windows ^Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions ^Rethinking Attention with Performers ^SOFT: Softmax-free Transformer with Linear Complexity ^FLatten Transformer: Vision Transformer using Focused Linear Attention ^High-Resolution Image Synthesis with Latent Diffusion Models ^Token Merging for Fast Stable Diffusion ^Token Merging: Your ViT But Faster ^DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

# 相信靠「端到端」就能實(shí)現(xiàn) L4,就該改行了。

去年年底馬斯克的?FSD V12 全球直播,重新訓(xùn)練的系統(tǒng)完全沒(méi)有給這位科技頂流一點(diǎn)面子。

在全球觀眾的見(jiàn)證下,特斯拉試圖闖一次陣仗最大的紅燈,來(lái)告訴所有人:端到端自動(dòng)駕駛,其實(shí)沒(méi)有那么容易。

「是技術(shù)進(jìn)步,還是一意孤行」,在一個(gè)傳統(tǒng)分模塊的技術(shù)棧面前顯而易見(jiàn)的 Bug 出現(xiàn)了之后,也就有了討論的空間。

但是,好在 FSD V12 并沒(méi)有停滯不前,這些討論并不會(huì)傳到技術(shù)開(kāi)拓者的耳朵里。

FSD V12.3 發(fā)布,馬斯克宣布北美車(chē)主可以試用一個(gè)月。

事情開(kāi)始發(fā)生變化,由「端到端是一條死路」,變成了「路況還是簡(jiǎn)單,有本事到國(guó)內(nèi)來(lái)試試」。

進(jìn)入 2024 年,國(guó)內(nèi)廠商突然然開(kāi)始著手宣傳端到端,各大廠商都有意無(wú)意地透露,自己正在這個(gè)方向上押重注。

3 月 17 日,在汽車(chē)百人會(huì)上,二線智能駕駛廠商元戎啟行突然宣布,元戎啟行是國(guó)內(nèi)第一家能夠?qū)⒍说蕉四P统晒ι宪?chē)的人工智能企業(yè); 4 月 24 日 ADS 2.0 升級(jí)為乾崑 3.0,技術(shù)轉(zhuǎn)向 GOD/PDP 網(wǎng)絡(luò)全新架構(gòu),對(duì)外稱(chēng)是端到端架構(gòu); 5 月 20 日,小鵬汽車(chē)舉辦了以「開(kāi)啟AI智駕時(shí)代」為主題的AI DAY發(fā)布會(huì),宣布端到端大模型已經(jīng)量產(chǎn)上車(chē); 5 月 22 日,傳出消息,小米汽車(chē)原圖森未來(lái)首席科學(xué)家王乃巖即將帶領(lǐng)團(tuán)隊(duì)加入小米汽車(chē),負(fù)責(zé)端到端自動(dòng)駕駛團(tuán)隊(duì),而王乃巖樂(lè)于表達(dá),在知乎上也曾多次抨擊端到端自動(dòng)駕駛;

就像 2021 年 BEV 浪潮一樣,各大廠商再次在自動(dòng)駕駛路線上達(dá)成了一致。

那么什么是端到端自動(dòng)駕駛,先進(jìn)在何處,真的能幫助我們獲得更好的自動(dòng)駕駛體驗(yàn)嗎?

01 什么是端到端自動(dòng)駕駛

經(jīng)典的自動(dòng)駕駛系統(tǒng)有著相對(duì)統(tǒng)一的系統(tǒng)架構(gòu):

探測(cè)(detection); 跟蹤(tracking); 靜態(tài)環(huán)境建圖(mapping) 高精地圖定位; 目標(biāo)物軌跡預(yù)測(cè) 本車(chē)軌跡規(guī)劃; 運(yùn)動(dòng)控制。

幾乎所有的自動(dòng)駕駛系統(tǒng)都離不開(kāi)這些子系統(tǒng),在常規(guī)的技術(shù)開(kāi)發(fā)中,這些模塊分別由不同的團(tuán)隊(duì)分擔(dān),各自負(fù)責(zé)自己模塊的結(jié)果輸出。

這樣的好處是,每一個(gè)子系統(tǒng)都能夠有足夠好的可解釋性,在開(kāi)發(fā)時(shí)能夠獨(dú)立優(yōu)化。

與此同時(shí),為了保證整體自動(dòng)駕駛的性能,每一個(gè)模塊都需要保證給出穩(wěn)定的表現(xiàn)。

如果將這些系統(tǒng)簡(jiǎn)單分為兩部分,可以是感知系統(tǒng)和規(guī)劃控制系統(tǒng):

其實(shí)最主要的特征是:感知得到結(jié)果之后,將結(jié)果傳遞給規(guī)劃控制系統(tǒng)。

為了讓系統(tǒng)表現(xiàn)足夠好,其實(shí)暗含了兩個(gè)條件:

感知的結(jié)果足夠正確 規(guī)劃控制獲得的信息足夠豐富

很遺憾,這兩條都難以保證,為何?

規(guī)劃控制所有從感知得到的信息,都是感知工程師基于現(xiàn)有的資源定義好的,這里的資源包括:標(biāo)注的能力、獲取相應(yīng)數(shù)據(jù)的能力,甚至工程師們對(duì)駕駛的理解。

舉一個(gè)非常簡(jiǎn)單的例子,一般來(lái)說(shuō)我們開(kāi)車(chē)時(shí)候發(fā)現(xiàn)前車(chē)打轉(zhuǎn)向燈,我們會(huì)相對(duì)開(kāi)始警覺(jué),并且給前車(chē)足夠的空間進(jìn)入本車(chē)道,但是由于團(tuán)隊(duì)限于資源,并沒(méi)有識(shí)別前車(chē)轉(zhuǎn)向的信號(hào)。

這個(gè)「前車(chē)打開(kāi)轉(zhuǎn)向燈」的信息,對(duì)于規(guī)劃控制來(lái)說(shuō),它就是丟失了。

「因此發(fā)現(xiàn)轉(zhuǎn)向燈信號(hào),并且提前做出反應(yīng)」,這個(gè)策略就成了一個(gè)不可能完成的任務(wù)。

這就引出了模塊化自動(dòng)駕駛的弊端:信息的有損傳遞。

下游任務(wù)得到的信息是不充分的,就相當(dāng)于有兩個(gè)駕駛員,其中主駕眼睛被蒙住,只負(fù)責(zé)操作;另一個(gè)坐在副駕駛,由他來(lái)告訴主駕駛前方發(fā)生了什么。

而信息的傳遞方式是兩個(gè)駕駛員都能理解的,我們可以稱(chēng)之為:信息的顯式表達(dá)。

舉個(gè)例子,駕駛的語(yǔ)境中前方目標(biāo)的識(shí)別,就是高度抽象的顯式表達(dá),一輛車(chē)被抽象成、速度、位置、尺寸、加速度等。

這種表達(dá)是人為用經(jīng)驗(yàn)抽象出來(lái)并且傳遞給下游。

但是「被誤解是表達(dá)者的宿命」,人和人之間的信息傳遞一定是有損的,所以這種開(kāi)車(chē)方式很難達(dá)到非常好的體驗(yàn)。

優(yōu)秀的分模塊系統(tǒng)就相當(dāng)于兩個(gè)駕駛員有了足夠的駕駛默契,但是絕對(duì)不能與一個(gè)有足夠駕駛經(jīng)驗(yàn)的司機(jī)對(duì)比。

既然信息顯示表達(dá)傳遞會(huì)有損耗,那該怎么做?

這里有個(gè)概念是:信息的隱式表達(dá)。

我們常??吹揭恍┱撐奶岬?Feature 層,這是一些信息在神經(jīng)網(wǎng)絡(luò)中的某一層的特征表達(dá),是在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)自行學(xué)到的重要信息。但是這些信息不是靠人為定義確定的,我們的經(jīng)驗(yàn)并不能完全理解,但是神經(jīng)網(wǎng)絡(luò)能夠理解,自動(dòng)選擇重要的信息。

回到自動(dòng)駕駛語(yǔ)境中,那就是如果信息的表達(dá)是有損耗的,那么就不表達(dá)了,直接將用神經(jīng)網(wǎng)絡(luò)里的信號(hào)與下游對(duì)接起來(lái)。

這其實(shí)就是 CVPR 2023 年 Best Paper UniAD 的思路:分模塊端到端。

分模塊端到端

模塊與模塊之間的信息傳遞不再是開(kāi)發(fā)工程師能夠直接閱讀并且理解的內(nèi)容,而是直接將幾個(gè)模塊連接起來(lái),然后在訓(xùn)練中進(jìn)行全局優(yōu)化。

由此產(chǎn)生了區(qū)別于傳統(tǒng)自動(dòng)駕駛技術(shù)棧最重要的結(jié)構(gòu)特征:全局可導(dǎo)并且可以全局訓(xùn)練。

UniAD

這里我們簡(jiǎn)單看一下UniAD 的思路,從結(jié)構(gòu)上看,如果不考慮各模塊之間的連接,可能會(huì)認(rèn)為這就是一個(gè)傳統(tǒng)的大力飛磚,所有的模塊都用 Transformer 進(jìn)行改造的系統(tǒng)。因?yàn)橐廊豢梢院苊黠@的看到 BEV freature 層、MapFormer(建圖)、TrackFormer(跟蹤)等模塊。

但是,其實(shí)最重要的改進(jìn)并不是如此,而是各個(gè)模塊之間的連接方式,并不是像我們傳統(tǒng)技術(shù)棧一樣,用初級(jí)工程師甚至駕駛員完全能夠理解的方式進(jìn)行連接的,而是通過(guò)神經(jīng)網(wǎng)絡(luò)的方式進(jìn)行連接。

當(dāng)然由于開(kāi)環(huán)評(píng)測(cè)方式(并不是實(shí)際運(yùn)行結(jié)果,與環(huán)境并沒(méi)有交互)過(guò)于單一。業(yè)內(nèi)也有學(xué)者對(duì)其提出批評(píng),認(rèn)為由于 UniAD 主要在 Nuscenes 上進(jìn)行開(kāi)環(huán)評(píng)測(cè),導(dǎo)致大部分的軌跡,模型只要輸出合適的直行命令即可獲得較好的結(jié)果,并且甚至還設(shè)計(jì)了一個(gè)新的模型,將感知結(jié)果完全丟失,只留下自車(chē)和周?chē)?chē)輛的軌跡,也能獲得不錯(cuò)的結(jié)果。

VAD

這篇論文發(fā)表在 2023 年的 ECCV 上,相較于 UniAD ,摒棄了傳統(tǒng)技術(shù)棧中的柵格化表征,對(duì)整個(gè)駕駛場(chǎng)景進(jìn)行矢量化建模,同樣與 UniAD 一致,VAD 基于統(tǒng)一的 Transformer 結(jié)構(gòu)。

動(dòng)態(tài)目標(biāo)信息由 Vectorized Motion Transformer 提取,實(shí)現(xiàn)動(dòng)態(tài)目標(biāo)檢測(cè)和矢量化的軌跡預(yù)測(cè); 靜態(tài)地圖由 Vectorized Map Transformer 提??; Planning Transformer 以隱式的動(dòng)靜態(tài)場(chǎng)景特征作為輸入,并且獲得相應(yīng)的規(guī)劃信息。

從結(jié)構(gòu)來(lái)看,OCC 的模塊被完全拋棄了。

對(duì)此論文中也有解釋?zhuān)琌CC 的模塊一定程度上作為后處理兜底的任務(wù),具有較大的算力開(kāi)銷(xiāo),而 VAD 選擇在訓(xùn)練階段引入更多約束,降低對(duì)后處理兜底的需求。

于此同時(shí),VAD 也在 Carla(一種被學(xué)界廣泛使用的自動(dòng)駕駛模擬器)中進(jìn)行了評(píng)測(cè),也獲得了非常好的結(jié)果。

從這兩篇論文中我們不難看出,學(xué)界對(duì)于端到端自動(dòng)駕駛的態(tài)度應(yīng)該是可連接并且全局可以進(jìn)行共同優(yōu)化訓(xùn)練的端到端,而非一個(gè)完全的純黑盒網(wǎng)絡(luò),還是從原有的自動(dòng)駕駛技術(shù)棧進(jìn)行改進(jìn)而來(lái),這實(shí)際上與大模型無(wú)關(guān),也與 nWorld Model 也并沒(méi)有產(chǎn)生實(shí)際的聯(lián)系。

那么既然定義清楚了,業(yè)內(nèi)是否都有必要切換呢?切換的難度在什么地方?

02 端到端自動(dòng)駕駛會(huì)帶來(lái)什么

全局可導(dǎo)并且全局優(yōu)化是端到端結(jié)構(gòu)上的特點(diǎn),這種特點(diǎn)能帶來(lái)什么呢?

「Scaling Law」

這是一個(gè)非常流行的詞匯,從 ChatGPT 3.5 橫空出世,震驚之余人們總結(jié)出來(lái)的經(jīng)驗(yàn),通俗的說(shuō)法即:數(shù)據(jù)驅(qū)動(dòng),大力出奇跡。

這也是 OpenAI 奉為圭臬的開(kāi)發(fā)準(zhǔn)則,事實(shí)證明這條路確實(shí)能夠產(chǎn)生出來(lái)目前最優(yōu)秀的人工智能產(chǎn)品,ChatGPT4、Sora,都遵循這條規(guī)則。

而自動(dòng)駕駛現(xiàn)有的技術(shù)棧每個(gè)模塊之間是不可連接的,每個(gè)模塊之間是靠人為和規(guī)則進(jìn)行連接的,無(wú)法完全靠數(shù)據(jù)進(jìn)行全局訓(xùn)練,那么 Scaling Rule 至少在目前在自動(dòng)駕駛界是無(wú)效的。

而端到端自動(dòng)駕駛在一定程度上就給了 Scaling Law 發(fā)揮的余地,這符合目前人工智能的大趨勢(shì)。

在傳統(tǒng)的技術(shù)棧解決問(wèn)題上,不論多么復(fù)雜的 Corner Case 都需要工程師們,用非常抽象的方式將場(chǎng)景描述清楚,收集數(shù)據(jù)然后標(biāo)注,解決問(wèn)題,然后驗(yàn)證。

但是實(shí)際上場(chǎng)景浩如煙海,很多任務(wù)非常瑣碎,以單點(diǎn)突破的方式幾乎沒(méi)有可能完全解決。

所以有些公司的場(chǎng)景待解決庫(kù)里面會(huì)將重點(diǎn)的安全問(wèn)題先處理,而小頻率的體驗(yàn)問(wèn)題會(huì)之后處理,而這些小頻率的體驗(yàn)問(wèn)題,可能就決定了,這個(gè)場(chǎng)景的處理是否類(lèi)人。

例如,紅綠燈前的減速度是否絲滑,是否是根據(jù)當(dāng)時(shí)的車(chē)道線和交通參與者做的實(shí)時(shí)判斷?

6 月 7 日,在上海人工智能實(shí)驗(yàn)室主辦的端到端研討會(huì)上,前段時(shí)間離職加入小米的消息引發(fā)廣泛關(guān)注的王乃巖提出:

端到端可以將很瑣碎的任務(wù),用人類(lèi)的駕駛習(xí)慣進(jìn)行統(tǒng)一的監(jiān)督,降低開(kāi)發(fā)成本,與可解釋的傳統(tǒng)技術(shù)棧結(jié)合,可能可以帶領(lǐng)我們走向 L4 甚至 L5。

03 端到端自動(dòng)駕駛的難點(diǎn)

我們都知道神經(jīng)網(wǎng)絡(luò)是黑盒系統(tǒng),目前其實(shí)也沒(méi)有辦法去控制神經(jīng)網(wǎng)絡(luò)內(nèi)部發(fā)生了什么,而這天然與自動(dòng)駕駛要求的安全性和可靠性相悖。

在傳統(tǒng)的技術(shù)棧中,如果遇到了一個(gè)問(wèn)題,是可以通過(guò)分模塊的方式找到出問(wèn)題的部分,例如感知層給的目標(biāo)的位置不對(duì)、規(guī)劃給的軌跡不好。

但是端到端系統(tǒng)這些方式就失效了。

更好的問(wèn)題歸因優(yōu)化和驗(yàn)證系統(tǒng)迫在眉睫。

如何找到合適的數(shù)據(jù)

我們可以將同樣基本是黑盒的感知系統(tǒng)推廣到整個(gè)自動(dòng)駕駛系統(tǒng)上。

以前感知如果出了問(wèn)題應(yīng)該怎么做,這里舉一個(gè)非常典型的 Corner Case, 公交車(chē)上廣告牌的人形圖案,這個(gè)問(wèn)題特斯拉、理想都爆出過(guò)誤識(shí)別新聞。

應(yīng)該如何解決這個(gè)問(wèn)題?

挖掘足夠的的公交車(chē)上廣告牌的人形圖案數(shù)據(jù),扔給神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,不斷優(yōu)化感知系統(tǒng),規(guī)劃和控制部分可以保持不變。

那么再進(jìn)一步,已經(jīng)是端到端系統(tǒng)了,如果現(xiàn)在結(jié)果是車(chē)輛誤剎。

那么問(wèn)題的歸因就成了一個(gè)巨大的問(wèn)題,因?yàn)闆](méi)有辦法馬上知道,是因?yàn)檫@個(gè)人形圖案帶來(lái)的 BUG,也就無(wú)法去對(duì)應(yīng)尋找數(shù)據(jù)。

即使找到了對(duì)應(yīng)的問(wèn)題,尋找特定的數(shù)據(jù)也是巨大工程,需要在數(shù)據(jù)閉環(huán)系統(tǒng)中找到相似的人形公交視頻和人類(lèi)駕駛數(shù)據(jù),再進(jìn)入端到端系統(tǒng)進(jìn)行訓(xùn)練。

那么新的問(wèn)題又出現(xiàn)了,如何驗(yàn)證問(wèn)題已經(jīng)修復(fù)并且性能不回退呢?

如何驗(yàn)證端到端自動(dòng)駕駛系統(tǒng)

我們知道傳統(tǒng)的自動(dòng)駕駛技術(shù)棧通過(guò)仿真虛擬進(jìn)行大規(guī)模驗(yàn)證得出結(jié)論后,可以上車(chē)進(jìn)行實(shí)車(chē)測(cè)試。

而這里最重要的區(qū)別是,仿真的驗(yàn)證。

在傳統(tǒng)的技術(shù)棧中,可以將每個(gè)模塊分開(kāi)來(lái)驗(yàn)證的,感知和規(guī)劃可以分別用數(shù)據(jù)在云上大規(guī)模驗(yàn)證,每個(gè)團(tuán)隊(duì)都會(huì)有一個(gè)數(shù)據(jù)庫(kù),每次新系統(tǒng)上線會(huì)將數(shù)據(jù)喂到新系統(tǒng)里面進(jìn)行大規(guī)模驗(yàn)證。

這是之前的經(jīng)驗(yàn)。

但是這里有兩個(gè)問(wèn)題:

大部分團(tuán)隊(duì)的驗(yàn)證方式是開(kāi)環(huán)驗(yàn)證,也就是并沒(méi)有與環(huán)境產(chǎn)生任何交互,只驗(yàn)證輸入和輸出鏈路。 大部分團(tuán)隊(duì)對(duì)感知的驗(yàn)證還無(wú)法用純虛擬的方式進(jìn)行,需要實(shí)車(chē)數(shù)據(jù)才可以完成。

而這與端到端自動(dòng)駕駛是相悖的。

端到端駕駛系統(tǒng)在上車(chē)跑之前,必須要用虛擬的方式全局驗(yàn)證通過(guò),否則上車(chē)跑通無(wú)異于天方夜譚。

那么就涉及到一個(gè)非常好的可以模擬所有感知輸出的自動(dòng)駕駛模擬器,而且能夠在這個(gè)模擬器里面模仿所有的交通參與者的交互信息。

即為了保證系統(tǒng)在真實(shí)世界的安全性,我們需要在虛擬世界中將系統(tǒng)充分驗(yàn)證。

前文提到的 Carla 在一定程度上可以滿(mǎn)足學(xué)界的需求,但是場(chǎng)景的單一和渲染的質(zhì)量,離業(yè)界的要求依然想去甚遠(yuǎn)。

其實(shí)不難看到,端到端自動(dòng)駕駛依然依賴(lài)原有的自動(dòng)駕駛開(kāi)發(fā)工具鏈,優(yōu)秀的數(shù)據(jù)閉環(huán)工具用來(lái)收集數(shù)據(jù),優(yōu)秀的自動(dòng)駕駛仿真系統(tǒng)用來(lái)驗(yàn)證,而這大部分團(tuán)隊(duì)幾乎都沒(méi)有。

從這個(gè)角度來(lái)看,端到端自動(dòng)駕駛無(wú)法進(jìn)行彎道超車(chē)

寫(xiě)在最后

雖然著名反 OpenAI 人工智能專(zhuān)家楊樂(lè)昆認(rèn)為,現(xiàn)有的 LLM 盡管在自然語(yǔ)言處理、對(duì)話(huà)交互、文本創(chuàng)作等領(lǐng)域表現(xiàn)出色,但其仍只是一種「統(tǒng)計(jì)建?!辜夹g(shù)。

通過(guò)學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律來(lái)完成相關(guān)任務(wù),本質(zhì)上并非具備真正的「理解」和「推理」能力。

而這個(gè)理論似乎放在端到端自動(dòng)駕駛上也成立,相似的是最近港大的著名學(xué)者馬毅提出:如果相信只靠 Scaling Laws 能實(shí)現(xiàn) AGI,你該改行了。

那么似乎我們也可以說(shuō):如果相信只靠端到端就能實(shí)現(xiàn) L5,那么你該改行了。

不過(guò),我們目前看到最有希望的一條路已經(jīng)擺在了我們面前,雖然這條路看不到是否能夠通向終點(diǎn),這條路似乎也沒(méi)有那么簡(jiǎn)單,路上充滿(mǎn)了很多不確定性,抵觸的聲音不絕于耳。

但是特斯拉已經(jīng)向我們示范了這條路的巨大潛力。Taobao? 開(kāi)發(fā)板商城? whaosoft?aiot?http://143ai.com??天皓智聯(lián)

所以,我們?yōu)槭裁床蝗L試呢?

-------

柚子快報(bào)邀請(qǐng)碼778899分享:自動(dòng)駕駛合集53

http://yzkb.51969.com/

文章來(lái)源

評(píng)論可見(jiàn),查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/19506117.html

發(fā)布評(píng)論

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問(wèn)

文章目錄