欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

目錄

柚子快報(bào)激活碼778899分享:【論文閱讀——機(jī)器人操作】

柚子快報(bào)激活碼778899分享:【論文閱讀——機(jī)器人操作】

http://yzkb.51969.com/

1. 【2022CoRL MIT&GOOGLE】MIRA: Mental Imagery for Robotic Affordances

動(dòng)機(jī)

人類能夠形成3D場(chǎng)景的心理圖像,以支持反事實(shí)想象、規(guī)劃和運(yùn)動(dòng)控制。

解決方案

給定一組2D RGB圖像,MIRA用nerf構(gòu)建一致的3D場(chǎng)景表示,通過(guò)該表示合成新的正交視圖,適用于像素級(jí)可承受性預(yù)測(cè)以優(yōu)化動(dòng)作。

使用 NeRF 作為場(chǎng)景表示來(lái)執(zhí)行新穎的視圖合成以實(shí)現(xiàn)精確的對(duì)象重新排列?!揪W(wǎng)絡(luò)輸入是RGB】

所以,核心是使用nerf【instant-NGP】來(lái)合成新的視角,有利于機(jī)器人操作的視角,來(lái)完成任務(wù)。

MIRA使用神經(jīng)輻射場(chǎng)(NeRF)作為機(jī)器人的“心靈之眼”,以想象場(chǎng)景的外觀。結(jié)合可承受性模型,預(yù)測(cè)從任何給定視圖的場(chǎng)景中當(dāng)前可執(zhí)行的動(dòng)作。機(jī)器人在想象中搜索最佳可承受性的動(dòng)作對(duì)應(yīng)的心理圖像,然后執(zhí)行與該心理圖像相對(duì)應(yīng)的動(dòng)作。

缺點(diǎn)

MIRA目前需要為每個(gè)操縱步驟訓(xùn)練一個(gè)場(chǎng)景的NeRF,這在實(shí)時(shí)視覺-運(yùn)動(dòng)控制任務(wù)中可能面臨挑戰(zhàn)?!痉夯院懿睢?作者提出了使用多個(gè)攝像頭觀察場(chǎng)景或?qū)W習(xí)即時(shí)NGP的先驗(yàn)以大幅減少運(yùn)行時(shí)間的可能性。

2. 【CoRL 2022 (oral)】Instruction-driven history-aware policies for robotic manipulations

輸入的表征是RGB-D。

動(dòng)機(jī)

一個(gè)重要的挑戰(zhàn)是序列任務(wù)需要跟蹤可能從當(dāng)前觀察中隱藏的對(duì)象狀態(tài),或者記住之前執(zhí)行的動(dòng)作。這種行為難以用主要依賴當(dāng)前觀察的方法來(lái)建模。另一個(gè)挑戰(zhàn)是操作任務(wù),這些任務(wù)需要精確控制機(jī)器人末端執(zhí)行器以達(dá)到目標(biāo)位置。這類任務(wù)在單視圖方法中難以解決,特別是在視覺遮擋和不同大小的物體存在的情況下。

解決方案

論文提出了一種Transformer架構(gòu),該架構(gòu)能夠整合自然語(yǔ)言指令、多視角場(chǎng)景觀察以及觀察和動(dòng)作的完整歷史記錄。

Hiveformer——一個(gè)歷史感知的指令條件多視圖Transformer。它將指令轉(zhuǎn)換為語(yǔ)言標(biāo)記,并結(jié)合了過(guò)去和當(dāng)前的視覺觀察以及自我感知的標(biāo)記。這些標(biāo)記被連接并輸入到多模態(tài)Transformer中,該Transformer聯(lián)合建模當(dāng)前和過(guò)去觀察之間的依賴關(guān)系、多攝像機(jī)視圖之間的空間關(guān)系,以及視覺和指令之間的精細(xì)交叉模態(tài)對(duì)齊?;诙嗄B(tài)Transformer的輸出表示,使用UNet解碼器預(yù)測(cè)7自由度動(dòng)作,即位置、旋轉(zhuǎn)和夾持器的狀態(tài)。

使用交叉注意力層學(xué)習(xí)當(dāng)前觀察與指令和歷史記錄的跨模態(tài)關(guān)系。 使用自注意力層學(xué)習(xí)來(lái)自多個(gè)相機(jī)視圖的補(bǔ)丁標(biāo)記之間的內(nèi)部關(guān)系。 通過(guò)前饋網(wǎng)絡(luò)進(jìn)一步處理這些關(guān)系。

缺點(diǎn)

由于 Transformer,計(jì)算成本隨輸入序列長(zhǎng)度二次增加。此外,我們的模型使用行為克隆進(jìn)行訓(xùn)練,可能會(huì)受到暴露偏差的影響。未來(lái)的研究可以使用分層模型提高長(zhǎng)期任務(wù)的效率,并結(jié)合強(qiáng)化學(xué)習(xí)。此外,我們的模型僅針對(duì)合成指令進(jìn)行訓(xùn)練,在人工編寫的指令上表現(xiàn)較差。對(duì)人工編寫的自動(dòng)生成指令進(jìn)行訓(xùn)練可以幫助提高性能

3. 【CoRL 2023】PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation

動(dòng)機(jī)

讓機(jī)器人能夠理解并執(zhí)行基于自然語(yǔ)言指令的操作任務(wù)是機(jī)器人技術(shù)的長(zhǎng)期目標(biāo)。 語(yǔ)言引導(dǎo)操作的主要方法使用 2D 圖像表示,這在組合多視角攝像機(jī)和推斷精確的 3D 位置和關(guān)系方面面臨困難

好的relate work寫法

Most existing work on language-guided robotic manipulation uses 2D image representations [1, 2, 3, 4]. BC-Z [1] applies ResNet [5] to encode a single-view image for action prediction. Hiveformer [3] employs transformers [6] to jointly encode multi-view images and all the history. Recent advances in vision and language learning [7, 8] have further paved the way in image-based manipulation [4]. CLIPort [4] and InstructRL [9] take advantage of pretrained vision-and-language models [8, 10] to improve generalization in multi-task manipulation. GATO [11] and PALM-E [12] jointly train robotic tasks with massive web image-text data for better representation and task reasoning.

Although 2D image-based policies have achieved promising results, they have inherent limitations for manipulation in the 3D world. First, they do not take full advantage of multi-view cameras for visual occlusion reasoning, as multi-view images are not explicitly aligned with each other, as shown in Figure 1. Second, accurately inferring the precise 3D positions and spatial relations [13] from 2D images is a significant challenge. Current 2D approaches mainly rely on extensive pretraining and sufficient in-domain data to achieve satisfactory performance.

盡管基于 2D 圖像的策略取得了令人鼓舞的成果,但它們?cè)?3D 世界中的操作存在固有的局限性。

為了克服基于2D的操控策略學(xué)習(xí)的限制,近期的研究已經(jīng)轉(zhuǎn)向基于3D的方法。使用3D表示提供了一種自然的方式來(lái)融合多視圖觀察,并促進(jìn)更精確的3D定位。例如,PerAct采用了一種以動(dòng)作為中心的方法,它采用超過(guò)100萬(wàn)個(gè)體素的高維輸入來(lái)分類下一個(gè)活躍的體素,為多任務(wù)語(yǔ)言引導(dǎo)的操控取得了最先進(jìn)的結(jié)果。然而,這種以動(dòng)作為中心的3D體素存在量化誤差和計(jì)算效率低下的問(wèn)題。以點(diǎn)云形式的替代3D表示已經(jīng)成功地用于3D對(duì)象檢測(cè)、分割和定位。然而,對(duì)于機(jī)器人操控來(lái)說(shuō),3D點(diǎn)云的有效和高效處理仍然未被充分探索。此外,現(xiàn)有的工作主要集中在單一任務(wù)操控上,缺乏同時(shí)整合語(yǔ)言指令以完成多項(xiàng)任務(wù)的多功能性。

解決方案

所提出的 PolarNet 采用精心設(shè)計(jì)的點(diǎn)云輸入、高效的點(diǎn)云編碼器和多模態(tài)轉(zhuǎn)換器來(lái)預(yù)測(cè)語(yǔ)言條件操作的 7-DoF 動(dòng)作。我們發(fā)現(xiàn)將點(diǎn)顏色與顏色一起使用、過(guò)濾不相關(guān)的點(diǎn)以及合并多個(gè)視圖至關(guān)重要。

缺點(diǎn)

【多任務(wù)學(xué)習(xí)方法】我們的多任務(wù)模型仍然不如最好的單任務(wù)模型,需要更先進(jìn)的多任務(wù)學(xué)習(xí)算法。【泛化性不夠】此外,雖然我們的策略可以執(zhí)行多項(xiàng)任務(wù),但我們還沒(méi)有研究對(duì)新場(chǎng)景、對(duì)象和任務(wù)的泛化。

4. 【corl2022】PERCEIVER-ACTOR: A Multi-Task Transformer for Robotic Manipulation

https://kimi.moonshot.cn/share/cpcip8e0atp5gutos860

Additional Related Work

附錄I Voxel-based representations have been used in several domains that specifically benefit from 3D understanding. Like in object detection [91, 92], object search [93], and vision-language grounding [94, 95], voxel maps have been used to build persistent scene representations [96]. In Neural Radiance Fields (NeRFs), voxel feature grids have dramatically reduced training and rendering times [97, 98]. Similarly, other works in robotics have used voxelized representations to embed viewpoint-invariance for driving [99] and manipulation [100]. The use of latent vectors in Perceiver [1] is broadly related to voxel hashing [101] from computer graphics. Instead of using a location-based hashing function to map voxels to fixed size memory, PerceiverIO uses cross attention to map the input to fixed size latent vectors, which are trained end-to-end. Another major difference is the treatment of unoccupied space. In graphics, unoccupied space does not affect rendering, but in PERACT, unoccupied space is where a lot of “action detections” happen. Thus the relationship between unoccupied and occupied space, i.e., scene, objects, robot, is crucial for learning action representations.

缺點(diǎn)

在附錄L中講了很多:

Generlization to Novel Instances and Objects.

5. 【CoRL 2023 (Oral)】RVT: Robotic View Transformer for 3D Object Manipulation

輸入:RGB-D

動(dòng)機(jī)

基于視圖的方法直接處理單個(gè)或多個(gè)相機(jī)的圖像,并在拾取放置和物體重新排列任務(wù)上取得了顯著的成功。然而,這些基于視圖的方法在需要3D推理的任務(wù)上成功有限

但是,創(chuàng)建和推理體素的成本比基于圖像的推理更高,因?yàn)轶w素的數(shù)量隨著分辨率的增加而呈立方比例增加,而圖像像素則呈平方比例增加。這使得基于體素的方法在可擴(kuò)展性方面不如基于視圖的方法。

我們能否構(gòu)建一個(gè)既能表現(xiàn)良好又繼承基于視圖方法的可擴(kuò)展性的操縱網(wǎng)絡(luò)?

解決方案

與以前的基于視圖的方法不同,作者們通過(guò)從虛擬視圖重新渲染圖像,將相機(jī)圖像與輸入到變換器的圖像解耦。這允許他們控制渲染過(guò)程,并帶來(lái)幾個(gè)好處。例如,他們可以從對(duì)任務(wù)有用的視點(diǎn)重新渲染(例如,直接在桌子上方),而不受現(xiàn)實(shí)世界物理約束的限制。此外,由于RVT的多視圖輸入是通過(guò)重新渲染獲得的,即使在現(xiàn)實(shí)世界實(shí)驗(yàn)中,也可以使用單個(gè)傳感器相機(jī)

缺點(diǎn)

視圖選擇:盡管作者們探索了不同的視圖選項(xiàng)并找到了一個(gè)適用于多個(gè)任務(wù)的配置,但未來(lái)的研究可以進(jìn)一步優(yōu)化視圖的選擇過(guò)程,甚至從數(shù)據(jù)中學(xué)習(xí)視圖選擇。相機(jī)到機(jī)器人基座的外參校準(zhǔn):與之前的基于視圖的方法以及顯式的體素基方法(如PerAct和C2F-ARM)相比,RVT需要校準(zhǔn)相機(jī)到機(jī)器人基座的外參。未來(lái)的工作可以探索消除這一要求的擴(kuò)展?,F(xiàn)實(shí)世界應(yīng)用:盡管RVT在模擬環(huán)境中表現(xiàn)出色,但在現(xiàn)實(shí)世界的應(yīng)用可能面臨不同的挑戰(zhàn),如傳感器噪聲和復(fù)雜環(huán)境因素。進(jìn)一步的研究可以集中在提高模型在現(xiàn)實(shí)世界條件下的魯棒性。

6. 【2024Baidu】 VIHE: Virtual In-Hand Eye Transformer for 3D Robotic Manipulation

基于二維圖像的操作

動(dòng)機(jī)

現(xiàn)有方法通常均勻地處理三維工作空間,忽略了末端執(zhí)行器附近的空間對(duì)于操作任務(wù)自然發(fā)生的歸納偏差的重要性。以前的研究強(qiáng)調(diào)了在手視角的價(jià)值:例如,有研究表明在手視圖揭示了更多與任務(wù)相關(guān)的細(xì)節(jié),這對(duì)于高精度任務(wù)特別有利。同樣,有研究表明,結(jié)合在手視圖可以減少與夾持器動(dòng)作無(wú)關(guān)的干擾,從而提高泛化能力。

7. Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation

輸入:點(diǎn)云

解決方案

Act3D是一個(gè)策略變換器,它在給定時(shí)間步長(zhǎng)t時(shí),根據(jù)一個(gè)或多個(gè)RGB-D圖像、語(yǔ)言指令以及有關(guān)機(jī)器人當(dāng)前末端執(zhí)行器姿態(tài)的本體感知信息,預(yù)測(cè)6-DoF末端執(zhí)行器姿態(tài)。模型的核心思想是通過(guò)迭代的粗到細(xì)3D點(diǎn)采樣和特征化來(lái)估計(jì)高分辨率的3D動(dòng)作圖,從而學(xué)習(xí)自由空間的3D感知表示。

缺點(diǎn)

Act3D [8] 利用點(diǎn)云進(jìn)行 3D 表示,但在計(jì)算上也受到大量采樣點(diǎn)的影響,并且忽略了操作任務(wù)中空間偏差的潛在優(yōu)勢(shì)。

柚子快報(bào)激活碼778899分享:【論文閱讀——機(jī)器人操作】

http://yzkb.51969.com/

相關(guān)閱讀

評(píng)論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/18951017.html

發(fā)布評(píng)論

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問(wèn)

文章目錄