欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

<ruby id="15isx"><samp id="15isx"></samp></ruby>

首頁(yè)綜合正文

評(píng)論

柚子快報(bào)激活碼778899分享：【論文閱讀——機(jī)器人操作】

Catch捕獲出海購(gòu)綜合2025-05-21230

柚子快報(bào)激活碼778899分享：【論文閱讀——機(jī)器人操作】

http://yzkb.51969.com/

1. 【2022CoRL MIT&GOOGLE】MIRA: Mental Imagery for Robotic Affordances

動(dòng)機(jī)

人類能夠形成3D場(chǎng)景的心理圖像，以支持反事實(shí)想象、規(guī)劃和運(yùn)動(dòng)控制。

解決方案

給定一組2D RGB圖像，MIRA用nerf構(gòu)建一致的3D場(chǎng)景表示，通過(guò)該表示合成新的正交視圖，適用于像素級(jí)可承受性預(yù)測(cè)以優(yōu)化動(dòng)作。

使用 NeRF 作為場(chǎng)景表示來(lái)執(zhí)行新穎的視圖合成以實(shí)現(xiàn)精確的對(duì)象重新排列?！揪W(wǎng)絡(luò)輸入是RGB】

所以，核心是使用nerf【instant-NGP】來(lái)合成新的視角，有利于機(jī)器人操作的視角，來(lái)完成任務(wù)。

MIRA使用神經(jīng)輻射場(chǎng)（NeRF）作為機(jī)器人的“心靈之眼”，以想象場(chǎng)景的外觀。結(jié)合可承受性模型，預(yù)測(cè)從任何給定視圖的場(chǎng)景中當(dāng)前可執(zhí)行的動(dòng)作。機(jī)器人在想象中搜索最佳可承受性的動(dòng)作對(duì)應(yīng)的心理圖像，然后執(zhí)行與該心理圖像相對(duì)應(yīng)的動(dòng)作。

缺點(diǎn)

MIRA目前需要為每個(gè)操縱步驟訓(xùn)練一個(gè)場(chǎng)景的NeRF，這在實(shí)時(shí)視覺-運(yùn)動(dòng)控制任務(wù)中可能面臨挑戰(zhàn)?！痉夯院懿睢?作者提出了使用多個(gè)攝像頭觀察場(chǎng)景或?qū)W習(xí)即時(shí)NGP的先驗(yàn)以大幅減少運(yùn)行時(shí)間的可能性。

2. 【CoRL 2022 (oral)】Instruction-driven history-aware policies for robotic manipulations

輸入的表征是RGB-D。

動(dòng)機(jī)

一個(gè)重要的挑戰(zhàn)是序列任務(wù)需要跟蹤可能從當(dāng)前觀察中隱藏的對(duì)象狀態(tài)，或者記住之前執(zhí)行的動(dòng)作。這種行為難以用主要依賴當(dāng)前觀察的方法來(lái)建模。另一個(gè)挑戰(zhàn)是操作任務(wù)，這些任務(wù)需要精確控制機(jī)器人末端執(zhí)行器以達(dá)到目標(biāo)位置。這類任務(wù)在單視圖方法中難以解決，特別是在視覺遮擋和不同大小的物體存在的情況下。

解決方案

論文提出了一種Transformer架構(gòu)，該架構(gòu)能夠整合自然語(yǔ)言指令、多視角場(chǎng)景觀察以及觀察和動(dòng)作的完整歷史記錄。

Hiveformer——一個(gè)歷史感知的指令條件多視圖Transformer。它將指令轉(zhuǎn)換為語(yǔ)言標(biāo)記，并結(jié)合了過(guò)去和當(dāng)前的視覺觀察以及自我感知的標(biāo)記。這些標(biāo)記被連接并輸入到多模態(tài)Transformer中，該Transformer聯(lián)合建模當(dāng)前和過(guò)去觀察之間的依賴關(guān)系、多攝像機(jī)視圖之間的空間關(guān)系，以及視覺和指令之間的精細(xì)交叉模態(tài)對(duì)齊?；诙嗄B(tài)Transformer的輸出表示，使用UNet解碼器預(yù)測(cè)7自由度動(dòng)作，即位置、旋轉(zhuǎn)和夾持器的狀態(tài)。

使用交叉注意力層學(xué)習(xí)當(dāng)前觀察與指令和歷史記錄的跨模態(tài)關(guān)系。使用自注意力層學(xué)習(xí)來(lái)自多個(gè)相機(jī)視圖的補(bǔ)丁標(biāo)記之間的內(nèi)部關(guān)系。通過(guò)前饋網(wǎng)絡(luò)進(jìn)一步處理這些關(guān)系。

缺點(diǎn)

由于 Transformer，計(jì)算成本隨輸入序列長(zhǎng)度二次增加。此外，我們的模型使用行為克隆進(jìn)行訓(xùn)練，可能會(huì)受到暴露偏差的影響。未來(lái)的研究可以使用分層模型提高長(zhǎng)期任務(wù)的效率，并結(jié)合強(qiáng)化學(xué)習(xí)。此外，我們的模型僅針對(duì)合成指令進(jìn)行訓(xùn)練，在人工編寫的指令上表現(xiàn)較差。對(duì)人工編寫的自動(dòng)生成指令進(jìn)行訓(xùn)練可以幫助提高性能

3. 【CoRL 2023】PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation

動(dòng)機(jī)

讓機(jī)器人能夠理解并執(zhí)行基于自然語(yǔ)言指令的操作任務(wù)是機(jī)器人技術(shù)的長(zhǎng)期目標(biāo)。語(yǔ)言引導(dǎo)操作的主要方法使用 2D 圖像表示，這在組合多視角攝像機(jī)和推斷精確的 3D 位置和關(guān)系方面面臨困難

好的relate work寫法

Most existing work on language-guided robotic manipulation uses 2D image representations [1, 2, 3, 4]. BC-Z [1] applies ResNet [5] to encode a single-view image for action prediction. Hiveformer [3] employs transformers [6] to jointly encode multi-view images and all the history. Recent advances in vision and language learning [7, 8] have further paved the way in image-based manipulation [4]. CLIPort [4] and InstructRL [9] take advantage of pretrained vision-and-language models [8, 10] to improve generalization in multi-task manipulation. GATO [11] and PALM-E [12] jointly train robotic tasks with massive web image-text data for better representation and task reasoning.

Although 2D image-based policies have achieved promising results, they have inherent limitations for manipulation in the 3D world. First, they do not take full advantage of multi-view cameras for visual occlusion reasoning, as multi-view images are not explicitly aligned with each other, as shown in Figure 1. Second, accurately inferring the precise 3D positions and spatial relations [13] from 2D images is a significant challenge. Current 2D approaches mainly rely on extensive pretraining and sufficient in-domain data to achieve satisfactory performance.

盡管基于 2D 圖像的策略取得了令人鼓舞的成果，但它們?cè)?3D 世界中的操作存在固有的局限性。

為了克服基于2D的操控策略學(xué)習(xí)的限制，近期的研究已經(jīng)轉(zhuǎn)向基于3D的方法。使用3D表示提供了一種自然的方式來(lái)融合多視圖觀察，并促進(jìn)更精確的3D定位。例如，PerAct采用了一種以動(dòng)作為中心的方法，它采用超過(guò)100萬(wàn)個(gè)體素的高維輸入來(lái)分類下一個(gè)活躍的體素，為多任務(wù)語(yǔ)言引導(dǎo)的操控取得了最先進(jìn)的結(jié)果。然而，這種以動(dòng)作為中心的3D體素存在量化誤差和計(jì)算效率低下的問(wèn)題。以點(diǎn)云形式的替代3D表示已經(jīng)成功地用于3D對(duì)象檢測(cè)、分割和定位。然而，對(duì)于機(jī)器人操控來(lái)說(shuō)，3D點(diǎn)云的有效和高效處理仍然未被充分探索。此外，現(xiàn)有的工作主要集中在單一任務(wù)操控上，缺乏同時(shí)整合語(yǔ)言指令以完成多項(xiàng)任務(wù)的多功能性。

解決方案

所提出的 PolarNet 采用精心設(shè)計(jì)的點(diǎn)云輸入、高效的點(diǎn)云編碼器和多模態(tài)轉(zhuǎn)換器來(lái)預(yù)測(cè)語(yǔ)言條件操作的 7-DoF 動(dòng)作。我們發(fā)現(xiàn)將點(diǎn)顏色與顏色一起使用、過(guò)濾不相關(guān)的點(diǎn)以及合并多個(gè)視圖至關(guān)重要。

缺點(diǎn)

【多任務(wù)學(xué)習(xí)方法】我們的多任務(wù)模型仍然不如最好的單任務(wù)模型，需要更先進(jìn)的多任務(wù)學(xué)習(xí)算法。【泛化性不夠】此外，雖然我們的策略可以執(zhí)行多項(xiàng)任務(wù)，但我們還沒(méi)有研究對(duì)新場(chǎng)景、對(duì)象和任務(wù)的泛化。

4. 【corl2022】PERCEIVER-ACTOR: A Multi-Task Transformer for Robotic Manipulation

https://kimi.moonshot.cn/share/cpcip8e0atp5gutos860

Additional Related Work

附錄I Voxel-based representations have been used in several domains that specifically benefit from 3D understanding. Like in object detection [91, 92], object search [93], and vision-language grounding [94, 95], voxel maps have been used to build persistent scene representations [96]. In Neural Radiance Fields (NeRFs), voxel feature grids have dramatically reduced training and rendering times [97, 98]. Similarly, other works in robotics have used voxelized representations to embed viewpoint-invariance for driving [99] and manipulation [100]. The use of latent vectors in Perceiver [1] is broadly related to voxel hashing [101] from computer graphics. Instead of using a location-based hashing function to map voxels to fixed size memory, PerceiverIO uses cross attention to map the input to fixed size latent vectors, which are trained end-to-end. Another major difference is the treatment of unoccupied space. In graphics, unoccupied space does not affect rendering, but in PERACT, unoccupied space is where a lot of “action detections” happen. Thus the relationship between unoccupied and occupied space, i.e., scene, objects, robot, is crucial for learning action representations.

缺點(diǎn)

在附錄L中講了很多：

Generlization to Novel Instances and Objects.

5. 【CoRL 2023 (Oral)】RVT: Robotic View Transformer for 3D Object Manipulation

輸入：RGB-D

動(dòng)機(jī)

基于視圖的方法直接處理單個(gè)或多個(gè)相機(jī)的圖像，并在拾取放置和物體重新排列任務(wù)上取得了顯著的成功。然而，這些基于視圖的方法在需要3D推理的任務(wù)上成功有限

但是，創(chuàng)建和推理體素的成本比基于圖像的推理更高，因?yàn)轶w素的數(shù)量隨著分辨率的增加而呈立方比例增加，而圖像像素則呈平方比例增加。這使得基于體素的方法在可擴(kuò)展性方面不如基于視圖的方法。

我們能否構(gòu)建一個(gè)既能表現(xiàn)良好又繼承基于視圖方法的可擴(kuò)展性的操縱網(wǎng)絡(luò)？

解決方案

與以前的基于視圖的方法不同，作者們通過(guò)從虛擬視圖重新渲染圖像，將相機(jī)圖像與輸入到變換器的圖像解耦。這允許他們控制渲染過(guò)程，并帶來(lái)幾個(gè)好處。例如，他們可以從對(duì)任務(wù)有用的視點(diǎn)重新渲染（例如，直接在桌子上方），而不受現(xiàn)實(shí)世界物理約束的限制。此外，由于RVT的多視圖輸入是通過(guò)重新渲染獲得的，即使在現(xiàn)實(shí)世界實(shí)驗(yàn)中，也可以使用單個(gè)傳感器相機(jī)

缺點(diǎn)

視圖選擇：盡管作者們探索了不同的視圖選項(xiàng)并找到了一個(gè)適用于多個(gè)任務(wù)的配置，但未來(lái)的研究可以進(jìn)一步優(yōu)化視圖的選擇過(guò)程，甚至從數(shù)據(jù)中學(xué)習(xí)視圖選擇。相機(jī)到機(jī)器人基座的外參校準(zhǔn)：與之前的基于視圖的方法以及顯式的體素基方法（如PerAct和C2F-ARM）相比，RVT需要校準(zhǔn)相機(jī)到機(jī)器人基座的外參。未來(lái)的工作可以探索消除這一要求的擴(kuò)展?，F(xiàn)實(shí)世界應(yīng)用：盡管RVT在模擬環(huán)境中表現(xiàn)出色，但在現(xiàn)實(shí)世界的應(yīng)用可能面臨不同的挑戰(zhàn)，如傳感器噪聲和復(fù)雜環(huán)境因素。進(jìn)一步的研究可以集中在提高模型在現(xiàn)實(shí)世界條件下的魯棒性。

6. 【2024Baidu】 VIHE: Virtual In-Hand Eye Transformer for 3D Robotic Manipulation

基于二維圖像的操作

動(dòng)機(jī)

現(xiàn)有方法通常均勻地處理三維工作空間，忽略了末端執(zhí)行器附近的空間對(duì)于操作任務(wù)自然發(fā)生的歸納偏差的重要性。以前的研究強(qiáng)調(diào)了在手視角的價(jià)值：例如，有研究表明在手視圖揭示了更多與任務(wù)相關(guān)的細(xì)節(jié)，這對(duì)于高精度任務(wù)特別有利。同樣，有研究表明，結(jié)合在手視圖可以減少與夾持器動(dòng)作無(wú)關(guān)的干擾，從而提高泛化能力。

7. Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation

輸入：點(diǎn)云

解決方案

Act3D是一個(gè)策略變換器，它在給定時(shí)間步長(zhǎng)t時(shí)，根據(jù)一個(gè)或多個(gè)RGB-D圖像、語(yǔ)言指令以及有關(guān)機(jī)器人當(dāng)前末端執(zhí)行器姿態(tài)的本體感知信息，預(yù)測(cè)6-DoF末端執(zhí)行器姿態(tài)。模型的核心思想是通過(guò)迭代的粗到細(xì)3D點(diǎn)采樣和特征化來(lái)估計(jì)高分辨率的3D動(dòng)作圖，從而學(xué)習(xí)自由空間的3D感知表示。

缺點(diǎn)

Act3D [8] 利用點(diǎn)云進(jìn)行 3D 表示，但在計(jì)算上也受到大量采樣點(diǎn)的影響，并且忽略了操作任務(wù)中空間偏差的潛在優(yōu)勢(shì)。

柚子快報(bào)激活碼778899分享：【論文閱讀——機(jī)器人操作】

http://yzkb.51969.com/

相關(guān)閱讀

評(píng)論可見，查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理，出于傳遞更多信息之目的，不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明，如有侵權(quán)，聯(lián)系刪除。

本文鏈接：http://gantiao.com.cn/post/18951017.html