欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

柚子快報(bào)邀請(qǐng)碼778899分享：PRIMAL論文閱讀

Auction拍賣達(dá)人綜合2025-05-05480

柚子快報(bào)邀請(qǐng)碼778899分享：PRIMAL論文閱讀

http://yzkb.51969.com/

論文名：PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning Journal：IEEE Robotics and Automation Letters Date：2019-7 Citations：197 DOI：10.1109/lra.2019.2903261

本文提出了primal，一個(gè)結(jié)合深度強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的、用于MAPF問題的新框架。

1策略Policy

1.1 觀察空間Observation Space

智能體的觀察是以自身為中心的有限FOV,屬于部分可觀察。此外，智能體始終可以訪問指向其目標(biāo)的單位向量和到其目標(biāo)的歐幾里得距離。將可用信息分成不同的通道來簡(jiǎn)化agent的學(xué)習(xí)任務(wù)。每個(gè)觀察空間都由表示障礙物、其他智能體的位置、智能體自己的目標(biāo)位置（如果在FOV內(nèi)）以及其他可觀察智能體的目標(biāo)位置的二進(jìn)制矩陣組成。

1.2 行動(dòng)空間Action Space

離散的行動(dòng)。在每個(gè)時(shí)間步長(zhǎng)，沿四個(gè)基本方向之一移動(dòng)一個(gè)單元格或保持靜止。與障礙物或者其他智能體碰撞都是無效動(dòng)作。在訓(xùn)練期間，僅從有效動(dòng)作中采樣動(dòng)作，并且使用額外的損失函數(shù)來學(xué)習(xí)有效動(dòng)作防止無效動(dòng)作。這比對(duì)選擇無效動(dòng)作的智能體給予負(fù)面獎(jiǎng)勵(lì)更加穩(wěn)定。在訓(xùn)練期間，防止智能體返回其在上一個(gè)時(shí)間步長(zhǎng)所在的位置，這可以鼓勵(lì)探索和學(xué)習(xí)有效的政策。如果在測(cè)試期間的行動(dòng)是無效行動(dòng)，那么這個(gè)時(shí)間步它將保持靜止。

1.3 獎(jiǎng)勵(lì)結(jié)構(gòu)Reward Structure

1.4 Actor-Critic Network

依賴于asynchronous advantage actorcritic (A3C) 算法。使用深度神經(jīng)網(wǎng)絡(luò)近似agent的策略。它將當(dāng)前對(duì)其周圍環(huán)境的觀察映射到要采取的下一個(gè)行動(dòng)。這個(gè)深度神經(jīng)網(wǎng)絡(luò)有多個(gè)輸出，其中一個(gè)是實(shí)際策略，其他僅用于訓(xùn)練網(wǎng)絡(luò)。使用了一個(gè)6層卷積網(wǎng)絡(luò)，在每個(gè)max-pooling layer之間使用幾個(gè)小的3×3的kernels。如圖所示神經(jīng)網(wǎng)絡(luò)有兩個(gè)輸入，分別是局部觀察（Input Tensor）和目標(biāo)方向/距離（Goal Position）。兩個(gè)輸入在被神經(jīng)網(wǎng)絡(luò)連接前會(huì)被獨(dú)立預(yù)處理。 Input Tensor是一個(gè)四通道矩陣（10×10×4張量）。它會(huì)首先經(jīng)過兩個(gè)階段，每個(gè)階段中有三個(gè)卷積層和一個(gè)最大池化層。然后進(jìn)入最后一個(gè)卷積層。同時(shí)，Goal Position向量及其大小通過一個(gè)全連接層。然后這兩個(gè)預(yù)處理后的輸入將會(huì)經(jīng)過Concatenate操作合并在一起，再經(jīng)過兩個(gè)全連接層，最后輸入到大小為512的長(zhǎng)短時(shí)記憶（LSTM）單元中。殘差網(wǎng)絡(luò)的跳躍連接（residual shortcut）將合并后的輸入也連接到LSTM的輸入層。輸出層由具有softmax激活函數(shù)的策略（policy）神經(jīng)元、值（value）輸出和用于訓(xùn)練每個(gè)智能體以了解自己是否阻礙其他智能體到達(dá)其目標(biāo)（the blocking prediction）的特征層組成。在訓(xùn)練期間，策略、值和是否阻礙其他智能體的輸出會(huì)在每256個(gè)steps或在一個(gè)episode結(jié)束時(shí)批量更新。通常，值為了和the total discounted return 匹配上，會(huì)通過最小化函數(shù)來更新。

通過使用值函數(shù)Value Function V(ot; θ)來估計(jì)優(yōu)勢(shì)函數(shù)Advantage Function A(ot, at; θ)并依據(jù)優(yōu)勢(shì)函數(shù)來更新策略。此外，還在策略損失中添加了一個(gè)熵項(xiàng) H(π(o))，它已被證明可以通過懲罰總是選擇相同行動(dòng)的政策來鼓勵(lì)探索并阻止過早收斂。

還依賴兩個(gè)損失函數(shù)來幫助規(guī)劃和穩(wěn)定訓(xùn)練。首先是最小化的Lblocking函數(shù)，用于更新the blocking prediction output。另一個(gè)是損失函數(shù)Lvalid，用于最小化選擇無效行動(dòng)。

2 協(xié)調(diào)學(xué)習(xí)Coordination Learning

解決自私問題。包括以下三種方法。對(duì)鼓勵(lì)其他智能體運(yùn)動(dòng)進(jìn)行懲罰（稱為“阻塞懲罰，Blocking Penalty”），在訓(xùn)練期間使用專家演示，以及在訓(xùn)練期間定制隨機(jī)環(huán)境以使智能體面臨更困難的環(huán)境。

2.1 Blocking Penalty

場(chǎng)景為一個(gè)智能體決定停留在目標(biāo)位置上，同時(shí)這個(gè)行為妨礙了另一個(gè)智能體達(dá)到其目標(biāo)。調(diào)整獎(jiǎng)勵(lì)函數(shù)，使這個(gè)智能體將會(huì)受到嚴(yán)厲的懲罰，實(shí)際上是-2。這樣可以更好地激勵(lì)智能體的協(xié)作行為，促使智能體離開其目標(biāo)，以抵消它們?cè)谶_(dá)到目標(biāo)后可能產(chǎn)生的一種自私的局部最優(yōu)行為。阻塞的定義不僅包括直接阻止另一個(gè)智能體達(dá)到目標(biāo)的情況，也包括顯著延遲另一個(gè)智能體到達(dá)目標(biāo)的情況（比如實(shí)際中延遲10步或更多，與智能體的視野（FOV）大小相匹配）。由于智能體的視野很小，因此即使存在繞過其他智能體的替代路徑，如果這些替代路徑不在智能體的視野內(nèi)，智能體也就不確定是否存在這樣的路徑。即使在大地圖中可能存在繞行的路徑，但如果能通過協(xié)調(diào)實(shí)現(xiàn)更短的路徑，智能體應(yīng)該尋求協(xié)作而不是選擇繞路。判斷方法：使用標(biāo)準(zhǔn)A*算法來確定智能體從當(dāng)前位置到目標(biāo)的路徑長(zhǎng)度，以及當(dāng)將其他智能體從大地圖中移除時(shí)的路徑長(zhǎng)度，如果第二條路徑比第一條路徑短10步以上，則認(rèn)為其他智能體正在阻塞。在系統(tǒng)中，“block”輸出是預(yù)測(cè)一個(gè)智能體何時(shí)會(huì)阻塞其他智能體。這種預(yù)測(cè)為智能體在出現(xiàn)阻塞行為時(shí)將要承擔(dān)的額外懲罰提供了依據(jù)。

2.2 結(jié)合RL（強(qiáng)化學(xué)習(xí)）和IL（模仿學(xué)習(xí)）

研究發(fā)現(xiàn)，將RL與IL結(jié)合可以加快訓(xùn)練速度，穩(wěn)定訓(xùn)練過程，并且獲得更高質(zhì)量的解決方案。IL能夠快速指導(dǎo)智能體找到高質(zhì)量的狀態(tài)-動(dòng)作空間區(qū)域，而RL能夠通過自由探索這些區(qū)域來進(jìn)一步改善策略。在Priaml中，每個(gè)訓(xùn)練周期開始時(shí)都隨機(jī)選擇使用RL或IL，依靠中心化規(guī)劃器ODrM*（折扣因子 ε = 2），動(dòng)態(tài)生成用于學(xué)習(xí)的示例。通過與中心規(guī)劃器生成的專家軌跡的對(duì)比來引導(dǎo)學(xué)習(xí)過程，每個(gè)智能體都獲得了一系列觀察和動(dòng)作的軌跡 T ∈ (O × A)n，并最小化行為克隆損失。 Primal結(jié)合了離線策略的**行為克?。˙ehavior Cloning）和在線策略的演員-評(píng)論家（Actor-Critic）**方法。行為克隆是一種模仿學(xué)習(xí)策略，其中學(xué)習(xí)算法嘗試直接克隆專家的行為。在離線策略的行為克隆中，模型通常是通過分析預(yù)先收集的專家軌跡（專家的決策序列）來訓(xùn)練的。這種訓(xùn)練是“離線”的，因?yàn)樗恍枰c環(huán)境實(shí)時(shí)交互，而是依賴于已經(jīng)存在的數(shù)據(jù)。中心化規(guī)劃器ODrM*依據(jù)啟發(fā)式原則生成與獎(jiǎng)勵(lì)結(jié)構(gòu)相匹配的高質(zhì)量路徑，這些路徑旨在最快速地讓智能體達(dá)到目標(biāo)并避免碰撞。 RL/IL比例對(duì)訓(xùn)練策略的性能影響不大。

2.3 環(huán)境采樣Environment Sampling

在訓(xùn)練過程中，在每個(gè)episode開始時(shí)隨機(jī)化世界的大小和障礙物密度。從有利于更小和更密集環(huán)境的分布中對(duì)障礙物的大小和密度進(jìn)行采樣，迫使智能體學(xué)習(xí)協(xié)調(diào)，因?yàn)檫@樣可以使智能體更頻繁地經(jīng)歷與其他智能體之間的交互。

柚子快報(bào)邀請(qǐng)碼778899分享：PRIMAL論文閱讀

http://yzkb.51969.com/

相關(guān)鏈接

評(píng)論可見，查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理，出于傳遞更多信息之目的，不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明，如有侵權(quán)，聯(lián)系刪除。

本文鏈接：http://gantiao.com.cn/post/19165567.html