柚子快報(bào)邀請(qǐng)碼778899分享:PRIMAL論文閱讀
柚子快報(bào)邀請(qǐng)碼778899分享:PRIMAL論文閱讀
論文名:PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning Journal:IEEE Robotics and Automation Letters Date:2019-7 Citations:197 DOI:10.1109/lra.2019.2903261
本文提出了primal,一個(gè)結(jié)合深度強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的、用于MAPF問題的新框架。
1策略Policy
1.1 觀察空間Observation Space
智能體的觀察是以自身為中心的有限FOV,屬于部分可觀察。 此外,智能體始終可以訪問指向其目標(biāo)的單位向量和到其目標(biāo)的歐幾里得距離。 將可用信息分成不同的通道來簡(jiǎn)化agent的學(xué)習(xí)任務(wù)。 每個(gè)觀察空間都由表示障礙物、其他智能體的位置、智能體自己的目標(biāo)位置(如果在FOV內(nèi))以及其他可觀察智能體的目標(biāo)位置的二進(jìn)制矩陣組成。
1.2 行動(dòng)空間Action Space
離散的行動(dòng)。 在每個(gè)時(shí)間步長(zhǎng),沿四個(gè)基本方向之一移動(dòng)一個(gè)單元格或保持靜止。 與障礙物或者其他智能體碰撞都是無效動(dòng)作。 在訓(xùn)練期間,僅從有效動(dòng)作中采樣動(dòng)作,并且使用額外的損失函數(shù)來學(xué)習(xí)有效動(dòng)作防止無效動(dòng)作。這比對(duì)選擇無效動(dòng)作的智能體給予負(fù)面獎(jiǎng)勵(lì)更加穩(wěn)定。 在訓(xùn)練期間,防止智能體返回其在上一個(gè)時(shí)間步長(zhǎng)所在的位置,這可以鼓勵(lì)探索和學(xué)習(xí)有效的政策。 如果在測(cè)試期間的行動(dòng)是無效行動(dòng),那么這個(gè)時(shí)間步它將保持靜止。
1.3 獎(jiǎng)勵(lì)結(jié)構(gòu)Reward Structure
1.4 Actor-Critic Network
依賴于asynchronous advantage actorcritic (A3C) 算法。 使用深度神經(jīng)網(wǎng)絡(luò)近似agent的策略。它將當(dāng)前對(duì)其周圍環(huán)境的觀察映射到要采取的下一個(gè)行動(dòng)。這個(gè)深度神經(jīng)網(wǎng)絡(luò)有多個(gè)輸出,其中一個(gè)是實(shí)際策略,其他僅用于訓(xùn)練網(wǎng)絡(luò)。 使用了一個(gè)6層卷積網(wǎng)絡(luò),在每個(gè)max-pooling layer之間使用幾個(gè)小的3×3的kernels。 如圖所示神經(jīng)網(wǎng)絡(luò)有兩個(gè)輸入,分別是局部觀察(Input Tensor)和目標(biāo)方向/距離(Goal Position)。 兩個(gè)輸入在被神經(jīng)網(wǎng)絡(luò)連接前會(huì)被獨(dú)立預(yù)處理。 Input Tensor是一個(gè)四通道矩陣(10×10×4張量)。它會(huì)首先經(jīng)過兩個(gè)階段,每個(gè)階段中有三個(gè)卷積層和一個(gè)最大池化層。然后進(jìn)入最后一個(gè)卷積層。 同時(shí),Goal Position向量及其大小通過一個(gè)全連接層。 然后這兩個(gè)預(yù)處理后的輸入將會(huì)經(jīng)過Concatenate操作合并在一起,再經(jīng)過兩個(gè)全連接層,最后輸入到大小為512的長(zhǎng)短時(shí)記憶(LSTM)單元中。殘差網(wǎng)絡(luò)的跳躍連接(residual shortcut)將合并后的輸入也連接到LSTM的輸入層。 輸出層由具有softmax激活函數(shù)的策略(policy)神經(jīng)元、值(value)輸出和用于訓(xùn)練每個(gè)智能體以了解自己是否阻礙其他智能體到達(dá)其目標(biāo)(the blocking prediction)的特征層組成。 在訓(xùn)練期間,策略、值和是否阻礙其他智能體的輸出會(huì)在每256個(gè)steps或在一個(gè)episode結(jié)束時(shí)批量更新。 通常,值為了和the total discounted return 匹配上,會(huì)通過最小化函數(shù)來更新。
通過使用值函數(shù)Value Function V(ot; θ)來估計(jì)優(yōu)勢(shì)函數(shù)Advantage Function A(ot, at; θ)并依據(jù)優(yōu)勢(shì)函數(shù)來更新策略。 此外,還在策略損失中添加了一個(gè)熵項(xiàng) H(π(o)),它已被證明可以通過懲罰總是選擇相同行動(dòng)的政策來鼓勵(lì)探索并阻止過早收斂。
還依賴兩個(gè)損失函數(shù)來幫助規(guī)劃和穩(wěn)定訓(xùn)練。首先是最小化的Lblocking函數(shù),用于更新the blocking prediction output。另一個(gè)是損失函數(shù)Lvalid,用于最小化選擇無效行動(dòng)。
2 協(xié)調(diào)學(xué)習(xí)Coordination Learning
解決自私問題。 包括以下三種方法。對(duì)鼓勵(lì)其他智能體運(yùn)動(dòng)進(jìn)行懲罰(稱為“阻塞懲罰,Blocking Penalty”),在訓(xùn)練期間使用專家演示,以及在訓(xùn)練期間定制隨機(jī)環(huán)境以使智能體面臨更困難的環(huán)境。
2.1 Blocking Penalty
場(chǎng)景為一個(gè)智能體決定停留在目標(biāo)位置上,同時(shí)這個(gè)行為妨礙了另一個(gè)智能體達(dá)到其目標(biāo)。 調(diào)整獎(jiǎng)勵(lì)函數(shù),使這個(gè)智能體將會(huì)受到嚴(yán)厲的懲罰,實(shí)際上是-2。這樣可以更好地激勵(lì)智能體的協(xié)作行為,促使智能體離開其目標(biāo),以抵消它們?cè)谶_(dá)到目標(biāo)后可能產(chǎn)生的一種自私的局部最優(yōu)行為。 阻塞的定義不僅包括直接阻止另一個(gè)智能體達(dá)到目標(biāo)的情況,也包括顯著延遲另一個(gè)智能體到達(dá)目標(biāo)的情況(比如實(shí)際中延遲10步或更多,與智能體的視野(FOV)大小相匹配)。 由于智能體的視野很小,因此即使存在繞過其他智能體的替代路徑,如果這些替代路徑不在智能體的視野內(nèi),智能體也就不確定是否存在這樣的路徑。即使在大地圖中可能存在繞行的路徑,但如果能通過協(xié)調(diào)實(shí)現(xiàn)更短的路徑,智能體應(yīng)該尋求協(xié)作而不是選擇繞路。 判斷方法:使用標(biāo)準(zhǔn)A*算法來確定智能體從當(dāng)前位置到目標(biāo)的路徑長(zhǎng)度,以及當(dāng)將其他智能體從大地圖中移除時(shí)的路徑長(zhǎng)度,如果第二條路徑比第一條路徑短10步以上,則認(rèn)為其他智能體正在阻塞。 在系統(tǒng)中,“block”輸出是預(yù)測(cè)一個(gè)智能體何時(shí)會(huì)阻塞其他智能體。這種預(yù)測(cè)為智能體在出現(xiàn)阻塞行為時(shí)將要承擔(dān)的額外懲罰提供了依據(jù)。
2.2 結(jié)合RL(強(qiáng)化學(xué)習(xí))和IL(模仿學(xué)習(xí))
研究發(fā)現(xiàn),將RL與IL結(jié)合可以加快訓(xùn)練速度,穩(wěn)定訓(xùn)練過程,并且獲得更高質(zhì)量的解決方案。IL能夠快速指導(dǎo)智能體找到高質(zhì)量的狀態(tài)-動(dòng)作空間區(qū)域,而RL能夠通過自由探索這些區(qū)域來進(jìn)一步改善策略。 在Priaml中,每個(gè)訓(xùn)練周期開始時(shí)都隨機(jī)選擇使用RL或IL,依靠中心化規(guī)劃器ODrM*(折扣因子 ε = 2),動(dòng)態(tài)生成用于學(xué)習(xí)的示例。 通過與中心規(guī)劃器生成的專家軌跡的對(duì)比來引導(dǎo)學(xué)習(xí)過程,每個(gè)智能體都獲得了一系列觀察和動(dòng)作的軌跡 T ∈ (O × A)n,并最小化行為克隆損失。 Primal結(jié)合了離線策略的**行為克?。˙ehavior Cloning)和在線策略的演員-評(píng)論家(Actor-Critic)**方法。行為克隆是一種模仿學(xué)習(xí)策略,其中學(xué)習(xí)算法嘗試直接克隆專家的行為。在離線策略的行為克隆中,模型通常是通過分析預(yù)先收集的專家軌跡(專家的決策序列)來訓(xùn)練的。這種訓(xùn)練是“離線”的,因?yàn)樗恍枰c環(huán)境實(shí)時(shí)交互,而是依賴于已經(jīng)存在的數(shù)據(jù)。 中心化規(guī)劃器ODrM*依據(jù)啟發(fā)式原則生成與獎(jiǎng)勵(lì)結(jié)構(gòu)相匹配的高質(zhì)量路徑,這些路徑旨在最快速地讓智能體達(dá)到目標(biāo)并避免碰撞。 RL/IL比例對(duì)訓(xùn)練策略的性能影響不大。
2.3 環(huán)境采樣Environment Sampling
在訓(xùn)練過程中,在每個(gè)episode開始時(shí)隨機(jī)化世界的大小和障礙物密度。 從有利于更小和更密集環(huán)境的分布中對(duì)障礙物的大小和密度進(jìn)行采樣,迫使智能體學(xué)習(xí)協(xié)調(diào),因?yàn)檫@樣可以使智能體更頻繁地經(jīng)歷與其他智能體之間的交互。
柚子快報(bào)邀請(qǐng)碼778899分享:PRIMAL論文閱讀
相關(guān)鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。