欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

目錄

柚子快報(bào)邀請(qǐng)碼778899分享:論文閱讀記錄——PVT

柚子快報(bào)邀請(qǐng)碼778899分享:論文閱讀記錄——PVT

http://yzkb.51969.com/

PVT

Abstract

雖然卷積神經(jīng)網(wǎng)絡(luò)(cnn)在計(jì)算機(jī)視覺(jué)方面取得了巨大的成功,但本研究研究了一個(gè)更簡(jiǎn)單、無(wú)卷積的骨干網(wǎng)絡(luò),可用于許多密集預(yù)測(cè)任務(wù)。與最近提出的專門(mén)用于圖像分類的視覺(jué)變壓器(ViT)不同,我們介紹了金字塔視覺(jué)Transformer(PVT),它克服了將Transformer移植到各種密集預(yù)測(cè)任務(wù)中的困難。與目前的技術(shù)相比,PVT有幾個(gè)優(yōu)點(diǎn)。(1)與ViT輸出分辨率低、計(jì)算和存儲(chǔ)成本高不同,PVT不僅可以在圖像的密集分區(qū)上進(jìn)行訓(xùn)練以獲得高輸出分辨率,這對(duì)密集預(yù)測(cè)很重要,而且使用漸進(jìn)收縮金字塔來(lái)減少大型特征圖的計(jì)算量。(2) PVT繼承了CNN和Transformer的優(yōu)點(diǎn),無(wú)需卷積即可成為各種視覺(jué)任務(wù)的統(tǒng)一主干,可直接替代CNN主干。(3)我們通過(guò)大量的實(shí)驗(yàn)驗(yàn)證了PVT,表明它提高了許多下游任務(wù)的性能,包括目標(biāo)檢測(cè),實(shí)例和語(yǔ)義分割。

Introduction

本工作提出了一種純Transformer骨干,稱為金字塔視覺(jué)變壓器(PVT),它可以在許多下游任務(wù)中作為CNN骨干的替代方案,包括圖像級(jí)預(yù)測(cè)以及像素級(jí)密集預(yù)測(cè)。具體來(lái)說(shuō),如圖1 ?所示,我們的PVT通過(guò)以下方式克服了傳統(tǒng)Transformer的困難:(1)采用細(xì)粒度圖像塊(即每個(gè)塊4×4像素)作為輸入來(lái)學(xué)習(xí)高分辨率表示,這對(duì)于密集預(yù)測(cè)任務(wù)至關(guān)重要;(2)引入漸進(jìn)式收縮金字塔,隨著網(wǎng)絡(luò)的加深減少Transformer的序列長(zhǎng)度,顯著降低計(jì)算成本;(3)采用空間約簡(jiǎn)注意層,進(jìn)一步降低學(xué)習(xí)高分辨率特征時(shí)的資源消耗。擬議的PVT具有以下優(yōu)點(diǎn)。首先,與傳統(tǒng)的CNN主干(見(jiàn)圖1 (a))相比,我們的PVT總是產(chǎn)生一個(gè)全局接受野,它更適合于檢測(cè)和分割。其次,與ViT相比(見(jiàn)圖1 (b)),由于其先進(jìn)的金字塔結(jié)構(gòu),我們的方法可以更容易地插入到許多具有代表性的密集預(yù)測(cè)管道中。

我們提出了金字塔視覺(jué)變壓器(PVT),這是第一個(gè)專為各種像素級(jí)密集預(yù)測(cè)任務(wù)設(shè)計(jì)的純變壓器骨干。結(jié)合我們的PVT和DETR,我們可以構(gòu)建一個(gè)端到端的目標(biāo)檢測(cè)系統(tǒng),沒(méi)有卷積和手工制作的組件,如密集錨點(diǎn)和非最大抑制(NMS)。在將Transformer移植到密集預(yù)測(cè)時(shí),我們克服了許多困難,通過(guò)設(shè)計(jì)漸進(jìn)收縮金字塔和空間減少注意(SRA)。這些能夠減少Transformer的資源消耗,使PVT能夠靈活地學(xué)習(xí)多尺度和高分辨率特征。

Pyramid Vision Transformer (PVT)

Overall Architecture 我們的目標(biāo)是將金字塔結(jié)構(gòu)引入到Transformer框架中,這樣它就可以為密集的預(yù)測(cè)任務(wù)(例如,對(duì)象檢測(cè)和語(yǔ)義分割)生成多尺度特征映射。PVT的概述如圖3所示。與CNN骨干網(wǎng)相似[22],我們的方法有四個(gè)階段,分別生成不同尺度的特征圖。所有階段共享一個(gè)類似的架構(gòu),它包括一個(gè)補(bǔ)丁嵌入層和Li Transformer編碼器層。

與CNN骨主干網(wǎng)絡(luò)[54,22]使用不同的卷積步幅來(lái)獲得多尺度特征圖不同,我們的PVT使用漸進(jìn)收縮策略通過(guò)補(bǔ)丁嵌入層來(lái)控制特征圖的尺度。這樣,我們可以在每個(gè)階段靈活地調(diào)整特征映射的比例,從而可以為T(mén)ransformer構(gòu)建一個(gè)特征金字塔。

Feature Pyramid for Transformer

Transformer Encoder 階段i的Transformer編碼器有Li個(gè)編碼器層,每個(gè)編碼器層由注意層和前饋層組成[64]。由于PVT需要處理高分辨率(例如,4步)的特征圖,我們提出了一個(gè)空間減少注意(SRA)層來(lái)取代編碼器中傳統(tǒng)的多頭注意(MHA)層[64]。 與MHA類似,我們的SRA接收一個(gè)查詢Q、一個(gè)鍵K和一個(gè)值V作為輸入,并輸出一個(gè)精細(xì)的特征。不同之處在于,我們的SRA在注意操作之前減少了K和V的空間尺度(見(jiàn)圖4),這在很大程度上減少了計(jì)算/內(nèi)存開(kāi)銷。第一階段的SRA詳情可表述如下:

Model Details 綜上所述,我們方法的超參數(shù)如下: Discussion

PVT和ViT都是沒(méi)有卷積的純Transformer模型。它們之間的主要區(qū)別是金字塔結(jié)構(gòu)。與傳統(tǒng)Transformer相似[64],ViT的輸出序列長(zhǎng)度與輸入序列長(zhǎng)度相同,即ViT的輸出為單量程(見(jiàn)圖1 (b))。此外,由于資源有限,ViT的輸入是粗粒度的(如patch大小為16或32像素),因此其輸出分辨率相對(duì)較低(如16步或32步)。因此,很難直接將ViT應(yīng)用于需要高分辨率或多尺度特征圖的密集預(yù)測(cè)任務(wù)。我們的PVT打破了傳統(tǒng)的Transformer,引入了一個(gè)漸進(jìn)的收縮金字塔。它可以像傳統(tǒng)的CNN主干一樣生成多尺度特征圖。此外,我們還設(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的注意力層- sra,用于處理高分辨率特征圖并降低計(jì)算/內(nèi)存成本。得益于以上設(shè)計(jì),我們的方法相對(duì)于ViT具有以下優(yōu)點(diǎn):1)更加靈活——可以在不同階段生成不同尺度/通道的特征圖;2)通用性更強(qiáng)——可以在大多數(shù)下游任務(wù)模型中輕松插入和播放;3)對(duì)計(jì)算/內(nèi)存更友好-可以處理更高分辨率的特征映射或更長(zhǎng)的序列。

Conclusions and Future Work

我們介紹了PVT,一個(gè)純Transformer主干,用于密集預(yù)測(cè)任務(wù),如目標(biāo)檢測(cè)和語(yǔ)義分割。為了在有限的計(jì)算/內(nèi)存資源下獲得高分辨率和多尺度的特征地圖,我們開(kāi)發(fā)了一個(gè)漸進(jìn)收縮金字塔和一個(gè)空間約簡(jiǎn)關(guān)注層。大量的目標(biāo)檢測(cè)和語(yǔ)義分割基準(zhǔn)實(shí)驗(yàn)驗(yàn)證了我們的PVT在相當(dāng)數(shù)量的參數(shù)下比設(shè)計(jì)良好的CNN主干更強(qiáng)。 盡管PVT可以作為CNN主干(如ResNet、ResNeXt)的替代方案,但仍有一些為CNN設(shè)計(jì)的特定模塊和操作在本文中沒(méi)有考慮,如SE[23]、SK[36]、擴(kuò)張卷積[74]、模型修剪[20]和NAS[61]。此外,隨著多年的快速發(fā)展,已經(jīng)出現(xiàn)了許多設(shè)計(jì)良好的CNN骨干網(wǎng),如Res2Net[17]、EfficientNet[61]、ResNeSt[79]。相比之下,基于transformer的計(jì)算機(jī)視覺(jué)模型仍處于早期發(fā)展階段。

柚子快報(bào)邀請(qǐng)碼778899分享:論文閱讀記錄——PVT

http://yzkb.51969.com/

參考文章

評(píng)論可見(jiàn),查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/18855348.html

發(fā)布評(píng)論

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問(wèn)

文章目錄