欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁(yè)綜合正文

評(píng)論

柚子快報(bào)邀請(qǐng)碼778899分享：論文閱讀記錄——PVT

Kohls時(shí)尚優(yōu)選綜合2025-05-05290

柚子快報(bào)邀請(qǐng)碼778899分享：論文閱讀記錄——PVT

http://yzkb.51969.com/

PVT

Abstract

雖然卷積神經(jīng)網(wǎng)絡(luò)(cnn)在計(jì)算機(jī)視覺(jué)方面取得了巨大的成功，但本研究研究了一個(gè)更簡(jiǎn)單、無(wú)卷積的骨干網(wǎng)絡(luò)，可用于許多密集預(yù)測(cè)任務(wù)。與最近提出的專門(mén)用于圖像分類的視覺(jué)變壓器(ViT)不同，我們介紹了金字塔視覺(jué)Transformer(PVT)，它克服了將Transformer移植到各種密集預(yù)測(cè)任務(wù)中的困難。與目前的技術(shù)相比，PVT有幾個(gè)優(yōu)點(diǎn)。(1)與ViT輸出分辨率低、計(jì)算和存儲(chǔ)成本高不同，PVT不僅可以在圖像的密集分區(qū)上進(jìn)行訓(xùn)練以獲得高輸出分辨率，這對(duì)密集預(yù)測(cè)很重要，而且使用漸進(jìn)收縮金字塔來(lái)減少大型特征圖的計(jì)算量。(2) PVT繼承了CNN和Transformer的優(yōu)點(diǎn)，無(wú)需卷積即可成為各種視覺(jué)任務(wù)的統(tǒng)一主干，可直接替代CNN主干。(3)我們通過(guò)大量的實(shí)驗(yàn)驗(yàn)證了PVT，表明它提高了許多下游任務(wù)的性能，包括目標(biāo)檢測(cè)，實(shí)例和語(yǔ)義分割。

Introduction

本工作提出了一種純Transformer骨干，稱為金字塔視覺(jué)變壓器(PVT)，它可以在許多下游任務(wù)中作為CNN骨干的替代方案，包括圖像級(jí)預(yù)測(cè)以及像素級(jí)密集預(yù)測(cè)。具體來(lái)說(shuō)，如圖1 ?所示，我們的PVT通過(guò)以下方式克服了傳統(tǒng)Transformer的困難:(1)采用細(xì)粒度圖像塊(即每個(gè)塊4×4像素)作為輸入來(lái)學(xué)習(xí)高分辨率表示，這對(duì)于密集預(yù)測(cè)任務(wù)至關(guān)重要;(2)引入漸進(jìn)式收縮金字塔，隨著網(wǎng)絡(luò)的加深減少Transformer的序列長(zhǎng)度，顯著降低計(jì)算成本;(3)采用空間約簡(jiǎn)注意層，進(jìn)一步降低學(xué)習(xí)高分辨率特征時(shí)的資源消耗。擬議的PVT具有以下優(yōu)點(diǎn)。首先，與傳統(tǒng)的CNN主干(見(jiàn)圖1 (a))相比，我們的PVT總是產(chǎn)生一個(gè)全局接受野，它更適合于檢測(cè)和分割。其次，與ViT相比(見(jiàn)圖1 (b))，由于其先進(jìn)的金字塔結(jié)構(gòu)，我們的方法可以更容易地插入到許多具有代表性的密集預(yù)測(cè)管道中。

我們提出了金字塔視覺(jué)變壓器(PVT)，這是第一個(gè)專為各種像素級(jí)密集預(yù)測(cè)任務(wù)設(shè)計(jì)的純變壓器骨干。結(jié)合我們的PVT和DETR，我們可以構(gòu)建一個(gè)端到端的目標(biāo)檢測(cè)系統(tǒng)，沒(méi)有卷積和手工制作的組件，如密集錨點(diǎn)和非最大抑制(NMS)。在將Transformer移植到密集預(yù)測(cè)時(shí)，我們克服了許多困難，通過(guò)設(shè)計(jì)漸進(jìn)收縮金字塔和空間減少注意(SRA)。這些能夠減少Transformer的資源消耗，使PVT能夠靈活地學(xué)習(xí)多尺度和高分辨率特征。

Pyramid Vision Transformer (PVT)

Overall Architecture 我們的目標(biāo)是將金字塔結(jié)構(gòu)引入到Transformer框架中，這樣它就可以為密集的預(yù)測(cè)任務(wù)(例如，對(duì)象檢測(cè)和語(yǔ)義分割)生成多尺度特征映射。PVT的概述如圖3所示。與CNN骨干網(wǎng)相似[22]，我們的方法有四個(gè)階段，分別生成不同尺度的特征圖。所有階段共享一個(gè)類似的架構(gòu)，它包括一個(gè)補(bǔ)丁嵌入層和Li Transformer編碼器層。

與CNN骨主干網(wǎng)絡(luò)[54,22]使用不同的卷積步幅來(lái)獲得多尺度特征圖不同，我們的PVT使用漸進(jìn)收縮策略通過(guò)補(bǔ)丁嵌入層來(lái)控制特征圖的尺度。這樣，我們可以在每個(gè)階段靈活地調(diào)整特征映射的比例，從而可以為T(mén)ransformer構(gòu)建一個(gè)特征金字塔。

Feature Pyramid for Transformer

Transformer Encoder 階段i的Transformer編碼器有Li個(gè)編碼器層，每個(gè)編碼器層由注意層和前饋層組成[64]。由于PVT需要處理高分辨率(例如，4步)的特征圖，我們提出了一個(gè)空間減少注意(SRA)層來(lái)取代編碼器中傳統(tǒng)的多頭注意(MHA)層[64]。與MHA類似，我們的SRA接收一個(gè)查詢Q、一個(gè)鍵K和一個(gè)值V作為輸入，并輸出一個(gè)精細(xì)的特征。不同之處在于，我們的SRA在注意操作之前減少了K和V的空間尺度(見(jiàn)圖4)，這在很大程度上減少了計(jì)算/內(nèi)存開(kāi)銷。第一階段的SRA詳情可表述如下:

Model Details 綜上所述，我們方法的超參數(shù)如下: Discussion

PVT和ViT都是沒(méi)有卷積的純Transformer模型。它們之間的主要區(qū)別是金字塔結(jié)構(gòu)。與傳統(tǒng)Transformer相似[64]，ViT的輸出序列長(zhǎng)度與輸入序列長(zhǎng)度相同，即ViT的輸出為單量程(見(jiàn)圖1 (b))。此外，由于資源有限，ViT的輸入是粗粒度的(如patch大小為16或32像素)，因此其輸出分辨率相對(duì)較低(如16步或32步)。因此，很難直接將ViT應(yīng)用于需要高分辨率或多尺度特征圖的密集預(yù)測(cè)任務(wù)。我們的PVT打破了傳統(tǒng)的Transformer，引入了一個(gè)漸進(jìn)的收縮金字塔。它可以像傳統(tǒng)的CNN主干一樣生成多尺度特征圖。此外，我們還設(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的注意力層- sra，用于處理高分辨率特征圖并降低計(jì)算/內(nèi)存成本。得益于以上設(shè)計(jì)，我們的方法相對(duì)于ViT具有以下優(yōu)點(diǎn):1)更加靈活——可以在不同階段生成不同尺度/通道的特征圖;2)通用性更強(qiáng)——可以在大多數(shù)下游任務(wù)模型中輕松插入和播放;3)對(duì)計(jì)算/內(nèi)存更友好-可以處理更高分辨率的特征映射或更長(zhǎng)的序列。

Conclusions and Future Work

我們介紹了PVT，一個(gè)純Transformer主干，用于密集預(yù)測(cè)任務(wù)，如目標(biāo)檢測(cè)和語(yǔ)義分割。為了在有限的計(jì)算/內(nèi)存資源下獲得高分辨率和多尺度的特征地圖，我們開(kāi)發(fā)了一個(gè)漸進(jìn)收縮金字塔和一個(gè)空間約簡(jiǎn)關(guān)注層。大量的目標(biāo)檢測(cè)和語(yǔ)義分割基準(zhǔn)實(shí)驗(yàn)驗(yàn)證了我們的PVT在相當(dāng)數(shù)量的參數(shù)下比設(shè)計(jì)良好的CNN主干更強(qiáng)。盡管PVT可以作為CNN主干(如ResNet、ResNeXt)的替代方案，但仍有一些為CNN設(shè)計(jì)的特定模塊和操作在本文中沒(méi)有考慮，如SE[23]、SK[36]、擴(kuò)張卷積[74]、模型修剪[20]和NAS[61]。此外，隨著多年的快速發(fā)展，已經(jīng)出現(xiàn)了許多設(shè)計(jì)良好的CNN骨干網(wǎng)，如Res2Net[17]、EfficientNet[61]、ResNeSt[79]。相比之下，基于transformer的計(jì)算機(jī)視覺(jué)模型仍處于早期發(fā)展階段。

柚子快報(bào)邀請(qǐng)碼778899分享：論文閱讀記錄——PVT

http://yzkb.51969.com/

參考文章

評(píng)論可見(jiàn)，查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理，出于傳遞更多信息之目的，不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明，如有侵權(quán)，聯(lián)系刪除。

本文鏈接：http://gantiao.com.cn/post/18855348.html