欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報邀請碼778899分享:論文閱讀記錄——PVT

柚子快報邀請碼778899分享:論文閱讀記錄——PVT

http://yzkb.51969.com/

PVT

Abstract

雖然卷積神經(jīng)網(wǎng)絡(luò)(cnn)在計算機視覺方面取得了巨大的成功,但本研究研究了一個更簡單、無卷積的骨干網(wǎng)絡(luò),可用于許多密集預(yù)測任務(wù)。與最近提出的專門用于圖像分類的視覺變壓器(ViT)不同,我們介紹了金字塔視覺Transformer(PVT),它克服了將Transformer移植到各種密集預(yù)測任務(wù)中的困難。與目前的技術(shù)相比,PVT有幾個優(yōu)點。(1)與ViT輸出分辨率低、計算和存儲成本高不同,PVT不僅可以在圖像的密集分區(qū)上進行訓(xùn)練以獲得高輸出分辨率,這對密集預(yù)測很重要,而且使用漸進收縮金字塔來減少大型特征圖的計算量。(2) PVT繼承了CNN和Transformer的優(yōu)點,無需卷積即可成為各種視覺任務(wù)的統(tǒng)一主干,可直接替代CNN主干。(3)我們通過大量的實驗驗證了PVT,表明它提高了許多下游任務(wù)的性能,包括目標檢測,實例和語義分割。

Introduction

本工作提出了一種純Transformer骨干,稱為金字塔視覺變壓器(PVT),它可以在許多下游任務(wù)中作為CNN骨干的替代方案,包括圖像級預(yù)測以及像素級密集預(yù)測。具體來說,如圖1 ?所示,我們的PVT通過以下方式克服了傳統(tǒng)Transformer的困難:(1)采用細粒度圖像塊(即每個塊4×4像素)作為輸入來學(xué)習高分辨率表示,這對于密集預(yù)測任務(wù)至關(guān)重要;(2)引入漸進式收縮金字塔,隨著網(wǎng)絡(luò)的加深減少Transformer的序列長度,顯著降低計算成本;(3)采用空間約簡注意層,進一步降低學(xué)習高分辨率特征時的資源消耗。擬議的PVT具有以下優(yōu)點。首先,與傳統(tǒng)的CNN主干(見圖1 (a))相比,我們的PVT總是產(chǎn)生一個全局接受野,它更適合于檢測和分割。其次,與ViT相比(見圖1 (b)),由于其先進的金字塔結(jié)構(gòu),我們的方法可以更容易地插入到許多具有代表性的密集預(yù)測管道中。

我們提出了金字塔視覺變壓器(PVT),這是第一個專為各種像素級密集預(yù)測任務(wù)設(shè)計的純變壓器骨干。結(jié)合我們的PVT和DETR,我們可以構(gòu)建一個端到端的目標檢測系統(tǒng),沒有卷積和手工制作的組件,如密集錨點和非最大抑制(NMS)。在將Transformer移植到密集預(yù)測時,我們克服了許多困難,通過設(shè)計漸進收縮金字塔和空間減少注意(SRA)。這些能夠減少Transformer的資源消耗,使PVT能夠靈活地學(xué)習多尺度和高分辨率特征。

Pyramid Vision Transformer (PVT)

Overall Architecture 我們的目標是將金字塔結(jié)構(gòu)引入到Transformer框架中,這樣它就可以為密集的預(yù)測任務(wù)(例如,對象檢測和語義分割)生成多尺度特征映射。PVT的概述如圖3所示。與CNN骨干網(wǎng)相似[22],我們的方法有四個階段,分別生成不同尺度的特征圖。所有階段共享一個類似的架構(gòu),它包括一個補丁嵌入層和Li Transformer編碼器層。

與CNN骨主干網(wǎng)絡(luò)[54,22]使用不同的卷積步幅來獲得多尺度特征圖不同,我們的PVT使用漸進收縮策略通過補丁嵌入層來控制特征圖的尺度。這樣,我們可以在每個階段靈活地調(diào)整特征映射的比例,從而可以為Transformer構(gòu)建一個特征金字塔。

Feature Pyramid for Transformer

Transformer Encoder 階段i的Transformer編碼器有Li個編碼器層,每個編碼器層由注意層和前饋層組成[64]。由于PVT需要處理高分辨率(例如,4步)的特征圖,我們提出了一個空間減少注意(SRA)層來取代編碼器中傳統(tǒng)的多頭注意(MHA)層[64]。 與MHA類似,我們的SRA接收一個查詢Q、一個鍵K和一個值V作為輸入,并輸出一個精細的特征。不同之處在于,我們的SRA在注意操作之前減少了K和V的空間尺度(見圖4),這在很大程度上減少了計算/內(nèi)存開銷。第一階段的SRA詳情可表述如下:

Model Details 綜上所述,我們方法的超參數(shù)如下: Discussion

PVT和ViT都是沒有卷積的純Transformer模型。它們之間的主要區(qū)別是金字塔結(jié)構(gòu)。與傳統(tǒng)Transformer相似[64],ViT的輸出序列長度與輸入序列長度相同,即ViT的輸出為單量程(見圖1 (b))。此外,由于資源有限,ViT的輸入是粗粒度的(如patch大小為16或32像素),因此其輸出分辨率相對較低(如16步或32步)。因此,很難直接將ViT應(yīng)用于需要高分辨率或多尺度特征圖的密集預(yù)測任務(wù)。我們的PVT打破了傳統(tǒng)的Transformer,引入了一個漸進的收縮金字塔。它可以像傳統(tǒng)的CNN主干一樣生成多尺度特征圖。此外,我們還設(shè)計了一個簡單而有效的注意力層- sra,用于處理高分辨率特征圖并降低計算/內(nèi)存成本。得益于以上設(shè)計,我們的方法相對于ViT具有以下優(yōu)點:1)更加靈活——可以在不同階段生成不同尺度/通道的特征圖;2)通用性更強——可以在大多數(shù)下游任務(wù)模型中輕松插入和播放;3)對計算/內(nèi)存更友好-可以處理更高分辨率的特征映射或更長的序列。

Conclusions and Future Work

我們介紹了PVT,一個純Transformer主干,用于密集預(yù)測任務(wù),如目標檢測和語義分割。為了在有限的計算/內(nèi)存資源下獲得高分辨率和多尺度的特征地圖,我們開發(fā)了一個漸進收縮金字塔和一個空間約簡關(guān)注層。大量的目標檢測和語義分割基準實驗驗證了我們的PVT在相當數(shù)量的參數(shù)下比設(shè)計良好的CNN主干更強。 盡管PVT可以作為CNN主干(如ResNet、ResNeXt)的替代方案,但仍有一些為CNN設(shè)計的特定模塊和操作在本文中沒有考慮,如SE[23]、SK[36]、擴張卷積[74]、模型修剪[20]和NAS[61]。此外,隨著多年的快速發(fā)展,已經(jīng)出現(xiàn)了許多設(shè)計良好的CNN骨干網(wǎng),如Res2Net[17]、EfficientNet[61]、ResNeSt[79]。相比之下,基于transformer的計算機視覺模型仍處于早期發(fā)展階段。

柚子快報邀請碼778899分享:論文閱讀記錄——PVT

http://yzkb.51969.com/

參考文章

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/18855348.html

發(fā)布評論

您暫未設(shè)置收款碼

請在主題配置——文章設(shè)置里上傳

掃描二維碼手機訪問

文章目錄