欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報邀請碼778899分享:【論文閱讀】viT翻譯

柚子快報邀請碼778899分享:【論文閱讀】viT翻譯

http://yzkb.51969.com/

Inductive bias. We note that Vision Transformer has much less image-specific inductive bias than CNNs. In CNNs, locality, two-dimensional neighborhood structure, and translation equivariance are baked into each layer throughout the whole model. In ViT, only MLP layers are local and translationally equivariant, while the self-attention layers are global. The two-dimensional neighborhood structure is used very sparingly: in the beginning of the model by cutting the image into patches and at fine-tuning time for adjusting the position embeddings for images of different resolution (as described below). Other than that, the position embeddings at initialization time carry no information about the 2D positions of the patches and all spatial relations between the patches have to be learned from scratch.

歸納偏好。我們注意到,與CNN相比,Vision Transformer的圖像特定歸納偏好要少得多。在CNN中,局部性、二維鄰域結(jié)構(gòu)和平移等變性被嵌入到整個模型的每個層中。在ViT中,只有多層感知機(MLP)層是局部的和具有平移等變性的,而自注意力層是全局的。二維鄰域結(jié)構(gòu)的使用非常有限:在模型的開始通過將圖像切割成小塊,以及在微調(diào)時調(diào)整不同分辨率圖像的位置嵌入(如下所述)。除此之外,初始化時的位置嵌入不包含關(guān)于小塊的二維位置的信息,所有小塊之間的空間關(guān)系都必須從頭開始學習。

Hybrid Architecture. As an alternative to raw image patches, the input sequence can be formed from feature maps of a CNN (LeCun et al., 1989). In this hybrid model, the patch embedding projection E (Eq. 1) is applied to patches extracted from a CNN feature map. As a special case, the patches can have spatial size 1x1, which means that the input sequence is obtained by simply flattening the spatial dimensions of the feature map and projecting to the Transformer dimens

3.2 FINE-TUNING AND HIGHER RESOLUTION

這段文字描述了如何將Vision Transformer(ViT)從預訓練階段遷移到特定下游任務(wù)的微調(diào)階段,以及如何處理不同分辨率的圖像。

預訓練和微調(diào)(Pre-training and Fine-tuning):

預訓練是指在大量數(shù)據(jù)上訓練模型以學習通用特征。微調(diào)是指在特定任務(wù)的數(shù)據(jù)上進一步訓練模型,以適應該任務(wù)。 預測頭(Prediction Head):

預測頭是模型的一部分,通常在預訓練后被移除或替換,以便模型能夠在微調(diào)時適應新的任務(wù)。 前饋層(Feedforward Layer):

前饋層是神經(jīng)網(wǎng)絡(luò)中的一層,它接收輸入并產(chǎn)生輸出,但不包含反饋連接。在這里,它被用來替換預訓練的預測頭,以適應新的分類任務(wù)。 分辨率(Resolution):

分辨率是指圖像的清晰度,通常與圖像的像素數(shù)量相關(guān)。在微調(diào)時使用更高的分辨率可以提供更多的細節(jié)信息。 塊大小(Patch Size):

在ViT中,圖像被分割成小塊(patches),塊大小是指每個小塊的尺寸。在處理更高分辨率的圖像時,保持塊大小不變會導致每個塊包含更多的像素。 序列長度(Sequence Length):

在ViT中,圖像塊被轉(zhuǎn)換為序列,序列長度是指這個序列中的元素數(shù)量。有效序列長度增加意味著模型需要處理更多的信息。 位置嵌入(Position Embeddings):

位置嵌入是向模型提供關(guān)于序列中每個元素位置信息的向量。在ViT中,這些嵌入幫助模型理解圖像塊的空間關(guān)系。 二維插值(2D Interpolation):

二維插值是一種數(shù)學方法,用于根據(jù)已知點的值估計新點的值。在這里,它用于調(diào)整位置嵌入,以適應更高分辨率的圖像。

總的來說,這段文字強調(diào)了在將ViT應用于下游任務(wù)時,如何處理不同分辨率的圖像,并確保模型能夠適應這些變化。通過調(diào)整位置嵌入和塊提取,模型能夠保持對圖像二維結(jié)構(gòu)的理解,這對于圖像識別任務(wù)至關(guān)重要。

4 EXPERIMENTS

我們評估了ResNet、Vision Transformer(ViT)和混合模型的表征學習能力。為了理解每個模型的數(shù)據(jù)需求,我們在不同大小的數(shù)據(jù)集上進行預訓練,并評估多個基準任務(wù)。在考慮預訓練模型的計算成本時,ViT的表現(xiàn)非常有利,在大多數(shù)識別基準測試中以較低的預訓練成本達到最先進的水平。最后,我們進行了一個使用自監(jiān)督的小實驗,并展示了自監(jiān)督ViT對未來的承諾。

講解: 這段文字概述了對幾種不同類型的深度學習模型(ResNet、Vision Transformer和混合模型)在表征學習方面的能力進行評估的研究工作。

表征學習能力(Representation Learning Capabilities):

表征學習能力指的是模型從數(shù)據(jù)中學習到的內(nèi)在特征和模式的能力。這些學習到的表征可以用于各種下游任務(wù),如分類、檢測等。 數(shù)據(jù)需求(Data Requirements):

數(shù)據(jù)需求指的是模型達到最佳性能所需的數(shù)據(jù)量。不同的模型可能需要不同量的數(shù)據(jù)來學習有效的表征。 預訓練(Pre-training):

預訓練是指在大量數(shù)據(jù)上訓練模型以學習通用特征的過程。這些特征可以在后續(xù)的微調(diào)過程中遷移到特定任務(wù)。 計算成本(Computational Cost):

計算成本涉及到訓練模型所需的計算資源,包括時間、內(nèi)存和處理器能力等。在這段文字中,ViT在預訓練階段的計算成本較低,但性能卻很出色。 識別基準(Recognition Benchmarks):

識別基準是指用于評估模型性能的標準測試集和評估指標。在這些基準測試中,ViT達到了最先進的性能。 自監(jiān)督學習(Self-Supervision):

自監(jiān)督學習是一種無監(jiān)督學習方法,它不依賴于人工標注的數(shù)據(jù)。在自監(jiān)督學習中,模型通過解決自己生成的預測任務(wù)來學習數(shù)據(jù)的表征。 自監(jiān)督ViT(Self-Supervised ViT):

這是Vision Transformer的一個變體,它使用自監(jiān)督學習來訓練模型。這種方法在未來的研究中顯示出潛力,因為它可能減少對大量標注數(shù)據(jù)的依賴。

總的來說,這段文字強調(diào)了Vision Transformer在表征學習方面的有效性,尤其是在預訓練階段的計算成本和性能方面。同時,它也指出了自監(jiān)督學習作為一種有前景的方法,可能會在未來的模型訓練中發(fā)揮重要作用。

4.1 SETUP

數(shù)據(jù)集。為了探索模型的可擴展性,我們使用了包含1000個類別和130萬張圖像的ILSVRC-2012 ImageNet數(shù)據(jù)集(以下簡稱為ImageNet),它的超集ImageNet-21k包含21000個類別和1400萬張圖像(Deng et al., 2009),以及包含18000個類別和3.03億高分辨率圖像的JFT(Sun et al., 2017)。我們根據(jù)Kolesnikov等人(2020)的方法,從下游任務(wù)的測試集中去除了預訓練數(shù)據(jù)集的重復項。我們將在這些數(shù)據(jù)集上訓練的模型轉(zhuǎn)移到幾個基準任務(wù)上:使用原始驗證標簽和清理過的ReaL標簽的ImageNet(Beyer et al., 2020),CIFAR-10/100(Krizhevsky, 2009),牛津-IIIT Pets(Parkhi et al., 2012),以及牛津 Flowers-102(Nilsback & Zisserman, 2008)。對于這些數(shù)據(jù)集,預處理遵循Kolesnikov等人(2020)的方法。

講解: 這段文字描述了在深度學習研究中,如何使用不同的數(shù)據(jù)集來評估和比較模型的性能和可擴展性。

ILSVRC-2012 ImageNet數(shù)據(jù)集:

這是一個廣泛使用的圖像識別數(shù)據(jù)集,包含1000個類別和大約130萬張圖像。它通常用于訓練和評估圖像分類模型。 ImageNet-21k:

這是ImageNet的一個擴展版本,包含更多的類別(21000個)和更多的圖像(1400萬張)。它提供了更豐富的視覺概念,用于訓練更強大的模型。 JFT數(shù)據(jù)集:

JFT是一個非常大的圖像數(shù)據(jù)集,包含18000個類別和超過3億張高分辨率圖像。它用于訓練大規(guī)模的模型,以探索模型在處理大規(guī)模數(shù)據(jù)時的性能。 去重(De-duplicate):

在預訓練模型時,為了避免在預訓練和下游任務(wù)中使用相同的數(shù)據(jù),需要去除預訓練數(shù)據(jù)集中與下游任務(wù)測試集重復的部分。 基準任務(wù)(Benchmark Tasks):

這些是用于評估模型性能的標準測試,包括ImageNet、CIFAR-10/100、牛津-IIIT Pets和牛津 Flowers-102等。這些任務(wù)提供了一個公平的比較平臺。 預處理(Pre-processing):

在訓練模型之前,需要對數(shù)據(jù)進行預處理,如調(diào)整圖像大小、歸一化等。預處理的步驟和參數(shù)設(shè)置對于模型的性能有重要影響。 模型轉(zhuǎn)移(Transfer the Models):

這是指將在一個數(shù)據(jù)集上預訓練的模型應用到另一個數(shù)據(jù)集或任務(wù)上。這是遷移學習的一種形式,可以利用在大規(guī)模數(shù)據(jù)集上學到的知識來提高在特定任務(wù)上的性能。

總的來說,這段文字強調(diào)了在不同的數(shù)據(jù)集上預訓練模型,并在多個基準任務(wù)上評估模型的可擴展性和性能的重要性。通過這種方法,研究者可以了解不同模型在處理不同規(guī)模和復雜性的數(shù)據(jù)時的表現(xiàn),并選擇最適合特定任務(wù)的模型。

我們還對19項任務(wù)的VTAB分類套件(Zhai et al., 2019b)進行了評估。VTAB評估了低數(shù)據(jù)遷移到多樣化任務(wù)的能力,每個任務(wù)使用1000個訓練樣本。任務(wù)被分為三個組:自然——像上述的Pets、CIFAR等任務(wù);專業(yè)——醫(yī)學和衛(wèi)星圖像;結(jié)構(gòu)化——需要幾何理解的任務(wù),如定位。

講解: 這段文字描述了如何使用VTAB(Visual Task Adaptation Benchmark)來評估模型在不同任務(wù)上的遷移學習能力,特別是在數(shù)據(jù)較少的情況下。

VTAB分類套件(VTAB Classification Suite):

VTAB是一個用于評估視覺模型在多種任務(wù)上遷移學習能力的基準測試套件。它由多個不同的任務(wù)組成,旨在模擬現(xiàn)實世界中的視覺識別挑戰(zhàn)。 低數(shù)據(jù)遷移(Low-Data Transfer):

低數(shù)據(jù)遷移是指在目標任務(wù)上只有很少的訓練數(shù)據(jù)可用時,模型如何利用在源任務(wù)上學到的知識。這測試了模型的泛化能力。 訓練樣本(Training Examples):

在VTAB中,每個任務(wù)只提供1000個訓練樣本,這是一個相對較小的數(shù)據(jù)集,用于測試模型在有限數(shù)據(jù)情況下的性能。 任務(wù)分組(Task Groups):

VTAB將任務(wù)分為三個不同的組,以覆蓋不同類型的視覺識別挑戰(zhàn):

自然組:包括Pets、CIFAR等自然圖像數(shù)據(jù)集,這些任務(wù)通常涉及日常生活中的對象。專業(yè)組:包括醫(yī)學和衛(wèi)星圖像等專業(yè)領(lǐng)域的任務(wù),這些任務(wù)可能需要特定的領(lǐng)域知識。結(jié)構(gòu)化組:包括需要幾何理解的任務(wù),如定位,這些任務(wù)可能涉及空間關(guān)系和對象的精確位置。 評估目的(Evaluation Purpose):

通過在VTAB上評估,研究者可以了解模型在不同類型的任務(wù)上的表現(xiàn),以及模型在面對新任務(wù)時的適應能力。

總的來說,這段文字強調(diào)了在多樣化任務(wù)上評估模型的重要性,特別是在數(shù)據(jù)受限的情況下。VTAB提供了一個平臺,讓研究者可以測試和比較不同模型在多種視覺任務(wù)上的遷移學習能力。通過這種評估,可以更好地理解模型的泛化能力和在實際應用中的潛力。

對于基線CNN,我們使用ResNet(He et al., 2016),但將批量歸一化層(Ioffe & Szegedy, 2015)替換為組歸一化(Wu & He, 2018),并使用了標準化卷積(Qiao et al., 2019)。這些修改改善了遷移學習(Kolesnikov et al., 2020),我們將修改后的模型稱為“ResNet (BiT)”。對于混合模型,我們將中間特征圖輸入到ViT中,塊大小為一個“像素”。為了嘗試不同的序列長度,我們要么(i)采用常規(guī)ResNet50的第四階段輸出,要么(ii)移除第四階段,將相同數(shù)量的層放入第三階段(保持總層數(shù)不變),并采用這個擴展的第三階段的輸出。選項(ii)導致序列長度增加4倍,并且需要一個更昂貴的ViT模型。

講解: 這段文字描述了在構(gòu)建基線卷積神經(jīng)網(wǎng)絡(luò)(CNN)和混合模型時所做的一些特定修改,以及如何通過調(diào)整模型結(jié)構(gòu)來實驗不同的序列長度。

總的來說,這段文字強調(diào)了在構(gòu)建和評估深度學習模型時,對模型架構(gòu)進行細微調(diào)整的重要性,以及如何通過改變序列長度來實驗和優(yōu)化模型性能。

基線CNN:

基線模型是指用于比較的其他模型性能的標準模型。在這里,基線CNN是指使用ResNet架構(gòu)的模型。 ResNet:

ResNet(He et al., 2016)是一種深度殘差網(wǎng)絡(luò),它通過引入跳躍連接解決了深度網(wǎng)絡(luò)中的梯度消失問題。 批量歸一化(Batch Normalization):

批量歸一化是一種在訓練神經(jīng)網(wǎng)絡(luò)時用于提高性能和穩(wěn)定性的技術(shù)。 組歸一化(Group Normalization):

組歸一化是批量歸一化的一種替代方法,它不依賴于批次大小,適用于小批量或單樣本的情況。 標準化卷積(Standardized Convolutions):

標準化卷積是指在卷積操作中應用歸一化,以提高模型的性能和泛化能力。 遷移學習(Transfer Learning):

遷移學習是指將在一個任務(wù)上訓練的模型應用到另一個相關(guān)任務(wù)的過程。 ResNet (BiT):

這是經(jīng)過修改的ResNet模型,使用了組歸一化和標準化卷積,以改善模型的遷移能力。 混合模型(Hybrids):

混合模型結(jié)合了CNN和Transformer的特點,利用CNN提取的特征圖作為ViT的輸入。 序列長度(Sequence Length):

在Transformer模型中,序列長度指的是輸入序列中的元素數(shù)量。在這里,通過調(diào)整模型結(jié)構(gòu)來改變序列長度,以觀察其對模型性能的影響。 ViT模型的計算成本:

序列長度越長,ViT模型的計算成本越高,因為需要處理更多的數(shù)據(jù)。

訓練與微調(diào)。我們訓練所有模型,包括ResNets,使用Adam優(yōu)化器(Kingma & Ba, 2015),其中β1 = 0.9,β2 = 0.999,批量大小為4096,并應用高權(quán)重衰減0.1,我們發(fā)現(xiàn)這對所有模型的遷移都是有用的(附錄D.1顯示,與常見做法相反,在我們的設(shè)置中,Adam比SGD對ResNets稍微更有效)。我們使用線性學習率預熱和衰減,詳見附錄B.1。對于微調(diào),我們對所有模型使用帶有動量的SGD,批量大小為512,詳見附錄B.1.1。對于表2中的ImageNet結(jié)果,我們在更高分辨率下進行了微調(diào):ViT-L/16為512,ViT-H/14為518,并且還使用了Polyak & Juditsky(1992)平均化,因子為0.9999(Ramachandran et al., 2019; Wang et al., 2020b)。

講解: 這段文字描述了在深度學習模型訓練和微調(diào)過程中使用的方法和策略。

Adam優(yōu)化器:

Adam是一種自適應學習率優(yōu)化算法,它結(jié)合了動量和RMSProp的概念,通常在訓練深度學習模型時表現(xiàn)良好。 超參數(shù)β1和β2:

這些是Adam優(yōu)化器的超參數(shù),用于控制學習率的更新。 權(quán)重衰減:

權(quán)重衰減是一種正則化技術(shù),用于防止模型過擬合,通過在損失函數(shù)中添加一個與權(quán)重大小成比例的懲罰項。 學習率預熱和衰減:

學習率預熱是指在訓練開始時逐漸增加學習率,而衰減是指隨著訓練的進行逐漸減小學習率,這有助于模型在訓練初期快速收斂,在訓練后期穩(wěn)定下來。 SGD與動量:

SGD(隨機梯度下降)是一種優(yōu)化算法,動量是一種加速技術(shù),可以加速SGD的收斂并減少震蕩。 微調(diào):

微調(diào)是指在預訓練模型的基礎(chǔ)上,針對特定任務(wù)進行額外的訓練。 高分辨率微調(diào):

在微調(diào)時使用比預訓練更高的圖像分辨率,可以幫助模型更好地學習圖像的細節(jié)。 Polyak & Juditsky平均化:

這是一種模型參數(shù)的平均化技術(shù),用于提高模型的穩(wěn)定性和性能。

指標。我們通過少樣本或微調(diào)準確率來報告下游數(shù)據(jù)集上的結(jié)果。微調(diào)準確率反映了在相應數(shù)據(jù)集上微調(diào)每個模型后的性能。少樣本準確率是通過解決一個正則化最小二乘回歸問題獲得的,該問題將訓練圖像子集的(凍結(jié)的)表征映射到{?1, 1}^K目標向量。這種公式允許我們以封閉形式恢復確切的解。雖然我們主要關(guān)注微調(diào)性能,但我們有時使用線性少樣本準確率進行快速的即時評估,如果進行微調(diào)成本太高的話。

講解: 這段文字描述了在評估下游任務(wù)時使用的兩種性能指標:微調(diào)準確率和少樣本準確率。

總的來說,這段文字強調(diào)了在評估模型性能時,根據(jù)具體情況選擇合適的評估方法的重要性。微調(diào)準確率提供了模型在特定任務(wù)上經(jīng)過充分訓練后的性能指標,而少樣本準確率則提供了在數(shù)據(jù)有限時模型快速適應任務(wù)的能力。這兩種方法都有助于全面理解模型在不同條件下的性能。

微調(diào)準確率(Fine-tuning Accuracies):

微調(diào)準確率是指在特定數(shù)據(jù)集上對預訓練模型進行微調(diào)后,模型在該數(shù)據(jù)集上的性能。這是衡量模型在特定任務(wù)上經(jīng)過進一步訓練后性能的常用指標。 少樣本準確率(Few-shot Accuracies):

少樣本準確率是指在只有很少標簽數(shù)據(jù)可用的情況下,模型的性能。在這種情況下,模型需要在有限的數(shù)據(jù)上快速適應新任務(wù)。 正則化最小二乘回歸(Regularized Least-squares Regression):

這是一種統(tǒng)計方法,用于在存在噪聲和不確定性的情況下,找到數(shù)據(jù)的最佳擬合。在這里,它用于將模型的表征映射到目標標簽上。 封閉形式的解(Closed-form Solution):

封閉形式的解是指可以直接計算出的解,而不是通過迭代方法逐步逼近的解。在這種情況下,模型可以快速地給出準確的預測。 即時評估(On-the-fly Evaluation):

即時評估是指在沒有足夠時間進行完整微調(diào)的情況下,快速評估模型性能的方法。這在需要快速決策或資源有限的情況下非常有用。 成本考慮(Cost Consideration):

在某些情況下,微調(diào)可能需要大量的計算資源和時間。因此,使用少樣本準確率作為快速評估的替代方法,可以在不犧牲太多準確性的情況下節(jié)省資源。

4.2 COMPARISON TO STATE OF THE ART

我們首先將我們最大的模型——ViT-H/14和ViT-L/16——與文獻中最先進的CNN進行比較。第一個比較點是Big Transfer (BiT)(Kolesnikov et al., 2020),它使用大型ResNets進行有監(jiān)督遷移學習。第二個是比較Noisy Student(Xie et al., 2020),這是一個使用半監(jiān)督學習在ImageNet和JFT300M上訓練的大型EfficientNet,訓練時去除了標簽。目前,Noisy Student在ImageNet上是最先進的,而BiT-L在此處報告的其他數(shù)據(jù)集上是最先進的。所有模型都是在TPUv3硬件上訓練的,我們報告了預訓練每個模型所花費的TPUv3核心天數(shù),即用于訓練的TPU v3核心數(shù)(每個芯片2個)乘以訓練時間(天數(shù))。

這段文字描述了如何將Vision Transformer(ViT)模型與當前文獻中最先進的卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行性能比較。

總的來說,這段文字強調(diào)了在比較不同模型的性能時,需要考慮模型的規(guī)模、訓練方法、使用的硬件以及計算資源的消耗。通過這些比較,研究者可以了解不同模型在特定任務(wù)上的優(yōu)勢和局限性。

表2顯示了結(jié)果。較小的ViT-L/16模型在JFT-300M數(shù)據(jù)集上預訓練后,在所有任務(wù)上的表現(xiàn)都超過了在同一數(shù)據(jù)集上預訓練的BiT-L,同時在訓練過程中需要的計算資源大大減少。更大的模型,ViT-H/14,在更具挑戰(zhàn)性的數(shù)據(jù)集上進一步提高了性能——ImageNet、CIFAR-100和VTAB套件。有趣的是,這個模型在預訓練時所需的計算量仍然大大少于之前的最先進水平。然而,我們注意到預訓練效率可能不僅受架構(gòu)選擇的影響,還受到其他參數(shù)的影響,如訓練計劃、優(yōu)化器、權(quán)重衰減等。我們在第4.4節(jié)提供了不同架構(gòu)的性能與計算量的對照研究。最后,ViT-L/16模型在公共的ImageNet-21k數(shù)據(jù)集上預訓練,在大多數(shù)數(shù)據(jù)集上也表現(xiàn)良好,同時預訓練所需的資源更少:它可以使用具有8個核心的標準云TPUv3在大約30天內(nèi)訓練完成。

最大模型(Largest Models):

指的是在比較中使用的ViT模型的較大版本,具體為ViT-H/14和ViT-L/16,其中"H"和"L"可能代表模型的大小,"14"和"16"代表輸入圖像塊的大小。 Big Transfer (BiT):

BiT是一種有監(jiān)督遷移學習方法,它使用大型ResNet模型在多個數(shù)據(jù)集上進行預訓練,然后遷移到其他任務(wù)上。 Noisy Student:

Noisy Student是一種半監(jiān)督學習方法,它使用帶有噪聲的標簽(即不完全準確的標簽)來訓練大型EfficientNet模型。 ImageNet和JFT300M:

ImageNet是一個廣泛使用的圖像識別數(shù)據(jù)集,而JFT300M是一個更大的數(shù)據(jù)集,用于訓練大規(guī)模的模型。 TPUv3硬件:

TPU(Tensor Processing Unit)是谷歌開發(fā)的一種專門用于加速機器學習工作負載的硬件加速器。TPUv3是第三代TPU。 TPUv3核心天數(shù)(TPUv3-core-days):

這是一個衡量訓練模型所需計算資源的指標,它考慮了訓練過程中使用的TPU核心數(shù)量和訓練的總天數(shù)。 性能比較:

文本提到了在ImageNet和其他數(shù)據(jù)集上的性能比較,其中Noisy Student在ImageNet上表現(xiàn)最佳,而BiT-L在其他數(shù)據(jù)集上表現(xiàn)最佳。

講解: 這段文字討論了不同規(guī)模的Vision Transformer(ViT)模型在多個數(shù)據(jù)集上的性能,并與現(xiàn)有的最先進模型進行了比較。

總的來說,這段文字強調(diào)了ViT模型在預訓練階段的高效率和在多個數(shù)據(jù)集上的優(yōu)異性能,同時也指出了在評估模型性能時需要考慮的多種因素。

表2:在流行的圖像分類基準測試中與最先進技術(shù)的比較。我們報告了在三次微調(diào)運行中平均準確率的均值和標準差。在JFT-300M數(shù)據(jù)集上預訓練的Vision Transformer模型在所有數(shù)據(jù)集上的表現(xiàn)都超過了基于ResNet的基線模型,同時在預訓練時所需的計算資源大大減少。在較小的公共ImageNet-21k數(shù)據(jù)集上預訓練的ViT也表現(xiàn)良好。?在Touvron et al. (2020)中報告了略微提高的88.5%的結(jié)果。

模型性能(Model Performance):

文本提到了兩個不同規(guī)模的ViT模型(ViT-L/16和ViT-H/14)在多個任務(wù)上的性能表現(xiàn)。 預訓練數(shù)據(jù)集(Pre-training Datasets):

模型在JFT-300M和ImageNet-21k這兩個數(shù)據(jù)集上進行了預訓練。這些數(shù)據(jù)集的大小和復雜性不同,影響了模型的預訓練效果。 計算資源(Computational Resources):

計算資源指的是訓練模型所需的硬件能力,如TPU核心數(shù)和訓練時間。文本指出ViT模型在訓練效率上有優(yōu)勢,即使用較少的計算資源就能達到或超過現(xiàn)有模型的性能。 挑戰(zhàn)性數(shù)據(jù)集(Challenging Datasets):

某些數(shù)據(jù)集(如ImageNet、CIFAR-100和VTAB套件)由于其復雜性和多樣性,對模型的泛化能力提出了更高的要求。 預訓練效率(Pre-training Efficiency):

預訓練效率是指在預訓練階段達到一定性能所需的計算資源量。ViT模型在預訓練效率上表現(xiàn)出色,這意味著它們可以在較短的時間內(nèi)使用較少的資源進行訓練。 其他影響因素(Other Influencing Factors):

除了模型架構(gòu),訓練計劃、優(yōu)化器選擇、權(quán)重衰減等其他參數(shù)也會影響預訓練效率和模型性能。 性能與計算量的對照研究(Performance vs. Compute Controlled Study):

文本提到將在報告的后續(xù)部分提供一個對照研究,比較不同架構(gòu)在性能和計算量方面的表現(xiàn)。

這段文字提供了一個性能比較的概述,涉及Vision Transformer(ViT)模型與基于ResNet的模型在圖像分類任務(wù)上的表現(xiàn)。

總的來說,這段文字強調(diào)了ViT模型在圖像分類任務(wù)上的高效性和優(yōu)越性能,即使在資源有限的情況下也能取得良好的結(jié)果。同時,它也指出了在不同的預訓練數(shù)據(jù)集上,ViT模型都能展現(xiàn)出強大的遷移學習能力。

性能比較(Performance Comparison):

表2展示了ViT模型與當前最先進技術(shù)(state of the art)在多個圖像分類基準測試中的比較結(jié)果。 準確率的均值和標準差(Mean and Standard Deviation of Accuracies):

報告了在三次微調(diào)過程中計算出的準確率的平均值和標準差,這是統(tǒng)計學中常用的方法,用于描述數(shù)據(jù)的集中趨勢和離散程度。 預訓練數(shù)據(jù)集(Pre-training Datasets):

討論了兩個不同的預訓練數(shù)據(jù)集:JFT-300M和ImageNet-21k。JFT-300M是一個大型數(shù)據(jù)集,而ImageNet-21k是一個較小但公共可用的數(shù)據(jù)集。 計算資源(Computational Resources):

指出ViT模型在預訓練階段所需的計算資源比基于ResNet的模型要少,這表明ViT模型在效率上有優(yōu)勢。 公共ImageNet-21k數(shù)據(jù)集(Public ImageNet-21k Dataset):

ImageNet-21k是一個廣泛使用的圖像分類數(shù)據(jù)集,包含21000個類別。ViT模型即使在這種較小的數(shù)據(jù)集上預訓練,也能在多個基準測試中表現(xiàn)良好。 略微提高的結(jié)果(Slightly Improved Result):

文本提到了Touvron et al. (2020)中報告的一個略微提高的準確率結(jié)果,這可能是指在某個特定任務(wù)或數(shù)據(jù)集上,ViT模型的性能有所提升。

翻譯: 圖2將VTAB任務(wù)分解為各自的組,并與此基準上的先前最先進方法進行了比較:BiT、VIVI(一種在ImageNet和Youtube上共同訓練的ResNet,Tschannen et al., 2020),以及S4L(在ImageNet上的監(jiān)督加半監(jiān)督學習,Zhai et al., 2019a)。ViT-H/14在自然和結(jié)構(gòu)化任務(wù)上超越了BiT-R152x4和其他方法。在專業(yè)任務(wù)上,前兩個模型的性能相似。

講解: 這段文字描述了Vision Transformer(ViT)模型在VTAB(Visual Task Adaptation Benchmark)任務(wù)中的表現(xiàn),并將其與幾種先前最先進(SOTA)的方法進行了比較。

VTAB任務(wù)分組(VTAB Task Groups):

VTAB是一個包含多種視覺任務(wù)的基準測試套件,這些任務(wù)被分為不同的組,如自然、結(jié)構(gòu)化和專業(yè)任務(wù)。

先前最先進方法(Previous SOTA Methods):

文本提到了幾種先前在VTAB基準測試中表現(xiàn)最好的方法,包括BiT、VIVI和S4L。這些方法代表了在ViT模型之前的最佳性能。

總的來說,這段文字強調(diào)了ViT模型在不同類型任務(wù)上的適應性和性能,特別是在自然和結(jié)構(gòu)化任務(wù)上的優(yōu)越表現(xiàn)。這表明ViT模型能夠有效地處理多種視覺任務(wù),并且在某些任務(wù)上超越了先前的最先進方法。

4.3 PRE-TRAINING DATA REQUIREMENTS

BiT-R152x4:

這是Big Transfer(BiT)方法中使用的一種特定規(guī)模的ResNet模型,它在多個任務(wù)上進行了預訓練。 ViT-H/14:

這是Vision Transformer模型的一個變體,其中"H"表示“大型”,"14"表示輸入圖像塊的大小為14x14像素。這個模型在自然和結(jié)構(gòu)化任務(wù)上的表現(xiàn)優(yōu)于BiT-R152x4。 自然和結(jié)構(gòu)化任務(wù)(Natural and Structured Tasks):

自然任務(wù)通常涉及日常物體和場景的識別,而結(jié)構(gòu)化任務(wù)則需要對圖像中的幾何關(guān)系和空間結(jié)構(gòu)有深入的理解。 專業(yè)任務(wù)(Specialized Tasks):

專業(yè)任務(wù)通常需要特定領(lǐng)域的知識和理解,如醫(yī)學成像或衛(wèi)星圖像分析。 性能比較(Performance Comparison):

文本指出,ViT-H/14在自然和結(jié)構(gòu)化任務(wù)上的表現(xiàn)優(yōu)于BiT-R152x4和其他方法,而在專業(yè)任務(wù)上,ViT-H/14和BiT-R152x4的性能相似。

Vision Transformer在大型JFT-300M數(shù)據(jù)集上預訓練時表現(xiàn)良好。與ResNets相比,它對視覺的歸納偏好更少,那么數(shù)據(jù)集大小的重要性如何呢?我們進行了兩系列的實驗。

講解: 這段文字提出了一個關(guān)于Vision Transformer(ViT)模型的關(guān)鍵問題,并概述了研究這個問題的方法。

總的來說,這段文字強調(diào)了在視覺任務(wù)中,對于一個沒有像傳統(tǒng)CNN那樣強烈視覺歸納偏好的模型,數(shù)據(jù)集大小對模型性能的影響是一個值得研究的問題。通過實驗,研究者可以更好地理解Vision Transformer在不同數(shù)據(jù)條件下的行為,并為未來的模型設(shè)計和訓練提供指導。

Vision Transformer的表現(xiàn)(Performance of Vision Transformer):

Vision Transformer是一種基于Transformer架構(gòu)的視覺模型,它在圖像識別任務(wù)上表現(xiàn)出色,尤其是在大型數(shù)據(jù)集上進行預訓練后。 歸納偏好(Inductive Biases):

歸納偏好是指模型對數(shù)據(jù)的先驗假設(shè),這些假設(shè)有助于模型從數(shù)據(jù)中學習。例如,卷積神經(jīng)網(wǎng)絡(luò)(ResNets)具有對圖像局部性和平移等變性的偏好。 數(shù)據(jù)集大小的重要性(Importance of Dataset Size):

數(shù)據(jù)集大小對于模型學習特征和泛化能力至關(guān)重要。較大的數(shù)據(jù)集通常包含更多的樣本和更豐富的特征,有助于模型學習到更泛化的特征表示。 實驗系列(Series of Experiments):

為了研究數(shù)據(jù)集大小對Vision Transformer性能的影響,作者設(shè)計了兩系列的實驗。這些實驗可能包括在不同大小的數(shù)據(jù)集上訓練模型,并評估其在特定任務(wù)上的性能。 目的(Purpose):

這些實驗的目的是理解數(shù)據(jù)集大小對于Vision Transformer模型性能的影響,以及在視覺任務(wù)中,與具有更多視覺特定歸納偏好的模型(如ResNets)相比,ViT對數(shù)據(jù)集大小的依賴程度。

翻譯: 首先,我們在大小逐漸增加的數(shù)據(jù)集上預訓練ViT模型:ImageNet、ImageNet-21k和JFT300M。為了提高在較小數(shù)據(jù)集上的性能,我們優(yōu)化了三個基本的正則化參數(shù)——權(quán)重衰減、dropout和標簽平滑。圖3顯示了在ImageNet上微調(diào)后的結(jié)果(其他數(shù)據(jù)集上的結(jié)果顯示在表5中)。當在最小的數(shù)據(jù)集,ImageNet上預訓練時,盡管有(適度的)正則化,ViT-Large模型的表現(xiàn)不如ViT-Base模型。在ImageNet-21k上預訓練時,它們的性能相似。只有在JFT-300M上預訓練時,我們才看到了更大模型的全部優(yōu)勢。圖3還展示了不同大小的BiT模型所涵蓋的性能區(qū)域。BiT CNN在ImageNet上的表現(xiàn)超過了ViT,但隨著數(shù)據(jù)集的增大,ViT超越了。

講解: 這段文字描述了在不同規(guī)模的數(shù)據(jù)集上預訓練Vision Transformer(ViT)模型的實驗,以及正則化技術(shù)對模型性能的影響。

預訓練數(shù)據(jù)集(Pre-training Datasets):

實驗涉及三個不同規(guī)模的數(shù)據(jù)集:ImageNet、ImageNet-21k和JFT300M。這些數(shù)據(jù)集在圖像數(shù)量和類別上有所不同,提供了不同復雜性的預訓練環(huán)境。

正則化參數(shù)(Regularization Parameters):

為了提高模型在較小數(shù)據(jù)集上的性能,作者優(yōu)化了三個正則化參數(shù):權(quán)重衰減、dropout和標簽平滑。這些技術(shù)有助于防止模型過擬合,提高模型的泛化能力。

微調(diào)(Fine-tuning):

預訓練后的模型在ImageNet數(shù)據(jù)集上進行了微調(diào),以評估其在特定任務(wù)上的性能。

模型性能(Model Performance):

文本指出,當在最小的ImageNet數(shù)據(jù)集上預訓練時,較大的ViT-Large模型表現(xiàn)不如較小的ViT-Base模型,即使應用了正則化技術(shù)。這表明在數(shù)據(jù)較少的情況下,模型規(guī)模的增加并不一定能帶來性能的提升。

總的來說,這段文字強調(diào)了數(shù)據(jù)集規(guī)模對于模型性能的重要性,以及在不同數(shù)據(jù)條件下,正則化技術(shù)如何幫助模型提高泛化能力。此外,它還揭示了在大規(guī)模數(shù)據(jù)集上,更大的ViT模型能夠發(fā)揮出更好的性能。

復制再試一次分享

數(shù)據(jù)集規(guī)模與模型性能(Dataset Size and Model Performance):

當數(shù)據(jù)集規(guī)模增大到ImageNet-21k和JFT300M時,ViT-Large模型的性能得到了提升,尤其是在JFT300M數(shù)據(jù)集上,大模型的優(yōu)勢更加明顯。 BiT模型(BiT Models):

文本還提到了BiT(Big Transfer)模型,這些模型在ImageNet上的表現(xiàn)超過了ViT。但是隨著數(shù)據(jù)集規(guī)模的增大,ViT模型的性能逐漸超越了BiT模型。 性能區(qū)域(Performance Region):

圖3展示了不同大小的BiT模型在性能上的差異,說明了模型規(guī)模對性能的影響。

其次,我們在9M、30M和90M的隨機子集以及完整的JFT300M數(shù)據(jù)集上訓練我們的模型。我們不對較小的子集進行額外的正則化,并為所有設(shè)置使用相同的超參數(shù)。這樣,我們評估的是模型的內(nèi)在屬性,而不是正則化的效果。然而,我們使用了早停法,并報告了在訓練過程中達到的最佳驗證準確率。為了節(jié)省計算資源,我們報告的是少樣本線性準確率,而不是完整的微調(diào)準確率。圖4包含了結(jié)果。在較小的數(shù)據(jù)集上,Vision Transformers比具有可比計算成本的ResNets更容易過擬合。例如,ViT-B/32比ResNet50略快;在9M子集上表現(xiàn)更差,但在90M+子集上表現(xiàn)更好。ResNet152x2和ViT-L/16也是如此。這一結(jié)果加強了這樣的直覺:對于較小的數(shù)據(jù)集,卷積歸納偏好是有用的,但對于更大的數(shù)據(jù)集,直接從數(shù)據(jù)中學習相關(guān)模式是足夠的,甚至是有益的。

講解: 這段文字描述了在不同規(guī)模的數(shù)據(jù)子集上訓練Vision Transformer(ViT)和ResNet模型的實驗,以及對模型在不同數(shù)據(jù)規(guī)模下的過擬合情況進行了分析。

數(shù)據(jù)子集訓練(Training on Subsets):

作者在JFT300M數(shù)據(jù)集的不同大小的子集(9M、30M、90M)上訓練模型,以及在整個數(shù)據(jù)集上進行訓練,以評估模型在不同數(shù)據(jù)量下的表現(xiàn)。

正則化和超參數(shù)(Regularization and Hyper-parameters):

在較小的數(shù)據(jù)子集上沒有進行額外的正則化處理,并在所有實驗設(shè)置中使用相同的超參數(shù),以評估模型的內(nèi)在屬性。 早停法(Early Stopping):

早停法是一種防止過擬合的技術(shù),通過在驗證集上的性能不再提升時停止訓練來實現(xiàn)。 少樣本線性準確率(Few-shot Linear Accuracy):

為了節(jié)省計算資源,作者報告了少樣本線性準確率,而不是進行完整的微調(diào)。少樣本線性準確率是一種快速評估模型泛化能力的方法。 過擬合(Overfitting):

文本指出,Vision Transformers在較小數(shù)據(jù)集上比ResNets更容易過擬合。過擬合是指模型在訓練數(shù)據(jù)上表現(xiàn)很好,但在未見過的數(shù)據(jù)上表現(xiàn)不佳。 卷積歸納偏好(Convolutional Inductive Bias):

卷積層在圖像處理中具有捕捉局部特征和空間層次結(jié)構(gòu)的能力,這種歸納偏好對于較小的數(shù)據(jù)集特別有用。 數(shù)據(jù)規(guī)模與模型性能(Dataset Size and Model Performance):

實驗結(jié)果表明,對于較大的數(shù)據(jù)集,直接從數(shù)據(jù)中學習模式是足夠的,甚至更有益,這表明在大量數(shù)據(jù)的情況下,模型可以更好地泛化。

總的來說,這段文字強調(diào)了在不同規(guī)模的數(shù)據(jù)集上訓練模型時,需要考慮模型的內(nèi)在屬性和數(shù)據(jù)的復雜性。對于較小的數(shù)據(jù)集,模型可能需要更多的歸納偏好來捕捉數(shù)據(jù)中的模式;而對于較大的數(shù)據(jù)集,模型可以通過學習數(shù)據(jù)中的直接模式來提高性能。

翻譯: 總體而言,ImageNet上的少樣本結(jié)果(圖4)以及VTAB上的低數(shù)據(jù)結(jié)果(表2)對于極低數(shù)據(jù)遷移似乎很有前景。對ViT的少樣本屬性進行進一步分析是未來工作的一個令人興奮的方向。

講解: 這段文字總結(jié)了Vision Transformer(ViT)在少樣本學習任務(wù)上的表現(xiàn),并提出了未來研究的方向。

少樣本結(jié)果(Few-shot Results):

少樣本結(jié)果指的是在只有少量標注數(shù)據(jù)可用的情況下模型的性能。在這種情況下,模型需要能夠快速適應并從有限的數(shù)據(jù)中學習。 ImageNet和VTAB:

ImageNet是一個廣泛使用的圖像分類數(shù)據(jù)集,而VTAB(Visual Task Adaptation Benchmark)是一個用于評估模型在多種視覺任務(wù)上遷移學習能力的基準測試套件。 極低數(shù)據(jù)遷移(Very Low-data Transfer):

極低數(shù)據(jù)遷移是指在目標任務(wù)上可用的數(shù)據(jù)非常有限時,如何有效地將模型從一個任務(wù)遷移到另一個任務(wù)。 前景(Seeming Promising):

文本中提到,ViT在ImageNet和VTAB上的少樣本學習結(jié)果看起來很有前景,這意味著ViT在處理少量數(shù)據(jù)時表現(xiàn)出了良好的適應性和學習能力。 未來工作方向(Direction of Future Work):

對ViT的少樣本屬性進行進一步分析是一個令人興奮的未來研究方向。這可能包括探索不同的訓練策略、正則化技術(shù)或模型架構(gòu),以提高模型在少樣本情況下的性能。 少樣本屬性(Few-shot Properties):

少樣本屬性指的是模型在只有少量樣本可用時的性能特征。這些屬性對于理解模型如何在數(shù)據(jù)稀缺的環(huán)境中學習和泛化至關(guān)重要。

總的來說,這段文字強調(diào)了ViT在少樣本學習任務(wù)上的潛力,并提出了對這些屬性進行深入研究的重要性。通過進一步的研究,可以更好地理解ViT在處理少量數(shù)據(jù)時的行為,并可能開發(fā)出更有效的模型和算法來處理實際應用中的低數(shù)據(jù)問題。

4.4 SCALING STUDY擴展性研究

翻譯: 我們通過對從JFT-300M遷移性能的評估,對不同模型進行了控制擴展性研究。在這種設(shè)置中,數(shù)據(jù)大小并不是模型性能的瓶頸,我們評估了每個模型的性能與預訓練成本。模型集合包括:7個ResNets,R50x1、R50x2、R101x1、R152x1、R152x2,預訓練了7個周期,加上R152x2和R200x3預訓練了14個周期;6個Vision Transformers,ViT-B/32、B/16、L/32、L/16,預訓練了7個周期,加上L/16和H/14預訓練了14個周期;以及5個混合模型,R50+ViT-B/32、B/16、L/32、L/16預訓練了7個周期,加上R50+ViT-L/16預訓練了14個周期(對于混合模型,模型名稱末尾的數(shù)字并不代表塊大小,而是代表在ResNet主干中的總下采樣比率)。

講解: 這段文字描述了一項對不同深度學習模型進行的擴展性研究,旨在評估這些模型在大規(guī)模數(shù)據(jù)集JFT-300M上的遷移學習能力,并比較它們的預訓練成本與性能。

控制擴展性研究(Controlled Scaling Study):

這項研究控制了模型的規(guī)模和預訓練時間,以便公平地比較不同模型的性能。 遷移性能(Transfer Performance):

遷移性能是指模型在一個任務(wù)上預訓練后,將其應用到另一個不同任務(wù)上的能力。 預訓練成本(Pre-training Cost):

預訓練成本通常指的是訓練模型所需的計算資源,包括時間、電力和硬件使用等。 模型集合(Model Set):

研究包括了多種類型的模型,如不同規(guī)模的ResNet和Vision Transformer,以及混合模型。 ResNets:

ResNets是一類深度殘差網(wǎng)絡(luò),通過引入跳躍連接來解決深度網(wǎng)絡(luò)中的梯度消失問題。 Vision Transformers(ViTs):

Vision Transformers是一種基于Transformer架構(gòu)的視覺模型,它們在圖像識別任務(wù)上表現(xiàn)出色。 混合模型(Hybrids):

混合模型結(jié)合了CNN和Transformer的特點,旨在結(jié)合兩者的優(yōu)勢。 下采樣比率(Downsampling Ratio):

在混合模型中,下采樣比率指的是在ResNet主干網(wǎng)絡(luò)中對輸入圖像進行降采樣的程度。 預訓練周期(Pre-training Epochs):

預訓練周期是指模型在預訓練數(shù)據(jù)集上訓練的迭代次數(shù)。

總的來說,這段文字強調(diào)了在大規(guī)模數(shù)據(jù)集上評估模型性能的重要性,并指出了在不同模型之間進行公平比較時控制變量的必要性。通過這種擴展性研究,可以更好地理解不同模型架構(gòu)在實際應用中的潛力和成本效益。

翻譯: 圖5包含了遷移性能與總預訓練計算量的對比(有關(guān)計算成本的詳細信息,見附錄D.5)。每個模型的詳細結(jié)果提供在附錄中的表6??梢杂^察到幾個模式。首先,Vision Transformers在性能/計算權(quán)衡上優(yōu)于ResNets。ViT使用大約2-4倍更少的計算量就能達到相同的性能(在5個數(shù)據(jù)集上的平均值)。其次,混合模型在較小的計算預算下略微優(yōu)于ViT,但隨著模型變大,這種差異消失了。這個結(jié)果有點令人驚訝,因為人們可能會期望卷積局部特征處理在任何規(guī)模上都能協(xié)助ViT。第三,Vision Transformers在嘗試的范圍內(nèi)似乎沒有飽和,這激勵了未來的擴展努力。

講解: 這段文字分析了不同模型在遷移學習和預訓練計算成本方面的性能,并提出了一些觀察到的模式。

性能/計算權(quán)衡(Performance/Compute Trade-off):

這是指在模型性能和所需的計算資源之間找到最佳平衡。Vision Transformers在這一權(quán)衡上表現(xiàn)優(yōu)于ResNets,意味著它們在較少的計算資源下能達到與ResNets相同的性能。 計算量(Compute):

計算量通常指的是訓練模型所需的計算資源,包括處理器時間、內(nèi)存使用等。 混合模型(Hybrids):

混合模型結(jié)合了CNN和Transformer的特點。在計算預算較小的情況下,它們的表現(xiàn)略優(yōu)于ViT,但隨著模型規(guī)模的增大,這種優(yōu)勢逐漸消失。 卷積局部特征處理(Convolutional Local Feature Processing):

這是指CNN在處理圖像時能夠捕捉局部特征和空間層次結(jié)構(gòu)的能力。通常認為這種能力對于圖像識別任務(wù)是有益的。 未飽和(Do Not Saturate):

未飽和意味著Vision Transformers在增加計算資源時,其性能提升沒有達到上限,還有進一步提升的空間。 未來擴展努力(Future Scaling Efforts):

這表明未來的研究可以探索更大的模型規(guī)模和更多的計算資源,以進一步提高Vision Transformers的性能。

總的來說,這段文字強調(diào)了在遷移學習任務(wù)中,Vision Transformers相對于ResNets在計算效率上的優(yōu)勢,以及混合模型在不同計算預算下的表現(xiàn)。此外,它還指出了對Vision Transformers進行進一步擴展的潛力,以期在未來實現(xiàn)更高的性能。

4.5 INSPECTING VISION TRANSFORMER

翻譯: 為了開始理解Vision Transformer如何處理圖像數(shù)據(jù),我們分析了其內(nèi)部表征。Vision Transformer的第一層將展平的圖像塊線性投影到低維空間(公式1)。圖7(左)顯示了學習到的嵌入濾波器的主要成分。這些成分類似于每個圖像塊內(nèi)部細微結(jié)構(gòu)的低維表示的合理基函數(shù)。

講解: 這段文字描述了Vision Transformer(ViT)如何處理圖像數(shù)據(jù),并對其內(nèi)部表征進行了分析。

內(nèi)部表征(Internal Representations):

內(nèi)部表征是指模型在處理數(shù)據(jù)時所學習到的特征和信息的內(nèi)部表達形式。在ViT中,這些表征是通過模型的不同層來構(gòu)建的。 第一層(First Layer):

Vision Transformer的第一層負責將圖像塊(patches)從原始的高維空間映射到一個更低維度的空間。這種映射通常通過一個線性變換實現(xiàn),如全連接層或線性層。 線性投影(Linear Projection):

線性投影是一種將數(shù)據(jù)從高維空間映射到低維空間的方法,它保持了數(shù)據(jù)點之間的相對距離。在ViT中,這有助于減少參數(shù)數(shù)量并提高計算效率。 主要成分(Top Principal Components):

主成分分析(PCA)是一種統(tǒng)計技術(shù),用于確定數(shù)據(jù)中最重要的方向。在這里,它用于分析ViT學習到的嵌入濾波器的主要特征。 嵌入濾波器(Embedding Filters):

嵌入濾波器是指在ViT中用于將圖像塊映射到低維空間的權(quán)重矩陣。這些濾波器學習到的特征可以捕捉圖像塊中的關(guān)鍵信息。 基函數(shù)(Basis Functions):

在數(shù)學和信號處理中,基函數(shù)是構(gòu)成其他函數(shù)的一組函數(shù)。在這里,它們指的是構(gòu)成每個圖像塊內(nèi)部細微結(jié)構(gòu)低維表示的基礎(chǔ)元素。 細微結(jié)構(gòu)(Fine Structure):

細微結(jié)構(gòu)指的是圖像塊內(nèi)部的細節(jié)和紋理信息。ViT通過學習這些結(jié)構(gòu)的低維表示,能夠捕捉圖像的關(guān)鍵特征。

總的來說,這段文字強調(diào)了Vision Transformer在處理圖像數(shù)據(jù)時,如何通過其第一層將圖像塊映射到低維空間,并學習到能夠捕捉圖像塊內(nèi)部細微結(jié)構(gòu)的基函數(shù)。這種分析有助于我們理解ViT的工作原理,以及它是如何從圖像數(shù)據(jù)中提取有用信息的。

翻譯: 在投影之后,會向圖像塊表征中添加學習到的位置嵌入。圖7(中間)顯示,模型學會了在位置嵌入的相似性中編碼圖像內(nèi)的距離,即更接近的圖像塊傾向于具有更相似的位置嵌入。此外,還出現(xiàn)了行-列結(jié)構(gòu);同一行/列的圖像塊具有相似的嵌入。最后,對于較大的網(wǎng)格,有時可以明顯看到一種正弦波結(jié)構(gòu)(見附錄D)。位置嵌入學會表示二維圖像拓撲結(jié)構(gòu),這解釋了為什么手工設(shè)計的二維感知嵌入變體沒有帶來改進(見附錄D.4)。

講解: 這段文字描述了Vision Transformer(ViT)如何處理圖像塊的位置信息,并通過位置嵌入來編碼空間關(guān)系。

位置嵌入(Position Embedding):

在ViT中,位置嵌入是向模型提供關(guān)于圖像塊在原始圖像中位置信息的一種機制。這些嵌入通常是可學習的,意味著它們在訓練過程中會根據(jù)模型的學習目標進行調(diào)整。 編碼距離(Encode Distance):

模型通過學習使位置嵌入之間的相似性與圖像塊之間的距離相關(guān)聯(lián)。這意味著在空間上彼此接近的圖像塊會有相似的位置嵌入。 行-列結(jié)構(gòu)(Row-Column Structure):

模型還學習到在同一行或同一列中的圖像塊應該有相似的位置嵌入,這反映了圖像的二維結(jié)構(gòu)。 正弦波結(jié)構(gòu)(Sinusoidal Structure):

在較大的圖像網(wǎng)格中,位置嵌入有時會呈現(xiàn)出正弦波模式,這可能是為了更好地編碼圖像塊的相對位置信息。 二維圖像拓撲(2D Image Topology):

位置嵌入學習到的二維圖像拓撲結(jié)構(gòu)意味著它們能夠捕捉圖像的二維空間關(guān)系,這對于圖像識別任務(wù)是有益的。 手工設(shè)計的嵌入變體(Hand-crafted 2D-aware Embedding Variants):

文本指出,盡管位置嵌入能夠自動學習到有效的二維空間表示,但手工設(shè)計的、專門針對二維結(jié)構(gòu)的嵌入變體并沒有帶來額外的性能提升。 附錄D.4:

附錄D.4可能包含了關(guān)于位置嵌入和二維感知嵌入變體的更詳細的實驗結(jié)果和分析。

總的來說,這段文字強調(diào)了Vision Transformer通過位置嵌入有效地編碼了圖像的二維空間信息,并且這種自動學習到的空間表示對于模型的性能是有效的,甚至可能優(yōu)于手工設(shè)計的嵌入方法。

翻譯: 自注意力機制允許Vision Transformer(ViT)即使在最低層也能整合整個圖像的信息。我們研究了網(wǎng)絡(luò)在多大程度上利用這一能力。具體來說,我們根據(jù)注意力權(quán)重計算了圖像空間中信息整合的平均距離(見圖7,右)。這種“注意力距離”類似于CNN中的接受域大小。我們發(fā)現(xiàn),一些注意力頭在最低層就已經(jīng)關(guān)注了大部分圖像,表明模型確實使用了全局信息整合的能力。其他注意力頭在低層則始終保持較小的注意力距離。這種高度局部化的注意力在應用ResNet后再接Transformer的混合模型中不太明顯(見圖7,右),這表明它可能在CNN中類似于早期卷積層的功能。此外,隨著網(wǎng)絡(luò)深度的增加,注意力距離也會增加??傮w而言,我們發(fā)現(xiàn)模型會關(guān)注對分類語義相關(guān)性的圖像區(qū)域(見圖6)。

講解: 這段文字探討了Vision Transformer(ViT)如何利用自注意力機制來整合圖像信息,并分析了模型在不同層次上的信息整合能力。

自注意力機制(Self-attention Mechanism):

自注意力機制使得ViT能夠在模型的任何層次上整合來自整個圖像的信息。 信息整合能力(Information Integration Capability):

研究者通過計算基于注意力權(quán)重的圖像空間中信息整合的平均距離來評估模型整合信息的能力。 注意力距離(Attention Distance):

注意力距離是指模型在整合信息時考慮的圖像區(qū)域的范圍,這與CNN中的接受域大小相似。 最低層的全局信息整合(Global Information Integration in the Lowest Layers):

研究發(fā)現(xiàn),即使在最低層,一些注意力頭已經(jīng)開始關(guān)注大部分圖像,這表明ViT確實利用了全局信息整合的能力。 局部化注意力(Localized Attention):

另一些注意力頭在低層保持較小的注意力距離,這表明它們更關(guān)注局部信息。 混合模型(Hybrid Models):

在混合模型中,先使用ResNet處理圖像,然后再使用Transformer,這種結(jié)構(gòu)減少了高度局部化的注意力,可能起到了類似于CNN早期卷積層的作用。 網(wǎng)絡(luò)深度與注意力距離(Network Depth and Attention Distance):

隨著網(wǎng)絡(luò)深度的增加,注意力距離也會增加,這意味著在更高層次上,模型能夠整合更遠距離的信息。 語義相關(guān)性(Semantic Relevance):

模型傾向于關(guān)注對分類任務(wù)語義相關(guān)性的圖像區(qū)域,這有助于提高分類的準確性。

總的來說,這段文字強調(diào)了ViT通過自注意力機制在不同網(wǎng)絡(luò)層次上整合信息的能力,并指出模型如何根據(jù)任務(wù)需求調(diào)整其注意力范圍。這些發(fā)現(xiàn)有助于我們理解ViT如何處理圖像數(shù)據(jù),并為改進模型提供了見解。

4.6 SELF-SUPERVISION

翻譯: Transformer在自然語言處理(NLP)任務(wù)上展現(xiàn)出了令人印象深刻的性能。然而,它們的成功不僅僅源于其出色的可擴展性,還源于大規(guī)模的自監(jiān)督預訓練(Devlin et al., 2019; Radford et al., 2018)。我們也對自監(jiān)督的掩碼圖像預測進行了初步探索,模仿BERT中使用的掩碼語言建模任務(wù)。通過自監(jiān)督預訓練,我們較小的ViT-B/16模型在ImageNet上達到了79.9%的準確率,比從頭開始訓練顯著提高了2%,但仍然比有監(jiān)督預訓練低4%。附錄B.1.2包含了更多細節(jié)。我們將對比自監(jiān)督預訓練(Chen et al., 2020b; He et al., 2020; Bachman et al., 2019; H ?enaff et al., 2020)的探索留給未來的工作。

講解: 這段文字討論了Transformer模型在自然語言處理(NLP)任務(wù)上的應用,并提出了在計算機視覺領(lǐng)域進行自監(jiān)督預訓練的可能性。

Transformer在NLP任務(wù)上的性能:

Transformer模型因其在NLP任務(wù)上的卓越表現(xiàn)而受到關(guān)注,這些任務(wù)包括語言翻譯、文本摘要等。 自監(jiān)督預訓練:

自監(jiān)督預訓練是指在沒有人工標注數(shù)據(jù)的情況下,通過預測數(shù)據(jù)中某些部分來訓練模型的方法。BERT就是一個例子,它通過預測文本中掩碼(mask)單詞的方式來進行預訓練。 掩碼圖像預測(Masked Patch Prediction):

這是一種自監(jiān)督學習任務(wù),類似于BERT中的掩碼語言建模,但應用于圖像。在這種方法中,模型需要預測圖像中被掩碼(遮蓋)的部分。 ViT-B/16模型:

這是Vision Transformer的一個變體,其中"B"可能表示基礎(chǔ)(Base)版本,"16"表示輸入圖像塊的大小。 ImageNet準確率:

ImageNet是一個大型圖像識別數(shù)據(jù)集,常用于評估圖像識別模型的性能。79.9%的準確率表明模型在該數(shù)據(jù)集上的表現(xiàn)。 有監(jiān)督預訓練與自監(jiān)督預訓練的比較:

文本提到,自監(jiān)督預訓練的ViT-B/16模型比從頭開始訓練的模型表現(xiàn)更好,但仍然低于有監(jiān)督預訓練的模型。 對比自監(jiān)督預訓練(Contrastive Pre-training):

對比自監(jiān)督預訓練是另一種自監(jiān)督學習方法,它通過比較圖像的不同視圖來學習圖像表示。 未來的工作:

作者提出,對比自監(jiān)督預訓練是一個值得在未來研究的領(lǐng)域,這可能有助于進一步提升模型的性能。

總的來說,這段文字強調(diào)了自監(jiān)督預訓練在提升模型性能方面的潛力,并指出了在計算機視覺領(lǐng)域探索這一方法的重要性。通過自監(jiān)督預訓練,模型可以在沒有大量標注數(shù)據(jù)的情況下學習到有用的特征表示,這對于數(shù)據(jù)稀缺的任務(wù)尤其有價值。

翻譯: 圖7:左側(cè):ViT-L/32的初始線性嵌入的RGB值的濾波器。中間:ViT-L/32的位置嵌入的相似性。圖塊顯示了指示行和列的圖像塊的位置嵌入與所有其他圖像塊的位置嵌入之間的余弦相似度。右側(cè):頭部和網(wǎng)絡(luò)深度關(guān)注的區(qū)域大小。每個點顯示了16個頭在一層中跨圖像的平均注意力距離。有關(guān)詳細信息,請參閱附錄D.7。

講解: 這段文字描述了圖7中的三個部分,它們展示了Vision Transformer(ViT)模型中不同方面的可視化結(jié)果。

初始線性嵌入的濾波器(Filters of the Initial Linear Embedding):

這部分展示了ViT模型中將RGB值線性映射到嵌入空間的初始濾波器。這些濾波器可以捕捉圖像塊的基本特征。 位置嵌入的相似性(Similarity of Position Embeddings):

這部分通過圖塊(tiles)展示了模型中位置嵌入之間的余弦相似度。余弦相似度是一種度量兩個向量方向差異的方法,這里用來表示不同圖像塊在位置上的相似性。 關(guān)注的區(qū)域大?。⊿ize of Attended Area):

這部分展示了模型中不同頭部(heads)和不同網(wǎng)絡(luò)深度(layers)關(guān)注區(qū)域的大小。注意力距離是指模型在整合信息時考慮的圖像區(qū)域的范圍,類似于CNN中的接受域大小。 頭部和網(wǎng)絡(luò)深度(Head and Network Depth):

每個點代表16個頭部中的一個在特定層上跨圖像的平均注意力距離。這表明了模型在不同層次上如何關(guān)注不同大小的圖像區(qū)域。 附錄D.7(Appendix D.7):

附錄D.7可能包含了關(guān)于這些可視化結(jié)果的更多技術(shù)細節(jié),包括如何計算位置嵌入的相似性和注意力距離。

總的來說,這段文字強調(diào)了ViT模型在處理圖像數(shù)據(jù)時如何通過自注意力機制整合來自整個圖像的信息,并且展示了模型如何在不同層次上關(guān)注不同大小的圖像區(qū)域。這些可視化結(jié)果有助于我們理解ViT模型的內(nèi)部工作機制。

5 CONCLUSION

翻譯: 我們探索了將Transformer直接應用于圖像識別。與以往在計算機視覺中使用自注意力的工作不同,我們除了最初的圖像塊提取步驟外,沒有在架構(gòu)中引入特定于圖像的歸納偏好。相反,我們將圖像解釋為一系列圖像塊,并使用在NLP中使用的標凈Transformer編碼器對其進行處理。這種簡單但可擴展的策略在與大規(guī)模數(shù)據(jù)集的預訓練相結(jié)合時表現(xiàn)出奇地好。因此,Vision Transformer在許多圖像分類數(shù)據(jù)集上匹配或超過了最先進技術(shù),同時預訓練成本相對較低。

講解: 這段文字總結(jié)了Vision Transformer(ViT)在圖像識別任務(wù)中的應用,并強調(diào)了其與以往方法的不同之處。

直接應用Transformer:

作者探討了將Transformer模型直接應用于圖像識別任務(wù),而不是像以往的方法那樣對模型進行特定于圖像的修改。 無圖像特定歸納偏好:

除了在模型的初始階段將圖像分割成小塊(patches)之外,ViT沒有在架構(gòu)中引入其他特定于圖像的歸納偏好。 圖像作為序列處理:

ViT將圖像視為一系列圖像塊的序列,并使用標準的Transformer編碼器對其進行處理,這種方法與自然語言處理(NLP)中使用的方法類似。 簡單且可擴展的策略:

這種處理圖像的策略簡單而可擴展,意味著它可以很容易地應用于不同規(guī)模和復雜性的圖像識別任務(wù)。 預訓練與性能:

當ViT與大規(guī)模數(shù)據(jù)集的預訓練相結(jié)合時,它表現(xiàn)出色,能夠在許多圖像分類數(shù)據(jù)集上達到或超過當時的最先進技術(shù)。 預訓練成本:

盡管ViT的性能出色,但其預訓練成本相對較低,這使得它成為一個經(jīng)濟高效的選擇。

總的來說,這段文字強調(diào)了ViT在圖像識別領(lǐng)域的潛力,以及其作為一種通用模型架構(gòu)在處理圖像數(shù)據(jù)時的有效性。ViT的成功表明,即使是在沒有針對特定領(lǐng)域進行優(yōu)化的情況下,Transformer模型也能夠在圖像任務(wù)上取得優(yōu)異的性能。

?

翻譯: 雖然這些初步結(jié)果令人鼓舞,但仍然存在許多挑戰(zhàn)。其中一個挑戰(zhàn)是將ViT應用于其他計算機視覺任務(wù),例如檢測和分割。我們的結(jié)果,加上Carion等人(2020年)的結(jié)果,表明這種方法是有希望的。另一個挑戰(zhàn)是繼續(xù)探索自監(jiān)督預訓練方法。我們的初步實驗顯示自監(jiān)督預訓練有所改進,但自監(jiān)督和大規(guī)模有監(jiān)督預訓練之間仍然存在很大差距。最后,進一步擴展ViT可能會帶來性能的提升。

講解: 這段文字討論了Vision Transformer(ViT)在計算機視覺領(lǐng)域的應用前景和面臨的挑戰(zhàn)。

應用于其他計算機視覺任務(wù):

除了圖像分類,ViT還有潛力被應用于其他計算機視覺任務(wù),如目標檢測和圖像分割。這些任務(wù)通常需要模型理解圖像中的目標位置和形狀。 Carion等人(2020年)的研究:

文中提到了Carion等人的研究,這可能是指在ViT或其他Transformer架構(gòu)上進行的相關(guān)工作,這些工作表明了ViT在計算機視覺任務(wù)上的潛力。 自監(jiān)督預訓練方法:

自監(jiān)督預訓練是一種無需人工標注數(shù)據(jù)的訓練方法,它通過模型自身生成的訓練信號來學習。這種方法在自然語言處理中已經(jīng)取得了成功,而在計算機視覺中仍然是一個研究熱點。 自監(jiān)督與有監(jiān)督預訓練的差距:

盡管自監(jiān)督預訓練在ViT上取得了一定的進展,但與大規(guī)模有監(jiān)督預訓練相比,性能仍有提升空間。有監(jiān)督預訓練通常使用大量人工標注的數(shù)據(jù),這在某些情況下可能會提供更準確的模型訓練。 進一步擴展ViT:

擴展ViT可能指的是增加模型的規(guī)模、改進模型架構(gòu)或使用更多的數(shù)據(jù)進行訓練。這些擴展可能會進一步提高ViT在各種計算機視覺任務(wù)上的性能。

總的來說,這段文字強調(diào)了ViT在計算機視覺領(lǐng)域的應用前景,并指出了在實現(xiàn)這些應用時需要克服的一些挑戰(zhàn)。這包括將ViT應用于更復雜的視覺任務(wù)、改進自監(jiān)督預訓練方法,以及通過擴展模型來提高性能。這些挑戰(zhàn)的克服將有助于ViT在計算機視覺領(lǐng)域得到更廣泛的應用。

翻譯: 表3:訓練的超參數(shù)。所有模型都使用4096的批量大小和10000步的學習率預熱進行訓練。對于ImageNet,我們發(fā)現(xiàn)額外應用全局范數(shù)為1的梯度裁剪是有益的。訓練分辨率為224。

講解: 這段文字描述了訓練Vision Transformer(ViT)模型時使用的超參數(shù)設(shè)置。

批量大小(Batch Size):

批量大小是指每次模型訓練迭代中同時處理的樣本數(shù)量。這里,所有模型都使用4096的批量大小,這是一個相對較大的數(shù)量,有助于提高訓練效率。 學習率預熱(Learning Rate Warmup):

學習率預熱是一種逐漸增加學習率的策略,通常在訓練的初始階段使用,以幫助模型穩(wěn)定地開始訓練。這里,學習率預熱進行了10000步。 梯度裁剪(Gradient Clipping):

梯度裁剪是一種防止梯度爆炸的技術(shù),通過將梯度限制在一個特定的范圍內(nèi)來實現(xiàn)。在這里,全局范數(shù)被設(shè)置為1,這意味著所有梯度的總范數(shù)不會超過1。 訓練分辨率(Training Resolution):

訓練分辨率是指輸入圖像在訓練過程中使用的大小。這里,訓練分辨率被設(shè)置為224x224像素,這是ImageNet數(shù)據(jù)集中常用的圖像尺寸。 ImageNet:

ImageNet是一個大型的圖像識別數(shù)據(jù)集,廣泛用于評估計算機視覺模型的性能。

總的來說,這段文字強調(diào)了在訓練ViT模型時,適當?shù)某瑓?shù)設(shè)置對于模型性能的重要性。這些超參數(shù)包括批量大小、學習率預熱、梯度裁剪和訓練分辨率,它們共同影響著模型的訓練效果和穩(wěn)定性。通過這些設(shè)置,研究者可以優(yōu)化模型的訓練過程,提高模型在圖像分類任務(wù)上的性能。

APPENDIX

?

柚子快報邀請碼778899分享:【論文閱讀】viT翻譯

http://yzkb.51969.com/

好文鏈接

評論可見,查看隱藏內(nèi)容
大家都在看:

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/19473609.html

發(fā)布評論

您暫未設(shè)置收款碼

請在主題配置——文章設(shè)置里上傳

掃描二維碼手機訪問

文章目錄