欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁(yè)綜合正文

評(píng)論

柚子快報(bào)激活碼778899分享：【大模型學(xué)習(xí)】BERT架構(gòu)

11Street購(gòu)物街綜合2025-05-05550

柚子快報(bào)激活碼778899分享：【大模型學(xué)習(xí)】BERT架構(gòu)

http://yzkb.51969.com/

BERT是一種基于Transformer架構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型，由Google的研究人員開(kāi)發(fā)。BERT模型在多項(xiàng)自然語(yǔ)言處理（NLP）任務(wù)中取得了顯著的性能提升，尤其是在問(wèn)答、文本分類、命名實(shí)體識(shí)別等方面。

架構(gòu)特點(diǎn)

BERT使用多層Transformer的編碼器部分作為其主要架構(gòu)。Transformer是一種基于自注意力機(jī)制的模型，能夠捕捉輸入序列中的長(zhǎng)期依賴關(guān)系。

與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）或卷積神經(jīng)網(wǎng)絡(luò)（CNN）不同，Transformer不依賴于序列中單詞的順序位置，而是通過(guò)自注意力機(jī)制來(lái)理解單詞之間的依賴關(guān)系。

BERT的雙向性意味著它在預(yù)測(cè)某個(gè)單詞時(shí)，能夠同時(shí)考慮該單詞的上下文信息（即左側(cè)和右側(cè)的單詞）

預(yù)訓(xùn)練任務(wù)

遮蔽語(yǔ)言模型（Masked Language Model, MLM）：在訓(xùn)練過(guò)程中，隨機(jī)遮蔽輸入序列中的一部分單詞，然后要求模型預(yù)測(cè)這些被遮蔽的單詞。這有助于模型學(xué)習(xí)語(yǔ)言中的詞匯和語(yǔ)法結(jié)構(gòu)。

下一句預(yù)測(cè)（Next Sentence Prediction, NSP）：模型接收成對(duì)的句子作為輸入，并預(yù)測(cè)第二個(gè)句子是否是第一個(gè)句子的后續(xù)句子。這有助于模型學(xué)習(xí)句子之間的關(guān)系和語(yǔ)言的連貫性。

輸入表示

BERT的輸入表示由三部分組成：?jiǎn)卧~嵌入、段嵌入和位置嵌入。單詞嵌入表示輸入序列中每個(gè)單詞的詞匯信息。段嵌入用于區(qū)分輸入序列中的不同句子（在NSP任務(wù)中）。位置嵌入用于表示單詞在序列中的位置信息，因?yàn)門ransformer模型本身并不包含順序信息。

微調(diào)

一旦BERT模型在預(yù)訓(xùn)練任務(wù)上進(jìn)行了訓(xùn)練，就可以將其應(yīng)用于各種下游NLP任務(wù)。這通常涉及將BERT模型的輸出連接到特定于任務(wù)的層（如分類層或序列標(biāo)注層），并使用目標(biāo)任務(wù)的標(biāo)記數(shù)據(jù)進(jìn)行微調(diào)。

模型大小

BERT有多種不同的模型大小，如BERT-Base和BERT-Large。BERT-Base包含12個(gè)Transformer層，每層有768個(gè)隱藏單元和12個(gè)自注意力頭；而B(niǎo)ERT-Large則包含24個(gè)Transformer層，每層有1024個(gè)隱藏單元和16個(gè)自注意力頭。

BERT《BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding》

摘要

我們引入了一種新的語(yǔ)言表示模型，名為 BERT，它是Bidirectional Encoder Representations from Transformers的縮寫。與最近的語(yǔ)言表示模型不同，BERT旨在通過(guò)在所有層中聯(lián)合條件化左右文本來(lái)預(yù)訓(xùn)練深度雙向表示。因此，預(yù)訓(xùn)練的BERT模型可以使用一個(gè)附加輸出層進(jìn)行微調(diào)，從而為各種任務(wù)創(chuàng)建最先進(jìn)的模型，例如問(wèn)答和語(yǔ)言推理，而無(wú)需顯著修改針對(duì)特定任務(wù)的架構(gòu)。BERT的概念非常簡(jiǎn)單且經(jīng)驗(yàn)上功能強(qiáng)大。它在11項(xiàng)自然語(yǔ)言處理任務(wù)上實(shí)現(xiàn)了新的最佳結(jié)果。

介紹

預(yù)訓(xùn)練語(yǔ)言模型已被證明對(duì)于提高許多自然語(yǔ)言處理任務(wù)的性能有效。這些包括句法級(jí)任務(wù)，如自然語(yǔ)言推理和語(yǔ)義相似度，旨在通過(guò)整體分析句子之間的關(guān)系來(lái)預(yù)測(cè)它們，以及標(biāo)記級(jí)別任務(wù)，例如命名實(shí)體識(shí)別和問(wèn)答，其中模型需要在標(biāo)記級(jí)別產(chǎn)生精細(xì)輸出。

有兩種現(xiàn)有的策略可以將預(yù)訓(xùn)練語(yǔ)言表示應(yīng)用于下游任務(wù)：基于特征的方法和微調(diào)?；谔卣鞯姆椒?，如ELMo，使用包括預(yù)訓(xùn)練表示作為附加特征的任務(wù)特定架構(gòu)。微調(diào)方法，例如生成式預(yù)訓(xùn)練，引入了最小的針對(duì)特定任務(wù)的參數(shù)，并通過(guò)簡(jiǎn)單地對(duì)所有預(yù)訓(xùn)練參數(shù)進(jìn)行微調(diào)來(lái)在下游任務(wù)上進(jìn)行訓(xùn)練。這兩種方法在預(yù)訓(xùn)練期間共享相同的目標(biāo)函數(shù)，在此期間它們使用單向語(yǔ)言模型學(xué)習(xí)一般語(yǔ)言表示。

我們論證了當(dāng)前的技術(shù)限制了預(yù)訓(xùn)練表示的能力，特別是針對(duì)微調(diào)方法。主要的局限性在于標(biāo)準(zhǔn)語(yǔ)言模型是單向的，這限制了在預(yù)訓(xùn)練期間可以使用的架構(gòu)選擇。例如，在OpenAI GPT中，作者使用從左到右的架構(gòu)，其中每個(gè)標(biāo)記只能關(guān)注變換器自注意層中的前一個(gè)標(biāo)記。這種限制對(duì)于句子級(jí)別的任務(wù)來(lái)說(shuō)是次優(yōu)的，并且當(dāng)應(yīng)用基于微調(diào)的方法來(lái)處理標(biāo)記級(jí)別任務(wù)（如問(wèn)答），它可能非常有害，因?yàn)樵谶@種情況下，至關(guān)重要的是要同時(shí)考慮來(lái)自兩個(gè)方向的上下文。

我們展示了雙向預(yù)訓(xùn)練語(yǔ)言表示的重要性。與Radford等人使用單向語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練不同，BERT 使用遮蔽語(yǔ)言模型來(lái)實(shí)現(xiàn)預(yù)先訓(xùn)練的深度雙向表征。這與Peters等人使用的左右獨(dú)立訓(xùn)練的語(yǔ)言模型的淺層串聯(lián)也形成了對(duì)比。

我們證明了預(yù)訓(xùn)練表示減少了對(duì)許多精心設(shè)計(jì)的任務(wù)特定架構(gòu)的需求。BERT 是第一個(gè)在大量句子級(jí)別和標(biāo)記級(jí)別的任務(wù)上實(shí)現(xiàn)最先進(jìn)的性能的基于微調(diào)的表示模型，優(yōu)于許多任務(wù)特定架構(gòu)。

相關(guān)工作（無(wú)監(jiān)督特征方法）

預(yù)訓(xùn)練的詞嵌入是現(xiàn)代NLP系統(tǒng)的重要組成部分，提供了從頭開(kāi)始學(xué)習(xí)嵌入的顯著改進(jìn)。為了預(yù)先訓(xùn)練詞嵌入向量，使用了自左至右的語(yǔ)言建模目標(biāo)，以及區(qū)分左右上下文正確與錯(cuò)誤單詞的目標(biāo)。

這些方法已經(jīng)被推廣到更粗粒度的表示，如句子嵌入或段落嵌入。為了訓(xùn)練句子表示，先前的工作使用了目標(biāo)來(lái)對(duì)候選下一個(gè)句子進(jìn)行排名，給定前一個(gè)句子的表示從左到右生成下一個(gè)句子的單詞，或者來(lái)自去噪自動(dòng)編碼器的目標(biāo)。

ELMo 和其前身沿著不同的維度對(duì)傳統(tǒng)的詞嵌入研究進(jìn)行了推廣。它們從一個(gè)自左至右的模型和一個(gè)自右至左的語(yǔ)言模型中提取了語(yǔ)境感知的功能。每個(gè)標(biāo)記的上下文表示是左右兩個(gè)方向上的表示的串聯(lián)。當(dāng)與現(xiàn)有的針對(duì)特定任務(wù)的架構(gòu)相結(jié)合時(shí)，ELMo 在幾個(gè)主要的 NLP 測(cè)試基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能，包括問(wèn)答、情感分析和命名實(shí)體識(shí)別。Melamud 等人提出通過(guò)使用 LSTM 預(yù)測(cè)來(lái)自左、右兩側(cè)上下文的單個(gè)單詞來(lái)學(xué)習(xí)語(yǔ)境感知的表示。與 ELMo 類似，他們的模型也是基于特征的，而不是深度雙向的。Fedus 等人表明，可以使用遮蔽語(yǔ)言建模任務(wù)來(lái)提高文本生成模型的魯棒性。

相關(guān)工作（非監(jiān)督微調(diào)）

最近，基于無(wú)標(biāo)簽文本的預(yù)訓(xùn)練句法或文檔編碼器已經(jīng)過(guò)微調(diào)，用于監(jiān)督下游任務(wù)。這些方法的優(yōu)點(diǎn)是不需要從頭開(kāi)始學(xué)習(xí)許多參數(shù)。至少部分由于這個(gè)優(yōu)點(diǎn)，OpenAI GPT在GLUE基準(zhǔn)測(cè)試集上的多個(gè)句子級(jí)任務(wù)中取得了先前的最佳結(jié)果。

相關(guān)工作（從監(jiān)督數(shù)據(jù)中遷移學(xué)習(xí)）

也有工作表明，從大型數(shù)據(jù)集的監(jiān)督任務(wù)中有效遷移，例如自然語(yǔ)言推理和機(jī)器翻譯。計(jì)算機(jī)視覺(jué)研究也證明了從大型預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí)的重要性，在這種情況下，對(duì) ImageNet 進(jìn)行預(yù)訓(xùn)練的模型的有效方法是對(duì)模型進(jìn)行微調(diào)。

BERT

本節(jié)介紹BERT及其詳細(xì)的實(shí)現(xiàn)。我們的框架包括兩個(gè)步驟：預(yù)訓(xùn)練和微調(diào)。在預(yù)訓(xùn)練階段，模型是在未標(biāo)記的數(shù)據(jù)上通過(guò)不同的預(yù)訓(xùn)練任務(wù)進(jìn)行訓(xùn)練的。對(duì)于微調(diào)，BERT模型首先使用預(yù)訓(xùn)練參數(shù)進(jìn)行初始化，然后所有參數(shù)都使用下游任務(wù)的標(biāo)記數(shù)據(jù)進(jìn)行微調(diào)。每個(gè)下游任務(wù)都有單獨(dú)的微調(diào)模型，盡管它們都是使用相同的預(yù)訓(xùn)練參數(shù)進(jìn)行初始化的。下圖中的問(wèn)答示例將作為本節(jié)的運(yùn)行示例。

模型架構(gòu) BERT 模型的架構(gòu)是一種多層雙向 Transformer 編碼器，基于 Vaswani 等人描述的原始實(shí)現(xiàn)，并在 tensor2tensor 庫(kù)中發(fā)布。由于 Transformer 的使用已經(jīng)很普遍了，而且我們的實(shí)現(xiàn)幾乎與原始實(shí)現(xiàn)相同，因此我們將省略對(duì)模型架構(gòu)的詳盡背景描述。

在本工作中，我們將層數(shù)（即Transformer塊數(shù)）表示為L(zhǎng)，隱藏大小表示為H，自注意力頭的數(shù)量表示為A。我們主要報(bào)告兩種模型大小的結(jié)果：BERT BASE（L = 12, H = 768, A = 12, 總參數(shù)數(shù)量= 110M）和BERT LARGE（L = 24, H = 1024, A = 16, 總參數(shù)數(shù)量= 340M）。

為了進(jìn)行比較，選擇BERT基礎(chǔ)模型具有與OpenAI GPT相同的模型大小。然而，至關(guān)重要的是，BERT轉(zhuǎn)換器使用雙向自注意，而GPT轉(zhuǎn)換器使用受約束的自注意，其中每個(gè)標(biāo)記只能關(guān)注其左側(cè)的上下文。

為了使 BERT 能夠處理各種下游任務(wù)，我們的輸入表示可以明確地表示單個(gè)句子或一對(duì)句子（例如，(問(wèn)題，答案)），它們?cè)谝粋€(gè)標(biāo)記序列中。在本文中，“句子”可以是任意連續(xù)文本的片段，而不僅僅是實(shí)際的語(yǔ)言句子。“序列”指的是輸入到 BERT 的標(biāo)記序列，它可以是一句話，也可以是兩句話連在一起。

每個(gè)序列的第一個(gè)標(biāo)記始終是特殊分類標(biāo)記（[CLS]）。與該標(biāo)記對(duì)應(yīng)的最終隱藏狀態(tài)用于對(duì)序列進(jìn)行分類任務(wù)的聚合表示。句子對(duì)被壓縮成一個(gè)單獨(dú)的序列。我們以兩種方式區(qū)分句子。首先，我們用特殊的分隔符（[SEP]）來(lái)分離它們。其次，我們?cè)诿總€(gè)標(biāo)記上添加了一個(gè)學(xué)習(xí)的嵌入，指示它屬于句子A還是句子B。如下圖所示，我們將輸入嵌入表示為E，特殊標(biāo)記[CLS]的最終隱藏向量表示為C∈RH，第i個(gè)輸入標(biāo)記的最終隱藏向量表示為Ti∈RH。

BERT（預(yù)訓(xùn)練）

遮蔽語(yǔ)言模型直觀地認(rèn)為，深度雙向模型一定比單向模型或淺層的左右雙向模型更強(qiáng)大。遺憾的是，標(biāo)準(zhǔn)條件語(yǔ)言模型只能從左到右或從右到左進(jìn)行訓(xùn)練，因?yàn)殡p向條件會(huì)允許每個(gè)詞間接“看到自己”，因此模型可以輕松預(yù)測(cè)在多層語(yǔ)境中的目標(biāo)詞。

為了訓(xùn)練一個(gè)深度雙向表示，我們簡(jiǎn)單地隨機(jī)屏蔽輸入標(biāo)記的某些百分比，然后預(yù)測(cè)這些被屏蔽的標(biāo)記。我們將此過(guò)程稱為“遮蔽語(yǔ)言模型”（MLM），盡管它在文獻(xiàn)中通常被稱為Cloze任務(wù)。在這種情況下，與標(biāo)準(zhǔn)語(yǔ)言模型一樣，對(duì)遮罩標(biāo)記的最終隱藏向量饋入詞匯表上的輸出softmax。在所有我們的實(shí)驗(yàn)中，我們?cè)诿總€(gè)序列中隨機(jī)屏蔽所有WordPiece標(biāo)記的15％。與去噪自編碼器不同，我們只預(yù)測(cè)被屏蔽的詞，而不是重建整個(gè)輸入。

盡管這使我們能夠獲得雙向預(yù)訓(xùn)練模型，但其缺點(diǎn)是，在微調(diào)期間，[MASK] 令牌不會(huì)出現(xiàn)，從而導(dǎo)致預(yù)訓(xùn)練和微調(diào)之間存在不匹配。為了緩解這個(gè)問(wèn)題，我們并不總是用實(shí)際的 [MASK] 令牌來(lái)替換“掩碼”的詞。數(shù)據(jù)生成器隨機(jī)選擇 15% 的標(biāo)記位置進(jìn)行預(yù)測(cè)。如果選擇了第 i 個(gè)標(biāo)記，則有（1）80% 的概率用 [MASK] 令牌替換第 i 個(gè)標(biāo)記，（2）10% 的概率用任意標(biāo)記替換，（3）10% 的概率保持不變。然后，Ti 將用于通過(guò)交叉熵?fù)p失預(yù)測(cè)原始標(biāo)記。

下一句預(yù)測(cè)（NSP）許多下游重要任務(wù)，如問(wèn)答（QA）和自然語(yǔ)言推理（NLI），都是基于理解兩個(gè)句子之間的關(guān)系，而這種關(guān)系無(wú)法直接通過(guò)語(yǔ)言建模捕獲。為了訓(xùn)練一個(gè)能夠理解句子之間關(guān)系的模型，我們預(yù)先訓(xùn)練了一個(gè)二元的下一句預(yù)測(cè)任務(wù)，它可以簡(jiǎn)單地從任何單語(yǔ)種語(yǔ)料庫(kù)中生成。具體來(lái)說(shuō)，在為每個(gè)預(yù)訓(xùn)練示例選擇句子 A 和 B 時(shí)，50% 的時(shí)間B 是緊隨 A 后面的實(shí)際下一個(gè)句子（標(biāo)記為 IsNext），50% 的時(shí)間它來(lái)自語(yǔ)料庫(kù)中的任意句子（標(biāo)記為 NotNext）。

預(yù)訓(xùn)練數(shù)據(jù)預(yù)訓(xùn)練過(guò)程大體上遵循了語(yǔ)言模型預(yù)訓(xùn)練的現(xiàn)有文獻(xiàn)。對(duì)于預(yù)訓(xùn)練語(yǔ)料庫(kù)，我們使用了 BookCorpus (800M words) 和英語(yǔ)維基百科 (2500M words)。在維基百科中，我們只提取文本段落并忽略列表、表格和標(biāo)題。為了提取長(zhǎng)連續(xù)序列，必須使用文檔級(jí)別的語(yǔ)料庫(kù)，而不是像 Billion Word Benchmark 這樣的隨機(jī)句子級(jí)別語(yǔ)料庫(kù)。

BERT（微調(diào)）

微調(diào)很簡(jiǎn)單，因?yàn)門ransformer中的自注意機(jī)制允許BERT通過(guò)交換適當(dāng)?shù)妮斎牒洼敵鰜?lái)建模許多下游任務(wù)——無(wú)論它們涉及單個(gè)文本還是文本對(duì)。對(duì)于涉及文本對(duì)的應(yīng)用程序，常見(jiàn)的做法是在應(yīng)用雙向交叉注意力之前獨(dú)立編碼文本對(duì)。相反，BERT使用自注意機(jī)制將這兩個(gè)階段統(tǒng)一起來(lái)，因?yàn)橛米宰⒁饩幋a連接的文本對(duì)在本質(zhì)上包括兩個(gè)句子之間的雙向交叉注意。

對(duì)于每個(gè)任務(wù)，我們只需將特定于任務(wù)的輸入和輸出直接應(yīng)用于BERT，并端到端地微調(diào)所有參數(shù)。在輸入方面，預(yù)訓(xùn)練中的句子A和句子B類似于（1）改寫中的句子對(duì)、（2）蘊(yùn)含中的假設(shè)前提對(duì)、（3）問(wèn)答中的問(wèn)題段落對(duì)。（4）文本分類或序列標(biāo)記中的退化文本-?對(duì)。在輸出中，將標(biāo)記表示饋送給令牌級(jí)任務(wù)的輸出層，例如序列標(biāo)記或問(wèn)答，而 [CLS] 表示饋送給分類任務(wù)的輸出層，例如蘊(yùn)含或情感分析。

實(shí)驗(yàn)（GLUE）

通用語(yǔ)言理解評(píng)估基準(zhǔn) (GLUE) 是一系列不同的自然語(yǔ)言理解任務(wù)的集合。結(jié)果如下表所示。在所有任務(wù)中，BERTBASE 和 BERTLARGE 都大幅超過(guò)了所有系統(tǒng)，相較于最先進(jìn)的技術(shù)分別實(shí)現(xiàn)了4.5%和7.0%的平均準(zhǔn)確率提升。請(qǐng)注意，除了注意力遮擋之外，BERTBASE 和 OpenAI GPT 在模型架構(gòu)方面幾乎完全相同。對(duì)于最大且最廣泛報(bào)道的GLUE任務(wù)MNLI，BERT 實(shí)現(xiàn)了4.6%的絕對(duì)準(zhǔn)確率提升。在官方GLUE排行榜上，截至撰寫本文時(shí)，BERTLARGE 的得分為80.5，而OpenAI GPT 的得分為72.8。

實(shí)驗(yàn)（SQuAD v1.1）

Stanford 問(wèn)答數(shù)據(jù)集（SQuAD v1.1）是由 Rajpurkar等人于2016年發(fā)布的，由10萬(wàn)個(gè)眾包問(wèn)題/答案對(duì)組成的集合。給定一個(gè)問(wèn)題和來(lái)自斯坦福大學(xué)的一段文字，模型的輸出應(yīng)該是正確答案所在段落中一個(gè)子串的起始索引和結(jié)束索引。

實(shí)驗(yàn)（SQuAD v2.0）

SQuAD 2.0任務(wù)擴(kuò)展了SQuAD 1.1問(wèn)題定義，允許可能在提供的段落中不存在短答案，使問(wèn)題更加現(xiàn)實(shí)。

實(shí)驗(yàn)（SWAG）

對(duì)抗生成式 (SWAG) 數(shù)據(jù)集包含 113k 句對(duì)補(bǔ)全示例，用于評(píng)估基于常識(shí)的推理。給定一個(gè)句子，任務(wù)是從四個(gè)選項(xiàng)中選擇最有可能的延續(xù)。我們使用學(xué)習(xí)率為 2e-5 和批量大小為 16 的模型微調(diào)了 3 個(gè)時(shí)期。結(jié)果如下表所示。BERTLARGE 比作者的基線 ESIM+ELMo 系統(tǒng)表現(xiàn)更好，提高了 +27.1%，比 OpenAI GPT 提高了 8.3%。

消融研究（預(yù)訓(xùn)練任務(wù)的影響）

沒(méi)有NSP：使用掩碼語(yǔ)言建模（MLM）訓(xùn)練的雙向模型，但不包括下一個(gè)句子預(yù)測(cè)（NSP）任務(wù)。

僅左上下文模型：使用標(biāo)準(zhǔn)的從左到右（ LTR ）語(yǔ)言模型進(jìn)行訓(xùn)練，而不是多任務(wù)學(xué)習(xí)。在微調(diào)過(guò)程中也應(yīng)用了只包含左側(cè)約束，因?yàn)槿绻贿@樣做，就會(huì)出現(xiàn)預(yù)訓(xùn)練 / 微調(diào)不匹配的問(wèn)題，從而降低下游性能。此外，該模型是在沒(méi)有 NSP 任務(wù)的情況下預(yù)先訓(xùn)練的。這與 OpenAI GPT 直接可比，但使用的是我們的更大規(guī)模的數(shù)據(jù)集、輸入表示法和微調(diào)方案。

我們首先研究 NSP 任務(wù)帶來(lái)的影響。如下表所示，移除 NSP 對(duì)于 QNLI、MNLI 和 SQuAD 1.1 的表現(xiàn)有顯著的負(fù)面影響。接下來(lái)，我們將“無(wú) NSP”與“MLM & LTR”進(jìn)行比較以評(píng)估訓(xùn)練雙向表示的影響。在所有任務(wù)中，LSTM 模型的表現(xiàn)都比 BERT 均要差，MRPC 和 SQuAD 的下降幅度更大。

消融研究（模型大小的影響）

下表展示了在選定的 GLUE 任務(wù)上的結(jié)果。在這個(gè)表格中，我們報(bào)告了來(lái)自五個(gè)隨機(jī)重啟微調(diào)中的開(kāi)發(fā)集準(zhǔn)確率平均值。我們可以看到，在所有四個(gè)數(shù)據(jù)集上，較大的模型都會(huì)導(dǎo)致更嚴(yán)格的精度提升，即使是在 MRPC 數(shù)據(jù)集上也是如此——該數(shù)據(jù)集僅有 3,600 個(gè)標(biāo)記過(guò)的訓(xùn)練樣本，并且與預(yù)訓(xùn)練任務(wù)大不相同。也許令人驚訝的是，我們?cè)谙鄬?duì)于現(xiàn)有文獻(xiàn)已經(jīng)很大的模型上實(shí)現(xiàn)了如此顯著的改進(jìn)。

消融研究（基于特征方法的BERT）

到目前為止，所有基于BERT的結(jié)果都使用了微調(diào)方法，在預(yù)訓(xùn)練模型中添加了一個(gè)簡(jiǎn)單的分類層，并對(duì)下游任務(wù)的所有參數(shù)進(jìn)行聯(lián)合微調(diào)。然而，基于特征的方法也有優(yōu)勢(shì)，即從預(yù)訓(xùn)練模型中提取固定特征。首先，并不是所有的任務(wù)都可以通過(guò)轉(zhuǎn)換器編碼器架構(gòu)輕松表示，因此需要為每個(gè)任務(wù)添加特定的模型架構(gòu)。其次，提前計(jì)算出昂貴的訓(xùn)練數(shù)據(jù)表示具有重大計(jì)算好處，然后可以在該表示上運(yùn)行許多實(shí)驗(yàn)，而這些實(shí)驗(yàn)可以使用更便宜的模型完成。

為了消除微調(diào)方法，我們應(yīng)用基于特征的方法，從一個(gè)或多個(gè)層中提取激活值，而不調(diào)整BERT的任何參數(shù)。這些上下文嵌入作為輸入到分類層之前的隨機(jī)初始化雙層768維雙向 LSTM。結(jié)果如下表所示。 BERTLARGE與最先進(jìn)的方法競(jìng)爭(zhēng)。表現(xiàn)最好的方法是將預(yù)訓(xùn)練Transformer的前四層隱藏狀態(tài)中的標(biāo)記表示連接起來(lái)，僅比對(duì)整個(gè)模型進(jìn)行微調(diào)低了0.3F1。這證明了BERT對(duì)于微調(diào)和基于特征的方法都是有效的。

最近，由于語(yǔ)言模型的遷移學(xué)習(xí)所帶來(lái)的經(jīng)驗(yàn)改進(jìn)表明了豐富的無(wú)監(jiān)督預(yù)訓(xùn)練是許多語(yǔ)言理解系統(tǒng)的重要組成部分。特別是，這些結(jié)果使得即使是低資源任務(wù)也能從深度單向架構(gòu)中受益。我們的主要貢獻(xiàn)是進(jìn)一步推廣這些發(fā)現(xiàn)到深度雙向架構(gòu)，使同一個(gè)預(yù)訓(xùn)練模型能夠成功地處理一系列廣泛的NLP任務(wù)。

讀者福利：如果大家對(duì)大模型感興趣，這套大模型學(xué)習(xí)資料一定對(duì)你有用

對(duì)于0基礎(chǔ)小白入門：

如果你是零基礎(chǔ)小白，想快速入門大模型是可以考慮的。

一方面是學(xué)習(xí)時(shí)間相對(duì)較短，學(xué)習(xí)內(nèi)容更全面更集中。二方面是可以根據(jù)這些資料規(guī)劃好學(xué)習(xí)計(jì)劃和方向。

包括：大模型學(xué)習(xí)線路匯總、學(xué)習(xí)階段，大模型實(shí)戰(zhàn)案例，大模型學(xué)習(xí)視頻，人工智能、機(jī)器學(xué)習(xí)、大模型書籍PDF。帶你從零基礎(chǔ)系統(tǒng)性的學(xué)好大模型！

?有需要的小伙伴，可以保存圖片到wx掃描二v碼免費(fèi)領(lǐng)取【保證100%免費(fèi)】?

?AI大模型學(xué)習(xí)路線匯總?

大模型學(xué)習(xí)路線圖，整體分為7個(gè)大的階段：（全套教程文末領(lǐng)取哈）第一階段：從大模型系統(tǒng)設(shè)計(jì)入手，講解大模型的主要方法；

第二階段：在通過(guò)大模型提示詞工程從Prompts角度入手更好發(fā)揮模型的作用；

第三階段：大模型平臺(tái)應(yīng)用開(kāi)發(fā)借助阿里云PAI平臺(tái)構(gòu)建電商領(lǐng)域虛擬試衣系統(tǒng)；

第四階段：大模型知識(shí)庫(kù)應(yīng)用開(kāi)發(fā)以LangChain框架為例，構(gòu)建物流行業(yè)咨詢智能問(wèn)答系統(tǒng)；

第五階段：大模型微調(diào)開(kāi)發(fā)借助以大健康、新零售、新媒體領(lǐng)域構(gòu)建適合當(dāng)前領(lǐng)域大模型；

第六階段：以SD多模態(tài)大模型為主，搭建了文生圖小程序案例；

第七階段：以大模型平臺(tái)應(yīng)用與開(kāi)發(fā)為主，通過(guò)星火大模型，文心大模型等成熟大模型構(gòu)建大模型行業(yè)應(yīng)用。

?大模型實(shí)戰(zhàn)案例?

光學(xué)理論是沒(méi)用的，要學(xué)會(huì)跟著一起做，要?jiǎng)邮謱?shí)操，才能將自己的所學(xué)運(yùn)用到實(shí)際當(dāng)中去，這時(shí)候可以搞點(diǎn)實(shí)戰(zhàn)案例來(lái)學(xué)習(xí)。

?大模型視頻和PDF合集?

觀看零基礎(chǔ)學(xué)習(xí)書籍和視頻，看書籍和視頻學(xué)習(xí)是最快捷也是最有效果的方式，跟著視頻中老師的思路，從基礎(chǔ)到深入，還是很容易入門的。

?學(xué)會(huì)后的收獲：?

? 基于大模型全棧工程實(shí)現(xiàn)（前端、后端、產(chǎn)品經(jīng)理、設(shè)計(jì)、數(shù)據(jù)分析等），通過(guò)這門課可獲得不同能力；

? 能夠利用大模型解決相關(guān)實(shí)際項(xiàng)目需求：大數(shù)據(jù)時(shí)代，越來(lái)越多的企業(yè)和機(jī)構(gòu)需要處理海量數(shù)據(jù)，利用大模型技術(shù)可以更好地處理這些數(shù)據(jù)，提高數(shù)據(jù)分析和決策的準(zhǔn)確性。因此，掌握大模型應(yīng)用開(kāi)發(fā)技能，可以讓程序員更好地應(yīng)對(duì)實(shí)際項(xiàng)目需求；

? 基于大模型和企業(yè)數(shù)據(jù)AI應(yīng)用開(kāi)發(fā)，實(shí)現(xiàn)大模型理論、掌握GPU算力、硬件、LangChain開(kāi)發(fā)框架和項(xiàng)目實(shí)戰(zhàn)技能，學(xué)會(huì)Fine-tuning垂直訓(xùn)練大模型（數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)蒸餾、大模型部署）一站式掌握；

? 能夠完成時(shí)下熱門大模型垂直領(lǐng)域模型訓(xùn)練能力，提高程序員的編碼能力：大模型應(yīng)用開(kāi)發(fā)需要掌握機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)框架等技術(shù)，這些技術(shù)的掌握可以提高程序員的編碼能力和分析能力，讓程序員更加熟練地編寫高質(zhì)量的代碼。

?獲取方式：

?有需要的小伙伴，可以保存圖片到wx掃描二v碼免費(fèi)領(lǐng)取【保證100%免費(fèi)】?

柚子快報(bào)激活碼778899分享：【大模型學(xué)習(xí)】BERT架構(gòu)

http://yzkb.51969.com/

好文鏈接

評(píng)論可見(jiàn)，查看隱藏內(nèi)容