柚子快報(bào)激活碼778899分享:【大模型學(xué)習(xí)】BERT架構(gòu)
柚子快報(bào)激活碼778899分享:【大模型學(xué)習(xí)】BERT架構(gòu)
BERT是一種基于Transformer架構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型,由Google的研究人員開(kāi)發(fā)。BERT模型在多項(xiàng)自然語(yǔ)言處理(NLP)任務(wù)中取得了顯著的性能提升,尤其是在問(wèn)答、文本分類、命名實(shí)體識(shí)別等方面。
架構(gòu)特點(diǎn)
BERT使用多層Transformer的編碼器部分作為其主要架構(gòu)。Transformer是一種基于自注意力機(jī)制的模型,能夠捕捉輸入序列中的長(zhǎng)期依賴關(guān)系。
與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)或卷積神經(jīng)網(wǎng)絡(luò)(CNN)不同,Transformer不依賴于序列中單詞的順序位置,而是通過(guò)自注意力機(jī)制來(lái)理解單詞之間的依賴關(guān)系。
BERT的雙向性意味著它在預(yù)測(cè)某個(gè)單詞時(shí),能夠同時(shí)考慮該單詞的上下文信息(即左側(cè)和右側(cè)的單詞)
預(yù)訓(xùn)練任務(wù)
遮蔽語(yǔ)言模型(Masked Language Model, MLM):在訓(xùn)練過(guò)程中,隨機(jī)遮蔽輸入序列中的一部分單詞,然后要求模型預(yù)測(cè)這些被遮蔽的單詞。這有助于模型學(xué)習(xí)語(yǔ)言中的詞匯和語(yǔ)法結(jié)構(gòu)。
下一句預(yù)測(cè)(Next Sentence Prediction, NSP):模型接收成對(duì)的句子作為輸入,并預(yù)測(cè)第二個(gè)句子是否是第一個(gè)句子的后續(xù)句子。這有助于模型學(xué)習(xí)句子之間的關(guān)系和語(yǔ)言的連貫性。
輸入表示
BERT的輸入表示由三部分組成:?jiǎn)卧~嵌入、段嵌入和位置嵌入。單詞嵌入表示輸入序列中每個(gè)單詞的詞匯信息。段嵌入用于區(qū)分輸入序列中的不同句子(在NSP任務(wù)中)。位置嵌入用于表示單詞在序列中的位置信息,因?yàn)門ransformer模型本身并不包含順序信息。
微調(diào)
一旦BERT模型在預(yù)訓(xùn)練任務(wù)上進(jìn)行了訓(xùn)練,就可以將其應(yīng)用于各種下游NLP任務(wù)。這通常涉及將BERT模型的輸出連接到特定于任務(wù)的層(如分類層或序列標(biāo)注層),并使用目標(biāo)任務(wù)的標(biāo)記數(shù)據(jù)進(jìn)行微調(diào)。
模型大小
BERT有多種不同的模型大小,如BERT-Base和BERT-Large。BERT-Base包含12個(gè)Transformer層,每層有768個(gè)隱藏單元和12個(gè)自注意力頭;而B(niǎo)ERT-Large則包含24個(gè)Transformer層,每層有1024個(gè)隱藏單元和16個(gè)自注意力頭。
BERT《BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding》
摘要
我們引入了一種新的語(yǔ)言表示模型,名為 BERT,它是Bidirectional Encoder Representations from Transformers的縮寫。與最近的語(yǔ)言表示模型不同,BERT旨在通過(guò)在所有層中聯(lián)合條件化左右文本來(lái)預(yù)訓(xùn)練深度雙向表示。因此,預(yù)訓(xùn)練的BERT模型可以使用一個(gè)附加輸出層進(jìn)行微調(diào),從而為各種任務(wù)創(chuàng)建最先進(jìn)的模型,例如問(wèn)答和語(yǔ)言推理,而無(wú)需顯著修改針對(duì)特定任務(wù)的架構(gòu)。BERT的概念非常簡(jiǎn)單且經(jīng)驗(yàn)上功能強(qiáng)大。它在11項(xiàng)自然語(yǔ)言處理任務(wù)上實(shí)現(xiàn)了新的最佳結(jié)果。
介紹
預(yù)訓(xùn)練語(yǔ)言模型已被證明對(duì)于提高許多自然語(yǔ)言處理任務(wù)的性能有效。這些包括句法級(jí)任務(wù),如自然語(yǔ)言推理和語(yǔ)義相似度,旨在通過(guò)整體分析句子之間的關(guān)系來(lái)預(yù)測(cè)它們,以及標(biāo)記級(jí)別任務(wù),例如命名實(shí)體識(shí)別和問(wèn)答,其中模型需要在標(biāo)記級(jí)別產(chǎn)生精細(xì)輸出。
有兩種現(xiàn)有的策略可以將預(yù)訓(xùn)練語(yǔ)言表示應(yīng)用于下游任務(wù):基于特征的方法和微調(diào)?;谔卣鞯姆椒?,如ELMo,使用包括預(yù)訓(xùn)練表示作為附加特征的任務(wù)特定架構(gòu)。微調(diào)方法,例如生成式預(yù)訓(xùn)練,引入了最小的針對(duì)特定任務(wù)的參數(shù),并通過(guò)簡(jiǎn)單地對(duì)所有預(yù)訓(xùn)練參數(shù)進(jìn)行微調(diào)來(lái)在下游任務(wù)上進(jìn)行訓(xùn)練。這兩種方法在預(yù)訓(xùn)練期間共享相同的目標(biāo)函數(shù),在此期間它們使用單向語(yǔ)言模型學(xué)習(xí)一般語(yǔ)言表示。
我們論證了當(dāng)前的技術(shù)限制了預(yù)訓(xùn)練表示的能力,特別是針對(duì)微調(diào)方法。主要的局限性在于標(biāo)準(zhǔn)語(yǔ)言模型是單向的,這限制了在預(yù)訓(xùn)練期間可以使用的架構(gòu)選擇。例如,在OpenAI GPT中,作者使用從左到右的架構(gòu),其中每個(gè)標(biāo)記只能關(guān)注變換器自注意層中的前一個(gè)標(biāo)記。這種限制對(duì)于句子級(jí)別的任務(wù)來(lái)說(shuō)是次優(yōu)的,并且當(dāng)應(yīng)用基于微調(diào)的方法來(lái)處理標(biāo)記級(jí)別任務(wù)(如問(wèn)答),它可能非常有害,因?yàn)樵谶@種情況下,至關(guān)重要的是要同時(shí)考慮來(lái)自兩個(gè)方向的上下文。
我們展示了雙向預(yù)訓(xùn)練語(yǔ)言表示的重要性。與Radford等人使用單向語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練不同,BERT 使用遮蔽語(yǔ)言模型來(lái)實(shí)現(xiàn)預(yù)先訓(xùn)練的深度雙向表征。這與Peters等人使用的左右獨(dú)立訓(xùn)練的語(yǔ)言模型的淺層串聯(lián)也形成了對(duì)比。
我們證明了預(yù)訓(xùn)練表示減少了對(duì)許多精心設(shè)計(jì)的任務(wù)特定架構(gòu)的需求。BERT 是第一個(gè)在大量句子級(jí)別和標(biāo)記級(jí)別的任務(wù)上實(shí)現(xiàn)最先進(jìn)的性能的基于微調(diào)的表示模型,優(yōu)于許多任務(wù)特定架構(gòu)。
相關(guān)工作(無(wú)監(jiān)督特征方法)
預(yù)訓(xùn)練的詞嵌入是現(xiàn)代NLP系統(tǒng)的重要組成部分,提供了從頭開(kāi)始學(xué)習(xí)嵌入的顯著改進(jìn)。為了預(yù)先訓(xùn)練詞嵌入向量,使用了自左至右的語(yǔ)言建模目標(biāo),以及區(qū)分左右上下文正確與錯(cuò)誤單詞的目標(biāo)。
這些方法已經(jīng)被推廣到更粗粒度的表示,如句子嵌入或段落嵌入。為了訓(xùn)練句子表示,先前的工作使用了目標(biāo)來(lái)對(duì)候選下一個(gè)句子進(jìn)行排名,給定前一個(gè)句子的表示從左到右生成下一個(gè)句子的單詞,或者來(lái)自去噪自動(dòng)編碼器的目標(biāo)。
ELMo 和其前身沿著不同的維度對(duì)傳統(tǒng)的詞嵌入研究進(jìn)行了推廣。它們從一個(gè)自左至右的模型和一個(gè)自右至左的語(yǔ)言模型中提取了語(yǔ)境感知的功能。每個(gè)標(biāo)記的上下文表示是左右兩個(gè)方向上的表示的串聯(lián)。當(dāng)與現(xiàn)有的針對(duì)特定任務(wù)的架構(gòu)相結(jié)合時(shí),ELMo 在幾個(gè)主要的 NLP 測(cè)試基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能,包括問(wèn)答、情感分析和命名實(shí)體識(shí)別。Melamud 等人提出通過(guò)使用 LSTM 預(yù)測(cè)來(lái)自左、右兩側(cè)上下文的單個(gè)單詞來(lái)學(xué)習(xí)語(yǔ)境感知的表示。與 ELMo 類似,他們的模型也是基于特征的,而不是深度雙向的。Fedus 等人表明,可以使用遮蔽語(yǔ)言建模任務(wù)來(lái)提高文本生成模型的魯棒性。
相關(guān)工作(非監(jiān)督微調(diào))
最近,基于無(wú)標(biāo)簽文本的預(yù)訓(xùn)練句法或文檔編碼器已經(jīng)過(guò)微調(diào),用于監(jiān)督下游任務(wù)。這些方法的優(yōu)點(diǎn)是不需要從頭開(kāi)始學(xué)習(xí)許多參數(shù)。至少部分由于這個(gè)優(yōu)點(diǎn),OpenAI GPT在GLUE基準(zhǔn)測(cè)試集上的多個(gè)句子級(jí)任務(wù)中取得了先前的最佳結(jié)果。
相關(guān)工作(從監(jiān)督數(shù)據(jù)中遷移學(xué)習(xí))
也有工作表明,從大型數(shù)據(jù)集的監(jiān)督任務(wù)中有效遷移,例如自然語(yǔ)言推理和機(jī)器翻譯。計(jì)算機(jī)視覺(jué)研究也證明了從大型預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí)的重要性,在這種情況下,對(duì) ImageNet 進(jìn)行預(yù)訓(xùn)練的模型的有效方法是對(duì)模型進(jìn)行微調(diào)。
BERT
本節(jié)介紹BERT及其詳細(xì)的實(shí)現(xiàn)。我們的框架包括兩個(gè)步驟:預(yù)訓(xùn)練和微調(diào)。在預(yù)訓(xùn)練階段,模型是在未標(biāo)記的數(shù)據(jù)上通過(guò)不同的預(yù)訓(xùn)練任務(wù)進(jìn)行訓(xùn)練的。對(duì)于微調(diào),BERT模型首先使用預(yù)訓(xùn)練參數(shù)進(jìn)行初始化,然后所有參數(shù)都使用下游任務(wù)的標(biāo)記數(shù)據(jù)進(jìn)行微調(diào)。每個(gè)下游任務(wù)都有單獨(dú)的微調(diào)模型,盡管它們都是使用相同的預(yù)訓(xùn)練參數(shù)進(jìn)行初始化的。下圖中的問(wèn)答示例將作為本節(jié)的運(yùn)行示例。
模型架構(gòu) BERT 模型的架構(gòu)是一種多層雙向 Transformer 編碼器,基于 Vaswani 等人描述的原始實(shí)現(xiàn),并在 tensor2tensor 庫(kù)中發(fā)布。 由于 Transformer 的使用已經(jīng)很普遍了,而且我們的實(shí)現(xiàn)幾乎與原始實(shí)現(xiàn)相同,因此我們將省略對(duì)模型架構(gòu)的詳盡背景描述。
在本工作中,我們將層數(shù)(即Transformer塊數(shù))表示為L(zhǎng),隱藏大小表示為H,自注意力頭的數(shù)量表示為A。我們主要報(bào)告兩種模型大小的結(jié)果:BERT BASE(L = 12, H = 768, A = 12, 總參數(shù)數(shù)量= 110M)和BERT LARGE(L = 24, H = 1024, A = 16, 總參數(shù)數(shù)量= 340M)。
為了進(jìn)行比較,選擇BERT基礎(chǔ)模型具有與OpenAI GPT相同的模型大小。然而,至關(guān)重要的是,BERT轉(zhuǎn)換器使用雙向自注意,而GPT轉(zhuǎn)換器使用受約束的自注意,其中每個(gè)標(biāo)記只能關(guān)注其左側(cè)的上下文。
為了使 BERT 能夠處理各種下游任務(wù),我們的輸入表示可以明確地表示單個(gè)句子或一對(duì)句子(例如,(問(wèn)題,答案)),它們?cè)谝粋€(gè)標(biāo)記序列中。在本文中,“句子”可以是任意連續(xù)文本的片段,而不僅僅是實(shí)際的語(yǔ)言句子。“序列”指的是輸入到 BERT 的標(biāo)記序列,它可以是一句話,也可以是兩句話連在一起。
每個(gè)序列的第一個(gè)標(biāo)記始終是特殊分類標(biāo)記([CLS])。 與該標(biāo)記對(duì)應(yīng)的最終隱藏狀態(tài)用于對(duì)序列進(jìn)行分類任務(wù)的聚合表示。 句子對(duì)被壓縮成一個(gè)單獨(dú)的序列。 我們以兩種方式區(qū)分句子。 首先,我們用特殊的分隔符([SEP])來(lái)分離它們。 其次,我們?cè)诿總€(gè)標(biāo)記上添加了一個(gè)學(xué)習(xí)的嵌入,指示它屬于句子A還是句子B。 如下圖所示,我們將輸入嵌入表示為E,特殊標(biāo)記[CLS]的最終隱藏向量表示為C∈RH,第i個(gè)輸入標(biāo)記的最終隱藏向量表示為Ti∈RH。
BERT(預(yù)訓(xùn)練)
遮蔽語(yǔ)言模型直觀地認(rèn)為,深度雙向模型一定比單向模型或淺層的左右雙向模型更強(qiáng)大。遺憾的是,標(biāo)準(zhǔn)條件語(yǔ)言模型只能從左到右或從右到左進(jìn)行訓(xùn)練,因?yàn)殡p向條件會(huì)允許每個(gè)詞間接“看到自己”,因此模型可以輕松預(yù)測(cè)在多層語(yǔ)境中的目標(biāo)詞。
為了訓(xùn)練一個(gè)深度雙向表示,我們簡(jiǎn)單地隨機(jī)屏蔽輸入標(biāo)記的某些百分比,然后預(yù)測(cè)這些被屏蔽的標(biāo)記。我們將此過(guò)程稱為“遮蔽語(yǔ)言模型”(MLM),盡管它在文獻(xiàn)中通常被稱為Cloze任務(wù)。在這種情況下,與標(biāo)準(zhǔn)語(yǔ)言模型一樣,對(duì)遮罩標(biāo)記的最終隱藏向量饋入詞匯表上的輸出softmax。在所有我們的實(shí)驗(yàn)中,我們?cè)诿總€(gè)序列中隨機(jī)屏蔽所有WordPiece標(biāo)記的15%。與去噪自編碼器不同,我們只預(yù)測(cè)被屏蔽的詞,而不是重建整個(gè)輸入。
盡管這使我們能夠獲得雙向預(yù)訓(xùn)練模型,但其缺點(diǎn)是,在微調(diào)期間,[MASK] 令牌不會(huì)出現(xiàn),從而導(dǎo)致預(yù)訓(xùn)練和微調(diào)之間存在不匹配。為了緩解這個(gè)問(wèn)題,我們并不總是用實(shí)際的 [MASK] 令牌來(lái)替換“掩碼”的詞。數(shù)據(jù)生成器隨機(jī)選擇 15% 的標(biāo)記位置進(jìn)行預(yù)測(cè)。如果選擇了第 i 個(gè)標(biāo)記,則有(1)80% 的概率用 [MASK] 令牌替換第 i 個(gè)標(biāo)記,(2)10% 的概率用任意標(biāo)記替換,(3)10% 的概率保持不變。然后,Ti 將用于通過(guò)交叉熵?fù)p失預(yù)測(cè)原始標(biāo)記。
下一句預(yù)測(cè)(NSP) 許多下游重要任務(wù),如問(wèn)答(QA)和自然語(yǔ)言推理(NLI),都是基于理解兩個(gè)句子之間的關(guān)系,而這種關(guān)系無(wú)法直接通過(guò)語(yǔ)言建模捕獲。為了訓(xùn)練一個(gè)能夠理解句子之間關(guān)系的模型,我們預(yù)先訓(xùn)練了一個(gè)二元的下一句預(yù)測(cè)任務(wù),它可以簡(jiǎn)單地從任何單語(yǔ)種語(yǔ)料庫(kù)中生成。具體來(lái)說(shuō),在為每個(gè)預(yù)訓(xùn)練示例選擇句子 A 和 B 時(shí),50% 的時(shí)間B 是緊隨 A 后面的實(shí)際下一個(gè)句子(標(biāo)記為 IsNext),50% 的時(shí)間它來(lái)自語(yǔ)料庫(kù)中的任意句子(標(biāo)記為 NotNext)。
預(yù)訓(xùn)練數(shù)據(jù)預(yù)訓(xùn)練過(guò)程大體上遵循了語(yǔ)言模型預(yù)訓(xùn)練的現(xiàn)有文獻(xiàn)。對(duì)于預(yù)訓(xùn)練語(yǔ)料庫(kù),我們使用了 BookCorpus (800M words) 和英語(yǔ)維基百科 (2500M words)。在維基百科中,我們只提取文本段落并忽略列表、表格和標(biāo)題。為了提取長(zhǎng)連續(xù)序列,必須使用文檔級(jí)別的語(yǔ)料庫(kù),而不是像 Billion Word Benchmark 這樣的隨機(jī)句子級(jí)別語(yǔ)料庫(kù)。
BERT(微調(diào))
微調(diào)很簡(jiǎn)單,因?yàn)門ransformer中的自注意機(jī)制允許BERT通過(guò)交換適當(dāng)?shù)妮斎牒洼敵鰜?lái)建模許多下游任務(wù)——無(wú)論它們涉及單個(gè)文本還是文本對(duì)。對(duì)于涉及文本對(duì)的應(yīng)用程序,常見(jiàn)的做法是在應(yīng)用雙向交叉注意力之前獨(dú)立編碼文本對(duì)。相反,BERT使用自注意機(jī)制將這兩個(gè)階段統(tǒng)一起來(lái),因?yàn)橛米宰⒁饩幋a連接的文本對(duì)在本質(zhì)上包括兩個(gè)句子之間的雙向交叉注意。
對(duì)于每個(gè)任務(wù),我們只需將特定于任務(wù)的輸入和輸出直接應(yīng)用于BERT,并端到端地微調(diào)所有參數(shù)。在輸入方面,預(yù)訓(xùn)練中的句子A和句子B類似于(1)改寫中的句子對(duì)、(2)蘊(yùn)含中的假設(shè)前提對(duì)、(3)問(wèn)答中的問(wèn)題段落對(duì)。(4)文本分類或序列標(biāo)記中的退化文本-?對(duì)。在輸出中,將標(biāo)記表示饋送給令牌級(jí)任務(wù)的輸出層,例如序列標(biāo)記或問(wèn)答,而 [CLS] 表示饋送給分類任務(wù)的輸出層,例如蘊(yùn)含或情感分析。
實(shí)驗(yàn)(GLUE)
通用語(yǔ)言理解評(píng)估基準(zhǔn) (GLUE) 是一系列不同的自然語(yǔ)言理解任務(wù)的集合。結(jié)果如下表所示。在所有任務(wù)中,BERTBASE 和 BERTLARGE 都大幅超過(guò)了所有系統(tǒng),相較于最先進(jìn)的技術(shù)分別實(shí)現(xiàn)了4.5%和7.0%的平均準(zhǔn)確率提升。請(qǐng)注意,除了注意力遮擋之外,BERTBASE 和 OpenAI GPT 在模型架構(gòu)方面幾乎完全相同。對(duì)于最大且最廣泛報(bào)道的GLUE任務(wù)MNLI,BERT 實(shí)現(xiàn)了4.6%的絕對(duì)準(zhǔn)確率提升。在官方GLUE排行榜上,截至撰寫本文時(shí),BERTLARGE 的得分為80.5,而OpenAI GPT 的得分為72.8。
實(shí)驗(yàn)(SQuAD v1.1)
Stanford 問(wèn)答數(shù)據(jù)集(SQuAD v1.1)是由 Rajpurkar等人于2016年發(fā)布的,由10萬(wàn)個(gè)眾包問(wèn)題/答案對(duì)組成的集合。給定一個(gè)問(wèn)題和來(lái)自斯坦福大學(xué)的一段文字,模型的輸出應(yīng)該是正確答案所在段落中一個(gè)子串的起始索引和結(jié)束索引。
實(shí)驗(yàn)(SQuAD v2.0)
SQuAD 2.0任務(wù)擴(kuò)展了SQuAD 1.1問(wèn)題定義,允許可能在提供的段落中不存在短答案,使問(wèn)題更加現(xiàn)實(shí)。
實(shí)驗(yàn)(SWAG)
對(duì)抗生成式 (SWAG) 數(shù)據(jù)集包含 113k 句對(duì)補(bǔ)全示例,用于評(píng)估基于常識(shí)的推理。給定一個(gè)句子,任務(wù)是從四個(gè)選項(xiàng)中選擇最有可能的延續(xù)。我們使用學(xué)習(xí)率為 2e-5 和批量大小為 16 的模型微調(diào)了 3 個(gè)時(shí)期。結(jié)果如下表所示。BERTLARGE 比作者的基線 ESIM+ELMo 系統(tǒng)表現(xiàn)更好,提高了 +27.1%,比 OpenAI GPT 提高了 8.3%。
消融研究(預(yù)訓(xùn)練任務(wù)的影響)
沒(méi)有NSP:使用掩碼語(yǔ)言建模(MLM)訓(xùn)練的雙向模型,但不包括下一個(gè)句子預(yù)測(cè)(NSP)任務(wù)。
僅左上下文模型:使用標(biāo)準(zhǔn)的從左到右( LTR )語(yǔ)言模型進(jìn)行訓(xùn)練,而不是多任務(wù)學(xué)習(xí)。在微調(diào)過(guò)程中也應(yīng)用了只包含左側(cè)約束,因?yàn)槿绻贿@樣做,就會(huì)出現(xiàn)預(yù)訓(xùn)練 / 微調(diào)不匹配的問(wèn)題,從而降低下游性能。此外,該模型是在沒(méi)有 NSP 任務(wù)的情況下預(yù)先訓(xùn)練的。這與 OpenAI GPT 直接可比,但使用的是我們的更大規(guī)模的數(shù)據(jù)集、輸入表示法和微調(diào)方案。
我們首先研究 NSP 任務(wù)帶來(lái)的影響。如下表所示,移除 NSP 對(duì)于 QNLI、MNLI 和 SQuAD 1.1 的表現(xiàn)有顯著的負(fù)面影響。接下來(lái),我們將“無(wú) NSP”與“MLM & LTR”進(jìn)行比較以評(píng)估訓(xùn)練雙向表示的影響。在所有任務(wù)中,LSTM 模型的表現(xiàn)都比 BERT 均要差,MRPC 和 SQuAD 的下降幅度更大。
消融研究(模型大小的影響)
下表展示了在選定的 GLUE 任務(wù)上的結(jié)果。在這個(gè)表格中,我們報(bào)告了來(lái)自五個(gè)隨機(jī)重啟微調(diào)中的開(kāi)發(fā)集準(zhǔn)確率平均值。我們可以看到,在所有四個(gè)數(shù)據(jù)集上,較大的模型都會(huì)導(dǎo)致更嚴(yán)格的精度提升,即使是在 MRPC 數(shù)據(jù)集上也是如此——該數(shù)據(jù)集僅有 3,600 個(gè)標(biāo)記過(guò)的訓(xùn)練樣本,并且與預(yù)訓(xùn)練任務(wù)大不相同。也許令人驚訝的是,我們?cè)谙鄬?duì)于現(xiàn)有文獻(xiàn)已經(jīng)很大的模型上實(shí)現(xiàn)了如此顯著的改進(jìn)。
消融研究(基于特征方法的BERT)
到目前為止,所有基于BERT的結(jié)果都使用了微調(diào)方法,在預(yù)訓(xùn)練模型中添加了一個(gè)簡(jiǎn)單的分類層,并對(duì)下游任務(wù)的所有參數(shù)進(jìn)行聯(lián)合微調(diào)。然而,基于特征的方法也有優(yōu)勢(shì),即從預(yù)訓(xùn)練模型中提取固定特征。首先,并不是所有的任務(wù)都可以通過(guò)轉(zhuǎn)換器編碼器架構(gòu)輕松表示,因此需要為每個(gè)任務(wù)添加特定的模型架構(gòu)。其次,提前計(jì)算出昂貴的訓(xùn)練數(shù)據(jù)表示具有重大計(jì)算好處,然后可以在該表示上運(yùn)行許多實(shí)驗(yàn),而這些實(shí)驗(yàn)可以使用更便宜的模型完成。
為了消除微調(diào)方法,我們應(yīng)用基于特征的方法,從一個(gè)或多個(gè)層中提取激活值,而不調(diào)整BERT的任何參數(shù)。這些上下文嵌入作為輸入到分類層之前的隨機(jī)初始化雙層768維雙向 LSTM。 結(jié)果如下表所示。 BERTLARGE與最先進(jìn)的方法競(jìng)爭(zhēng)。 表現(xiàn)最好的方法是將預(yù)訓(xùn)練Transformer的前四層隱藏狀態(tài)中的標(biāo)記表示連接起來(lái),僅比對(duì)整個(gè)模型進(jìn)行微調(diào)低了0.3F1。 這證明了BERT對(duì)于微調(diào)和基于特征的方法都是有效的。
最近,由于語(yǔ)言模型的遷移學(xué)習(xí)所帶來(lái)的經(jīng)驗(yàn)改進(jìn)表明了豐富的無(wú)監(jiān)督預(yù)訓(xùn)練是許多語(yǔ)言理解系統(tǒng)的重要組成部分。特別是,這些結(jié)果使得即使是低資源任務(wù)也能從深度單向架構(gòu)中受益。我們的主要貢獻(xiàn)是進(jìn)一步推廣這些發(fā)現(xiàn)到深度雙向架構(gòu),使同一個(gè)預(yù)訓(xùn)練模型能夠成功地處理一系列廣泛的NLP任務(wù)。
讀者福利:如果大家對(duì)大模型感興趣,這套大模型學(xué)習(xí)資料一定對(duì)你有用
對(duì)于0基礎(chǔ)小白入門:
如果你是零基礎(chǔ)小白,想快速入門大模型是可以考慮的。
一方面是學(xué)習(xí)時(shí)間相對(duì)較短,學(xué)習(xí)內(nèi)容更全面更集中。 二方面是可以根據(jù)這些資料規(guī)劃好學(xué)習(xí)計(jì)劃和方向。
包括:大模型學(xué)習(xí)線路匯總、學(xué)習(xí)階段,大模型實(shí)戰(zhàn)案例,大模型學(xué)習(xí)視頻,人工智能、機(jī)器學(xué)習(xí)、大模型書籍PDF。帶你從零基礎(chǔ)系統(tǒng)性的學(xué)好大模型!
?有需要的小伙伴,可以保存圖片到wx掃描二v碼免費(fèi)領(lǐng)取【保證100%免費(fèi)】?
?AI大模型學(xué)習(xí)路線匯總?
大模型學(xué)習(xí)路線圖,整體分為7個(gè)大的階段:(全套教程文末領(lǐng)取哈) 第一階段: 從大模型系統(tǒng)設(shè)計(jì)入手,講解大模型的主要方法;
第二階段: 在通過(guò)大模型提示詞工程從Prompts角度入手更好發(fā)揮模型的作用;
第三階段: 大模型平臺(tái)應(yīng)用開(kāi)發(fā)借助阿里云PAI平臺(tái)構(gòu)建電商領(lǐng)域虛擬試衣系統(tǒng);
第四階段: 大模型知識(shí)庫(kù)應(yīng)用開(kāi)發(fā)以LangChain框架為例,構(gòu)建物流行業(yè)咨詢智能問(wèn)答系統(tǒng);
第五階段: 大模型微調(diào)開(kāi)發(fā)借助以大健康、新零售、新媒體領(lǐng)域構(gòu)建適合當(dāng)前領(lǐng)域大模型;
第六階段: 以SD多模態(tài)大模型為主,搭建了文生圖小程序案例;
第七階段: 以大模型平臺(tái)應(yīng)用與開(kāi)發(fā)為主,通過(guò)星火大模型,文心大模型等成熟大模型構(gòu)建大模型行業(yè)應(yīng)用。
?大模型實(shí)戰(zhàn)案例?
光學(xué)理論是沒(méi)用的,要學(xué)會(huì)跟著一起做,要?jiǎng)邮謱?shí)操,才能將自己的所學(xué)運(yùn)用到實(shí)際當(dāng)中去,這時(shí)候可以搞點(diǎn)實(shí)戰(zhàn)案例來(lái)學(xué)習(xí)。
?大模型視頻和PDF合集?
觀看零基礎(chǔ)學(xué)習(xí)書籍和視頻,看書籍和視頻學(xué)習(xí)是最快捷也是最有效果的方式,跟著視頻中老師的思路,從基礎(chǔ)到深入,還是很容易入門的。
?學(xué)會(huì)后的收獲:?
? 基于大模型全棧工程實(shí)現(xiàn)(前端、后端、產(chǎn)品經(jīng)理、設(shè)計(jì)、數(shù)據(jù)分析等),通過(guò)這門課可獲得不同能力;
? 能夠利用大模型解決相關(guān)實(shí)際項(xiàng)目需求: 大數(shù)據(jù)時(shí)代,越來(lái)越多的企業(yè)和機(jī)構(gòu)需要處理海量數(shù)據(jù),利用大模型技術(shù)可以更好地處理這些數(shù)據(jù),提高數(shù)據(jù)分析和決策的準(zhǔn)確性。因此,掌握大模型應(yīng)用開(kāi)發(fā)技能,可以讓程序員更好地應(yīng)對(duì)實(shí)際項(xiàng)目需求;
? 基于大模型和企業(yè)數(shù)據(jù)AI應(yīng)用開(kāi)發(fā),實(shí)現(xiàn)大模型理論、掌握GPU算力、硬件、LangChain開(kāi)發(fā)框架和項(xiàng)目實(shí)戰(zhàn)技能, 學(xué)會(huì)Fine-tuning垂直訓(xùn)練大模型(數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)蒸餾、大模型部署)一站式掌握;
? 能夠完成時(shí)下熱門大模型垂直領(lǐng)域模型訓(xùn)練能力,提高程序員的編碼能力: 大模型應(yīng)用開(kāi)發(fā)需要掌握機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)框架等技術(shù),這些技術(shù)的掌握可以提高程序員的編碼能力和分析能力,讓程序員更加熟練地編寫高質(zhì)量的代碼。
?獲取方式:
?有需要的小伙伴,可以保存圖片到wx掃描二v碼免費(fèi)領(lǐng)取【保證100%免費(fèi)】?
柚子快報(bào)激活碼778899分享:【大模型學(xué)習(xí)】BERT架構(gòu)
好文鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。