柚子快報激活碼778899分享:corefBERT論文閱讀
柚子快報激活碼778899分享:corefBERT論文閱讀
CorefBERT是清華大學團隊發(fā)表的,繼SpanBERT之后另一針對共指消解的BERT模型。共指消解任務對于文本理解、智能問答等其他NLP子任務起到至關重要的作用。
為了提高語言模型的共指推理能力,一個簡單的解決方案是使用有監(jiān)督的共指解析數據在bert等模型進行微調,但是小的數據集效果一般。
1.概述
corefBERT語言表示模型,可以更好的捕獲和表示共引用信息。corefBERT引入一種新的預訓練任務MRP(mention refenrece prediction),MRP利用重復出現的提及獲得豐富的共指關系。MRP使用掩碼方法遮蓋一個或者多個提及,模型預測被遮蓋住的整個提及。
? ? ? ? 根據上圖,詞的損失由MRP提及參考預測和MLM遮蓋語言建模損失兩部分構成。上圖中“Claire”用MASK替換,要求模型找到合適的候選詞來填充它。
2.架構
? ? ? ? corefBERT使用深度雙向transformer網絡,包含兩個訓練任務:
(1)Mention Reference Prediction MRP:表述指代預測任務,使用MRP提升協(xié)同推理能力,MRP利用提及和使用MASK遮蓋重復提及的一個,然后使用賦值的訓練目標來預測被遮蓋住的提及。
(2)Masked Language Modeing MLM:遮罩預測任務,用于學習一般的語言理解。使用完形填空的方法,根據上下文表征預測缺失的提及。
對于輸入的文字序列,計算token和位置嵌入,送入深度雙向網絡中,獲取上下文表示,計算預訓練任務的損失。
損失包括兩部分:提及預測損失和遮蓋語言建模損失。
2.1提及參考遮罩Mention Referebce Masking
提及參考遮罩,遮蓋序列中重復提及的標記,不是遮蓋隨機的token。
在實驗過程中,使用詞性標注方法,選出所有的名詞;講名詞通過聚類分成不同的簇(共指簇),每個簇中包含相同名詞的不同提及;每次從共指簇中選擇一個表述進行遮蓋,并使用上下文信息進行預測。the masked words for MLM and MRP are?sampled on a ratio of 4:1. Similar to BERT, 15% of?the tokens are sampled for both masking strategies?mentioned above, where 80% of them are replaced?with a special token [MASK], 10% of them are?replaced with random tokens, and 10% of them are?unchanged.
2.2copy-based Training objective 關于副本訓練目標
通過拷貝文本中未MASK的token來預測缺失的token。通過賦值,可以顯示的捕捉遮蓋提及及引用之間的關系,從而獲得上下文中的共引用信息。
對于輸入序列,通過多層transformer得到嵌入向量H,詞i可以被詞j賦值得到的概率如下公式所示。
V是用于指示分詞相似度的可學習參數。MRP任務采用基于詞的遮蓋,每次都是以詞為單位,因此需要通過被遮蓋詞語的首尾,生成詞i被同文本中詞j賦值得到的概率。
MRP任務的損失函數為:
其中M為所有被遮蓋的表述集合,
實驗
訓練中,選擇批次大小256,學習率5*10-5。
柚子快報激活碼778899分享:corefBERT論文閱讀
好文推薦
本文內容根據網絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉載請注明,如有侵權,聯系刪除。