欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報(bào)邀請碼778899分享:RankingGPT論文筆記

柚子快報(bào)邀請碼778899分享:RankingGPT論文筆記

http://yzkb.51969.com/

大模型應(yīng)用論文

1.基礎(chǔ)知識(shí)補(bǔ)充完善

1.1大語言模型

大型語言模型是深度學(xué)習(xí)的一個(gè)子集,可以預(yù)訓(xùn)練并進(jìn)行特定目的的微調(diào)。這些模型經(jīng)過訓(xùn)練,可以解決諸如文本分類、問題回答、文檔摘要、跨行業(yè)的文本生成等常見語言問題。然后,可以利用相對較小的領(lǐng)域數(shù)據(jù)集對這些模型進(jìn)行定制,以解決零售、金融、娛樂等不同領(lǐng)域的特定問題。

大型語言模型的三個(gè)主要特征是:大型、通用性和預(yù)訓(xùn)練微調(diào)。

"大型"既指訓(xùn)練數(shù)據(jù)集的巨大規(guī)模,也指參數(shù)的數(shù)量。

"通用性"意味著這些模型足夠解決常見問題。

"預(yù)訓(xùn)練和微調(diào)"是指用大型數(shù)據(jù)集對大型語言模型進(jìn)行一般性的預(yù)訓(xùn)練,然后用較小的數(shù)據(jù)集對其進(jìn)行特定目的的微調(diào)。

使用大型語言模型的好處包括:一種模型可用于不同的任務(wù);微調(diào)大型語言模型需要的領(lǐng)域訓(xùn)練數(shù)據(jù)較少;隨著數(shù)據(jù)和參數(shù)的增加,大型語言模型的性能也在持續(xù)增長。

"Query-document"這個(gè)詞組在論文中通常指的是查詢(query)與文檔(document)之間的相關(guān)性匹配問題。在信息檢索領(lǐng)域,這個(gè)問題主要關(guān)注如何有效地評估一個(gè)給定查詢與一組文檔中每個(gè)文檔的相關(guān)性,并據(jù)此進(jìn)行排序或篩選 1。具體來說,相關(guān)性匹配可以基于全局的匹配信號(hào),也可以基于局部的term級別的匹配信號(hào) 1。例如,Deep Relevance Matching Model (DRMM) 是一種基于全局匹配信號(hào)的方法,它通過創(chuàng)建匹配直方圖來捕捉查詢和文檔之間的相關(guān)性

1.2文本排序

文本排序是根據(jù)候選文檔與給定查詢的相關(guān)性對候選文檔進(jìn)行排序的任務(wù)。

使用大語言模型(LLM)進(jìn)行文本排序任務(wù)時(shí),通常涉及到通過模型的語言理解能力來對文本進(jìn)行語義排序、情感排序或其他更復(fù)雜的排序任務(wù)。以下是一些使用LLM進(jìn)行文本排序的常見方法:

1. 語義排序

任務(wù)描述:將一組文本按照與某一特定主題或查詢的相關(guān)性進(jìn)行排序。實(shí)現(xiàn)方法:

文本嵌入:利用LLM生成文本的嵌入向量,將文本映射到高維空間中。相似度計(jì)算:計(jì)算每個(gè)文本與查詢文本之間的相似度(如余弦相似度),然后按相似度排序。排序結(jié)果:根據(jù)相似度對文本進(jìn)行排序,最相關(guān)的文本排在最前面。

2. 情感排序

任務(wù)描述:根據(jù)文本的情感強(qiáng)度或類型(正面、負(fù)面、中性等)進(jìn)行排序。實(shí)現(xiàn)方法:

情感分析:利用LLM進(jìn)行情感分析,獲取每個(gè)文本的情感得分。排序規(guī)則:根據(jù)情感得分進(jìn)行排序。例如,可以按正面情感強(qiáng)度從高到低排序,或者按負(fù)面情感強(qiáng)度從低到高排序。

3. 復(fù)雜排序任務(wù)

任務(wù)描述:結(jié)合多個(gè)因素(如語義、情感、文本長度等)進(jìn)行綜合排序。實(shí)現(xiàn)方法:

多維度特征提取:從文本中提取多個(gè)維度的特征,如語義相似度、情感得分、長度等。加權(quán)排序:根據(jù)各個(gè)維度的權(quán)重進(jìn)行綜合評分,然后根據(jù)綜合評分對文本排序。自定義模型:可以通過訓(xùn)練特定的模型,讓LLM對不同因素進(jìn)行權(quán)衡,實(shí)現(xiàn)自定義排序。

4.示例代碼

以下是一個(gè)簡單的示例,展示如何使用LLM進(jìn)行語義排序:

from transformers import pipeline

from sklearn.metrics.pairwise import cosine_similarity

import numpy as np

# 初始化一個(gè)文本嵌入模型(使用預(yù)訓(xùn)練的LLM)

embedder = pipeline('feature-extraction', model='bert-base-uncased')

# 輸入文本和查詢

texts = [

"The cat sits on the mat.",

"A quick brown fox jumps over the lazy dog.",

"Artificial intelligence is transforming the world."

]

query = "AI and machine learning"

# 生成文本嵌入

text_embeddings = np.array([np.mean(embedder(text), axis=1)[0] for text in texts])

query_embedding = np.mean(embedder(query), axis=1)[0]

# 計(jì)算相似度并排序

similarities = cosine_similarity([query_embedding], text_embeddings)[0]

sorted_indices = np.argsort(similarities)[::-1]

sorted_texts = [texts[i] for i in sorted_indices]

# 輸出排序結(jié)果

print("排序后的文本:")

for text in sorted_texts:

print(text)

5.適用場景

文檔檢索:根據(jù)查詢對大量文檔進(jìn)行排序,以返回最相關(guān)的結(jié)果。內(nèi)容推薦:根據(jù)用戶偏好或歷史記錄對內(nèi)容進(jìn)行排序,以提供個(gè)性化推薦。文本分類與分組:對文本進(jìn)行分類后按類別排序,或根據(jù)類別相關(guān)性排序。

通過上述方法,LLM可以幫助解決各種復(fù)雜的文本排序任務(wù),并且能根據(jù)任務(wù)需求進(jìn)行靈活調(diào)整。

6.補(bǔ)充

候選文件通常由檢索器模塊從大規(guī)模語料庫中選擇。

域內(nèi)場景 (In-Domain):

在域內(nèi)場景中,查詢(query)和文檔(document)都來自同一個(gè)主題或領(lǐng)域。這種情況下,系統(tǒng)期望能夠準(zhǔn)確理解查詢的語義,并在相同主題的文檔中找到最相關(guān)的信息。例如,在電子商務(wù)產(chǎn)品搜索中,如果用戶搜索“紅色耐克跑鞋”,系統(tǒng)需要在跑鞋類產(chǎn)品中找到符合這一描述的相關(guān)商品。在這種情況下,相關(guān)性匹配模型可能會(huì)利用統(tǒng)計(jì)方法或深度學(xué)習(xí)方法來評估查詢和文檔之間的語義相似度,如DSSM模型或其變體CNN_DSSM模型,這些模型通過學(xué)習(xí)query和doc的表示來進(jìn)行匹配打分 。

域外場景 (Out-of-Domain):

域外場景指的是查詢和文檔來自不同的領(lǐng)域或主題。在這種情況下,系統(tǒng)面臨的挑戰(zhàn)是如何在不同領(lǐng)域的文檔中找到與查詢相關(guān)的信息。例如,如果一個(gè)用戶在醫(yī)療領(lǐng)域的文檔庫中搜索關(guān)于“心臟病”的信息,但是輸入了一個(gè)與技術(shù)相關(guān)的查詢,如“服務(wù)器故障”,系統(tǒng)需要能夠識(shí)別出即使在醫(yī)療領(lǐng)域中也與“服務(wù)器”相關(guān)的文檔。這通常需要更高級的語義理解能力,可能需要使用更復(fù)雜的模型,如引入混合學(xué)習(xí)策略或遷移學(xué)習(xí)來增強(qiáng)模型對于不同領(lǐng)域文檔的適應(yīng)性 18。

2.論文粗讀(翻譯)

摘要(Abstract):

論文討論了文本排名在各種信息檢索應(yīng)用中的重要性,并指出了大型語言模型(LLMs)在自然語言處理中的成功激發(fā)了將其應(yīng)用于文本排名的興趣。作者指出,盡管已有方法顯示了潛力,但存在一個(gè)顯著的差異,即LLMs的訓(xùn)練目標(biāo)通常集中在下一個(gè)詞的預(yù)測上,而文本排名目標(biāo)是評估查詢-文檔的相關(guān)性。為了解決這一差距,作者提出了一種漸進(jìn)的多階段訓(xùn)練策略,通過弱監(jiān)督數(shù)據(jù)集和監(jiān)督訓(xùn)練來提升LLMs在文本排名任務(wù)中的潛力。

引言(Introduction):

文本排名任務(wù)是將候選文檔根據(jù)與給定查詢的相關(guān)性進(jìn)行排序。作者提到了預(yù)訓(xùn)練語言模型(PLMs)的出現(xiàn),如BERT,以及大規(guī)模標(biāo)注數(shù)據(jù)集,例如MS MARCO,這些進(jìn)步顯著提高了文本排名模型的性能。此外,LLMs的出現(xiàn),如LLaMA和GPT4,為自然語言處理帶來了范式轉(zhuǎn)變。

相關(guān)工作(Related Work):

論文回顧了文本排名的相關(guān)研究,包括點(diǎn)式(pointwise)、對式(pairwise)和列表式(listwise)的無監(jiān)督文本排名方法,以及基于PLMs的監(jiān)督文本排名模型。

方法(Method):

作者提出了一個(gè)兩階段的訓(xùn)練方法,包括弱監(jiān)督相關(guān)性預(yù)訓(xùn)練階段和監(jiān)督微調(diào)階段。在弱監(jiān)督階段,使用大規(guī)模的弱監(jiān)督文本對進(jìn)行連續(xù)預(yù)訓(xùn)練。在監(jiān)督微調(diào)階段,利用預(yù)訓(xùn)練的LLM和高質(zhì)量的監(jiān)督數(shù)據(jù)來進(jìn)一步提升模型的文本排名能力。

實(shí)驗(yàn)(Experiments):

論文進(jìn)行了一系列的實(shí)驗(yàn)來評估所提出方法的有效性。實(shí)驗(yàn)使用了不同的LLMs,包括BLOOM 560M-7B、LLaMA-7B、Baichuan7B和Qwen-7B,并在多個(gè)基準(zhǔn)測試中進(jìn)行了評估,包括MS MARCO、TREC 2019和TREC 2020等。

結(jié)論(Conclusion):

作者通過兩階段訓(xùn)練方法解決了LLMs預(yù)訓(xùn)練目標(biāo)與文本排名任務(wù)目標(biāo)之間的不一致性,并證明了該方法在領(lǐng)域內(nèi)和跨領(lǐng)域場景中的有效性。

3.論文圖表

figure 1

圖一:圖 1 在論文中提供了一個(gè)關(guān)于真實(shí)查詢(ground truth query)和由大型語言模型(LLM)生成的查詢(LLaMA-generated query)的比較示例。這個(gè)示例來自于 MS MARCO 數(shù)據(jù)集。

為什么要比較生成的查詢,而不是論文標(biāo)題所提出的文本排序結(jié)果?

查詢-文檔相關(guān)性:在文本排名任務(wù)中,系統(tǒng)需要理解查詢與文檔之間的相關(guān)性。如果一個(gè)LLM能夠生成與文檔內(nèi)容緊密相關(guān)的查詢,這表明它能夠更好地捕捉到文檔的關(guān)鍵信息,從而提高排名的準(zhǔn)確性。評估LLMs的理解能力:通過比較生成的查詢和真實(shí)查詢,研究者可以評估LLM對文檔內(nèi)容的理解程度。如果LLM能夠生成高質(zhì)量的查詢,這表明模型能夠理解并處理復(fù)雜的文本信息。優(yōu)化文本排名模型:論文中提出的漸進(jìn)式多階段訓(xùn)練策略(Progressive Two-Stage Training, PTST)旨在通過弱監(jiān)督預(yù)訓(xùn)練和監(jiān)督微調(diào)來優(yōu)化LLMs的文本排名能力。生成的查詢提供了一種方式來評估訓(xùn)練策略的效果。

為什么比較結(jié)果相較于Ground-Truth有明顯差距?

大型語言模型的訓(xùn)練是基于預(yù)測下一個(gè)詞的任務(wù),這種訓(xùn)練方式與實(shí)際應(yīng)用中需要評估文本相關(guān)性的目標(biāo)不一致。雖然這些模型在生成以輸入文本為條件的連貫且與上下文相關(guān)的文本。方面表現(xiàn)很好,但在處理文本排序任務(wù)時(shí),可能無法完全滿足實(shí)際需求。

因此LLM 生成的文本與語義相關(guān)的文本之間存在差異,與黃金參考具有明顯差別,生成的查詢通常包含有關(guān)文檔的不相關(guān)信息。

MS MARCO(Microsoft MAchine Reading COmprehension)

是微軟發(fā)布的一個(gè)大規(guī)模機(jī)器閱讀理解數(shù)據(jù)集和評測任務(wù)。它主要用于訓(xùn)練和評估自然語言處理(NLP)模型在問答、文本排序、和信息檢索等任務(wù)上的表現(xiàn)。MS MARCO 是自然語言處理領(lǐng)域的重要基準(zhǔn)之一,廣泛用于開發(fā)和評估新一代的問答系統(tǒng)和搜索引擎。

MS MARCO 的主要組成部分

問答數(shù)據(jù)集:

包含來自Bing搜索引擎的真實(shí)用戶查詢和相應(yīng)的回答。數(shù)據(jù)集由數(shù)百萬個(gè)問題及其對應(yīng)的相關(guān)文檔或段落構(gòu)成。目標(biāo)是讓模型能夠閱讀文檔內(nèi)容,并生成簡潔的答案。 信息檢索任務(wù)(MS MARCO Passage Ranking):

該任務(wù)要求模型根據(jù)查詢對一組文本段落(passages)進(jìn)行排序,目的是找到最相關(guān)的段落。數(shù)據(jù)集包含大量查詢與多個(gè)候選段落,每個(gè)段落都需要根據(jù)其與查詢的相關(guān)性進(jìn)行排序。 文檔檢索任務(wù)(MS MARCO Document Ranking):

類似于段落排序任務(wù),但檢索對象從段落擴(kuò)展到了完整的文檔。目標(biāo)是從大量文檔中找出與查詢最相關(guān)的文檔并進(jìn)行排序。 對話式問答:

這一部分?jǐn)?shù)據(jù)集針對多輪對話場景中的問答任務(wù)設(shè)計(jì),模型需要理解上下文對話并提供連續(xù)性答案。

MS MARCO 的應(yīng)用

自然語言處理研究:MS MARCO 被廣泛應(yīng)用于訓(xùn)練和評估各種 NLP 模型,包括 BERT、RoBERTa、T5 等。搜索引擎優(yōu)化:許多搜索引擎和推薦系統(tǒng)使用 MS MARCO 數(shù)據(jù)集進(jìn)行模型訓(xùn)練,以提高搜索結(jié)果的相關(guān)性和用戶體驗(yàn)。問答系統(tǒng)開發(fā):該數(shù)據(jù)集為開發(fā)更為精確和人性化的問答系統(tǒng)提供了一個(gè)強(qiáng)大的訓(xùn)練資源。

MS MARCO 的挑戰(zhàn)

大規(guī)模數(shù)據(jù)處理:由于數(shù)據(jù)集非常龐大,處理和訓(xùn)練需要強(qiáng)大的計(jì)算資源。復(fù)雜性:數(shù)據(jù)集中包含許多復(fù)雜的查詢,模型需要能夠理解上下文并從大量信息中提取相關(guān)內(nèi)容。評測標(biāo)準(zhǔn):MS MARCO 使用各種標(biāo)準(zhǔn)(如 MRR, NDCG)來評估模型的排序和檢索性能。

MS MARCO 為NLP領(lǐng)域帶來了巨大的推動(dòng)力,特別是在問答系統(tǒng)和信息檢索方面,是當(dāng)前最重要的基準(zhǔn)數(shù)據(jù)集之一。

結(jié)論

依靠大型語言模型生成文本的概率來判斷文本與查詢的相關(guān)性,可能不能充分滿足文本排序任務(wù)的需求

figure2

這張圖展示了一個(gè)兩階段的訓(xùn)練流程,主要用于提升大型語言模型(LLM)在文本排序任務(wù)中的表現(xiàn)。以下是對圖中每個(gè)部分的詳細(xì)解釋:

Step 1: Continuous Pre-training

連續(xù)預(yù)訓(xùn)練階段:

輸入:模型接收多種形式的文本輸入,如文檔正文(Body)、答案(Answer)、評論(Comment)等。輸出:模型生成與輸入文本相關(guān)的標(biāo)題(Title)、問題(Question)、帖子(Post)等內(nèi)容。這些生成的內(nèi)容用于加強(qiáng)模型對文本理解和生成的能力。目的:通過對大量弱監(jiān)督數(shù)據(jù)進(jìn)行連續(xù)預(yù)訓(xùn)練,讓模型能夠生成與輸入文檔相關(guān)的查詢,從而在文本排序任務(wù)中打好基礎(chǔ)。

Step 2: Supervised Fine-tuning

監(jiān)督微調(diào)階段:

輸入:在這個(gè)階段,模型接收一個(gè)查詢(Query)和多個(gè)候選文檔作為輸入。這些候選文檔包括一個(gè)正樣本((d+))和若干個(gè)負(fù)樣本((d_1-), (d_2^-), … , (d_m^-))。輸出:模型的任務(wù)是根據(jù)輸入的查詢,確定哪個(gè)文檔最相關(guān)。圖中用對勾表示正樣本,叉號(hào)表示負(fù)樣本。通過對比學(xué)習(xí)(通常是對比學(xué)習(xí)損失),模型被訓(xùn)練為在對比多個(gè)文檔時(shí)能夠正確地將相關(guān)文檔排在前面。目的:微調(diào)階段的目標(biāo)是通過利用高質(zhì)量的監(jiān)督數(shù)據(jù)進(jìn)一步優(yōu)化模型,使其在排序任務(wù)中表現(xiàn)得更好,同時(shí)在生成能力上保持一致性。

Training Pipeline(訓(xùn)練管道)

p

i

r

a

w

pi_{raw}

piraw?,

p

i

p

r

e

d

pi_{pred}

pipred?,

p

i

s

f

t

pi_{sft}

pisft?:這些標(biāo)記表示模型在不同階段的狀態(tài)。

p

i

r

a

w

pi_{raw}

piraw? 表示原始預(yù)訓(xùn)練模型的狀態(tài)。

p

i

p

r

e

d

pi_{pred}

pipred? 表示經(jīng)過第一階段預(yù)訓(xùn)練后的模型狀態(tài)。**

p

i

s

f

t

pi_{sft}

pisft?**表示經(jīng)過第二階段監(jiān)督微調(diào)后的模型狀態(tài)。

整體流程

第一階段通過處理大量弱監(jiān)督數(shù)據(jù),模型增強(qiáng)了生成與文檔相關(guān)的查詢的能力。第二階段利用高質(zhì)量的監(jiān)督數(shù)據(jù),通過微調(diào)進(jìn)一步優(yōu)化模型的排序能力,使其能夠更準(zhǔn)確地從候選文檔中選出最相關(guān)的文檔。

總結(jié)來說,這張圖描述了一個(gè)逐步增強(qiáng)大型語言模型在文本排序任務(wù)中表現(xiàn)的訓(xùn)練流程,從連續(xù)預(yù)訓(xùn)練到監(jiān)督微調(diào),目的是讓模型在理解和生成文本上更加精確和有效。

figure 3

在這張圖中,各個(gè)字符和符號(hào)代表的含義如下:

SFT(Supervised Fine-Tuning): 這個(gè)符號(hào)表示監(jiān)督微調(diào)的過程,即在預(yù)訓(xùn)練模型的基礎(chǔ)上,通過有標(biāo)注的數(shù)據(jù)進(jìn)一步優(yōu)化模型,以提升其在特定任務(wù)上的性能。 PEFT(Parameter-Efficient Fine-Tuning): 這表示一種高效的參數(shù)微調(diào)方法,旨在通過減少微調(diào)時(shí)的參數(shù)量,來保持模型在預(yù)訓(xùn)練階段所學(xué)到的有益特性。 NTP(Next Token Prediction): 這個(gè)符號(hào)代表“下一個(gè)Token預(yù)測”任務(wù)。在這個(gè)過程中,模型基于輸入的正樣本文檔 (d^+) 生成一個(gè)相關(guān)的查詢 (q),以鞏固模型在預(yù)訓(xùn)練時(shí)對文檔和查詢關(guān)系的理解。 DP(Difference Penalty): 差異懲罰策略,表示通過比較預(yù)訓(xùn)練模型 ($ \pi_{\text{pred}} $) 和微調(diào)后模型 (

π

sft

\pi_{\text{sft}}

πsft? ) 的差異,并施加懲罰,來減少模型在微調(diào)過程中偏離原始預(yù)訓(xùn)練模型的程度。 π_raw、π_pred、π_sft:

π_raw 表示原始的預(yù)訓(xùn)練模型。π_pred 表示在連續(xù)預(yù)訓(xùn)練階段之后的模型。π_sft 表示經(jīng)過監(jiān)督微調(diào)之后的模型。

PEFT

通過凍結(jié)模型的大部分參數(shù)來限制微調(diào)模型與預(yù)訓(xùn)練參數(shù)的顯著差異,從而維持持續(xù)的預(yù)訓(xùn)練改進(jìn)。

根據(jù) 《What does BERT learn about the structure of language? 》表明,在多層 PLM 中,下層捕獲一般語義特征,而上層編碼特定于任務(wù)的信息,我們的方法只需要微調(diào)大型語言模型 (LLM) 的 top-k 轉(zhuǎn)換器層,而其他結(jié)構(gòu)保持不變。

NTP(next token prediction)

根據(jù)論文公式2,對 正對(q,d+)進(jìn)行next token預(yù)測任務(wù),并將其損失作為

L

N

T

P

{L}_{NTP}

LNTP?

DP(difference penalty)

差分懲罰 (DP):差分懲罰考慮了微調(diào)模型 πsft 和連續(xù)預(yù)訓(xùn)練模型 πpred 之間token-level概率分布的差異。通過最小化這種懲罰,微調(diào)過程被規(guī)范化,從而約束模型在適應(yīng)新的任務(wù)特定目標(biāo)的同時(shí)保持忠實(shí)于訓(xùn)練前的分布。此約束可以表述為:

這個(gè)公式表示了兩種模型狀態(tài)之間的差異度量。具體來說:

$\mathcal{L}{\text{DP}}(\pi{\text{pred}}, \pi_{\text{sft}}) $表示 “差異保持”(Difference Preservation) 損失,它度量了連續(xù)預(yù)訓(xùn)練模型

π

sft

\pi_{\text{sft}}

πsft?之間的分布差異。這個(gè)損失函數(shù)的目標(biāo)是在保持模型在預(yù)訓(xùn)練階段獲得的能力的同時(shí),盡可能減少模型微調(diào)后的變化。 (|T|) 表示文檔集合 (T) 的大小,(|V|) 表示詞匯表 (V) 的大小。 $p_{\text{pred}}^{j,k}

和 p_{\text{sft}}^{j,k}

分別表示模型

分別表示模型

分別表示模型 \pi_{\text{pred}}

和\pi_{\text{sft}}$在詞匯表 (V) 中第 (k) 個(gè)詞對于第 (j) 個(gè)文檔的概率分布。

K

L

(

p

pred

j

,

k

,

p

sft

j

,

k

)

KL(p_{\text{pred}}^{j,k}, p_{\text{sft}}^{j,k})

KL(ppredj,k?,psftj,k?) 是 Kullback-Leibler 散度,用來度量兩個(gè)概率分布之間的差異。

通過這個(gè)損失函數(shù),模型在微調(diào)時(shí)能夠盡量保持在預(yù)訓(xùn)練階段所學(xué)到的知識(shí),而不會(huì)因?yàn)槲⒄{(diào)的目標(biāo)而導(dǎo)致顯著的能力喪失。

4.論文精讀

LLM 的出現(xiàn),因其令人印象深刻的性能而帶來了自然語言處理的范式轉(zhuǎn)變。

先前方法:

prompting LLMs to perform unsupervised ranking using pointwise

pairwise

listwise

近來的嘗試:

train pointwise rankers in a supervised manner, leveraging LLMs(RankLLaMA)

區(qū)別:

有監(jiān)督無監(jiān)督

先前方法缺點(diǎn):

大型語言模型在訓(xùn)練過程中是根據(jù)預(yù)測下一個(gè)詞來學(xué)習(xí)的,但這種訓(xùn)練目標(biāo)和實(shí)際應(yīng)用中對模型的期望之間存在很大的差距或不一致性。

創(chuàng)新點(diǎn)方法

為了解決LLM預(yù)訓(xùn)練任務(wù)(預(yù)測下一個(gè)詞)與文本排序任務(wù)(評估相關(guān)性)之間的不匹配,我們提出了一種漸進(jìn)式兩階段訓(xùn)練(PTST)方法。PTST由一個(gè)弱監(jiān)督相關(guān)性預(yù)訓(xùn)練階段和一個(gè)有監(jiān)督的微調(diào)階段****組成。在弱監(jiān)督相關(guān)性預(yù)訓(xùn)練階段,我們使用 Web 資源構(gòu)建了一個(gè)大規(guī)模的弱監(jiān)督文本對數(shù)據(jù)集*。然后,該數(shù)據(jù)集用于連續(xù)預(yù)訓(xùn)練,其中目標(biāo)與原始 LLM 預(yù)訓(xùn)練任務(wù)對齊。通過合并這些弱監(jiān)督文本對,模型自然可以生成與輸入文檔相關(guān)的查詢。此階段為后續(xù)微調(diào)奠定了基礎(chǔ)

問題1原文提到經(jīng)過第一階段的預(yù)訓(xùn)練之后,模型便可以輸出相應(yīng)的查詢,為什么?***

弱監(jiān)督數(shù)據(jù)的構(gòu)建:

在這個(gè)階段,使用網(wǎng)絡(luò)資源構(gòu)建了一個(gè)大規(guī)模的弱監(jiān)督文本對數(shù)據(jù)集。弱監(jiān)督意味著這些數(shù)據(jù)對并不是完全手動(dòng)標(biāo)注的,而是通過一些自動(dòng)化的方法(如基于規(guī)則或簡單的模型)生成的。這些文本對通常由一個(gè)文檔和一個(gè)與之相關(guān)的文本(如查詢或標(biāo)題)組成。這樣使得該預(yù)訓(xùn)練任務(wù)與LLM的原始預(yù)訓(xùn)練任務(wù)(預(yù)測下一個(gè)詞)保持一致,這樣模型可以在已經(jīng)熟悉的任務(wù)框架內(nèi)繼續(xù)學(xué)習(xí)。這種持續(xù)的學(xué)習(xí)能夠讓模型更好地捕捉到文本之間的相關(guān)性。通過這種方式,模型在進(jìn)入第二階段的監(jiān)督微調(diào)之前,已經(jīng)具備了生成相關(guān)查詢的基本能力,從而使后續(xù)的微調(diào)更加有效。

預(yù)訓(xùn)練目標(biāo)為何一致

數(shù)據(jù)集是文本對形式,例如:

網(wǎng)頁 ,正文 -> 標(biāo)題學(xué)術(shù)出版物, 摘要 -> 標(biāo)題社區(qū)論壇, 評論 -> 帖子標(biāo)題知識(shí)問答, 答案 -> 問題

這里與經(jīng)典的LLM的next token prediction的預(yù)訓(xùn)練目標(biāo)還是有顯著差異的,數(shù)據(jù)集有點(diǎn)像是反著構(gòu)造的,

思想類似于根據(jù)Document生成主題或者標(biāo)題以及提問,通過教會(huì)大模型提取文章主題的預(yù)訓(xùn)練能力,使大模型輸出的最大概率的query與真實(shí)query更接近。

原始預(yù)訓(xùn)練目標(biāo)通常是通過預(yù)測下一個(gè)詞來學(xué)習(xí)文本生成和理解能力。在弱監(jiān)督相關(guān)性預(yù)訓(xùn)練階段,雖然引入了弱監(jiān)督的數(shù)據(jù)集(文檔與相關(guān)查詢對),但模型仍然是在一個(gè)類似的框架內(nèi)工作——它依然是在基于上下文生成后續(xù)文本(例如,生成與輸入文檔相關(guān)的查詢或其他文本)。

示例流程

假設(shè)你有一篇文檔和一組用戶查詢:

文檔:一篇關(guān)于“氣候變化影響”的文章。查詢:從搜索引擎中收集的一些相關(guān)查詢,如“氣候變化對農(nóng)業(yè)的影響”、“全球變暖導(dǎo)致的海平面上升”等。

生成文本對:

文檔內(nèi)容與這些查詢配對,生成弱監(jiān)督的文本對。

合并與訓(xùn)練:

將這些文本對輸入模型,模型在文檔內(nèi)容的基礎(chǔ)上學(xué)習(xí)生成這些查詢,從而在預(yù)訓(xùn)練階段強(qiáng)化模型對相關(guān)性和查詢生成的理解。

損失思路

嘗試引入基于對比學(xué)習(xí)的優(yōu)化目標(biāo),但是僅選擇對比學(xué)習(xí)作為優(yōu)化目標(biāo)的話,會(huì)導(dǎo)致微調(diào)后的模型與基礎(chǔ)模型偏離較大,尤其在于生成能力上的偏離,會(huì)影響模型的生成能力,可能會(huì)顯著降低模型在文本排序任務(wù)中的表現(xiàn),因此通過額外的損失函數(shù)和參數(shù)凍結(jié)策略來防止模型的生成能力下降,從而平衡模型的排序性能和生成能力。

相關(guān)工作

1.文本排序

文本排名是文本檢索領(lǐng)域中的關(guān)鍵子任務(wù),其重點(diǎn)是從大量可用文本中識(shí)別和檢索與查詢相關(guān)的文檔。通常,文本檢索是通過兩個(gè)階段的過程執(zhí)行的,包括檢索和排名(Nogueira 和 Cho,2019 年)。最初,檢索器負(fù)責(zé)從整個(gè)文檔語料庫中召回前 k 個(gè)相關(guān)候選者,以響應(yīng)給定的查詢。隨后,使用排名程序?qū)@些候選文檔進(jìn)行排序和優(yōu)先級排序。

LLM的出現(xiàn)顯著提高了排名模型的性能(Nogueira 和 Cho,2019 年;Han et al., 2020;Zhang et al., 2022)。

2.使用 PLM 進(jìn)行無監(jiān)督文本排序

根據(jù)計(jì)算粒度,無監(jiān)督文本排名方法可以分為逐點(diǎn)、成對和按列表方法。

? 逐點(diǎn):逐點(diǎn)方法根據(jù)查詢文檔相關(guān)性分?jǐn)?shù)對候選文檔進(jìn)行排名。計(jì)算相關(guān)性有兩種策略: 1. 將查詢-文檔對輸入模型以直接計(jì)算相關(guān)性分?jǐn)?shù)(Liang et al., 2022;Zhuang et al., 2023a)。2. 使用基于文檔生成查詢的可能性作為相關(guān)性(Muennighoff,2022 年;Sachan et al., 2022)。逐點(diǎn)方法對小規(guī)模模型仍然有效,例如 GPT-125M (Muennighoff, 2022)。然而,在某些 LLM 上,效果可能不如成對和按列表方法好(Qin et al., 2023)。? 成對:成對方法每次確定兩個(gè)文檔的相關(guān)性順序,并遍歷所有文檔對以對候選文檔進(jìn)行排序(Qin et al., 2023)。這種方法已被證明比逐點(diǎn)和按列表方法更有效,但它效率低下(Sun et al., 2023a)。? 列表:列表方法立即對文檔列表進(jìn)行排序(Sun et al., 2023b;馬 et al., 2023b)。這種策略非常有效,但僅對一些強(qiáng)大的 LLM 有效,例如 ChatGPT 和 GPT4,并且嚴(yán)重依賴復(fù)雜的提示工程(Qin 等人,2023 年;Sun等人,2023a)。

使用基于文檔生成查詢的可能性作為相關(guān)性

使用“基于文檔生成查詢的可能性作為相關(guān)性”是一種在信息檢索或文本排序任務(wù)中評估文檔與查詢相關(guān)性的方法。這種方法基于一個(gè)假設(shè):如果一個(gè)文檔能夠以較高的可能性生成一個(gè)特定的查詢,那么這個(gè)文檔與該查詢之間的相關(guān)性就較高。

基本原理

這種方法的核心思想是將文檔視為查詢生成的條件,并使用語言模型來計(jì)算給定文檔生成查詢的概率。更具體地說:

文檔作為條件:

假設(shè)有一個(gè)文檔 D 和一個(gè)查詢 Q,我們想要評估文檔 D 與查詢 Q 的相關(guān)性。我們假設(shè)一個(gè)模型能夠根據(jù)文檔 D 生成查詢 Q,并且通過計(jì)算這種生成的概率 P(Q∣D) 來衡量相關(guān)性。 生成概率計(jì)算: 相關(guān)性評估:

如果 P(Q∣D)的概率較高,意味著在模型看來,文檔 D 能夠“自然”地生成查詢 Q,這表明文檔 D 很可能與查詢 Q 相關(guān)。相反,如果 P(Q∣D)的概率較低,表明文檔 D 與查詢 Q 的相關(guān)性較低。

3.成對法

“成對方法”(Pairwise Method)是一種用于排序任務(wù)的技術(shù),尤其在信息檢索和機(jī)器學(xué)習(xí)中,用于確定候選文檔或項(xiàng)的優(yōu)先級。以下是對這一方法的解釋:

成對方法的基本原理

成對方法的核心思想是通過比較成對的文檔(或項(xiàng))來確定它們的相對順序。具體步驟如下:

成對比較:

對于給定的查詢(或輸入),成對方法將候選文檔兩兩組合成一對(稱為“文檔對”)。對于每一對文檔,模型判斷哪個(gè)文檔更符合查詢的相關(guān)性要求,或者哪個(gè)文檔應(yīng)該排在另一個(gè)文檔之前。 確定順序:

在每次比較中,模型輸出一個(gè)結(jié)果,表示哪一個(gè)文檔在這對文檔中應(yīng)該排在前面。這種比較可以通過模型預(yù)測(如二分類器)來實(shí)現(xiàn),即判斷文檔A是否應(yīng)在文檔B之前。 遍歷所有文檔對:

成對方法會(huì)遍歷查詢下的所有文檔對,逐一進(jìn)行比較。通過所有文檔對的比較結(jié)果,模型能夠綜合確定所有候選文檔的最終排序。

示例

假設(shè)有一個(gè)查詢和三個(gè)候選文檔:文檔A、文檔B和文檔C。成對方法會(huì)進(jìn)行以下比較:

比較文檔A和文檔B,確定它們之間的優(yōu)先級。比較文檔B和文檔C,確定它們之間的優(yōu)先級。比較文檔A和文檔C,確定它們之間的優(yōu)先級。

通過這些成對比較,成對方法可以決定文檔A、B、C的最終順序。例如,如果結(jié)果顯示A > B,B > C,那么最終排序可能是A > B > C。

應(yīng)用與優(yōu)勢

信息檢索:在搜索引擎中,成對方法可以用于根據(jù)用戶查詢對搜索結(jié)果進(jìn)行排序,確保最相關(guān)的文檔排在前面。機(jī)器學(xué)習(xí):成對方法也用于學(xué)習(xí)排序函數(shù),例如在學(xué)習(xí)到排序(Learning to Rank)任務(wù)中。

優(yōu)勢

靈活性:成對方法不依賴絕對的相關(guān)性評分,而是通過相對比較來決定順序,這使得它在處理不同類型的排序問題時(shí)更為靈活。精確性:通過成對比較,可以捕捉更精細(xì)的排序信息,特別是在候選項(xiàng)數(shù)量較少的情況下。

局限性

計(jì)算復(fù)雜度:成對比較需要遍歷所有文檔對,對于大量候選文檔,計(jì)算成本較高,因?yàn)槲臋n對的數(shù)量是文檔數(shù)量的平方級別。不適用于極大規(guī)模數(shù)據(jù)集:在極大規(guī)模數(shù)據(jù)集中,成對方法的計(jì)算量可能過大,導(dǎo)致效率問題。

總結(jié)來說,成對方法是一種通過兩兩比較候選文檔來確定排序的技術(shù),具有靈活和精確的特點(diǎn),但在處理大量候選項(xiàng)時(shí)計(jì)算復(fù)雜度較高。

4.列表法

文本排序中的“列表方法”(Listwise Method)是一種排序算法,與成對方法(Pairwise Method)不同,它直接處理整個(gè)文檔列表或查詢結(jié)果集,而不是逐對比較文檔。列表方法在機(jī)器學(xué)習(xí)和信息檢索領(lǐng)域廣泛應(yīng)用,尤其是在學(xué)習(xí)到排序(Learning to Rank)任務(wù)中。以下是對列表方法的詳細(xì)介紹:

列表方法的基本概念

整體排序優(yōu)化:

列表方法通過優(yōu)化整個(gè)文檔列表的排序效果來直接提高排序質(zhì)量。它的目標(biāo)是找到使得整個(gè)文檔列表最符合查詢需求的排序方式。 直接處理排序列表:

與成對方法不同,列表方法直接對所有候選文檔進(jìn)行評分,并根據(jù)這些評分生成一個(gè)完整的排序列表。這種方法更加注重全局最優(yōu),而不是局部比較。 損失函數(shù)設(shè)計(jì):

列表方法通常使用一種特殊的損失函數(shù),該函數(shù)直接定義在整個(gè)列表上,而不是單個(gè)文檔或文檔對上。損失函數(shù)反映了排序列表與理想排序之間的偏差,通過最小化這種偏差來優(yōu)化模型。常見的列表方法損失函數(shù)包括NDCG(Normalized Discounted Cumulative Gain)和MAP(Mean Average Precision)等。

列表方法的特點(diǎn)

全局視角:

列表方法考慮了排序問題的全局性,優(yōu)化的目標(biāo)是整個(gè)文檔列表的排序質(zhì)量,而非單一文檔或文檔對的順序。這種方法可以避免局部最優(yōu),直接提升整體排序效果。 適合復(fù)雜排序任務(wù):

在一些需要考慮多個(gè)相關(guān)因素或復(fù)雜約束的排序任務(wù)中,列表方法往往表現(xiàn)更好。因?yàn)樗梢栽谌謱用嫔掀胶獠煌臋n的得分和排序順序。 模型復(fù)雜度:

列表方法通常涉及更復(fù)雜的模型訓(xùn)練和損失計(jì)算,因此在實(shí)現(xiàn)上可能比成對方法和逐點(diǎn)方法(Pointwise Method)更復(fù)雜。但是它往往能夠提供更好的性能,尤其是在處理大型數(shù)據(jù)集或高維特征空間時(shí)。

常見的列表方法

ListNet:

ListNet是一種基于概率的列表方法,它將排序問題轉(zhuǎn)化為對整個(gè)文檔列表進(jìn)行概率分布建模,并通過最大化生成排序的概率來優(yōu)化模型。 ListMLE:

ListMLE通過最大似然估計(jì)(Maximum Likelihood Estimation)的方式優(yōu)化整個(gè)列表的排序。它定義了一個(gè)排序概率分布,并通過最大化正確排序的概率來訓(xùn)練模型。 RankNet (NDCG-based):

RankNet可以擴(kuò)展為列表方法,尤其是在優(yōu)化NDCG損失時(shí),通過直接優(yōu)化整個(gè)排序列表的NDCG分?jǐn)?shù)來訓(xùn)練模型。

應(yīng)用場景

搜索引擎:列表方法常用于搜索引擎結(jié)果排序,通過優(yōu)化整體的搜索結(jié)果來提升用戶體驗(yàn)。推薦系統(tǒng):在推薦系統(tǒng)中,列表方法用于排序推薦結(jié)果,使得用戶最感興趣的內(nèi)容出現(xiàn)在列表前端。廣告排序:在線廣告排序中,列表方法能夠考慮多個(gè)廣告的相關(guān)性和點(diǎn)擊率,優(yōu)化整個(gè)廣告展示列表的效果。

優(yōu)勢與局限性

優(yōu)勢:

提供全局最優(yōu)的排序,通常在排序任務(wù)中能取得更好的效果。適合處理復(fù)雜排序問題,尤其是在多目標(biāo)優(yōu)化中表現(xiàn)出色。 局限性:

計(jì)算復(fù)雜度較高,尤其是在大型數(shù)據(jù)集上,訓(xùn)練時(shí)間可能較長。實(shí)現(xiàn)上比逐點(diǎn)和成對方法更復(fù)雜,需要更深入的優(yōu)化和調(diào)試。

總結(jié)來說,列表方法是一種直接優(yōu)化整個(gè)文檔列表排序的算法,它通過全局視角來提高排序質(zhì)量,適合復(fù)雜的排序任務(wù)和大規(guī)模應(yīng)用場景。

5.有監(jiān)督的plm文本排序

基于 PLM 的監(jiān)督排名模型已經(jīng)實(shí)現(xiàn)了最先進(jìn)的 (SoTA) 性能(Lin et al., 2021)。這些方法可以根據(jù)其語言模型結(jié)構(gòu)進(jìn)行分類:

? 僅編碼器:像 monoBERT 這樣的模型將查詢和文檔轉(zhuǎn)換為一個(gè)序列,例如 “[CLS] 查詢 [SEP] 文檔 [SEP]”用于模型輸入(Nogueira et al., 2019)。然后將模型生成的 [CLS] 表示形式饋送到線性層中以計(jì)算相關(guān)性分?jǐn)?shù)。 在自然語言處理(NLP)和文本處理中,CLS 和 SEP 是兩種特殊的標(biāo)記,通常與BERT(Bidirectional Encoder Representations from Transformers)和其他基于Transformer的預(yù)訓(xùn)練語言模型一起使用。下面是它們各自的含義和用途:

CLS (Classification):

CLS 標(biāo)記通常用于模型的輸入序列的開始位置。在BERT模型中,這個(gè)標(biāo)記對應(yīng)的嵌入向量(embedding vector)會(huì)在模型的最后一層被取出,用于分類任務(wù),如情感分析或文本分類。經(jīng)過訓(xùn)練后,這個(gè)向量捕捉了整個(gè)輸入序列的全局信息,因此可以用來表示整個(gè)序列的特征。 SEP (Separator):

SEP 標(biāo)記用于分隔輸入序列中的不同部分。例如,在處理由兩個(gè)部分組成的文本(如一對句子)時(shí),SEP 標(biāo)記會(huì)插入在這兩部分之間,以幫助模型識(shí)別和處理序列的分界。在多文檔或多句子的任務(wù)中,SEP 也可以用來分隔不同的文檔或句子。

? 編碼器-解碼器:MonoT5 (Nogueira et al., 2020) 和 RankT5 (Zhuang et al., 2023b) 等典型模型,將類似 “Query: query Document: document Relevant:” 的序列輸入到編碼器中。解碼器生成的“True”標(biāo)記的概率用作文本對的相關(guān)性分?jǐn)?shù)。

? 僅解碼器:僅解碼器模型,如 RankLLaMA(馬 et al.,2023a),在模型中輸入包含查詢和文檔對的提示。由于模型的單向注意力機(jī)制,僅解碼器模型使用最后一個(gè)標(biāo)記表示作為文本對相關(guān)性的基礎(chǔ)。我們的工作遵循逐點(diǎn)排名策略的路線 (Muennighoff, 2022),并通過兩階段訓(xùn)練實(shí)現(xiàn)了優(yōu)于當(dāng)前監(jiān)督排名方法的優(yōu)勢。

5.方法

我們首先提供了排名任務(wù)的正式定義,這是我們調(diào)查的核心。然后,我們提出了基于無監(jiān)督的 LLM 排名方法,它支撐了我們的研究方法。隨后,我們闡明了我們提出的兩階段訓(xùn)練范式,其中包括連續(xù)的預(yù)訓(xùn)練和監(jiān)督微調(diào) (SFT) 程序。

任務(wù)定義

排名任務(wù)是信息檢索中的一個(gè)核心問題,它需要按與給定查詢的相關(guān)性降序?qū)σ唤M候選文檔進(jìn)行排序。正式地,給定一個(gè)查詢 q 和一組候選文檔 D = {d1, . . . , dm},任務(wù)是計(jì)算 D 中每個(gè)文檔 di 的相關(guān)性分?jǐn)?shù) S(q, di)

無監(jiān)督基于大預(yù)言模型的排序策略

文件中提供的數(shù)學(xué)公式是用于計(jì)算查詢(query)和文檔(document)之間相關(guān)性的公式。以下是核心內(nèi)容的整理:

文檔條件提示(Document-Conditioned Prompt): P(d)=’Document: d Query:’這個(gè)表達(dá)式定義了文檔條件提示,即模型在處理文檔 d 時(shí)使用的提示格式。 相關(guān)性得分計(jì)算(Relevance Score Calculation): 公式說明:

公式 (1) 用于計(jì)算文檔和查詢對的文本排名相關(guān)性得分。它是通過考慮查詢中每個(gè)詞在給定文檔上下文條件下生成的概率來計(jì)算的。

這個(gè)公式是文本排名任務(wù)中的一個(gè)關(guān)鍵組成部分,特別是在利用大型語言模型進(jìn)行查詢-文檔相關(guān)性評估時(shí)。通過這種方式,可以量化文檔對用戶查詢的相關(guān)性,進(jìn)而對文檔進(jìn)行排序。

持續(xù)預(yù)訓(xùn)練

大型語言模型(LLM)通常是在大規(guī)模的文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練的,預(yù)訓(xùn)練的主要任務(wù)通常是下一個(gè)詞預(yù)測(Next-Word Prediction)或者掩碼語言建模(Masked Language Modeling)。這些任務(wù)雖然可以幫助模型學(xué)會(huì)生成流暢、連貫的文本,但它們并不直接涉及“查詢”和“文檔”之間的相關(guān)性。

查詢和文檔之間的相關(guān)性:在信息檢索或文本排序任務(wù)中,模型需要理解一個(gè)查詢(例如用戶輸入的搜索問題)和多個(gè)候選文檔(例如搜索結(jié)果)之間的關(guān)系,并判斷哪些文檔更相關(guān)、更符合查詢的需求。顯式信號(hào)的缺乏:在常規(guī)的預(yù)訓(xùn)練過程中,模型沒有專門的機(jī)制去學(xué)習(xí)這種相關(guān)性,因?yàn)轭A(yù)訓(xùn)練任務(wù)并沒有直接給模型提供“這段文檔與這個(gè)查詢相關(guān)或不相關(guān)”的明確信號(hào)。

為了彌補(bǔ)這個(gè)不足,研究者們在模型的訓(xùn)練過程中加入了一個(gè)額外的持續(xù)預(yù)訓(xùn)練階段。在這個(gè)階段中,模型被進(jìn)一步訓(xùn)練,使用的是包含明確“相關(guān)性”信息的文本數(shù)據(jù)。

文本相關(guān)性數(shù)據(jù):這類數(shù)據(jù)可能包括成對的文檔和查詢,其中標(biāo)注了文檔與查詢的相關(guān)性程度(如高相關(guān)、低相關(guān)、無關(guān)等)。通過這種數(shù)據(jù),模型可以學(xué)會(huì)識(shí)別和理解查詢與文檔之間的關(guān)系。更細(xì)致的理解:在持續(xù)預(yù)訓(xùn)練階段,模型不僅繼續(xù)學(xué)習(xí)生成文本的能力,還在這個(gè)過程中學(xué)會(huì)了如何更精確地判斷文檔和查詢的相關(guān)性。這樣,模型在處理實(shí)際的文本排序任務(wù)時(shí),就能夠更好地對文檔進(jìn)行排序,把最相關(guān)的內(nèi)容優(yōu)先展示出來。

弱監(jiān)督數(shù)據(jù)集

獲取大規(guī)模、高質(zhì)量的數(shù)據(jù)集用于排名任務(wù)仍然是一項(xiàng)艱巨的挑戰(zhàn)。盡管如此,在公共領(lǐng)域中仍有大量的文本相關(guān)性數(shù)據(jù)。從最近的研究中汲取靈感(Wang et al., 2022;Li et al., 2023),我們利用來自 Web 源的弱監(jiān)督文本對作為模型預(yù)訓(xùn)練的基礎(chǔ)。為了確保文本關(guān)系的多樣化表示,我們的文本對集合跨越多個(gè)領(lǐng)域,包括來自網(wǎng)頁的(標(biāo)題、正文)對、來自學(xué)術(shù)出版物的(標(biāo)題、摘要)對、來自超鏈接的(引文、參考)對、來自社交媒體平臺(tái)的(帖子、評論)線程、來自知識(shí)庫的(實(shí)體、描述)對、來自社區(qū)問答論壇的(問題、答案)對, 和 (summary, content) 對??偟膩碚f,我們的預(yù)訓(xùn)練語料庫包含大約 10 億個(gè)文本對。對于這些監(jiān)督較弱的數(shù)據(jù)源的選擇和管理,我們遵循之前工作中建立的方法(Li et al., 2023)(多階段對比學(xué)習(xí)框架,確保預(yù)訓(xùn)練中使用的文本對的多樣性和質(zhì)量。)

預(yù)訓(xùn)練

為了與 LLM 的基本預(yù)訓(xùn)練目標(biāo)保持一致,我們的方法對我們精心策劃的弱監(jiān)督文本對 (q, d) 實(shí)施next token prediction task。

受監(jiān)督微調(diào)

利用正負(fù)類文本對來提高模型query&document相關(guān)性方面性能

在這張圖中,各個(gè)字符和符號(hào)代表的含義如下:

SFT(Supervised Fine-Tuning): 這個(gè)符號(hào)表示監(jiān)督微調(diào)的過程,即在預(yù)訓(xùn)練模型的基礎(chǔ)上,通過有標(biāo)注的數(shù)據(jù)進(jìn)一步優(yōu)化模型,以提升其在特定任務(wù)上的性能。 PEFT(Parameter-Efficient Fine-Tuning): 這表示一種高效的參數(shù)微調(diào)方法,旨在通過減少微調(diào)時(shí)的參數(shù)量,來保持模型在預(yù)訓(xùn)練階段所學(xué)到的有益特性。 NTP(Next Token Prediction): 這個(gè)符號(hào)代表“下一個(gè)Token預(yù)測”任務(wù)。在這個(gè)過程中,模型基于輸入的正樣本文檔 (d^+) 生成一個(gè)相關(guān)的查詢 (q),以鞏固模型在預(yù)訓(xùn)練時(shí)對文檔和查詢關(guān)系的理解。 DP(Difference Penalty): 差異懲罰策略,表示通過比較預(yù)訓(xùn)練模型 ($ \pi_{\text{pred}} $) 和微調(diào)后模型 (

π

sft

\pi_{\text{sft}}

πsft? ) 的差異,并施加懲罰,來減少模型在微調(diào)過程中偏離原始預(yù)訓(xùn)練模型的程度。 π_raw、π_pred、π_sft:

π_raw 表示原始的預(yù)訓(xùn)練模型。π_pred 表示在連續(xù)預(yù)訓(xùn)練階段之后的模型。π_sft 表示經(jīng)過監(jiān)督微調(diào)之后的模型。

圖中展示了如何通過這三種策略(PEFT、NTP、DP)結(jié)合排名損失來微調(diào)模型,同時(shí)保持預(yù)訓(xùn)練的收益。

受監(jiān)督數(shù)據(jù)集

監(jiān)督訓(xùn)練數(shù)據(jù) 為了進(jìn)行微調(diào),我們利用了 MS MARCO 訓(xùn)練數(shù)據(jù)集 (Nguyen et al., 2016),包括 880 萬個(gè)文檔和 53,000 個(gè)肯定的查詢文檔對。我們使用 BGE 嵌入模型 (Xiao et al., 2023) 作為密集檢索器來檢索每個(gè)查詢的前 1000 個(gè)文檔。對于每個(gè)查詢,我們從檢索到的候選文檔中隨機(jī)選擇 m 個(gè)否定文檔來形成微調(diào)集。

微調(diào)

給定一個(gè)查詢 q 和相關(guān)的正負(fù)文檔列表D = {d +, d1- , . . . , dm-},模型區(qū)分正對和負(fù)對的能力通過排序損失機(jī)制(也稱為對比學(xué)習(xí))進(jìn)行提煉(Chen et al., 2020;Zhuang et al., 2023b)。排名損失公式化為:

這個(gè)公式是一個(gè)用于文本排序任務(wù)的排名損失函數(shù)(

L

r

a

n

k

(

q

,

D

)

Lrank(q,D)\mathcal{}

Lrank(q,D))。它的目的是通過比較查詢 q 和不同候選文檔 d 之間的相關(guān)性得分,來優(yōu)化模型的排序能力。下面是公式的詳細(xì)分析:

各部分含義:

s

c

o

r

e

(

q

,

d

)

score(q,d)\text{}

score(q,d): 這是模型給定查詢 qqq 和候選文檔 ddd 計(jì)算出的相關(guān)性得分。這個(gè)得分通常表示查詢和文檔之間匹配的強(qiáng)弱。

s

c

o

r

e

(

q

,

d

+

)

score(q,d+)\text{}

score(q,d+): 這里的 d+d^+d+ 代表正樣本文檔,即與查詢 qqq 實(shí)際相關(guān)的文檔。這個(gè)得分反映了模型對正確文檔的打分情況。

τ

τ

τ: 這是一個(gè)溫度參數(shù)(temperature parameter),用來控制模型輸出的平滑度。較小的 τ\tauτ 值會(huì)使得得分差異被放大,反之則被壓縮。

d

D

e

x

p

?

(

s

c

o

r

e

(

q

,

d

)

/

τ

)

∑_{d∈D}exp?(score(q,d)/τ)

∑d∈D?exp?(score(q,d)/τ): 這個(gè)部分表示所有候選文檔得分的指數(shù)和,用于歸一化,使得正樣本文檔 d+d^+d+ 的得分與其他所有候選文檔的得分進(jìn)行比較。

l

o

g

?

log?

log?: 對歸一化的得分取對數(shù),這是為了將損失函數(shù)轉(zhuǎn)化為更易優(yōu)化的形式,通常也是為了與交叉熵?fù)p失函數(shù)形式保持一致。

公式作用:

這個(gè)損失函數(shù)的目的是最大化正樣本文檔 d+的得分相對于所有候選文檔的得分。具體來說,它通過最小化損失來促使模型在正樣本文檔 d+ 上打出更高的分?jǐn)?shù),從而提高模型在排序任務(wù)中的性能。

這個(gè)公式與Softmax損失函數(shù)有相似之處,用于多類分類問題,在這里,它被用來衡量模型的排序能力。模型通過優(yōu)化該損失函數(shù),能夠更準(zhǔn)確地將相關(guān)文檔排在查詢結(jié)果的前列。

“知識(shí)遺忘”

在模型的訓(xùn)練過程中,利用排名損失函數(shù)

L

rank

{L}_{\text{rank}}

Lrank?可以有效地區(qū)分正樣本(與查詢相關(guān)的文檔)和負(fù)樣本(與查詢不相關(guān)的文檔),從而幫助模型更好地進(jìn)行排序。然而,模型的連續(xù)預(yù)訓(xùn)練目標(biāo)

L

pred

{L}_{\text{pred}}

Lpred?和排名損失函數(shù)

L

rank

{L}_{\text{rank}}

Lrank?之間的性質(zhì)存在不一致性。具體來說,

L

pred

{L}_{\text{pred}}

Lpred?可能是一種更加平滑或連續(xù)的目標(biāo),而

L

rank

{L}_{\text{rank}}

Lrank?更像是一種離散化的決策過程(如二元分類中的正負(fù)樣本區(qū)分)。這種不協(xié)調(diào)性可能會(huì)導(dǎo)致模型在微調(diào)過程中,只使用

L

rank

{L}_{\text{rank}}

Lrank? 時(shí),無法完全利用在預(yù)訓(xùn)練階段所積累的優(yōu)勢或知識(shí),從而削弱模型的整體性能。

簡單來說,這段話在強(qiáng)調(diào)在模型微調(diào)過程中,如果僅依賴于

L

rank

{L}_{\text{rank}}

Lrank? 進(jìn)行優(yōu)化,可能會(huì)因?yàn)榕c預(yù)訓(xùn)練目標(biāo)

L

pred

{L}_{\text{pred}}

Lpred? 的不一致,導(dǎo)致模型在微調(diào)時(shí)未能充分利用預(yù)訓(xùn)練階段的好處,最終影響排序效果。

不協(xié)調(diào)之處

不協(xié)調(diào)之處在于:

預(yù)訓(xùn)練目標(biāo)與微調(diào)目標(biāo)的差異:

預(yù)訓(xùn)練目標(biāo): Lpred\mathcal{L}_{\text{pred}}Lpred 的設(shè)計(jì)目標(biāo)是讓模型通過最大化生成下一個(gè)詞的概率來進(jìn)行學(xué)習(xí),即生成一個(gè)符合上下文的句子。這意味著,模型主要學(xué)習(xí)的是如何理解上下文并生成文本。微調(diào)目標(biāo): 排序任務(wù)的微調(diào)目標(biāo) Lrank\mathcal{L}_{\text{rank}}Lrank 則是要根據(jù)查詢和文檔的相關(guān)性來排序,這是一種離散的優(yōu)化目標(biāo)。模型在這個(gè)過程中更多的是學(xué)習(xí)如何區(qū)分文檔的相關(guān)性,而不是生成自然語言。 影響之處:

生成能力的削弱: 如果在微調(diào)時(shí)只使用 Lrank\mathcal{L}{\text{rank}}Lrank,模型可能會(huì)忽略之前通過 Lpred\mathcal{L}{\text{pred}}Lpred 學(xué)到的生成能力。這可能導(dǎo)致模型在排序任務(wù)中的表現(xiàn)下降,因?yàn)樗チ松刹樵兿嚓P(guān)內(nèi)容的能力。模型行為的變化: 預(yù)訓(xùn)練和微調(diào)目標(biāo)之間的差異可能會(huì)導(dǎo)致模型在微調(diào)過程中出現(xiàn)不一致的行為,即模型可能會(huì)偏離其在預(yù)訓(xùn)練階段積累的知識(shí),影響其整體表現(xiàn)。

總結(jié)

預(yù)訓(xùn)練階段的

L

pred

{L}_{\text{pred}}

Lpred? 強(qiáng)調(diào)生成語言的連續(xù)性,而微調(diào)階段的

L

rank

{L}_{\text{rank}}

Lrank? 強(qiáng)調(diào)文檔和查詢之間的離散排序相關(guān)性。這種不一致可能會(huì)影響模型在最終任務(wù)中的表現(xiàn),因此在設(shè)計(jì)微調(diào)策略時(shí),應(yīng)該考慮到這種不協(xié)調(diào)性,可能需要引入額外的約束或損失函數(shù)來平衡這兩者。

解決“知識(shí)遺忘”

詳見圖三

What does BERT learn about the structure of language?

6.實(shí)驗(yàn)

NDCG@10指標(biāo)

指標(biāo)和基準(zhǔn)

在我們的實(shí)驗(yàn)中,我們評估域內(nèi)和域外性能,并采用NDCG@10作為指標(biāo)。對于領(lǐng)域內(nèi)性能評估,我們使用廣泛認(rèn)可的MS MARCO開發(fā)集(Nguyen等人,2016),TREC 2019(Craswell等人,2020)和TREC 2020(Craswell等人,2021)作為基準(zhǔn)。為了檢查模型在不同檢索方法中的性能,我們采用了以 BM25 (Robertson 和 Zaragoza, 2009) 為代表的稀疏檢索方法,以及以 BGE 方法為代表的密集檢索方法 (Xiao et al., 2023),以生成候選文檔集。在域外評估的背景下,BEIR 基準(zhǔn)(Thakur et al., 2021)是我們分析的基石。BEIR 基準(zhǔn)測試涵蓋多個(gè)領(lǐng)域,例如金融和醫(yī)學(xué),并涵蓋多個(gè)檢索任務(wù),包括問答和事實(shí)核查。其廣泛的覆蓋范圍和嚴(yán)謹(jǐn)性使其成為衡量模型泛化能力的絕佳工具(Nogueira et al., 2020;Zhuang et al., 2023b)。對于在域外設(shè)置中檢索到的候選文檔的排名,我們使用 BM25 方法

超參數(shù)

為了驗(yàn)證我們方法的廣泛有效性,我們對不同類型和大小的 LLM 進(jìn)行了實(shí)驗(yàn):BLOOM (560M-7B) (Scao et al., 2022)、LLaMA-7B (Touvron et al., 2023b)、Qwen-7B (Bai et al., 2023) 和 Baichua-7B (Yang et al., 2023)。我們在多達(dá) 8 個(gè) NVIDIA A100 GPU 和 80GB 內(nèi)存上運(yùn)行模型訓(xùn)練。在持續(xù)的預(yù)訓(xùn)練期間,我們對 10 億個(gè)弱監(jiān)督文本對進(jìn)行了 1 個(gè) epoch 的訓(xùn)練。在 SFT 期間,我們在 MS MARCO 訓(xùn)練集上訓(xùn)練 1 個(gè)紀(jì)元。在方程 3 中,負(fù)例 m 的數(shù)量為 48,溫度參數(shù) τ 為 0.001。對于所有 LLM,我們統(tǒng)一微調(diào)前 16 個(gè) transformer 層

這兩個(gè)表格展示了不同模型在多種數(shù)據(jù)集上的文本排序表現(xiàn)。

表格 1: In-domain results of various models

描述: 這個(gè)表格展示了在域內(nèi)數(shù)據(jù)集(如MS MARCO、DL19和DL20)上,不同模型的排名表現(xiàn)。結(jié)果顯示了模型在稀疏檢索(Sparse Retrieval - BM25)和密集檢索(Dense Retrieval - BGE)任務(wù)中的得分。主要觀察:

RankingGPT(BLOOM 7B)在稠密檢索任務(wù)中表現(xiàn)最優(yōu),尤其在DL19和DL20數(shù)據(jù)集上分別達(dá)到了77.1和75.9的得分。Qwen 7B在多數(shù)數(shù)據(jù)集上表現(xiàn)相對較好,特別是MS MARCO數(shù)據(jù)集上的得分(48.0)。傳統(tǒng)的稀疏檢索方法(BM25)在各個(gè)數(shù)據(jù)集上的表現(xiàn)相對較差,特別是在DL20數(shù)據(jù)集(48.0)上。

表格 2: Out-domain results of 220M-3B models

描述: 這個(gè)表格展示了在域外數(shù)據(jù)集(如Arguana, Climate, DBPedia等)上,使用不同大小(220M-3B)的模型的排名表現(xiàn)。表格按方法列出,顯示了每種方法在多個(gè)數(shù)據(jù)集上的得分,以及模型在多少個(gè)數(shù)據(jù)集上表現(xiàn)最好。主要觀察:

RankingGPT(BLOOM 3B和1B)在多個(gè)數(shù)據(jù)集上都表現(xiàn)優(yōu)異,例如在Arguana、FEVER、HotpotQA和SciFact等數(shù)據(jù)集上取得了最高得分(55.6, 83.7, 74.6, 78.0)。MonoT5(3B)和RankT5(3B)在一些數(shù)據(jù)集上表現(xiàn)突出,例如RankT5在HotpotQA(75.0)和SciFact(77.7)上得分較高。表格中顯示,RankingGPT在5個(gè)數(shù)據(jù)集上表現(xiàn)最佳,這是所有方法中最多的,說明其在各種任務(wù)中具有較強(qiáng)的通用性。

結(jié)論

總體來看,RankingGPT在域內(nèi)和域外數(shù)據(jù)集上都表現(xiàn)出色,顯示出較高的泛化能力,尤其是在較大規(guī)模模型(如7B參數(shù)的BLOOM模型)中,能夠在密集檢索任務(wù)中超越其他模型。

表格中將檢索任務(wù)區(qū)分為稀疏檢索和密集檢索,是為了展示不同模型在不同類型的檢索任務(wù)中的表現(xiàn)。具體來說,這與模型的架構(gòu)、訓(xùn)練方式以及其在處理不同類型的數(shù)據(jù)和任務(wù)上的優(yōu)勢相關(guān)。

“域內(nèi)”和“域外”是指模型在不同數(shù)據(jù)分布或應(yīng)用場景下的表現(xiàn)。

域內(nèi)(In-domain)

定義: 域內(nèi)數(shù)據(jù)指的是模型在訓(xùn)練時(shí)使用的相同或非常相似的類型數(shù)據(jù)。例如,如果一個(gè)模型在新聞數(shù)據(jù)上訓(xùn)練,那么它在新聞數(shù)據(jù)集上進(jìn)行的評估就是“域內(nèi)”評估。表現(xiàn): 表格1展示了不同模型在“域內(nèi)”任務(wù)(如MS MARCO、DL19、DL20等數(shù)據(jù)集)中的表現(xiàn)。這些數(shù)據(jù)集中的數(shù)據(jù)類型與模型在訓(xùn)練時(shí)所用的數(shù)據(jù)類型較為一致,因此模型通常表現(xiàn)更好。

域外(Out-domain)

定義: 域外數(shù)據(jù)指的是與模型訓(xùn)練數(shù)據(jù)有顯著不同的數(shù)據(jù)。例如,一個(gè)模型可能在醫(yī)學(xué)文本數(shù)據(jù)上進(jìn)行訓(xùn)練,而在社交媒體數(shù)據(jù)上評估時(shí),這種評估就被稱為“域外”評估。表現(xiàn): 表格2顯示了不同模型在“域外”任務(wù)中的表現(xiàn)(如Arguana、Climate、DBPedia等數(shù)據(jù)集)。由于這些任務(wù)的數(shù)據(jù)類型與模型訓(xùn)練的數(shù)據(jù)有較大差異,模型在這些任務(wù)上的表現(xiàn)可能會(huì)不如“域內(nèi)”任務(wù),反映了模型的泛化能力。

總結(jié)

“域內(nèi)”和“域外”的區(qū)別在于數(shù)據(jù)類型與訓(xùn)練數(shù)據(jù)的相似程度。一般而言,模型在域內(nèi)數(shù)據(jù)上的表現(xiàn)優(yōu)于域外數(shù)據(jù),因?yàn)樗谟?xùn)練時(shí)已經(jīng)看過類似的例子。而域外數(shù)據(jù)的評估則更能反映模型的泛化能力,即它在看過的類型數(shù)據(jù)之外的表現(xiàn)如何。

檢索任務(wù)與模型的關(guān)系

模型特性與任務(wù)匹配:

稀疏檢索任務(wù)通常使用傳統(tǒng)方法(如BM25),基于詞頻和文檔頻率進(jìn)行計(jì)算,依賴于顯式詞匹配的特征。因此,這種任務(wù)更適合于那些專注于詞級別匹配的模型,如BM25和基于BERT的“MonoBERT”,這些模型通常能更好地在稀疏特征空間中表現(xiàn)。密集檢索任務(wù)使用深度學(xué)習(xí)模型(如BERT、T5等)將查詢和文檔映射到語義向量空間中,進(jìn)行語義匹配。這類任務(wù)適合那些能夠捕捉更深層語義信息的模型,如“RankingGPT”或者“RankT5”,這些模型能更好地理解語義關(guān)系,從而在密集特征空間中表現(xiàn)優(yōu)異。 任務(wù)性能差異:

在表格中,我們可以看到不同模型在不同任務(wù)(稀疏和密集檢索任務(wù))上的表現(xiàn)。例如,“MonoBERT”在稀疏檢索任務(wù)上表現(xiàn)較好,因?yàn)樗贐ERT模型,在處理詞級別匹配時(shí)具有優(yōu)勢。而“RankingGPT”或“RankT5”在密集檢索任務(wù)中表現(xiàn)更好,因?yàn)檫@些模型利用預(yù)訓(xùn)練的語義嵌入能力和復(fù)雜的語義匹配算法,能夠有效處理需要語義理解的檢索任務(wù)。 模型架構(gòu)的影響:

不同模型的架構(gòu)設(shè)計(jì)直接影響其在不同類型檢索任務(wù)上的效果。例如,"RankingGPT"利用GPT風(fēng)格的模型,擅長生成類任務(wù),能夠在處理語言生成和語義匹配的密集檢索任務(wù)中表現(xiàn)出色。另一方面,BM25是基于詞頻的模型,因此在處理依賴于詞級別特征的稀疏檢索任務(wù)時(shí)更有效。

結(jié)論

表格中的檢索任務(wù)區(qū)分有助于展示不同模型在特定檢索場景中的適用性和表現(xiàn)差異。模型的選擇應(yīng)根據(jù)任務(wù)的具體要求,如是依賴于詞匹配的稀疏任務(wù)還是依賴于語義理解的密集任務(wù),從而選擇最合適的模型來達(dá)到最佳效果。

稀疏檢索任務(wù)和密集檢索任務(wù)是信息檢索中的兩種主要方法,分別對應(yīng)不同的檢索機(jī)制和應(yīng)用場景:

稀疏檢索任務(wù) (Sparse Retrieval)***

定義: 稀疏檢索任務(wù)通?;诮?jīng)典的信息檢索模型,如BM25、TF-IDF等。這些方法依賴于文檔和查詢之間的顯式詞匹配,通常只考慮那些在文檔和查詢中直接出現(xiàn)的詞語。由于依賴直接的詞語匹配,這類方法在處理同義詞、語義相似度等情況下效果較弱。特點(diǎn):

依賴詞匯的精確匹配。索引時(shí)通常使用倒排索引(Inverted Index)。對于長尾查詢(稀有查詢)通常效果較好。計(jì)算復(fù)雜度相對較低,效率高。 應(yīng)用: 傳統(tǒng)的搜索引擎和信息檢索系統(tǒng),如早期的互聯(lián)網(wǎng)搜索引擎。

密集檢索任務(wù) (Dense Retrieval)

定義: 密集檢索任務(wù)利用深度學(xué)習(xí)模型(如BERT等)的嵌入向量將查詢和文檔映射到高維向量空間中,然后通過計(jì)算查詢和文檔向量的相似度來完成檢索。這種方法不依賴顯式的詞匯匹配,能夠更好地捕捉語義相似性。特點(diǎn):

依賴深度學(xué)習(xí)模型生成的語義向量表示。不僅關(guān)注詞匯的表面匹配,還能理解同義詞、語義相似等。檢索時(shí)通常需要通過向量空間中的近似最近鄰搜索(ANN)來實(shí)現(xiàn)。計(jì)算復(fù)雜度較高,通常需要較大的計(jì)算資源。 應(yīng)用: 現(xiàn)代的智能搜索引擎、問答系統(tǒng),以及需要捕捉更復(fù)雜語義關(guān)系的檢索任務(wù)。

總結(jié)

稀疏檢索適合處理需要快速返回結(jié)果、詞語直接匹配的查詢場景。密集檢索更適合需要理解語義、處理復(fù)雜查詢的場景,盡管計(jì)算成本更高,但可以更準(zhǔn)確地捕捉查詢與文檔之間的深層語義關(guān)系。

這兩個(gè)表格展示了不同模型在域外(Out-domain)和域內(nèi)(In-domain)場景下的性能表現(xiàn),以及對比了各種模型的消融實(shí)驗(yàn)結(jié)果。

表格 3:Out-domain Results of 7B Models

表格內(nèi)容:展示了幾種大規(guī)模語言模型(如RankLLAMA、RankingGPT)的排名任務(wù)性能。這些模型在不同的數(shù)據(jù)集(如Arguana、Climate、DBPedia等)上的表現(xiàn)被評估。表格顯示每種模型在各數(shù)據(jù)集上的表現(xiàn)分?jǐn)?shù),并總結(jié)了它們在所有數(shù)據(jù)集上的平均分?jǐn)?shù)。分析:

RankingGPT 在多個(gè)數(shù)據(jù)集上(如Arguana、Climate、DBPedia等)表現(xiàn)優(yōu)于其他模型。例如,RankingGPT在Arguana數(shù)據(jù)集上得分最高(56.8),而RankLLAMA在相同數(shù)據(jù)集上的表現(xiàn)較弱(47.0)??偲骄诛@示,RankingGPT的表現(xiàn)(58.3)優(yōu)于RankLLAMA(52.5)和其他模型,這表明其在域外場景中具有更好的泛化能力。

表格 4:Ablation Results of BLOOM-560m and 1B Models

表格內(nèi)容:展示了BLOOM-560m和1B模型在不同實(shí)驗(yàn)條件下的消融結(jié)果,包括沒有額外微調(diào)(Two-Stage Training without fine-tuning)、預(yù)訓(xùn)練增益保持機(jī)制(Pre-Training Gains Maintaining)和參數(shù)高效微調(diào)(Parameter-Efficient Fine-Tuning)。分析:

I. Two-Stage Training部分:顯示了未進(jìn)行額外微調(diào)時(shí)(w/o pre-train),模型的性能較差(如BLOOM-560m域外得分43.4)。II. Pre-Training Gains Maintaining部分:展示了在不同預(yù)訓(xùn)練增益保持策略下(如去掉PEFT、NTP或DP)模型的性能變化。使用全部策略的RankingGPT模型(

π

s

f

t

\pi_{sft}

πsft?)在域內(nèi)和域外都達(dá)到了較好的性能(分別是64.3和54.5)。III. Parameter-Efficient Fine-Tuning部分:使用LoRA的微調(diào)方法表現(xiàn)不如全部策略的RankingGPT模型。

總結(jié)

這些表格說明了RankingGPT在排名任務(wù)中相比其他模型具有較好的性能,尤其是在域外場景中表現(xiàn)突出。消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了使用特定的預(yù)訓(xùn)練增益保持策略和參數(shù)高效微調(diào)方法對模型性能的影響。

7.總結(jié)

總平均分顯示,RankingGPT的表現(xiàn)(58.3)優(yōu)于RankLLAMA(52.5)和其他模型,這表明其在域外場景中具有更好的泛化能力。

表格 4:Ablation Results of BLOOM-560m and 1B Models

表格內(nèi)容:展示了BLOOM-560m和1B模型在不同實(shí)驗(yàn)條件下的消融結(jié)果,包括沒有額外微調(diào)(Two-Stage Training without fine-tuning)、預(yù)訓(xùn)練增益保持機(jī)制(Pre-Training Gains Maintaining)和參數(shù)高效微調(diào)(Parameter-Efficient Fine-Tuning)。分析:

I. Two-Stage Training部分:顯示了未進(jìn)行額外微調(diào)時(shí)(w/o pre-train),模型的性能較差(如BLOOM-560m域外得分43.4)。II. Pre-Training Gains Maintaining部分:展示了在不同預(yù)訓(xùn)練增益保持策略下(如去掉PEFT、NTP或DP)模型的性能變化。使用全部策略的RankingGPT模型(

π

s

f

t

\pi_{sft}

πsft?)在域內(nèi)和域外都達(dá)到了較好的性能(分別是64.3和54.5)。III. Parameter-Efficient Fine-Tuning部分:使用LoRA的微調(diào)方法表現(xiàn)不如全部策略的RankingGPT模型。

總結(jié)

這些表格說明了RankingGPT在排名任務(wù)中相比其他模型具有較好的性能,尤其是在域外場景中表現(xiàn)突出。消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了使用特定的預(yù)訓(xùn)練增益保持策略和參數(shù)高效微調(diào)方法對模型性能的影響。

7.總結(jié)

在這項(xiàng)工作中,我們引入了一種新的兩階段訓(xùn)練方法,旨在調(diào)和大型語言模型 (LLM) 預(yù)訓(xùn)練范式與排名任務(wù)需求之間的錯(cuò)位。我們的方法從持續(xù)的預(yù)訓(xùn)練階段開始,在此期間,模型被明確指導(dǎo) querydocument 關(guān)系的復(fù)雜性。隨后,該策略采用監(jiān)督微調(diào) (SFT) 來重新校準(zhǔn)模型對文本相關(guān)性的關(guān)注,從而提高其區(qū)分正面和負(fù)面文本對的熟練程度。通過廣泛的實(shí)驗(yàn),我們證明了我們提出的方法不僅在域內(nèi)上下文中實(shí)現(xiàn)了排名性能的實(shí)質(zhì)性改進(jìn),而且在域外場景中也表現(xiàn)出了顯著的泛化能力。我們的研究結(jié)果強(qiáng)調(diào)了我們的兩階段訓(xùn)練策略的潛力,它是針對復(fù)雜排名任務(wù)的 LLM 優(yōu)化的重大進(jìn)步。

柚子快報(bào)邀請碼778899分享:RankingGPT論文筆記

http://yzkb.51969.com/

參考鏈接

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/19616255.html

發(fā)布評論

您暫未設(shè)置收款碼

請?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄