欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合正文

評論

柚子快報(bào)邀請碼778899分享：RankingGPT論文筆記

CasasBahia國際家居購綜合2025-08-25570

柚子快報(bào)邀請碼778899分享：RankingGPT論文筆記

http://yzkb.51969.com/

大模型應(yīng)用論文

1.基礎(chǔ)知識(shí)補(bǔ)充完善

1.1大語言模型

大型語言模型是深度學(xué)習(xí)的一個(gè)子集，可以預(yù)訓(xùn)練并進(jìn)行特定目的的微調(diào)。這些模型經(jīng)過訓(xùn)練，可以解決諸如文本分類、問題回答、文檔摘要、跨行業(yè)的文本生成等常見語言問題。然后，可以利用相對較小的領(lǐng)域數(shù)據(jù)集對這些模型進(jìn)行定制，以解決零售、金融、娛樂等不同領(lǐng)域的特定問題。

大型語言模型的三個(gè)主要特征是：大型、通用性和預(yù)訓(xùn)練微調(diào)。

"大型"既指訓(xùn)練數(shù)據(jù)集的巨大規(guī)模，也指參數(shù)的數(shù)量。

"通用性"意味著這些模型足夠解決常見問題。

"預(yù)訓(xùn)練和微調(diào)"是指用大型數(shù)據(jù)集對大型語言模型進(jìn)行一般性的預(yù)訓(xùn)練，然后用較小的數(shù)據(jù)集對其進(jìn)行特定目的的微調(diào)。

使用大型語言模型的好處包括：一種模型可用于不同的任務(wù)；微調(diào)大型語言模型需要的領(lǐng)域訓(xùn)練數(shù)據(jù)較少；隨著數(shù)據(jù)和參數(shù)的增加，大型語言模型的性能也在持續(xù)增長。

"Query-document"這個(gè)詞組在論文中通常指的是查詢（query）與文檔（document）之間的相關(guān)性匹配問題。在信息檢索領(lǐng)域，這個(gè)問題主要關(guān)注如何有效地評估一個(gè)給定查詢與一組文檔中每個(gè)文檔的相關(guān)性，并據(jù)此進(jìn)行排序或篩選 1。具體來說，相關(guān)性匹配可以基于全局的匹配信號(hào)，也可以基于局部的term級別的匹配信號(hào) 1。例如，Deep Relevance Matching Model (DRMM) 是一種基于全局匹配信號(hào)的方法，它通過創(chuàng)建匹配直方圖來捕捉查詢和文檔之間的相關(guān)性

1.2文本排序

文本排序是根據(jù)候選文檔與給定查詢的相關(guān)性對候選文檔進(jìn)行排序的任務(wù)。

使用大語言模型（LLM）進(jìn)行文本排序任務(wù)時(shí)，通常涉及到通過模型的語言理解能力來對文本進(jìn)行語義排序、情感排序或其他更復(fù)雜的排序任務(wù)。以下是一些使用LLM進(jìn)行文本排序的常見方法：

1. 語義排序

任務(wù)描述：將一組文本按照與某一特定主題或查詢的相關(guān)性進(jìn)行排序。實(shí)現(xiàn)方法：

文本嵌入：利用LLM生成文本的嵌入向量，將文本映射到高維空間中。相似度計(jì)算：計(jì)算每個(gè)文本與查詢文本之間的相似度（如余弦相似度），然后按相似度排序。排序結(jié)果：根據(jù)相似度對文本進(jìn)行排序，最相關(guān)的文本排在最前面。

2. 情感排序

任務(wù)描述：根據(jù)文本的情感強(qiáng)度或類型（正面、負(fù)面、中性等）進(jìn)行排序。實(shí)現(xiàn)方法：

情感分析：利用LLM進(jìn)行情感分析，獲取每個(gè)文本的情感得分。排序規(guī)則：根據(jù)情感得分進(jìn)行排序。例如，可以按正面情感強(qiáng)度從高到低排序，或者按負(fù)面情感強(qiáng)度從低到高排序。

3. 復(fù)雜排序任務(wù)

任務(wù)描述：結(jié)合多個(gè)因素（如語義、情感、文本長度等）進(jìn)行綜合排序。實(shí)現(xiàn)方法：

多維度特征提取：從文本中提取多個(gè)維度的特征，如語義相似度、情感得分、長度等。加權(quán)排序：根據(jù)各個(gè)維度的權(quán)重進(jìn)行綜合評分，然后根據(jù)綜合評分對文本排序。自定義模型：可以通過訓(xùn)練特定的模型，讓LLM對不同因素進(jìn)行權(quán)衡，實(shí)現(xiàn)自定義排序。

4.示例代碼

以下是一個(gè)簡單的示例，展示如何使用LLM進(jìn)行語義排序：

from transformers import pipeline

from sklearn.metrics.pairwise import cosine_similarity

import numpy as np

# 初始化一個(gè)文本嵌入模型（使用預(yù)訓(xùn)練的LLM）

embedder = pipeline('feature-extraction', model='bert-base-uncased')

# 輸入文本和查詢

texts = [

"The cat sits on the mat.",

"A quick brown fox jumps over the lazy dog.",

"Artificial intelligence is transforming the world."

]

query = "AI and machine learning"

# 生成文本嵌入

text_embeddings = np.array([np.mean(embedder(text), axis=1)[0] for text in texts])

query_embedding = np.mean(embedder(query), axis=1)[0]

# 計(jì)算相似度并排序

similarities = cosine_similarity([query_embedding], text_embeddings)[0]

sorted_indices = np.argsort(similarities)[::-1]

sorted_texts = [texts[i] for i in sorted_indices]

# 輸出排序結(jié)果

print("排序后的文本：")

for text in sorted_texts:

print(text)

5.適用場景

文檔檢索：根據(jù)查詢對大量文檔進(jìn)行排序，以返回最相關(guān)的結(jié)果。內(nèi)容推薦：根據(jù)用戶偏好或歷史記錄對內(nèi)容進(jìn)行排序，以提供個(gè)性化推薦。文本分類與分組：對文本進(jìn)行分類后按類別排序，或根據(jù)類別相關(guān)性排序。

通過上述方法，LLM可以幫助解決各種復(fù)雜的文本排序任務(wù)，并且能根據(jù)任務(wù)需求進(jìn)行靈活調(diào)整。

6.補(bǔ)充

候選文件通常由檢索器模塊從大規(guī)模語料庫中選擇。

域內(nèi)場景 (In-Domain):

在域內(nèi)場景中，查詢（query）和文檔（document）都來自同一個(gè)主題或領(lǐng)域。這種情況下，系統(tǒng)期望能夠準(zhǔn)確理解查詢的語義，并在相同主題的文檔中找到最相關(guān)的信息。例如，在電子商務(wù)產(chǎn)品搜索中，如果用戶搜索“紅色耐克跑鞋”，系統(tǒng)需要在跑鞋類產(chǎn)品中找到符合這一描述的相關(guān)商品。在這種情況下，相關(guān)性匹配模型可能會(huì)利用統(tǒng)計(jì)方法或深度學(xué)習(xí)方法來評估查詢和文檔之間的語義相似度，如DSSM模型或其變體CNN_DSSM模型，這些模型通過學(xué)習(xí)query和doc的表示來進(jìn)行匹配打分。

域外場景 (Out-of-Domain):

域外場景指的是查詢和文檔來自不同的領(lǐng)域或主題。在這種情況下，系統(tǒng)面臨的挑戰(zhàn)是如何在不同領(lǐng)域的文檔中找到與查詢相關(guān)的信息。例如，如果一個(gè)用戶在醫(yī)療領(lǐng)域的文檔庫中搜索關(guān)于“心臟病”的信息，但是輸入了一個(gè)與技術(shù)相關(guān)的查詢，如“服務(wù)器故障”，系統(tǒng)需要能夠識(shí)別出即使在醫(yī)療領(lǐng)域中也與“服務(wù)器”相關(guān)的文檔。這通常需要更高級的語義理解能力，可能需要使用更復(fù)雜的模型，如引入混合學(xué)習(xí)策略或遷移學(xué)習(xí)來增強(qiáng)模型對于不同領(lǐng)域文檔的適應(yīng)性 18。

2.論文粗讀（翻譯）

摘要(Abstract):

論文討論了文本排名在各種信息檢索應(yīng)用中的重要性，并指出了大型語言模型（LLMs）在自然語言處理中的成功激發(fā)了將其應(yīng)用于文本排名的興趣。作者指出，盡管已有方法顯示了潛力，但存在一個(gè)顯著的差異，即LLMs的訓(xùn)練目標(biāo)通常集中在下一個(gè)詞的預(yù)測上，而文本排名目標(biāo)是評估查詢-文檔的相關(guān)性。為了解決這一差距，作者提出了一種漸進(jìn)的多階段訓(xùn)練策略，通過弱監(jiān)督數(shù)據(jù)集和監(jiān)督訓(xùn)練來提升LLMs在文本排名任務(wù)中的潛力。

引言(Introduction):

文本排名任務(wù)是將候選文檔根據(jù)與給定查詢的相關(guān)性進(jìn)行排序。作者提到了預(yù)訓(xùn)練語言模型（PLMs）的出現(xiàn)，如BERT，以及大規(guī)模標(biāo)注數(shù)據(jù)集，例如MS MARCO，這些進(jìn)步顯著提高了文本排名模型的性能。此外，LLMs的出現(xiàn)，如LLaMA和GPT4，為自然語言處理帶來了范式轉(zhuǎn)變。

相關(guān)工作(Related Work):

論文回顧了文本排名的相關(guān)研究，包括點(diǎn)式(pointwise)、對式(pairwise)和列表式(listwise)的無監(jiān)督文本排名方法，以及基于PLMs的監(jiān)督文本排名模型。

方法(Method):

作者提出了一個(gè)兩階段的訓(xùn)練方法，包括弱監(jiān)督相關(guān)性預(yù)訓(xùn)練階段和監(jiān)督微調(diào)階段。在弱監(jiān)督階段，使用大規(guī)模的弱監(jiān)督文本對進(jìn)行連續(xù)預(yù)訓(xùn)練。在監(jiān)督微調(diào)階段，利用預(yù)訓(xùn)練的LLM和高質(zhì)量的監(jiān)督數(shù)據(jù)來進(jìn)一步提升模型的文本排名能力。

實(shí)驗(yàn)(Experiments):

論文進(jìn)行了一系列的實(shí)驗(yàn)來評估所提出方法的有效性。實(shí)驗(yàn)使用了不同的LLMs，包括BLOOM 560M-7B、LLaMA-7B、Baichuan7B和Qwen-7B，并在多個(gè)基準(zhǔn)測試中進(jìn)行了評估，包括MS MARCO、TREC 2019和TREC 2020等。

結(jié)論(Conclusion):

作者通過兩階段訓(xùn)練方法解決了LLMs預(yù)訓(xùn)練目標(biāo)與文本排名任務(wù)目標(biāo)之間的不一致性，并證明了該方法在領(lǐng)域內(nèi)和跨領(lǐng)域場景中的有效性。

3.論文圖表

figure 1

圖一：圖 1 在論文中提供了一個(gè)關(guān)于真實(shí)查詢（ground truth query）和由大型語言模型（LLM）生成的查詢（LLaMA-generated query）的比較示例。這個(gè)示例來自于 MS MARCO 數(shù)據(jù)集。

為什么要比較生成的查詢，而不是論文標(biāo)題所提出的文本排序結(jié)果？

查詢-文檔相關(guān)性：在文本排名任務(wù)中，系統(tǒng)需要理解查詢與文檔之間的相關(guān)性。如果一個(gè)LLM能夠生成與文檔內(nèi)容緊密相關(guān)的查詢，這表明它能夠更好地捕捉到文檔的關(guān)鍵信息，從而提高排名的準(zhǔn)確性。評估LLMs的理解能力：通過比較生成的查詢和真實(shí)查詢，研究者可以評估LLM對文檔內(nèi)容的理解程度。如果LLM能夠生成高質(zhì)量的查詢，這表明模型能夠理解并處理復(fù)雜的文本信息。優(yōu)化文本排名模型：論文中提出的漸進(jìn)式多階段訓(xùn)練策略（Progressive Two-Stage Training, PTST）旨在通過弱監(jiān)督預(yù)訓(xùn)練和監(jiān)督微調(diào)來優(yōu)化LLMs的文本排名能力。生成的查詢提供了一種方式來評估訓(xùn)練策略的效果。

為什么比較結(jié)果相較于Ground-Truth有明顯差距？

大型語言模型的訓(xùn)練是基于預(yù)測下一個(gè)詞的任務(wù)，這種訓(xùn)練方式與實(shí)際應(yīng)用中需要評估文本相關(guān)性的目標(biāo)不一致。雖然這些模型在生成以輸入文本為條件的連貫且與上下文相關(guān)的文本。方面表現(xiàn)很好，但在處理文本排序任務(wù)時(shí)，可能無法完全滿足實(shí)際需求。

因此LLM 生成的文本與語義相關(guān)的文本之間存在差異，與黃金參考具有明顯差別，生成的查詢通常包含有關(guān)文檔的不相關(guān)信息。

MS MARCO（Microsoft MAchine Reading COmprehension）

是微軟發(fā)布的一個(gè)大規(guī)模機(jī)器閱讀理解數(shù)據(jù)集和評測任務(wù)。它主要用于訓(xùn)練和評估自然語言處理（NLP）模型在問答、文本排序、和信息檢索等任務(wù)上的表現(xiàn)。MS MARCO 是自然語言處理領(lǐng)域的重要基準(zhǔn)之一，廣泛用于開發(fā)和評估新一代的問答系統(tǒng)和搜索引擎。

MS MARCO 的主要組成部分

問答數(shù)據(jù)集：

包含來自Bing搜索引擎的真實(shí)用戶查詢和相應(yīng)的回答。數(shù)據(jù)集由數(shù)百萬個(gè)問題及其對應(yīng)的相關(guān)文檔或段落構(gòu)成。目標(biāo)是讓模型能夠閱讀文檔內(nèi)容，并生成簡潔的答案。信息檢索任務(wù)（MS MARCO Passage Ranking）：

該任務(wù)要求模型根據(jù)查詢對一組文本段落（passages）進(jìn)行排序，目的是找到最相關(guān)的段落。數(shù)據(jù)集包含大量查詢與多個(gè)候選段落，每個(gè)段落都需要根據(jù)其與查詢的相關(guān)性進(jìn)行排序。文檔檢索任務(wù)（MS MARCO Document Ranking）：

類似于段落排序任務(wù)，但檢索對象從段落擴(kuò)展到了完整的文檔。目標(biāo)是從大量文檔中找出與查詢最相關(guān)的文檔并進(jìn)行排序。對話式問答：

這一部分?jǐn)?shù)據(jù)集針對多輪對話場景中的問答任務(wù)設(shè)計(jì)，模型需要理解上下文對話并提供連續(xù)性答案。

MS MARCO 的應(yīng)用

自然語言處理研究：MS MARCO 被廣泛應(yīng)用于訓(xùn)練和評估各種 NLP 模型，包括 BERT、RoBERTa、T5 等。搜索引擎優(yōu)化：許多搜索引擎和推薦系統(tǒng)使用 MS MARCO 數(shù)據(jù)集進(jìn)行模型訓(xùn)練，以提高搜索結(jié)果的相關(guān)性和用戶體驗(yàn)。問答系統(tǒng)開發(fā)：該數(shù)據(jù)集為開發(fā)更為精確和人性化的問答系統(tǒng)提供了一個(gè)強(qiáng)大的訓(xùn)練資源。

MS MARCO 的挑戰(zhàn)

大規(guī)模數(shù)據(jù)處理：由于數(shù)據(jù)集非常龐大，處理和訓(xùn)練需要強(qiáng)大的計(jì)算資源。復(fù)雜性：數(shù)據(jù)集中包含許多復(fù)雜的查詢，模型需要能夠理解上下文并從大量信息中提取相關(guān)內(nèi)容。評測標(biāo)準(zhǔn)：MS MARCO 使用各種標(biāo)準(zhǔn)（如 MRR, NDCG）來評估模型的排序和檢索性能。

MS MARCO 為NLP領(lǐng)域帶來了巨大的推動(dòng)力，特別是在問答系統(tǒng)和信息檢索方面，是當(dāng)前最重要的基準(zhǔn)數(shù)據(jù)集之一。

結(jié)論

依靠大型語言模型生成文本的概率來判斷文本與查詢的相關(guān)性，可能不能充分滿足文本排序任務(wù)的需求

figure2

這張圖展示了一個(gè)兩階段的訓(xùn)練流程，主要用于提升大型語言模型（LLM）在文本排序任務(wù)中的表現(xiàn)。以下是對圖中每個(gè)部分的詳細(xì)解釋：

Step 1: Continuous Pre-training

連續(xù)預(yù)訓(xùn)練階段：

輸入：模型接收多種形式的文本輸入，如文檔正文（Body）、答案（Answer）、評論（Comment）等。輸出：模型生成與輸入文本相關(guān)的標(biāo)題（Title）、問題（Question）、帖子（Post）等內(nèi)容。這些生成的內(nèi)容用于加強(qiáng)模型對文本理解和生成的能力。目的：通過對大量弱監(jiān)督數(shù)據(jù)進(jìn)行連續(xù)預(yù)訓(xùn)練，讓模型能夠生成與輸入文檔相關(guān)的查詢，從而在文本排序任務(wù)中打好基礎(chǔ)。

Step 2: Supervised Fine-tuning

監(jiān)督微調(diào)階段：

輸入：在這個(gè)階段，模型接收一個(gè)查詢（Query）和多個(gè)候選文檔作為輸入。這些候選文檔包括一個(gè)正樣本（(d+)）和若干個(gè)負(fù)樣本（(d_1-), (d_2^-), … , (d_m^-)）。輸出：模型的任務(wù)是根據(jù)輸入的查詢，確定哪個(gè)文檔最相關(guān)。圖中用對勾表示正樣本，叉號(hào)表示負(fù)樣本。通過對比學(xué)習(xí)（通常是對比學(xué)習(xí)損失），模型被訓(xùn)練為在對比多個(gè)文檔時(shí)能夠正確地將相關(guān)文檔排在前面。目的：微調(diào)階段的目標(biāo)是通過利用高質(zhì)量的監(jiān)督數(shù)據(jù)進(jìn)一步優(yōu)化模型，使其在排序任務(wù)中表現(xiàn)得更好，同時(shí)在生成能力上保持一致性。

Training Pipeline（訓(xùn)練管道）

pi_{raw}

piraw?,

pi_{pred}

pipred?,

pi_{sft}

pisft?：這些標(biāo)記表示模型在不同階段的狀態(tài)。

pi_{raw}

piraw? 表示原始預(yù)訓(xùn)練模型的狀態(tài)。

pi_{pred}

pipred? 表示經(jīng)過第一階段預(yù)訓(xùn)練后的模型狀態(tài)。**

pi_{sft}

pisft?**表示經(jīng)過第二階段監(jiān)督微調(diào)后的模型狀態(tài)。

整體流程

第一階段通過處理大量弱監(jiān)督數(shù)據(jù)，模型增強(qiáng)了生成與文檔相關(guān)的查詢的能力。第二階段利用高質(zhì)量的監(jiān)督數(shù)據(jù)，通過微調(diào)進(jìn)一步優(yōu)化模型的排序能力，使其能夠更準(zhǔn)確地從候選文檔中選出最相關(guān)的文檔。

總結(jié)來說，這張圖描述了一個(gè)逐步增強(qiáng)大型語言模型在文本排序任務(wù)中表現(xiàn)的訓(xùn)練流程，從連續(xù)預(yù)訓(xùn)練到監(jiān)督微調(diào)，目的是讓模型在理解和生成文本上更加精確和有效。

figure 3

在這張圖中，各個(gè)字符和符號(hào)代表的含義如下：

SFT（Supervised Fine-Tuning）：這個(gè)符號(hào)表示監(jiān)督微調(diào)的過程，即在預(yù)訓(xùn)練模型的基礎(chǔ)上，通過有標(biāo)注的數(shù)據(jù)進(jìn)一步優(yōu)化模型，以提升其在特定任務(wù)上的性能。 PEFT（Parameter-Efficient Fine-Tuning）：這表示一種高效的參數(shù)微調(diào)方法，旨在通過減少微調(diào)時(shí)的參數(shù)量，來保持模型在預(yù)訓(xùn)練階段所學(xué)到的有益特性。 NTP（Next Token Prediction）：這個(gè)符號(hào)代表“下一個(gè)Token預(yù)測”任務(wù)。在這個(gè)過程中，模型基于輸入的正樣本文檔 (d^+) 生成一個(gè)相關(guān)的查詢 (q)，以鞏固模型在預(yù)訓(xùn)練時(shí)對文檔和查詢關(guān)系的理解。 DP（Difference Penalty）：差異懲罰策略，表示通過比較預(yù)訓(xùn)練模型 ($ \pi_{\text{pred}} $) 和微調(diào)后模型 (

sft

\pi_{\text{sft}}

πsft? ) 的差異，并施加懲罰，來減少模型在微調(diào)過程中偏離原始預(yù)訓(xùn)練模型的程度。 π_raw、π_pred、π_sft：

π_raw 表示原始的預(yù)訓(xùn)練模型。π_pred 表示在連續(xù)預(yù)訓(xùn)練階段之后的模型。π_sft 表示經(jīng)過監(jiān)督微調(diào)之后的模型。

PEFT

通過凍結(jié)模型的大部分參數(shù)來限制微調(diào)模型與預(yù)訓(xùn)練參數(shù)的顯著差異，從而維持持續(xù)的預(yù)訓(xùn)練改進(jìn)。

根據(jù) 《What does BERT learn about the structure of language? 》表明，在多層 PLM 中，下層捕獲一般語義特征，而上層編碼特定于任務(wù)的信息，我們的方法只需要微調(diào)大型語言模型（LLM）的 top-k 轉(zhuǎn)換器層，而其他結(jié)構(gòu)保持不變。

NTP(next token prediction)

根據(jù)論文公式2，對正對（q，d+）進(jìn)行next token預(yù)測任務(wù)，并將其損失作為

{L}_{NTP}

LNTP?

DP(difference penalty)

差分懲罰（DP）：差分懲罰考慮了微調(diào)模型 πsft 和連續(xù)預(yù)訓(xùn)練模型 πpred 之間token-level概率分布的差異。通過最小化這種懲罰，微調(diào)過程被規(guī)范化，從而約束模型在適應(yīng)新的任務(wù)特定目標(biāo)的同時(shí)保持忠實(shí)于訓(xùn)練前的分布。此約束可以表述為：

這個(gè)公式表示了兩種模型狀態(tài)之間的差異度量。具體來說：

$\mathcal{L}{\text{DP}}(\pi{\text{pred}}, \pi_{\text{sft}}) $表示 “差異保持”（Difference Preservation）損失，它度量了連續(xù)預(yù)訓(xùn)練模型

sft

\pi_{\text{sft}}

πsft?之間的分布差異。這個(gè)損失函數(shù)的目標(biāo)是在保持模型在預(yù)訓(xùn)練階段獲得的能力的同時(shí)，盡可能減少模型微調(diào)后的變化。 (|T|) 表示文檔集合 (T) 的大小，(|V|) 表示詞匯表 (V) 的大小。 $p_{\text{pred}}^{j,k}

和

和 p_{\text{sft}}^{j,k}

分別表示模型

分別表示模型 \pi_{\text{pred}}

和

和\pi_{\text{sft}}$在詞匯表 (V) 中第 (k) 個(gè)詞對于第 (j) 個(gè)文檔的概率分布。

(

pred

sft

)

KL(p_{\text{pred}}^{j,k}, p_{\text{sft}}^{j,k})

KL(ppredj,k?,psftj,k?) 是 Kullback-Leibler 散度，用來度量兩個(gè)概率分布之間的差異。

通過這個(gè)損失函數(shù)，模型在微調(diào)時(shí)能夠盡量保持在預(yù)訓(xùn)練階段所學(xué)到的知識(shí)，而不會(huì)因?yàn)槲⒄{(diào)的目標(biāo)而導(dǎo)致顯著的能力喪失。

4.論文精讀

LLM 的出現(xiàn)，因其令人印象深刻的性能而帶來了自然語言處理的范式轉(zhuǎn)變。

先前方法：

prompting LLMs to perform unsupervised ranking using pointwise

pairwise

listwise

近來的嘗試：

train pointwise rankers in a supervised manner, leveraging LLMs（RankLLaMA）

區(qū)別：

有監(jiān)督無監(jiān)督

先前方法缺點(diǎn)：

大型語言模型在訓(xùn)練過程中是根據(jù)預(yù)測下一個(gè)詞來學(xué)習(xí)的，但這種訓(xùn)練目標(biāo)和實(shí)際應(yīng)用中對模型的期望之間存在很大的差距或不一致性。

創(chuàng)新點(diǎn)方法

為了解決LLM預(yù)訓(xùn)練任務(wù)（預(yù)測下一個(gè)詞）與文本排序任務(wù)（評估相關(guān)性）之間的不匹配，我們提出了一種漸進(jìn)式兩階段訓(xùn)練（PTST）方法。PTST由一個(gè)弱監(jiān)督相關(guān)性預(yù)訓(xùn)練階段和一個(gè)有監(jiān)督的微調(diào)階段****組成。在弱監(jiān)督相關(guān)性預(yù)訓(xùn)練階段，我們使用 Web 資源構(gòu)建了一個(gè)大規(guī)模的弱監(jiān)督文本對數(shù)據(jù)集*。然后，該數(shù)據(jù)集用于連續(xù)預(yù)訓(xùn)練，其中目標(biāo)與原始 LLM 預(yù)訓(xùn)練任務(wù)對齊。通過合并這些弱監(jiān)督文本對，模型自然可以生成與輸入文檔相關(guān)的查詢。此階段為后續(xù)微調(diào)奠定了基礎(chǔ)

問題1原文提到經(jīng)過第一階段的預(yù)訓(xùn)練之后，模型便可以輸出相應(yīng)的查詢，為什么？***

弱監(jiān)督數(shù)據(jù)的構(gòu)建：

在這個(gè)階段，使用網(wǎng)絡(luò)資源構(gòu)建了一個(gè)大規(guī)模的弱監(jiān)督文本對數(shù)據(jù)集。弱監(jiān)督意味著這些數(shù)據(jù)對并不是完全手動(dòng)標(biāo)注的，而是通過一些自動(dòng)化的方法（如基于規(guī)則或簡單的模型）生成的。這些文本對通常由一個(gè)文檔和一個(gè)與之相關(guān)的文本（如查詢或標(biāo)題）組成。這樣使得該預(yù)訓(xùn)練任務(wù)與LLM的原始預(yù)訓(xùn)練任務(wù)（預(yù)測下一個(gè)詞）保持一致，這樣模型可以在已經(jīng)熟悉的任務(wù)框架內(nèi)繼續(xù)學(xué)習(xí)。這種持續(xù)的學(xué)習(xí)能夠讓模型更好地捕捉到文本之間的相關(guān)性。通過這種方式，模型在進(jìn)入第二階段的監(jiān)督微調(diào)之前，已經(jīng)具備了生成相關(guān)查詢的基本能力，從而使后續(xù)的微調(diào)更加有效。

預(yù)訓(xùn)練目標(biāo)為何一致

數(shù)據(jù)集是文本對形式，例如：

網(wǎng)頁，正文 -> 標(biāo)題學(xué)術(shù)出版物，摘要 -> 標(biāo)題社區(qū)論壇，評論 -> 帖子標(biāo)題知識(shí)問答，答案 -> 問題

這里與經(jīng)典的LLM的next token prediction的預(yù)訓(xùn)練目標(biāo)還是有顯著差異的，數(shù)據(jù)集有點(diǎn)像是反著構(gòu)造的，

思想類似于根據(jù)Document生成主題或者標(biāo)題以及提問,通過教會(huì)大模型提取文章主題的預(yù)訓(xùn)練能力，使大模型輸出的最大概率的query與真實(shí)query更接近。

原始預(yù)訓(xùn)練目標(biāo)通常是通過預(yù)測下一個(gè)詞來學(xué)習(xí)文本生成和理解能力。在弱監(jiān)督相關(guān)性預(yù)訓(xùn)練階段，雖然引入了弱監(jiān)督的數(shù)據(jù)集（文檔與相關(guān)查詢對），但模型仍然是在一個(gè)類似的框架內(nèi)工作——它依然是在基于上下文生成后續(xù)文本（例如，生成與輸入文檔相關(guān)的查詢或其他文本）。

示例流程

假設(shè)你有一篇文檔和一組用戶查詢：

文檔：一篇關(guān)于“氣候變化影響”的文章。查詢：從搜索引擎中收集的一些相關(guān)查詢，如“氣候變化對農(nóng)業(yè)的影響”、“全球變暖導(dǎo)致的海平面上升”等。

生成文本對：

文檔內(nèi)容與這些查詢配對，生成弱監(jiān)督的文本對。

合并與訓(xùn)練：

將這些文本對輸入模型，模型在文檔內(nèi)容的基礎(chǔ)上學(xué)習(xí)生成這些查詢，從而在預(yù)訓(xùn)練階段強(qiáng)化模型對相關(guān)性和查詢生成的理解。

損失思路

嘗試引入基于對比學(xué)習(xí)的優(yōu)化目標(biāo)，但是僅選擇對比學(xué)習(xí)作為優(yōu)化目標(biāo)的話，會(huì)導(dǎo)致微調(diào)后的模型與基礎(chǔ)模型偏離較大，尤其在于生成能力上的偏離，會(huì)影響模型的生成能力，可能會(huì)顯著降低模型在文本排序任務(wù)中的表現(xiàn)，因此通過額外的損失函數(shù)和參數(shù)凍結(jié)策略來防止模型的生成能力下降，從而平衡模型的排序性能和生成能力。

相關(guān)工作

1.文本排序

文本排名是文本檢索領(lǐng)域中的關(guān)鍵子任務(wù)，其重點(diǎn)是從大量可用文本中識(shí)別和檢索與查詢相關(guān)的文檔。通常，文本檢索是通過兩個(gè)階段的過程執(zhí)行的，包括檢索和排名（Nogueira 和 Cho，2019 年）。最初，檢索器負(fù)責(zé)從整個(gè)文檔語料庫中召回前 k 個(gè)相關(guān)候選者，以響應(yīng)給定的查詢。隨后，使用排名程序?qū)@些候選文檔進(jìn)行排序和優(yōu)先級排序。

LLM的出現(xiàn)顯著提高了排名模型的性能（Nogueira 和 Cho，2019 年;Han et al.， 2020;Zhang et al.， 2022）。

2.使用 PLM 進(jìn)行無監(jiān)督文本排序

根據(jù)計(jì)算粒度，無監(jiān)督文本排名方法可以分為逐點(diǎn)、成對和按列表方法。

? 逐點(diǎn)：逐點(diǎn)方法根據(jù)查詢文檔相關(guān)性分?jǐn)?shù)對候選文檔進(jìn)行排名。計(jì)算相關(guān)性有兩種策略： 1. 將查詢-文檔對輸入模型以直接計(jì)算相關(guān)性分?jǐn)?shù)（Liang et al.， 2022;Zhuang et al.， 2023a）。2. 使用基于文檔生成查詢的可能性作為相關(guān)性（Muennighoff，2022 年;Sachan et al.， 2022）。逐點(diǎn)方法對小規(guī)模模型仍然有效，例如 GPT-125M （Muennighoff， 2022）。然而，在某些 LLM 上，效果可能不如成對和按列表方法好（Qin et al.， 2023）。? 成對：成對方法每次確定兩個(gè)文檔的相關(guān)性順序，并遍歷所有文檔對以對候選文檔進(jìn)行排序（Qin et al.， 2023）。這種方法已被證明比逐點(diǎn)和按列表方法更有效，但它效率低下（Sun et al.， 2023a）。? 列表：列表方法立即對文檔列表進(jìn)行排序（Sun et al.， 2023b;馬 et al.， 2023b）。這種策略非常有效，但僅對一些強(qiáng)大的 LLM 有效，例如 ChatGPT 和 GPT4，并且嚴(yán)重依賴復(fù)雜的提示工程（Qin 等人，2023 年;Sun等人，2023a）。

使用基于文檔生成查詢的可能性作為相關(guān)性

使用“基于文檔生成查詢的可能性作為相關(guān)性”是一種在信息檢索或文本排序任務(wù)中評估文檔與查詢相關(guān)性的方法。這種方法基于一個(gè)假設(shè)：如果一個(gè)文檔能夠以較高的可能性生成一個(gè)特定的查詢，那么這個(gè)文檔與該查詢之間的相關(guān)性就較高。

基本原理

這種方法的核心思想是將文檔視為查詢生成的條件，并使用語言模型來計(jì)算給定文檔生成查詢的概率。更具體地說：

文檔作為條件：

假設(shè)有一個(gè)文檔 D 和一個(gè)查詢 Q，我們想要評估文檔 D 與查詢 Q 的相關(guān)性。我們假設(shè)一個(gè)模型能夠根據(jù)文檔 D 生成查詢 Q，并且通過計(jì)算這種生成的概率 P(Q∣D) 來衡量相關(guān)性。生成概率計(jì)算：相關(guān)性評估：

如果 P(Q∣D)的概率較高，意味著在模型看來，文檔 D 能夠“自然”地生成查詢 Q，這表明文檔 D 很可能與查詢 Q 相關(guān)。相反，如果 P(Q∣D)的概率較低，表明文檔 D 與查詢 Q 的相關(guān)性較低。

3.成對法

“成對方法”（Pairwise Method）是一種用于排序任務(wù)的技術(shù)，尤其在信息檢索和機(jī)器學(xué)習(xí)中，用于確定候選文檔或項(xiàng)的優(yōu)先級。以下是對這一方法的解釋：

成對方法的基本原理

成對方法的核心思想是通過比較成對的文檔（或項(xiàng)）來確定它們的相對順序。具體步驟如下：

成對比較：

對于給定的查詢（或輸入），成對方法將候選文檔兩兩組合成一對（稱為“文檔對”）。對于每一對文檔，模型判斷哪個(gè)文檔更符合查詢的相關(guān)性要求，或者哪個(gè)文檔應(yīng)該排在另一個(gè)文檔之前。確定順序：

在每次比較中，模型輸出一個(gè)結(jié)果，表示哪一個(gè)文檔在這對文檔中應(yīng)該排在前面。這種比較可以通過模型預(yù)測（如二分類器）來實(shí)現(xiàn)，即判斷文檔A是否應(yīng)在文檔B之前。遍歷所有文檔對：

成對方法會(huì)遍歷查詢下的所有文檔對，逐一進(jìn)行比較。通過所有文檔對的比較結(jié)果，模型能夠綜合確定所有候選文檔的最終排序。

示例

假設(shè)有一個(gè)查詢和三個(gè)候選文檔：文檔A、文檔B和文檔C。成對方法會(huì)進(jìn)行以下比較：

比較文檔A和文檔B，確定它們之間的優(yōu)先級。比較文檔B和文檔C，確定它們之間的優(yōu)先級。比較文檔A和文檔C，確定它們之間的優(yōu)先級。

通過這些成對比較，成對方法可以決定文檔A、B、C的最終順序。例如，如果結(jié)果顯示A > B，B > C，那么最終排序可能是A > B > C。

應(yīng)用與優(yōu)勢

信息檢索：在搜索引擎中，成對方法可以用于根據(jù)用戶查詢對搜索結(jié)果進(jìn)行排序，確保最相關(guān)的文檔排在前面。機(jī)器學(xué)習(xí)：成對方法也用于學(xué)習(xí)排序函數(shù)，例如在學(xué)習(xí)到排序（Learning to Rank）任務(wù)中。

優(yōu)勢

靈活性：成對方法不依賴絕對的相關(guān)性評分，而是通過相對比較來決定順序，這使得它在處理不同類型的排序問題時(shí)更為靈活。精確性：通過成對比較，可以捕捉更精細(xì)的排序信息，特別是在候選項(xiàng)數(shù)量較少的情況下。

局限性

計(jì)算復(fù)雜度：成對比較需要遍歷所有文檔對，對于大量候選文檔，計(jì)算成本較高，因?yàn)槲臋n對的數(shù)量是文檔數(shù)量的平方級別。不適用于極大規(guī)模數(shù)據(jù)集：在極大規(guī)模數(shù)據(jù)集中，成對方法的計(jì)算量可能過大，導(dǎo)致效率問題。

總結(jié)來說，成對方法是一種通過兩兩比較候選文檔來確定排序的技術(shù)，具有靈活和精確的特點(diǎn)，但在處理大量候選項(xiàng)時(shí)計(jì)算復(fù)雜度較高。

4.列表法

文本排序中的“列表方法”（Listwise Method）是一種排序算法，與成對方法（Pairwise Method）不同，它直接處理整個(gè)文檔列表或查詢結(jié)果集，而不是逐對比較文檔。列表方法在機(jī)器學(xué)習(xí)和信息檢索領(lǐng)域廣泛應(yīng)用，尤其是在學(xué)習(xí)到排序（Learning to Rank）任務(wù)中。以下是對列表方法的詳細(xì)介紹：

列表方法的基本概念

整體排序優(yōu)化：

列表方法通過優(yōu)化整個(gè)文檔列表的排序效果來直接提高排序質(zhì)量。它的目標(biāo)是找到使得整個(gè)文檔列表最符合查詢需求的排序方式。直接處理排序列表：

與成對方法不同，列表方法直接對所有候選文檔進(jìn)行評分，并根據(jù)這些評分生成一個(gè)完整的排序列表。這種方法更加注重全局最優(yōu)，而不是局部比較。損失函數(shù)設(shè)計(jì)：

列表方法通常使用一種特殊的損失函數(shù)，該函數(shù)直接定義在整個(gè)列表上，而不是單個(gè)文檔或文檔對上。損失函數(shù)反映了排序列表與理想排序之間的偏差，通過最小化這種偏差來優(yōu)化模型。常見的列表方法損失函數(shù)包括NDCG（Normalized Discounted Cumulative Gain）和MAP（Mean Average Precision）等。

列表方法的特點(diǎn)

全局視角：

列表方法考慮了排序問題的全局性，優(yōu)化的目標(biāo)是整個(gè)文檔列表的排序質(zhì)量，而非單一文檔或文檔對的順序。這種方法可以避免局部最優(yōu)，直接提升整體排序效果。適合復(fù)雜排序任務(wù)：

在一些需要考慮多個(gè)相關(guān)因素或復(fù)雜約束的排序任務(wù)中，列表方法往往表現(xiàn)更好。因?yàn)樗梢栽谌謱用嫔掀胶獠煌臋n的得分和排序順序。模型復(fù)雜度：

列表方法通常涉及更復(fù)雜的模型訓(xùn)練和損失計(jì)算，因此在實(shí)現(xiàn)上可能比成對方法和逐點(diǎn)方法（Pointwise Method）更復(fù)雜。但是它往往能夠提供更好的性能，尤其是在處理大型數(shù)據(jù)集或高維特征空間時(shí)。

常見的列表方法

ListNet：

ListNet是一種基于概率的列表方法，它將排序問題轉(zhuǎn)化為對整個(gè)文檔列表進(jìn)行概率分布建模，并通過最大化生成排序的概率來優(yōu)化模型。 ListMLE：

ListMLE通過最大似然估計(jì)（Maximum Likelihood Estimation）的方式優(yōu)化整個(gè)列表的排序。它定義了一個(gè)排序概率分布，并通過最大化正確排序的概率來訓(xùn)練模型。 RankNet (NDCG-based)：

RankNet可以擴(kuò)展為列表方法，尤其是在優(yōu)化NDCG損失時(shí)，通過直接優(yōu)化整個(gè)排序列表的NDCG分?jǐn)?shù)來訓(xùn)練模型。

應(yīng)用場景

搜索引擎：列表方法常用于搜索引擎結(jié)果排序，通過優(yōu)化整體的搜索結(jié)果來提升用戶體驗(yàn)。推薦系統(tǒng)：在推薦系統(tǒng)中，列表方法用于排序推薦結(jié)果，使得用戶最感興趣的內(nèi)容出現(xiàn)在列表前端。廣告排序：在線廣告排序中，列表方法能夠考慮多個(gè)廣告的相關(guān)性和點(diǎn)擊率，優(yōu)化整個(gè)廣告展示列表的效果。

優(yōu)勢與局限性

優(yōu)勢：

提供全局最優(yōu)的排序，通常在排序任務(wù)中能取得更好的效果。適合處理復(fù)雜排序問題，尤其是在多目標(biāo)優(yōu)化中表現(xiàn)出色。局限性：

計(jì)算復(fù)雜度較高，尤其是在大型數(shù)據(jù)集上，訓(xùn)練時(shí)間可能較長。實(shí)現(xiàn)上比逐點(diǎn)和成對方法更復(fù)雜，需要更深入的優(yōu)化和調(diào)試。

總結(jié)來說，列表方法是一種直接優(yōu)化整個(gè)文檔列表排序的算法，它通過全局視角來提高排序質(zhì)量，適合復(fù)雜的排序任務(wù)和大規(guī)模應(yīng)用場景。

5.有監(jiān)督的plm文本排序

基于 PLM 的監(jiān)督排名模型已經(jīng)實(shí)現(xiàn)了最先進(jìn)的（SoTA）性能（Lin et al.， 2021）。這些方法可以根據(jù)其語言模型結(jié)構(gòu)進(jìn)行分類：

? 僅編碼器：像 monoBERT 這樣的模型將查詢和文檔轉(zhuǎn)換為一個(gè)序列，例如 “[CLS] 查詢 [SEP] 文檔 [SEP]”用于模型輸入（Nogueira et al.， 2019）。然后將模型生成的 [CLS] 表示形式饋送到線性層中以計(jì)算相關(guān)性分?jǐn)?shù)。在自然語言處理（NLP）和文本處理中，CLS 和 SEP 是兩種特殊的標(biāo)記，通常與BERT（Bidirectional Encoder Representations from Transformers）和其他基于Transformer的預(yù)訓(xùn)練語言模型一起使用。下面是它們各自的含義和用途：

CLS (Classification):

CLS 標(biāo)記通常用于模型的輸入序列的開始位置。在BERT模型中，這個(gè)標(biāo)記對應(yīng)的嵌入向量（embedding vector）會(huì)在模型的最后一層被取出，用于分類任務(wù)，如情感分析或文本分類。經(jīng)過訓(xùn)練后，這個(gè)向量捕捉了整個(gè)輸入序列的全局信息，因此可以用來表示整個(gè)序列的特征。 SEP (Separator):

SEP 標(biāo)記用于分隔輸入序列中的不同部分。例如，在處理由兩個(gè)部分組成的文本（如一對句子）時(shí)，SEP 標(biāo)記會(huì)插入在這兩部分之間，以幫助模型識(shí)別和處理序列的分界。在多文檔或多句子的任務(wù)中，SEP 也可以用來分隔不同的文檔或句子。

? 編碼器-解碼器：MonoT5 （Nogueira et al.， 2020）和 RankT5 （Zhuang et al.， 2023b）等典型模型，將類似 “Query： query Document： document Relevant：” 的序列輸入到編碼器中。解碼器生成的“True”標(biāo)記的概率用作文本對的相關(guān)性分?jǐn)?shù)。

? 僅解碼器：僅解碼器模型，如 RankLLaMA（馬 et al.，2023a），在模型中輸入包含查詢和文檔對的提示。由于模型的單向注意力機(jī)制，僅解碼器模型使用最后一個(gè)標(biāo)記表示作為文本對相關(guān)性的基礎(chǔ)。我們的工作遵循逐點(diǎn)排名策略的路線（Muennighoff， 2022），并通過兩階段訓(xùn)練實(shí)現(xiàn)了優(yōu)于當(dāng)前監(jiān)督排名方法的優(yōu)勢。

5.方法

我們首先提供了排名任務(wù)的正式定義，這是我們調(diào)查的核心。然后，我們提出了基于無監(jiān)督的 LLM 排名方法，它支撐了我們的研究方法。隨后，我們闡明了我們提出的兩階段訓(xùn)練范式，其中包括連續(xù)的預(yù)訓(xùn)練和監(jiān)督微調(diào) （SFT）程序。

任務(wù)定義

排名任務(wù)是信息檢索中的一個(gè)核心問題，它需要按與給定查詢的相關(guān)性降序?qū)σ唤M候選文檔進(jìn)行排序。正式地，給定一個(gè)查詢 q 和一組候選文檔 D = {d1， . . . ， dm}，任務(wù)是計(jì)算 D 中每個(gè)文檔 di 的相關(guān)性分?jǐn)?shù) S（q， di）

無監(jiān)督基于大預(yù)言模型的排序策略

文件中提供的數(shù)學(xué)公式是用于計(jì)算查詢（query）和文檔（document）之間相關(guān)性的公式。以下是核心內(nèi)容的整理：

文檔條件提示（Document-Conditioned Prompt）： P(d)=’Document: d Query:’這個(gè)表達(dá)式定義了文檔條件提示，即模型在處理文檔 d 時(shí)使用的提示格式。相關(guān)性得分計(jì)算（Relevance Score Calculation）：公式說明：

公式 (1) 用于計(jì)算文檔和查詢對的文本排名相關(guān)性得分。它是通過考慮查詢中每個(gè)詞在給定文檔上下文條件下生成的概率來計(jì)算的。

這個(gè)公式是文本排名任務(wù)中的一個(gè)關(guān)鍵組成部分，特別是在利用大型語言模型進(jìn)行查詢-文檔相關(guān)性評估時(shí)。通過這種方式，可以量化文檔對用戶查詢的相關(guān)性，進(jìn)而對文檔進(jìn)行排序。

持續(xù)預(yù)訓(xùn)練

大型語言模型（LLM）通常是在大規(guī)模的文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練的，預(yù)訓(xùn)練的主要任務(wù)通常是下一個(gè)詞預(yù)測（Next-Word Prediction）或者掩碼語言建模（Masked Language Modeling）。這些任務(wù)雖然可以幫助模型學(xué)會(huì)生成流暢、連貫的文本，但它們并不直接涉及“查詢”和“文檔”之間的相關(guān)性。

查詢和文檔之間的相關(guān)性：在信息檢索或文本排序任務(wù)中，模型需要理解一個(gè)查詢（例如用戶輸入的搜索問題）和多個(gè)候選文檔（例如搜索結(jié)果）之間的關(guān)系，并判斷哪些文檔更相關(guān)、更符合查詢的需求。顯式信號(hào)的缺乏：在常規(guī)的預(yù)訓(xùn)練過程中，模型沒有專門的機(jī)制去學(xué)習(xí)這種相關(guān)性，因?yàn)轭A(yù)訓(xùn)練任務(wù)并沒有直接給模型提供“這段文檔與這個(gè)查詢相關(guān)或不相關(guān)”的明確信號(hào)。

為了彌補(bǔ)這個(gè)不足，研究者們在模型的訓(xùn)練過程中加入了一個(gè)額外的持續(xù)預(yù)訓(xùn)練階段。在這個(gè)階段中，模型被進(jìn)一步訓(xùn)練，使用的是包含明確“相關(guān)性”信息的文本數(shù)據(jù)。

文本相關(guān)性數(shù)據(jù)：這類數(shù)據(jù)可能包括成對的文檔和查詢，其中標(biāo)注了文檔與查詢的相關(guān)性程度（如高相關(guān)、低相關(guān)、無關(guān)等）。通過這種數(shù)據(jù)，模型可以學(xué)會(huì)識(shí)別和理解查詢與文檔之間的關(guān)系。更細(xì)致的理解：在持續(xù)預(yù)訓(xùn)練階段，模型不僅繼續(xù)學(xué)習(xí)生成文本的能力，還在這個(gè)過程中學(xué)會(huì)了如何更精確地判斷文檔和查詢的相關(guān)性。這樣，模型在處理實(shí)際的文本排序任務(wù)時(shí)，就能夠更好地對文檔進(jìn)行排序，把最相關(guān)的內(nèi)容優(yōu)先展示出來。

弱監(jiān)督數(shù)據(jù)集

獲取大規(guī)模、高質(zhì)量的數(shù)據(jù)集用于排名任務(wù)仍然是一項(xiàng)艱巨的挑戰(zhàn)。盡管如此，在公共領(lǐng)域中仍有大量的文本相關(guān)性數(shù)據(jù)。從最近的研究中汲取靈感（Wang et al.， 2022;Li et al.， 2023），我們利用來自 Web 源的弱監(jiān)督文本對作為模型預(yù)訓(xùn)練的基礎(chǔ)。為了確保文本關(guān)系的多樣化表示，我們的文本對集合跨越多個(gè)領(lǐng)域，包括來自網(wǎng)頁的（標(biāo)題、正文）對、來自學(xué)術(shù)出版物的（標(biāo)題、摘要）對、來自超鏈接的（引文、參考）對、來自社交媒體平臺(tái)的（帖子、評論）線程、來自知識(shí)庫的（實(shí)體、描述）對、來自社區(qū)問答論壇的（問題、答案）對，和（summary， content）對?？偟膩碚f，我們的預(yù)訓(xùn)練語料庫包含大約 10 億個(gè)文本對。對于這些監(jiān)督較弱的數(shù)據(jù)源的選擇和管理，我們遵循之前工作中建立的方法（Li et al.， 2023）（多階段對比學(xué)習(xí)框架，確保預(yù)訓(xùn)練中使用的文本對的多樣性和質(zhì)量。）

預(yù)訓(xùn)練

為了與 LLM 的基本預(yù)訓(xùn)練目標(biāo)保持一致，我們的方法對我們精心策劃的弱監(jiān)督文本對（q， d）實(shí)施next token prediction task。

受監(jiān)督微調(diào)

利用正負(fù)類文本對來提高模型query&document相關(guān)性方面性能

在這張圖中，各個(gè)字符和符號(hào)代表的含義如下：

sft

\pi_{\text{sft}}

πsft? ) 的差異，并施加懲罰，來減少模型在微調(diào)過程中偏離原始預(yù)訓(xùn)練模型的程度。 π_raw、π_pred、π_sft：

π_raw 表示原始的預(yù)訓(xùn)練模型。π_pred 表示在連續(xù)預(yù)訓(xùn)練階段之后的模型。π_sft 表示經(jīng)過監(jiān)督微調(diào)之后的模型。

圖中展示了如何通過這三種策略（PEFT、NTP、DP）結(jié)合排名損失來微調(diào)模型，同時(shí)保持預(yù)訓(xùn)練的收益。

受監(jiān)督數(shù)據(jù)集

監(jiān)督訓(xùn)練數(shù)據(jù) 為了進(jìn)行微調(diào)，我們利用了 MS MARCO 訓(xùn)練數(shù)據(jù)集（Nguyen et al.， 2016），包括 880 萬個(gè)文檔和 53,000 個(gè)肯定的查詢文檔對。我們使用 BGE 嵌入模型（Xiao et al.， 2023）作為密集檢索器來檢索每個(gè)查詢的前 1000 個(gè)文檔。對于每個(gè)查詢，我們從檢索到的候選文檔中隨機(jī)選擇 m 個(gè)否定文檔來形成微調(diào)集。

微調(diào)

給定一個(gè)查詢 q 和相關(guān)的正負(fù)文檔列表D = {d +, d1- , . . . , dm-}，模型區(qū)分正對和負(fù)對的能力通過排序損失機(jī)制（也稱為對比學(xué)習(xí)）進(jìn)行提煉（Chen et al.， 2020;Zhuang et al.， 2023b）。排名損失公式化為：

這個(gè)公式是一個(gè)用于文本排序任務(wù)的排名損失函數(shù)（

(

)

Lrank(q,D)\mathcal{}

Lrank(q,D)）。它的目的是通過比較查詢 q 和不同候選文檔 d 之間的相關(guān)性得分，來優(yōu)化模型的排序能力。下面是公式的詳細(xì)分析：

各部分含義：

(

)

score(q,d)\text{}

score(q,d)：這是模型給定查詢 qqq 和候選文檔 ddd 計(jì)算出的相關(guān)性得分。這個(gè)得分通常表示查詢和文檔之間匹配的強(qiáng)弱。

(

)

score(q,d+)\text{}

score(q,d+)：這里的 d+d^+d+ 代表正樣本文檔，即與查詢 qqq 實(shí)際相關(guān)的文檔。這個(gè)得分反映了模型對正確文檔的打分情況。

τ：這是一個(gè)溫度參數(shù)（temperature parameter），用來控制模型輸出的平滑度。較小的 τ\tauτ 值會(huì)使得得分差異被放大，反之則被壓縮。

∑

∈

(

)

∑_{d∈D}exp?(score(q,d)/τ)

∑d∈D?exp?(score(q,d)/τ)：這個(gè)部分表示所有候選文檔得分的指數(shù)和，用于歸一化，使得正樣本文檔 d+d^+d+ 的得分與其他所有候選文檔的得分進(jìn)行比較。

log?

log?：對歸一化的得分取對數(shù)，這是為了將損失函數(shù)轉(zhuǎn)化為更易優(yōu)化的形式，通常也是為了與交叉熵?fù)p失函數(shù)形式保持一致。

公式作用：

這個(gè)損失函數(shù)的目的是最大化正樣本文檔 d+的得分相對于所有候選文檔的得分。具體來說，它通過最小化損失來促使模型在正樣本文檔 d+ 上打出更高的分?jǐn)?shù)，從而提高模型在排序任務(wù)中的性能。

這個(gè)公式與Softmax損失函數(shù)有相似之處，用于多類分類問題，在這里，它被用來衡量模型的排序能力。模型通過優(yōu)化該損失函數(shù)，能夠更準(zhǔn)確地將相關(guān)文檔排在查詢結(jié)果的前列。

“知識(shí)遺忘”

在模型的訓(xùn)練過程中，利用排名損失函數(shù)

rank

{L}_{\text{rank}}

Lrank?可以有效地區(qū)分正樣本（與查詢相關(guān)的文檔）和負(fù)樣本（與查詢不相關(guān)的文檔），從而幫助模型更好地進(jìn)行排序。然而，模型的連續(xù)預(yù)訓(xùn)練目標(biāo)

pred

{L}_{\text{pred}}

Lpred?和排名損失函數(shù)

rank

{L}_{\text{rank}}

Lrank?之間的性質(zhì)存在不一致性。具體來說，

pred

{L}_{\text{pred}}

Lpred?可能是一種更加平滑或連續(xù)的目標(biāo)，而

rank

{L}_{\text{rank}}

Lrank?更像是一種離散化的決策過程（如二元分類中的正負(fù)樣本區(qū)分）。這種不協(xié)調(diào)性可能會(huì)導(dǎo)致模型在微調(diào)過程中，只使用

rank

{L}_{\text{rank}}

Lrank? 時(shí)，無法完全利用在預(yù)訓(xùn)練階段所積累的優(yōu)勢或知識(shí)，從而削弱模型的整體性能。

簡單來說，這段話在強(qiáng)調(diào)在模型微調(diào)過程中，如果僅依賴于

rank

{L}_{\text{rank}}

Lrank? 進(jìn)行優(yōu)化，可能會(huì)因?yàn)榕c預(yù)訓(xùn)練目標(biāo)

pred

{L}_{\text{pred}}

Lpred? 的不一致，導(dǎo)致模型在微調(diào)時(shí)未能充分利用預(yù)訓(xùn)練階段的好處，最終影響排序效果。

不協(xié)調(diào)之處

不協(xié)調(diào)之處在于：

預(yù)訓(xùn)練目標(biāo)與微調(diào)目標(biāo)的差異:

預(yù)訓(xùn)練目標(biāo): Lpred\mathcal{L}_{\text{pred}}Lpred 的設(shè)計(jì)目標(biāo)是讓模型通過最大化生成下一個(gè)詞的概率來進(jìn)行學(xué)習(xí)，即生成一個(gè)符合上下文的句子。這意味著，模型主要學(xué)習(xí)的是如何理解上下文并生成文本。微調(diào)目標(biāo): 排序任務(wù)的微調(diào)目標(biāo) Lrank\mathcal{L}_{\text{rank}}Lrank 則是要根據(jù)查詢和文檔的相關(guān)性來排序，這是一種離散的優(yōu)化目標(biāo)。模型在這個(gè)過程中更多的是學(xué)習(xí)如何區(qū)分文檔的相關(guān)性，而不是生成自然語言。影響之處:

生成能力的削弱: 如果在微調(diào)時(shí)只使用 Lrank\mathcal{L}{\text{rank}}Lrank，模型可能會(huì)忽略之前通過 Lpred\mathcal{L}{\text{pred}}Lpred 學(xué)到的生成能力。這可能導(dǎo)致模型在排序任務(wù)中的表現(xiàn)下降，因?yàn)樗チ松刹樵兿嚓P(guān)內(nèi)容的能力。模型行為的變化: 預(yù)訓(xùn)練和微調(diào)目標(biāo)之間的差異可能會(huì)導(dǎo)致模型在微調(diào)過程中出現(xiàn)不一致的行為，即模型可能會(huì)偏離其在預(yù)訓(xùn)練階段積累的知識(shí)，影響其整體表現(xiàn)。

總結(jié)

預(yù)訓(xùn)練階段的

pred

{L}_{\text{pred}}

Lpred? 強(qiáng)調(diào)生成語言的連續(xù)性，而微調(diào)階段的

rank

{L}_{\text{rank}}

Lrank? 強(qiáng)調(diào)文檔和查詢之間的離散排序相關(guān)性。這種不一致可能會(huì)影響模型在最終任務(wù)中的表現(xiàn)，因此在設(shè)計(jì)微調(diào)策略時(shí)，應(yīng)該考慮到這種不協(xié)調(diào)性，可能需要引入額外的約束或損失函數(shù)來平衡這兩者。

解決“知識(shí)遺忘”

詳見圖三

What does BERT learn about the structure of language?

6.實(shí)驗(yàn)

NDCG@10指標(biāo)

指標(biāo)和基準(zhǔn)

在我們的實(shí)驗(yàn)中，我們評估域內(nèi)和域外性能，并采用NDCG@10作為指標(biāo)。對于領(lǐng)域內(nèi)性能評估，我們使用廣泛認(rèn)可的MS MARCO開發(fā)集（Nguyen等人，2016），TREC 2019（Craswell等人，2020）和TREC 2020（Craswell等人，2021）作為基準(zhǔn)。為了檢查模型在不同檢索方法中的性能，我們采用了以 BM25 （Robertson 和 Zaragoza， 2009）為代表的稀疏檢索方法，以及以 BGE 方法為代表的密集檢索方法（Xiao et al.， 2023），以生成候選文檔集。在域外評估的背景下，BEIR 基準(zhǔn)（Thakur et al.， 2021）是我們分析的基石。BEIR 基準(zhǔn)測試涵蓋多個(gè)領(lǐng)域，例如金融和醫(yī)學(xué)，并涵蓋多個(gè)檢索任務(wù)，包括問答和事實(shí)核查。其廣泛的覆蓋范圍和嚴(yán)謹(jǐn)性使其成為衡量模型泛化能力的絕佳工具（Nogueira et al.， 2020;Zhuang et al.， 2023b）。對于在域外設(shè)置中檢索到的候選文檔的排名，我們使用 BM25 方法

超參數(shù)

為了驗(yàn)證我們方法的廣泛有效性，我們對不同類型和大小的 LLM 進(jìn)行了實(shí)驗(yàn)：BLOOM （560M-7B）（Scao et al.， 2022）、LLaMA-7B （Touvron et al.， 2023b）、Qwen-7B （Bai et al.， 2023）和 Baichua-7B （Yang et al.， 2023）。我們在多達(dá) 8 個(gè) NVIDIA A100 GPU 和 80GB 內(nèi)存上運(yùn)行模型訓(xùn)練。在持續(xù)的預(yù)訓(xùn)練期間，我們對 10 億個(gè)弱監(jiān)督文本對進(jìn)行了 1 個(gè) epoch 的訓(xùn)練。在 SFT 期間，我們在 MS MARCO 訓(xùn)練集上訓(xùn)練 1 個(gè)紀(jì)元。在方程 3 中，負(fù)例 m 的數(shù)量為 48，溫度參數(shù) τ 為 0.001。對于所有 LLM，我們統(tǒng)一微調(diào)前 16 個(gè) transformer 層

這兩個(gè)表格展示了不同模型在多種數(shù)據(jù)集上的文本排序表現(xiàn)。

表格 1: In-domain results of various models

描述: 這個(gè)表格展示了在域內(nèi)數(shù)據(jù)集（如MS MARCO、DL19和DL20）上，不同模型的排名表現(xiàn)。結(jié)果顯示了模型在稀疏檢索（Sparse Retrieval - BM25）和密集檢索（Dense Retrieval - BGE）任務(wù)中的得分。主要觀察:

RankingGPT（BLOOM 7B）在稠密檢索任務(wù)中表現(xiàn)最優(yōu)，尤其在DL19和DL20數(shù)據(jù)集上分別達(dá)到了77.1和75.9的得分。Qwen 7B在多數(shù)數(shù)據(jù)集上表現(xiàn)相對較好，特別是MS MARCO數(shù)據(jù)集上的得分（48.0）。傳統(tǒng)的稀疏檢索方法（BM25）在各個(gè)數(shù)據(jù)集上的表現(xiàn)相對較差，特別是在DL20數(shù)據(jù)集（48.0）上。

表格 2: Out-domain results of 220M-3B models

描述: 這個(gè)表格展示了在域外數(shù)據(jù)集（如Arguana, Climate, DBPedia等）上，使用不同大小（220M-3B）的模型的排名表現(xiàn)。表格按方法列出，顯示了每種方法在多個(gè)數(shù)據(jù)集上的得分，以及模型在多少個(gè)數(shù)據(jù)集上表現(xiàn)最好。主要觀察:

RankingGPT（BLOOM 3B和1B）在多個(gè)數(shù)據(jù)集上都表現(xiàn)優(yōu)異，例如在Arguana、FEVER、HotpotQA和SciFact等數(shù)據(jù)集上取得了最高得分（55.6, 83.7, 74.6, 78.0）。MonoT5（3B）和RankT5（3B）在一些數(shù)據(jù)集上表現(xiàn)突出，例如RankT5在HotpotQA（75.0）和SciFact（77.7）上得分較高。表格中顯示，RankingGPT在5個(gè)數(shù)據(jù)集上表現(xiàn)最佳，這是所有方法中最多的，說明其在各種任務(wù)中具有較強(qiáng)的通用性。

結(jié)論

總體來看，RankingGPT在域內(nèi)和域外數(shù)據(jù)集上都表現(xiàn)出色，顯示出較高的泛化能力，尤其是在較大規(guī)模模型（如7B參數(shù)的BLOOM模型）中，能夠在密集檢索任務(wù)中超越其他模型。

表格中將檢索任務(wù)區(qū)分為稀疏檢索和密集檢索，是為了展示不同模型在不同類型的檢索任務(wù)中的表現(xiàn)。具體來說，這與模型的架構(gòu)、訓(xùn)練方式以及其在處理不同類型的數(shù)據(jù)和任務(wù)上的優(yōu)勢相關(guān)。

“域內(nèi)”和“域外”是指模型在不同數(shù)據(jù)分布或應(yīng)用場景下的表現(xiàn)。

域內(nèi)（In-domain）

定義: 域內(nèi)數(shù)據(jù)指的是模型在訓(xùn)練時(shí)使用的相同或非常相似的類型數(shù)據(jù)。例如，如果一個(gè)模型在新聞數(shù)據(jù)上訓(xùn)練，那么它在新聞數(shù)據(jù)集上進(jìn)行的評估就是“域內(nèi)”評估。表現(xiàn): 表格1展示了不同模型在“域內(nèi)”任務(wù)（如MS MARCO、DL19、DL20等數(shù)據(jù)集）中的表現(xiàn)。這些數(shù)據(jù)集中的數(shù)據(jù)類型與模型在訓(xùn)練時(shí)所用的數(shù)據(jù)類型較為一致，因此模型通常表現(xiàn)更好。

域外（Out-domain）

定義: 域外數(shù)據(jù)指的是與模型訓(xùn)練數(shù)據(jù)有顯著不同的數(shù)據(jù)。例如，一個(gè)模型可能在醫(yī)學(xué)文本數(shù)據(jù)上進(jìn)行訓(xùn)練，而在社交媒體數(shù)據(jù)上評估時(shí)，這種評估就被稱為“域外”評估。表現(xiàn): 表格2顯示了不同模型在“域外”任務(wù)中的表現(xiàn)（如Arguana、Climate、DBPedia等數(shù)據(jù)集）。由于這些任務(wù)的數(shù)據(jù)類型與模型訓(xùn)練的數(shù)據(jù)有較大差異，模型在這些任務(wù)上的表現(xiàn)可能會(huì)不如“域內(nèi)”任務(wù)，反映了模型的泛化能力。

總結(jié)

“域內(nèi)”和“域外”的區(qū)別在于數(shù)據(jù)類型與訓(xùn)練數(shù)據(jù)的相似程度。一般而言，模型在域內(nèi)數(shù)據(jù)上的表現(xiàn)優(yōu)于域外數(shù)據(jù)，因?yàn)樗谟?xùn)練時(shí)已經(jīng)看過類似的例子。而域外數(shù)據(jù)的評估則更能反映模型的泛化能力，即它在看過的類型數(shù)據(jù)之外的表現(xiàn)如何。

檢索任務(wù)與模型的關(guān)系

模型特性與任務(wù)匹配:

稀疏檢索任務(wù)通常使用傳統(tǒng)方法（如BM25），基于詞頻和文檔頻率進(jìn)行計(jì)算，依賴于顯式詞匹配的特征。因此，這種任務(wù)更適合于那些專注于詞級別匹配的模型，如BM25和基于BERT的“MonoBERT”，這些模型通常能更好地在稀疏特征空間中表現(xiàn)。密集檢索任務(wù)使用深度學(xué)習(xí)模型（如BERT、T5等）將查詢和文檔映射到語義向量空間中，進(jìn)行語義匹配。這類任務(wù)適合那些能夠捕捉更深層語義信息的模型，如“RankingGPT”或者“RankT5”，這些模型能更好地理解語義關(guān)系，從而在密集特征空間中表現(xiàn)優(yōu)異。任務(wù)性能差異:

在表格中，我們可以看到不同模型在不同任務(wù)（稀疏和密集檢索任務(wù)）上的表現(xiàn)。例如，“MonoBERT”在稀疏檢索任務(wù)上表現(xiàn)較好，因?yàn)樗贐ERT模型，在處理詞級別匹配時(shí)具有優(yōu)勢。而“RankingGPT”或“RankT5”在密集檢索任務(wù)中表現(xiàn)更好，因?yàn)檫@些模型利用預(yù)訓(xùn)練的語義嵌入能力和復(fù)雜的語義匹配算法，能夠有效處理需要語義理解的檢索任務(wù)。模型架構(gòu)的影響:

不同模型的架構(gòu)設(shè)計(jì)直接影響其在不同類型檢索任務(wù)上的效果。例如，"RankingGPT"利用GPT風(fēng)格的模型，擅長生成類任務(wù)，能夠在處理語言生成和語義匹配的密集檢索任務(wù)中表現(xiàn)出色。另一方面，BM25是基于詞頻的模型，因此在處理依賴于詞級別特征的稀疏檢索任務(wù)時(shí)更有效。

結(jié)論

表格中的檢索任務(wù)區(qū)分有助于展示不同模型在特定檢索場景中的適用性和表現(xiàn)差異。模型的選擇應(yīng)根據(jù)任務(wù)的具體要求，如是依賴于詞匹配的稀疏任務(wù)還是依賴于語義理解的密集任務(wù)，從而選擇最合適的模型來達(dá)到最佳效果。

稀疏檢索任務(wù)和密集檢索任務(wù)是信息檢索中的兩種主要方法，分別對應(yīng)不同的檢索機(jī)制和應(yīng)用場景：

稀疏檢索任務(wù) (Sparse Retrieval)***

定義: 稀疏檢索任務(wù)通?；诮?jīng)典的信息檢索模型，如BM25、TF-IDF等。這些方法依賴于文檔和查詢之間的顯式詞匹配，通常只考慮那些在文檔和查詢中直接出現(xiàn)的詞語。由于依賴直接的詞語匹配，這類方法在處理同義詞、語義相似度等情況下效果較弱。特點(diǎn):

依賴詞匯的精確匹配。索引時(shí)通常使用倒排索引（Inverted Index）。對于長尾查詢（稀有查詢）通常效果較好。計(jì)算復(fù)雜度相對較低，效率高。應(yīng)用: 傳統(tǒng)的搜索引擎和信息檢索系統(tǒng)，如早期的互聯(lián)網(wǎng)搜索引擎。

密集檢索任務(wù) (Dense Retrieval)

定義: 密集檢索任務(wù)利用深度學(xué)習(xí)模型（如BERT等）的嵌入向量將查詢和文檔映射到高維向量空間中，然后通過計(jì)算查詢和文檔向量的相似度來完成檢索。這種方法不依賴顯式的詞匯匹配，能夠更好地捕捉語義相似性。特點(diǎn):

依賴深度學(xué)習(xí)模型生成的語義向量表示。不僅關(guān)注詞匯的表面匹配，還能理解同義詞、語義相似等。檢索時(shí)通常需要通過向量空間中的近似最近鄰搜索（ANN）來實(shí)現(xiàn)。計(jì)算復(fù)雜度較高，通常需要較大的計(jì)算資源。應(yīng)用: 現(xiàn)代的智能搜索引擎、問答系統(tǒng)，以及需要捕捉更復(fù)雜語義關(guān)系的檢索任務(wù)。

總結(jié)

稀疏檢索適合處理需要快速返回結(jié)果、詞語直接匹配的查詢場景。密集檢索更適合需要理解語義、處理復(fù)雜查詢的場景，盡管計(jì)算成本更高，但可以更準(zhǔn)確地捕捉查詢與文檔之間的深層語義關(guān)系。

這兩個(gè)表格展示了不同模型在域外（Out-domain）和域內(nèi)（In-domain）場景下的性能表現(xiàn)，以及對比了各種模型的消融實(shí)驗(yàn)結(jié)果。

表格 3：Out-domain Results of 7B Models

表格內(nèi)容：展示了幾種大規(guī)模語言模型（如RankLLAMA、RankingGPT）的排名任務(wù)性能。這些模型在不同的數(shù)據(jù)集（如Arguana、Climate、DBPedia等）上的表現(xiàn)被評估。表格顯示每種模型在各數(shù)據(jù)集上的表現(xiàn)分?jǐn)?shù)，并總結(jié)了它們在所有數(shù)據(jù)集上的平均分?jǐn)?shù)。分析：

RankingGPT 在多個(gè)數(shù)據(jù)集上（如Arguana、Climate、DBPedia等）表現(xiàn)優(yōu)于其他模型。例如，RankingGPT在Arguana數(shù)據(jù)集上得分最高（56.8），而RankLLAMA在相同數(shù)據(jù)集上的表現(xiàn)較弱（47.0）?？偲骄诛@示，RankingGPT的表現(xiàn)（58.3）優(yōu)于RankLLAMA（52.5）和其他模型，這表明其在域外場景中具有更好的泛化能力。

表格 4：Ablation Results of BLOOM-560m and 1B Models

表格內(nèi)容：展示了BLOOM-560m和1B模型在不同實(shí)驗(yàn)條件下的消融結(jié)果，包括沒有額外微調(diào)（Two-Stage Training without fine-tuning）、預(yù)訓(xùn)練增益保持機(jī)制（Pre-Training Gains Maintaining）和參數(shù)高效微調(diào)（Parameter-Efficient Fine-Tuning）。分析：

I. Two-Stage Training部分：顯示了未進(jìn)行額外微調(diào)時(shí)（w/o pre-train），模型的性能較差（如BLOOM-560m域外得分43.4）。II. Pre-Training Gains Maintaining部分：展示了在不同預(yù)訓(xùn)練增益保持策略下（如去掉PEFT、NTP或DP）模型的性能變化。使用全部策略的RankingGPT模型（

\pi_{sft}

πsft?）在域內(nèi)和域外都達(dá)到了較好的性能（分別是64.3和54.5）。III. Parameter-Efficient Fine-Tuning部分：使用LoRA的微調(diào)方法表現(xiàn)不如全部策略的RankingGPT模型。

總結(jié)

這些表格說明了RankingGPT在排名任務(wù)中相比其他模型具有較好的性能，尤其是在域外場景中表現(xiàn)突出。消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了使用特定的預(yù)訓(xùn)練增益保持策略和參數(shù)高效微調(diào)方法對模型性能的影響。

7.總結(jié)

總平均分顯示，RankingGPT的表現(xiàn)（58.3）優(yōu)于RankLLAMA（52.5）和其他模型，這表明其在域外場景中具有更好的泛化能力。

表格 4：Ablation Results of BLOOM-560m and 1B Models

\pi_{sft}

總結(jié)

7.總結(jié)

在這項(xiàng)工作中，我們引入了一種新的兩階段訓(xùn)練方法，旨在調(diào)和大型語言模型（LLM）預(yù)訓(xùn)練范式與排名任務(wù)需求之間的錯(cuò)位。我們的方法從持續(xù)的預(yù)訓(xùn)練階段開始，在此期間，模型被明確指導(dǎo) querydocument 關(guān)系的復(fù)雜性。隨后，該策略采用監(jiān)督微調(diào) （SFT）來重新校準(zhǔn)模型對文本相關(guān)性的關(guān)注，從而提高其區(qū)分正面和負(fù)面文本對的熟練程度。通過廣泛的實(shí)驗(yàn)，我們證明了我們提出的方法不僅在域內(nèi)上下文中實(shí)現(xiàn)了排名性能的實(shí)質(zhì)性改進(jìn)，而且在域外場景中也表現(xiàn)出了顯著的泛化能力。我們的研究結(jié)果強(qiáng)調(diào)了我們的兩階段訓(xùn)練策略的潛力，它是針對復(fù)雜排名任務(wù)的 LLM 優(yōu)化的重大進(jìn)步。

柚子快報(bào)邀請碼778899分享：RankingGPT論文筆記

http://yzkb.51969.com/

參考鏈接

評論可見，查看隱藏內(nèi)容

標(biāo)簽柚子快報(bào)柚子快報(bào)邀請碼柚子快報(bào)激活碼柚子快報(bào)app 柚子快報(bào)官網(wǎng)柚子快報(bào)怎么賺錢柚子快報(bào)官網(wǎng)app 柚子快報(bào)官方邀請碼

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理，出于傳遞更多信息之目的，不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請注明，如有侵權(quán)，聯(lián)系刪除。

本文鏈接：http://gantiao.com.cn/post/19616255.html