柚子快報邀請碼778899分享:NLP 自然語言處理基礎(chǔ)
柚子快報邀請碼778899分享:NLP 自然語言處理基礎(chǔ)
文章目錄
一、基礎(chǔ)與應(yīng)用簡單介紹基本任務(wù)重要應(yīng)用
二、詞表示與語言模型詞表示方案一:用一組的相關(guān)詞來表示當(dāng)前詞方案二:one-hot representation,將每一個詞表示成一個獨立的符號方案三:上下文表示法(contextual representation)方案四:word embedding
語言模型基本假設(shè):一個未來的詞,只會受到它前面的詞的影響N-gram ModelNeural Language Model
參考
一、基礎(chǔ)與應(yīng)用
簡單介紹
自然語言處理(Natural Language Processing,簡稱NLP)是計算機(jī)科學(xué)與人工智能領(lǐng)域的一個重要研究方向,目的是讓計算機(jī)能夠理解、解析、生成和處理人類的自然語言。
自然語言處理有著非常重要的意義,其一,我們認(rèn)為人類語言是人類智能一個非常重要的體現(xiàn);其二,NLP 是人工智能能夠通過圖靈測試的一個非常重要的工具。其中圖靈測試(最開始的名字是 imitation game)是判斷機(jī)器是否智能的一個非常重要的手段。它的基本思想是,如果機(jī)器的回答能夠讓人類無法判斷是否是機(jī)器回答的,那么可以認(rèn)為機(jī)器具備了智能。 2011年,IBM 開發(fā)的 Watson DeepQA system,參加了一個非常有名的在線問答的電視節(jié)目(類似于一站到底),取得了第一名!這是 NLP 一個重要的應(yīng)用。
基本任務(wù)
詞性標(biāo)注(part of speech tagging):為每個詞語標(biāo)注其詞性,如名詞、動詞、形容詞等 命名實體的識別(Named entity recognition):識別文本中的實體,如人名、地名、組織名等 共指消解(Co-reference):知道某個代詞和前面哪個實體是指向的現(xiàn)實世界中的同一個實體Basic dependencies:分析句子中成分互相之間的依存關(guān)系。比如,這句話的主語什么,謂語是什么,賓語是什么,它們之間的修飾關(guān)系是什么 以上四點是 NLP 非?;A(chǔ)的任務(wù),除了這些,還有一些其他與語言相關(guān)的任務(wù)。比如對于中文,由于詞與詞沒有空格,因此還需要有一個中文的自動分詞的任務(wù),即將一句話中詞與詞之間的空格標(biāo)注出來。
重要應(yīng)用
搜索引擎和在線廣告:衡量用戶的 query 與所有 document 的語義相似度,將用戶和所需要的信息進(jìn)行很好的匹配,即 text matching 的一個應(yīng)用Knowledge Graph:如給定一個用戶的查詢,如何去匹配或?qū)ふ易钕嚓P(guān)的實體,以及相關(guān)知識;如何從大規(guī)模文本中挖掘,構(gòu)建大的知識圖譜;如何獲取三元組結(jié)構(gòu)化知識等需要 NLP 技術(shù)。Machine Reading:讓自然語言處理的技術(shù)自動地去閱讀文本的內(nèi)容,然后來挖掘出相關(guān)的一些結(jié)構(gòu)化知識人機(jī)對話:智能音箱、智能助手等機(jī)器翻譯:將其中一個語言中的一句話翻譯成另外一個語言中的一句話情感分析和意見挖掘:與社會科學(xué)交叉,用語言作為一個視角,分析我們?nèi)祟惖男睦恚瑤椭龀鰧θ祟惿鐣羁谈顚哟蔚难芯抗ぷ?/p>
二、詞表示與語言模型
詞表示
詞表示是將自然語言表示中最基本的語言單位,即詞,轉(zhuǎn)換成機(jī)器可以理解的意思。主要用于兩點: 一是完成詞與詞之間的相似度計算 二是發(fā)現(xiàn)詞與詞之間的語義關(guān)系 那具體怎么進(jìn)行詞表示呢?
方案一:用一組的相關(guān)詞來表示當(dāng)前詞
比如用一些同義詞、反義詞來表示 “good”,用一些上位詞(具有更廣義或更普遍含義的詞語,如 “動物” 是 “狗” 的上位詞)來表示 “NLP” 等 這種方案的不足之處在于:
詞之間有一些比較細(xì)微的差異沒有辦法被表示當(dāng)這些詞出現(xiàn)一些新的含義的時候,沒有辦法很好地去進(jìn)行處理存在主觀性問題,即它受限于你的詞典的標(biāo)注存在數(shù)據(jù)稀疏的問題,跟所有的詞表來相比的話,它總是比較少的需要大量的人工去構(gòu)建和維護(hù)詞典
方案二:one-hot representation,將每一個詞表示成一個獨立的符號
這種方案是計算機(jī)中最常用的表示,任何一個詞都會用一個和詞表一樣長的向量表示 這種表示方法的缺點是:任意兩個詞都是相互正交的。不利于考慮相似性。
方案三:上下文表示法(contextual representation)
一個詞的詞義實際上跟它經(jīng)常出現(xiàn)在的那個位置的上下文有密切的關(guān)系,因此可以用上下文中的一些詞來表示某個詞。如下圖中可以用 shining、cold、night 等來表示 stars。 我們依然可以用一個向量來表示一個詞,這個向量的長度也是跟詞表一樣,但是里面的每一維表示的是這個詞的上下文到底它出現(xiàn)了多少次,或者是出現(xiàn)的重要性怎么樣。如此一來,每一個詞都可以用它上下文的出現(xiàn)的頻度或者重要性來表示,可以得到關(guān)于每一個詞的一個稠密的向量,從而在這個空間里面,可以利用這個稠密的向量去計算出兩個詞之間的相似度。
這種方案的局限性是:當(dāng)詞表變得越來越大時,存儲的需求就會變得特別大;而且對于那些出現(xiàn)頻度特別少的詞,它的向量很稀疏,這就會導(dǎo)致這個詞的表示會變得效果沒有那么好
方案四:word embedding
提出了一種分布式表示,即要建立起一個低維的一個稠密的向量空間,嘗試著將每一個詞都學(xué)到這個空間里面,用這個空間里面的某一個位置所對應(yīng)的那個向量來表示這個詞。這樣一來,我們可以去計算詞與詞之間的相似度等特點。
這種低維的向量可以利用大規(guī)模的數(shù)據(jù)自動去學(xué)習(xí),其中一個代表性工作是Word2Vec
語言模型
語言模型有兩個主要工作: 一是計算聯(lián)合概率:一個序列的詞成為一句話的概率 二是計算條件概率:根據(jù)前面的已經(jīng)說過的這些話,預(yù)測它的下一個詞的概率 那怎樣去計算這些概率呢?
基本假設(shè):一個未來的詞,只會受到它前面的詞的影響
這樣的話,可以將一個句子的聯(lián)合概率拆解成一個一個的條件概率的乘積 基于這個假設(shè),我們?nèi)绾芜M(jìn)行語言模型的構(gòu)建呢?
N-gram Model
N-gram 模型統(tǒng)計前面出現(xiàn)了 N-1 個詞之后,后面出現(xiàn)那個詞的頻度是怎么樣的,其背后遵守上面的基本假設(shè)。
以 4-gram 為例,這個模型討論前面出現(xiàn)了 3 個詞,后面出現(xiàn)這個詞的概率是多少。討論 never too late to 后面出現(xiàn)
w
j
w_j
wj? 的概率,可以用語料庫中,too late to
w
j
w_j
wj? 出現(xiàn)的次數(shù)除以 too late to 出現(xiàn)的次數(shù)得到,即: 存在的問題:
實際上在 N-gram 廣泛應(yīng)用的時候,用的更多的是bigram、trigram。當(dāng) N 越大,則考慮的上下文越長,由于采用的是基于符號的統(tǒng)計,在整個自然語言文本中出現(xiàn)的次數(shù)會越少,這會導(dǎo)致統(tǒng)計結(jié)果非常地稀疏,同時 N 越大,要存儲地量也越大,因此不是一個特別好的方式N-gram 會假設(shè)所有的詞之間都是互相獨立,因此在做統(tǒng)計的時候上下文其實都是基于符號去統(tǒng)計的,它是沒有辦法去理解這些詞互相之間的相似度,比如對于“The cat is walking in the bedroom” 和 “A dog was running in a room” 這兩句話,用 N-gram 是無法判斷它們之間是相似的
Neural Language Model
神經(jīng)語言模型基于神經(jīng)網(wǎng)絡(luò)使用詞的分布式表示即 word embedding 去建構(gòu)前文和當(dāng)前詞的預(yù)測條件概率。
基本思路: 1、首先將前面幾個詞都表示成一個低維的向量 2、然后再把這個低維的向量拼在一起,形成一個更高維的上下文的向量 3、然后經(jīng)過一個非線性的轉(zhuǎn)換 4、最后就可以用這個向量來預(yù)測下一個詞到底是什么
所有詞的向量,以及整個預(yù)測的過程,都是基于神經(jīng)網(wǎng)絡(luò)的可調(diào)節(jié)可學(xué)習(xí)參數(shù)來完成,因此可以利用大規(guī)模數(shù)據(jù)來學(xué)習(xí)這些向量。
參考
【清華NLP】劉知遠(yuǎn)團(tuán)隊大模型公開課全網(wǎng)首發(fā)|帶你從入門到實戰(zhàn)大模型技術(shù)及交叉應(yīng)用(L1-NLP & Big Model Basics)
柚子快報邀請碼778899分享:NLP 自然語言處理基礎(chǔ)
精彩內(nèi)容
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。