柚子快報激活碼778899分享:NLP基礎(chǔ)
柚子快報激活碼778899分享:NLP基礎(chǔ)
NLP基礎(chǔ)
一、基本概念
1.什么是自然語言處理
自然語言處理(Natural Language Processing,簡稱NLP)是計算機科學(xué)、人工智能和語言學(xué)交叉領(lǐng)域的一個分支,它致力于使計算機能夠理解、解釋和生成人類的自然語言。
2.NLP的基礎(chǔ)概念
? (1)詞表/詞庫(Vocabulary):文本數(shù)據(jù)集中出現(xiàn)的所有單詞的集合(不會存在重復(fù)的詞)。
? (2)語料庫(Corpus):用于NLP任務(wù)的文本數(shù)據(jù)集合,可以是大規(guī)模的書籍、文章、網(wǎng)頁等。
? (3)詞嵌入(Word Embedding):將單詞映射到低維連續(xù)向量空間的技術(shù),用于捕捉單詞的語義和語法信息。
? (4)停用詞(Stop Words):在文本處理中被忽略的常見單詞,如"a"、“the”、"is"等,它們通常對文本的意義貢獻(xiàn)較 小。
? (5)分詞(Tokenization):將文本分割成一個個單詞或標(biāo)記的過程,為后續(xù)處理提供基本的單位。
? (6) 詞頻(Term Frequency):在給定文檔中,某個單詞出現(xiàn)的次數(shù)。
? (7)逆文檔頻率(Inverse Document Frequency):用于衡量一個單詞在整個語料庫中的重要性,是將詞頻取倒數(shù)并取 對數(shù)的值。
? (8) TF-IDF(Term Frequency-Inverse Document Frequency):一種常用的文本特征表示方法,綜合考慮了詞頻和逆文檔頻率。
? (9) 詞袋模型(Bag of Words):將文本表示為一個單詞的集合,忽略了單詞的順序和語法結(jié)構(gòu)。
(10)N-gram:連續(xù)的N個單詞構(gòu)成的序列,用于捕捉文本中的局部特征和上下文信息。
(11)序列:指的是一個按順序排列的元素集合。這些元素可以是字符、單詞、句子,甚至更抽象的結(jié)構(gòu)。序列的每個元素都有特定的順序和位置,這意味著它們不能隨意重排,否則會影響其意義或功能。
序列的常見類型
字符序列:
一個字符串就是一個字符序列,每個字符按順序排列。例子:"hello" 是一個由 h、e、l、l、o 組成的字符序列。 單詞序列:
一句話可以看作是一個單詞序列,每個單詞按照一定順序排列。例子:"I love NLP" 是一個由 I、love、NLP 組成的單詞序列。 時序數(shù)據(jù):
在時間序列中,元素是按時間順序排列的,常用于預(yù)測問題。例子:股票價格數(shù)據(jù)可以看作是隨時間變化的數(shù)值序列。 語音序列:
在語音處理任務(wù)中,語音信號可以被分解為按時間順序排列的幀序列(特征向量序列)。 其他序列:
序列還可以表示一些更抽象的結(jié)構(gòu),比如DNA序列(由堿基組成的序列)、事件序列等。
3.NLP的基本流程
語料獲取 -> 語料預(yù)處理(去除非文本,中文分詞,詞性標(biāo)注,去除停用詞) -> 文本向量化(特征工程)-> 模型搭建 -> 模型訓(xùn)練 -> 模型評價
4.NLP的主要任務(wù)
文本分類:
將文本歸類到預(yù)定義的類別中,例如垃圾郵件檢測、情感分析、主題分類等。 命名實體識別(NER):
從文本中識別出特定類型的實體,如人名、地名、組織名、時間表達(dá)式等。 詞性標(biāo)注(POS Tagging):
為文本中的每個單詞分配一個詞性標(biāo)簽,如名詞、動詞、形容詞等。 句法分析:
分析句子的結(jié)構(gòu),確定單詞之間的語法關(guān)系,包括依存句法分析和成分句法分析。 語義分析:
理解文本的含義,包括語義角色標(biāo)注、指代消解、情感分析等。 機器翻譯:
將一種自然語言自動轉(zhuǎn)換成另一種自然語言,如將英文翻譯成中文。 問答系統(tǒng):
根據(jù)用戶的問題,從大量文檔中檢索相關(guān)信息并生成答案。 文本生成:
生成連貫且有意義的文本,如自動摘要、文章生成、對話生成等。 信息抽取:
從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化信息,如事件抽取、關(guān)系抽取等。 語音識別與合成:
將語音信號轉(zhuǎn)換成文本(語音識別),或?qū)⑽谋巨D(zhuǎn)換成語音(語音合成)。
5.應(yīng)用領(lǐng)域
搜索引擎:提高搜索結(jié)果的相關(guān)性。虛擬助手:如 Siri、Alexa、Google Assistant 等,提供語音交互功能。聊天機器人:用于客戶服務(wù)、娛樂互動等。內(nèi)容推薦:根據(jù)用戶的興趣推薦新聞、視頻等內(nèi)容。情感分析:幫助企業(yè)了解用戶對產(chǎn)品或服務(wù)的情感傾向。醫(yī)療健康:輔助診斷、病歷分析等。
二、NLP中的特征工程
特征工程在自然語言處理(NLP)中是指從原始文本數(shù)據(jù)中提取有用的信息,將其轉(zhuǎn)換為機器學(xué)習(xí)模型可以理解和使用的數(shù)值特征的過程。
1.詞向量
詞向量(Word Embedding)是自然語言處理中的一種技術(shù),用于將文本中的單詞表示為高維空間中的向量。這些向量捕捉了單詞的語義和語法信息,并且在向量空間中,語義相似的單詞通常具有相近的向量表示。詞向量的主要目的是將離散的詞匯轉(zhuǎn)換為連續(xù)的數(shù)值表示,以便可以應(yīng)用于機器學(xué)習(xí)和深度學(xué)習(xí)模型。
2.傳統(tǒng)NLP的特征工程
2.1獨熱編碼(one-hot)
獨熱編碼(One-Hot Encoding) 是一種常見的特征表示方法,通常用于將離散的類別型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型表示,以便輸入到機器學(xué)習(xí)模型中。它的特點是將每個類別表示為一個向量,在該向量中,只有一個元素為1,其余元素全部為0。
2.2詞頻-逆文檔頻率(TF-IDF)
詞頻(TF)
逆文檔頻率(Inverse Document Frequency, IDF)
TF-IDF
2.3 n-grams
n-grams 是特征工程中的一種技術(shù),它通過將文本中的連續(xù) n 個詞(或字符)組合起來,形成一個短語來捕捉文本中的局部上下文信息。n 可以為 1、2、3 等,具體取決于希望捕捉的上下文范圍。
什么是 n-grams?
1-gram(Unigram):每個單獨的詞作為一個單位。例如,“I love NLP” 的 1-gram 是 ["I", "love", "NLP"]。2-grams(Bigram):相鄰的兩個詞組合成一個短語。例如,“I love NLP” 的 2-grams 是 ["I love", "love NLP"]。3-grams(Trigram):相鄰的三個詞組合成一個短語。例如,“I love NLP” 的 3-grams 是 ["I love NLP"]。
LP" 的 2-grams 是 ["I love", "love NLP"]。
3-grams(Trigram):相鄰的三個詞組合成一個短語。例如,“I love NLP” 的 3-grams 是 ["I love NLP"]。
n-grams通常與TF-IDF一同使用
柚子快報激活碼778899分享:NLP基礎(chǔ)
文章鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。