欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報激活碼778899分享:擴展學(xué)習(xí)|一文讀懂知識圖譜

柚子快報激活碼778899分享:擴展學(xué)習(xí)|一文讀懂知識圖譜

http://yzkb.51969.com/

一、知識圖譜的技術(shù)實現(xiàn)流程及相關(guān)應(yīng)用

文獻來源:曹倩,趙一鳴.知識圖譜的技術(shù)實現(xiàn)流程及相關(guān)應(yīng)用[J].情報理論與實踐,2015, 38(12):127-132.

(一)知識圖譜的特征及功能

????????知識圖譜是為了適應(yīng)新的網(wǎng)絡(luò)信息環(huán)境而產(chǎn)生的一種語義知識組織和服務(wù)的方法,通過把用戶查詢的關(guān)鍵詞映射到語義知識庫的概念上,使計算機能夠理解人類的語言交流模式,從而更加智能地反饋給用戶需要的答案。知識庫是知識圖譜的核心,采用某種知識表示方式來存儲管理互相關(guān)聯(lián)的知識片集合,它必須包含豐富的數(shù)據(jù),數(shù)據(jù)來源于原有的關(guān)系型數(shù)據(jù)庫、LOD中的部分關(guān)聯(lián)數(shù)據(jù)集、 領(lǐng)域本體、用戶數(shù)據(jù)、從半結(jié)構(gòu)化和非結(jié)構(gòu)的數(shù)據(jù)內(nèi)容中抽取出的理論知識、事實數(shù)據(jù)、啟發(fā)式知識等。知識庫是服從于本體控制的知識單元的載體,覆蓋了各種概念、實例、屬性、關(guān)系等要素,并保持高效率地更新,以便隨時滿足用戶的知識需求。以谷歌知識圖譜為例,它在2012年5月發(fā)布時已包含5億多的對象實體和關(guān)于這些實體的超過35億的事實關(guān)系,僅僅6個月后,實體數(shù)量增長到5. 7億,事實關(guān)系增長到180億,到目前為止,還在不斷地更新擴展。

????????知識圖譜的功能主要體現(xiàn)在知識組織、展示與搜索方面: 第一,給用戶提供正確的理想答案,在一定程度上克服自然語言的歧義性; 第二,通過信息元側(cè)邊欄,把經(jīng)過梳理、總結(jié)的知識提供給用戶; 第三,通過信息推薦, 提供更深入更廣闊的知識,知識圖譜嘗試通過對其他用戶相關(guān)的搜索記錄進行推理,幫助用戶在提問之前就回答出下一個問題,激發(fā)用戶對知識的搜索興趣,從而進行一次全新的查詢操作。

(二)知識圖譜的實現(xiàn)流程及關(guān)鍵技術(shù)

????????知識圖譜的實現(xiàn)流程可總結(jié)為6個模塊,即知識獲取、知識融合、知識存儲、查詢式的語義理解、知識檢索和可視化展現(xiàn),見圖1。其中知識庫的構(gòu)建是知識圖譜實現(xiàn)的核心,知識庫中存儲的內(nèi)容需要經(jīng)過廣泛的知識獲取及充分的知識融合,當(dāng)用戶進行查詢檢索時,用戶的自然語言查詢式經(jīng)過語義分析處理后進入檢索系統(tǒng),和知識庫中的內(nèi)容進行匹配,整合后的反饋結(jié)果以可視化的形式展現(xiàn)給用戶。

1.知識獲取

????????為了提高知識服務(wù)的質(zhì)量,提供用戶滿意的答案,知識圖譜不僅要包含各個領(lǐng)域的常識性知識,還要及時發(fā)現(xiàn)并添加新知識,知識的數(shù)量和質(zhì)量決定了其所能提供的知識服務(wù)的廣度和深度以及解決問題的能力,因此知識圖譜的構(gòu)建需要以高效的知識獲取作為支撐。

????????常識性知識的獲取主要來自百科類站點和各種垂直站點的結(jié)構(gòu)化數(shù)據(jù),如從DBpedia中抽取某一主題的知識, 根據(jù)一定的抽取策略提取出領(lǐng)域相關(guān)的事實,包括主題下的細分知識以及擴展的相關(guān)類別知識等。同時還要從一些半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中抽取實例和屬性來豐富相關(guān)實體的描述。

????????隨著用戶交互大量涌現(xiàn),用戶生成內(nèi)容( UGC)不斷增加,大量用戶投入到網(wǎng)絡(luò)信息的創(chuàng)建、組織和傳播中,這其中產(chǎn)生的一些知識也是知識圖譜知識獲取中重要的一方面。新知識可以從用戶的查詢?nèi)罩局邪l(fā)現(xiàn)新的實體屬性,不斷地擴展知識的覆蓋率。此外,由于知識圖譜要根據(jù)用戶的興趣提供相關(guān)的知識推薦,所以用戶相關(guān)的行為數(shù)據(jù)也要抽取,包括用戶所在的國家,能確定用戶身份的信息、查詢語句使用的語言、 查詢時間、以往的訪問日志數(shù)據(jù)等。例如在用戶查詢過程中可以分析用戶的興趣: 根據(jù)用戶篩選后點擊的鏈接,以及 “長點擊”與 “短點擊”判斷用戶對答案的滿意度及感興趣程度,從而獲得用戶行為數(shù)據(jù), 也可以根據(jù)這些數(shù)據(jù)抽取對應(yīng)的實體。

????????知識獲取實現(xiàn)的主要技術(shù)包括機器學(xué)習(xí)、知識挖掘、自然語言處理、基于內(nèi)在機理的知識發(fā)現(xiàn)技術(shù)等。在大數(shù)據(jù)環(huán)境下,智能化的數(shù)據(jù)抽取、提煉與挖掘技術(shù)顯得尤為重要,大量的知識資源為后續(xù)的知識推理融合奠定了堅實的基礎(chǔ)。

2.知識融合

????????由于知識圖譜中的知識來源廣,存在知識質(zhì)量良莠不齊、來自不同數(shù)據(jù)源的知識重復(fù)、知識間的關(guān)聯(lián)不夠明確等問題,所以必須要進行知識的融合。知識融合是高層次的知識組織,使來自不同知識源的知識在同一框架規(guī)范下進行異構(gòu)數(shù)據(jù)整合、實體重要度計算和推理驗證等步驟,達到數(shù)據(jù)、信息、方法、經(jīng)驗以及人的思想的融合。

????????異構(gòu)數(shù)據(jù)整合要進行數(shù)據(jù)清洗、實體對齊、屬性值決策以及關(guān)系的建立。數(shù)據(jù)清洗包括對拼寫錯誤的數(shù)據(jù)、相似重復(fù)數(shù)據(jù)、孤立數(shù)據(jù)、數(shù)據(jù)時間粒度不一致等問題進行處理; 實體對齊解決來自不同數(shù)據(jù)源的相同實體中對同一特性的描述、格式等方面不一致的問題,對實體描述方式和格式進行規(guī)范統(tǒng)一,如 “籍貫”與 “出生地” 的表述差別,日期書寫格式的不同等; 屬性值決策主要是針對同一屬性出現(xiàn)不同值的情況下,根據(jù)數(shù)據(jù)來源的數(shù)量和可靠度進行抉擇,提煉出較為準(zhǔn)確的屬性值; 關(guān)系是知識圖譜中非常重要的知識,任何實體概念都不是孤立的,都處在和周圍概念一定的邏輯關(guān)系中,如等同關(guān)系、屬分關(guān)系和相關(guān)關(guān)系等。從本質(zhì)上看,知識圖譜建立關(guān)系的過程可以簡化為相關(guān)實體挖掘,即尋找用戶類似查詢中共現(xiàn)的實體或是在同一個查詢中被提到的其他實體,通過對鏈接的提取統(tǒng)計以及對用戶查詢?nèi)罩镜姆治?發(fā)掘查詢式的主題分布,把同一主題中的相關(guān)實體進行類型驗證并建立關(guān)聯(lián)。

????????實體的重要度主要通過Page Rank等算法進行計算, 實體屬性和實體間的關(guān)系、不同實體和語義關(guān)系的流行程度、抽取的置信度等都會影響實體重要度計算的結(jié)果。 用戶查詢式中的實體被識別后,關(guān)于該實體的結(jié)構(gòu)化摘要就會展現(xiàn)給用戶,當(dāng)查詢涉及多個實體時,就需要選擇與查詢更相關(guān)且更重要的實體展現(xiàn)出來。如查詢 “李娜”, 同名實體有超過20個,就要根據(jù)重要度的計算對這些實體進行排序。

????????推理的規(guī)則一般涉及兩類,針對屬性和針對關(guān)系的。 通過推理驗證可以檢測邏輯矛盾,提高知識質(zhì)量; 也可以獲取屬性值和實體間隱含的關(guān)系,從而建立更多實體間的關(guān)聯(lián)。通過推理形成新的數(shù)據(jù)對知識進行再擴展,提高知識的完整性,并通過知識的聚合、分類等技術(shù)把知識具體化和分類整合。

3.知識存儲

????????知識圖譜中的知識存儲在它的知識庫中,是一個規(guī)模龐大的關(guān)聯(lián)集合。雜亂的信息經(jīng)過前期的融合與處理,形成了有序、關(guān)聯(lián)可用的知識,按照知識的類別以規(guī)范化的形式分類存儲在知識庫中不同的知識模塊里,生成索引, 以便在知識檢索時更加智能有效地匹配以及進行知識的深度挖掘。

????????知識庫中知識節(jié)點和節(jié)點間映射關(guān)系的數(shù)目是龐大的,并且在不斷增長。另外,知識庫中的知識與規(guī)則要保證及時的更新、糾錯與維護,一些知識會長期存儲保留, 而一些時效較短的知識就要及時刪除或修改,知識的變化還會打亂其內(nèi)部像網(wǎng)絡(luò)一樣的關(guān)聯(lián)關(guān)系,這給知識存儲帶來了很大的挑戰(zhàn)。因此,知識圖譜中的知識依賴合適的存儲介質(zhì)和合理的存儲方式進行有效存儲,既保證知識的可讀性和穩(wěn)定性,又不影響系統(tǒng)運行效率和對數(shù)據(jù)的操縱管理能力。知識庫中知識的更新修訂遵守一定的原則, 使得新知識的加入與老知識的更新不會引起知識庫結(jié)構(gòu)發(fā)生變化,修改后的知識庫不應(yīng)該依賴原始知識庫或新公式的語法形式,同時要保持知識表達的充足性和連貫一致性,新知識應(yīng)該盡可能多地被接受,而許多老知識也應(yīng)該盡量保持,這樣更有利于知識庫大量吸收并儲備各方面的知識。

????????總之,知識圖譜的知識存儲依賴于海量數(shù)據(jù)存儲技術(shù)來管理大規(guī)模分布式的數(shù)據(jù),以實現(xiàn)海量存儲系統(tǒng)大容量、可擴展、高可靠性和高性能的要求。

4.查詢式的語義理解

????????用戶的查詢式一般可分為4種: 定義型,如 “什么是知識組織”; 事實型,如 “Knowledge Graph的出現(xiàn)時間”;肯定否定型,如 “Tim Berners-Lee是萬維網(wǎng)之父嗎”; 意見型,如 “如何看待大數(shù)據(jù)時代”。針對用戶不同的查詢式問題,經(jīng)過自然語言處理,可以根據(jù)以上類型大致歸類,系統(tǒng)分類理解查詢式,方便答案的反饋。

????????知識圖譜中對查詢式的語義分析包括以下幾個關(guān)鍵步驟: 1對查詢式進行分詞、詞性標(biāo)注和查詢糾錯。

????????2對句法進行分析,基于一些通用詞典和本體庫等實現(xiàn)實體識別,同時對實體進行過濾和消歧; 基于模式挖掘?qū)崿F(xiàn)屬性識別,對實體屬性進行歸一處理。因為用戶的表達方式不一樣,不同用戶對實體、屬性等都有不同的描述方式,因而對不同的描述進行歸一,進而和知識庫中的相關(guān)知識匹配。

????????3用戶情感及語境的理解分析,在不同語境下用戶查詢式中的實體會有差別,知識圖譜要識別用戶的情感,以反饋用戶此刻需要的答案。

????????4查詢式擴展,明確了查詢的確切所指以及用戶的信息意圖后,加入與其語義相關(guān)的其他概念來實施擴展。查詢式語義分析后會生成標(biāo)準(zhǔn)查詢語句,以SPARQL為代表,SPARQL查詢語句是基于模板匹配的一種標(biāo)準(zhǔn)化的格式,可以與知識庫中的知識更好地銜接; 另外,它還是基于需求重要度排序后的查詢語句,反饋的知識結(jié)果會展現(xiàn)出優(yōu)先順序。

????????查詢式的語義理解涉及的相關(guān)技術(shù)主要包括自然語言處理技術(shù)和人工智能等。

5.知識檢索

????????知識檢索是基于之前的知識組織體系,實現(xiàn)知識關(guān)聯(lián)和概念語義檢索的智能化檢索方式。知識圖譜中的知識檢索包含兩類核心任務(wù): 一是利用相關(guān)性在知識庫中找到相應(yīng)的實體; 二是在此基礎(chǔ)上根據(jù)實體的類別、關(guān)系及相關(guān)性等信息找到關(guān)聯(lián)的實體。

????????用戶輸入的查詢式經(jīng)過語義分析理解后生成的標(biāo)準(zhǔn)查詢語句進入檢索系統(tǒng)后被解析,與知識庫中的知識匹配, 并進行統(tǒng)計、排序、推理、推薦、預(yù)測等工作。系統(tǒng)會基于對查詢詞表達的概念和語義內(nèi)涵的深度理解作為搜索依據(jù),同時對該詞的同義詞、近義詞、廣義詞、狹義詞檢索,進行概念的擴充,擴大檢索,避免漏檢; 另外,還會進行相關(guān)概念的聯(lián)想檢索,做好推薦預(yù)測的工作。通過對知識庫進行深層次的知識挖掘與提煉后,檢索系統(tǒng)為用戶反饋出具有重要性排序的準(zhǔn)確且完整的知識,并推薦用戶可能感興趣的相關(guān)知識。

????????知識檢索階段涉及信息檢索、知識挖掘等關(guān)鍵技術(shù), 比如相似性、重要性計算。

6.可視化展現(xiàn)

????????知識圖譜可視化的結(jié)果展現(xiàn)提升了用戶的使用體驗,它將知識庫中的信息轉(zhuǎn)化為更方便用戶理解的方式進行呈現(xiàn),通常整合為簡潔明了的內(nèi)容放在一個信息欄中,用戶可以一目了然地了解到他需要的知識,快速解答疑惑; 同時提供了更加豐富的富文本信息,除文字外還有圖片、列表等可以直接消費的形式,增加了更多的用戶交互元素,提升用戶體驗,如圖片瀏覽、點擊試聽等,引導(dǎo)用戶在短時間內(nèi)獲取到更多的知識。例如,在百度中搜索 “十大元帥”,信息欄中既有文字的介紹,還有每一位元帥的照片; 搜索 “周星馳和吳孟達的電影”,信息欄中整合了所有符合條件的電影結(jié)果,還可以按照類型、地區(qū)、 年代、最新、最熱、用戶好評等標(biāo)簽縮小搜索范圍,幫助用戶快速鎖定目標(biāo); 在搜狗搜索中輸入 “梁啟超兒子的太太的好友”,信息欄中簡潔地給出答案: 泰戈爾和金岳霖,并配有他們的照片,另外還顯示了問題答案的推理說明。

????????知識圖譜可視化的展現(xiàn)不僅注重答案的精準(zhǔn),注重內(nèi)容顯示粒度上的把握,還關(guān)注頁面中顯示的位置、知識模塊位置的安排等細節(jié),還考慮了在智能手機和平板電腦等多種設(shè)備上顯示的效果等問題。需要涉及Web客戶端技術(shù)、可視化技術(shù)、人機交互等技術(shù)來幫助用戶實現(xiàn)高效答案獲取和知識學(xué)習(xí)。

二、知識組織研究現(xiàn)狀

文獻來源:司莉,何依,郭曉彤.國外知識組織研究主題、特征及思考[J].情報資料工作,2024,45(01):12-22.

????????知識組織的探索從古希臘柏拉圖、亞里士多德開始,一直伴隨著人類文明史發(fā)展的整個過程。其發(fā)展不僅是內(nèi)部變革使然,也是外部技術(shù)驅(qū)動的結(jié)果。本文從理論視角全方位、系統(tǒng)性探索了新科技浪潮對KO的影響,深入揭示國外KO研究主題、研究方法及領(lǐng)域應(yīng)用的特征。研究結(jié)果發(fā)現(xiàn),過去二十年間KO研究主題持續(xù)深入細化,關(guān)注點從概念理論等表層問題轉(zhuǎn)向核心價值、倫理道德、質(zhì)量評估、教學(xué)培訓(xùn)等深層問題的探討,方法體系從面向紙質(zhì)文獻的書目描述、分類標(biāo)引到面向多源異構(gòu)多模態(tài)資源的語義關(guān)聯(lián),技術(shù)手段從依賴于專家人工操作到輔以眾包及自動化技術(shù),不斷得到繼承與發(fā)展。研究方法形成“實踐-理論-實踐”的發(fā)展路徑,實證研究逐漸成為主流。應(yīng)用范圍從圖書情報向生物醫(yī)學(xué)、教育法學(xué)等領(lǐng)域擴展,且呈現(xiàn)向藥物安全監(jiān)測、課程建模管理、新聞瀏覽等特定場景發(fā)展的趨勢。鑒于此,我國可在教學(xué)培訓(xùn)、理論和實踐應(yīng)用方面進一步拓展KO疆域,包括:建立合理的評估體系,重視KO質(zhì)量;關(guān)注中文數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),推動語義化、關(guān)聯(lián)化進程;從實證研究出發(fā),關(guān)注領(lǐng)域知識組織研究,促進研究成果轉(zhuǎn)化;“群體+技術(shù)+專家”三輪驅(qū)動,加快海量數(shù)據(jù)的組織;擴展特定領(lǐng)域應(yīng)用實踐,提升KO服務(wù)水平;更新教學(xué)內(nèi)容,優(yōu)化理論基礎(chǔ)課與實踐進階課,培養(yǎng)倫理道德、跨文化意識。

柚子快報激活碼778899分享:擴展學(xué)習(xí)|一文讀懂知識圖譜

http://yzkb.51969.com/

參考閱讀

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://gantiao.com.cn/post/19348267.html

發(fā)布評論

您暫未設(shè)置收款碼

請在主題配置——文章設(shè)置里上傳

掃描二維碼手機訪問

文章目錄