知識圖譜- 維基百科,自由的百科全書
文章推薦指數: 80 %
知識圖譜(Knowledge Graph),是結構化的語義知識庫,用於以符號形式描述物理世界中的概念及其相互關係。
其基本組成單位是「實體-關係-實體」三元組,以及實體及其 ...
知識圖譜
語言
監視
編輯
關於與「知識圖譜」標題相近或相同的條目,請見「知識圖譜(消歧義)」。
知識圖譜(KnowledgeGraph),是結構化的語義知識庫,用於以符號形式描述物理世界中的概念及其相互關係。
其基本組成單位是「實體-關係-實體」三元組,以及實體及其相關屬性-值對,實體間通過關係相互聯結,構成網狀的知識結構。
知識圖譜可以實現Web從網頁鏈接向概念鏈接轉變,支持用戶按主題而不是字符串檢索,真正實現語義檢索。
基於知識圖譜的搜索引擎,能夠以圖形方式向用戶反饋結構化的知識,用戶不必瀏覽大量網頁即能準確定位和深度獲取知識。
[1]示例圖
在知識表示中,知識圖譜是一種知識庫,其中的數據通過圖結構的數據模型或拓撲整合而成。
知識圖譜通常被用來存儲彼此之間具有相互聯繫的實體。
[2]1980年代後期,格羅寧根大學和特文特大學聯合啟動了一個名為知識圖譜的項目。
Google、Bing和Yahoo等搜索引擎均已引入知識圖譜並在搜索界面的右側顯示。
目次
1發展歷史
2技術架構
2.1表達方式
2.2邏輯結構
2.3體系架構
3關鍵技術
3.1知識抽取
3.2知識融合
3.3知識加工
4行業典型應用
5問題與挑戰
5.1知識抽取不夠準確
5.2知識融合實體鏈接不夠準確
5.3知識加工技術難
6參考文獻
發展歷史編輯
知識圖譜的概念最早由谷歌2012年5月17日提出,其將知識圖譜定義為用於增強搜索引擎功能的輔助知識庫。
但在知識圖譜概念問世之前,語義網絡技術的研究領域早已開始。
2006年,Berners-Lee提出數據鏈接(linkeddata)的思想,推廣和完善URI(uniformresourceidentifier),RDF(resourcedescriptionframework),OWL(Webontologylanguage)等技術標準,為知識圖譜提供了技術基礎條件。
[3]
技術架構編輯
表達方式編輯
三元組是知識圖譜的一種通用表示方式,即G=(E,R,S),其中E是知識庫中的實體,R是知識庫中的關係,S代表知識庫中的三元組。
三元組的基本形式主要包括實體1、關係、實體2和概念、屬性、屬性值等。
實體是知識圖譜中的最基本元素,不同的實體間存在不同的關係。
概念主要指集合、類別、對象類型、事物的種類,例如人物、地理等;屬性主要指對象可能具有的屬性、特徵、特性、特點以及參數,例如國籍、生日等;屬性值主要指對象指定屬性的值,例如中國、1988-09-08等。
每個實體(概念的外延)可用一個全局唯一確定的ID來標識,每個屬性-屬性值對(attribute-valuepair,AVP)可用來刻畫實體的內在特性,而關係可用來連接兩個實體,刻畫它們之間的關聯。
[4]
邏輯結構編輯
知識圖譜在邏輯架構上分為兩個層次:數據層和模式層。
數據層是以事實(fact)為存儲單位的圖數據庫,其事實的基礎表達方式就是「實體-關係-實體」或者「實體-屬性-屬性值」。
模式層存儲的是經過提煉的知識,藉助本體庫來規範實體、關係以及實體類型和屬性等之間的關係。
[1]
體系架構編輯
知識圖譜的體系架構分為3個部分,分別獲取源數據、知識融合和知識計算與知識應用。
[5]知識圖譜有兩種構建方式,自頂向下和自底向下。
在知識圖譜發展初期,知識圖譜主要藉助百科類網站等結構化數據源,提取本體和模式信息,加入到知識庫的自頂向下方式構建數據庫。
現階段知識圖譜大多為公開採集數據並自動抽取資源,經過人工審核後加入到知識庫中,這種則是自底向上的構建方式。
關鍵技術編輯
知識抽取編輯
知識抽取(informationextraction)是構建知識圖譜的第一步,為了從異構數據源中獲取候選知識單元,知識抽取技術將自動從半結構化和無結構數據中抽取實體、關係以及實體屬性等結構化信息。
[6]實體抽取
實體抽取,也稱為命名實體識別(namedentityrecognition,�NER),指從源數據中自動識別命名實體,這一步是信息抽取中最基礎和關鍵的部分,因為實體抽取的準確率和召回率對後續知識獲取效率和質量影響很大。
早期實體抽取的准召率不夠理想,但在2004年,Lin等採用字典輔助下的最大熵算法,基於Medline論文摘要的GENIA數據集使得實體抽取的准召率均超過70%。
[7]2008年,Whitelaw等提出根據已知實體實例進行特徵建模,利用模型從海量數據集中得到新的命名實體列表,然後再針對新實體建模,迭代地生成實體標註語料庫。
[8]2010年,Jain等提出一種面向開放域的無監督學習算法,事先不給實體分類,而是基於實體的語義特徵從搜索日誌中識別命名實體,然後採用聚類算法對識別出的實體對象進行聚類。
[9]關係抽取
經過實體抽取,知識庫目前得到的僅是一系列離散的命名實體,。
為了得到更準確的語義信息,還需要從文本語料中提取出實體之間的關聯關係,以此形成網狀的知識結構,這種技術則為關係抽取技術。
[1]屬性抽取
屬性抽取是從不同信息源中採集特定實體的屬性信息。
例如針對某個公眾人物,可以從網絡公開信息中得到其暱稱、生日、國籍、教育背景等信息。
屬性抽取技術能夠從各個數據源中匯集屬性信息,更完整地表述實體屬性。
[1]
知識融合編輯
通過知識抽取的結果可能存在大量冗餘和錯誤信息,形成的結構化信息也會缺乏層次性和邏輯性,因此需要對抽取來的信息做知識融合,消除歧義概念、剔除冗餘和錯誤概念,提升知識質量。
知識融合分為實體鏈接和知識合併兩部分。
實體鏈接(entitylinking)指將在文本中抽取出來的實體鏈接到知識庫中正確實體。
[10]知識合併指從第三方知識庫產品或已有數據化數據中獲取知識輸入,包括合併外部知識庫和合併關係數據庫。
知識加工編輯
通過知識抽取、知識融合得到一系列的基本事實表達,離結構化、網絡化的知識體系仍有一段距離。
因此還需要針對這些事實表達進行知識加工,包括本體構建、知識推理和質量評估。
本體構建(ontology)指對概念建模的規範,以形式化方式明確定義概念之間的聯繫。
在知識圖譜中,本體位於模式層,用於描述概念層次體系的知識概念模版。
[11]知識推理指從知識庫中已有的實體關係數據經過計算建立新實體關聯,從現有知識中發現新知識,拓展和豐富知識網絡。
例如已知(乾隆,父親,雍正)和(雍正,父親,康熙),可以得到(乾隆,祖父,康熙)或(康熙,孫子,乾隆)。
知識推理的對象除了實體關係,還包括實體的屬性值、本體概念層次關係等。
例如已知(老虎,科,貓科)和(貓科,目,食肉目),可以推出(老虎,目,食肉目)。
[1]因為知識推理的信息基礎來源於開放域的信息抽取,可能存在實體識別錯誤、關係抽取錯誤等問題,因此知識推理的質量也可能存在對應問題,需要在入知識庫之前,將推理得來的知識進行質量評估。
2011年,Fader採用人工標註方式對1000個句子中的實體關係三元組進行標註,並作為訓練集得到邏輯斯蒂回歸模型,用於對REVERB系統的信息抽取結果計算置信度。
[12]另外,谷歌的KnowledgeVault從全網範圍內抽取結構化的數據信息,並根據某一數據信息在整個抽取過程中抽取頻率對該數據信息的可信度進行評分,然後利用從可信知識庫Freebase中的先驗知識對已評分的可信度信息進行修正,這一方法有效降低對數據信息正誤判斷的不確定性,提高知識圖譜中知識的質量。
[13]
行業典型應用編輯
知識圖譜及相關類似產品[1]
知識庫
產品
數據源
KnowledgeVault
GoogleSearchEngine
GoogleNow
Wikipedia,Freebase,
WebOpenData
WolframAlpha
AppleSiri
Mathematica
Satori/Probase
BingSearchEngine
MicrosoftCortana
Wikipedia,
WebOpenData
WatsonKB
IBMWatsonSystem
WebDictionaries
TheWorldBook
Encyclopedia
DBpediaKB
YAGOKB
NELLKB
DBpediaKB
YAGOKB
NELLKB
Wikipedia
Wikipedia
WebOpenData
FacebookKB
Shopycat
SocialNetworkData
ZhilifangKB
SougouSearchEngine
WebOpenData
ZhixinKB
BaiduZhixinPlatform
UserGeneratedContent
Cross-LingualKB
XLORE
Chinese/EnglishEncyclopedia,
Wikipedia
Zhishi.meKB
Zhishi.me
ChineseEncyclopedia
問題與挑戰編輯
知識抽取不夠準確編輯
受到算法准召率低、限制條件多、擴展性不好等問題,針對開放域的信息抽取仍面對很大挑戰。
知識融合實體鏈接不夠準確編輯
實體消歧、合併外部數據庫和關係數據庫的應用效果仍有很大提升空間。
知識加工技術難編輯
本體構建中的聚類問題、質量評估的標準和指標的建立和知識推理的技術思維限制,都是知識加工的重要難點。
參考文獻編輯
^1.01.11.21.31.41.5劉嶠,李楊,段宏,劉瑤,秦志光.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(03):582-600.
^WhatisaKnowledgeGraph?.2018[2021-10-28].(原始內容存檔於2020-11-13).
^程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國傑.大數據系統和分析技術綜述[J].軟件學報,2014,25(09):1889-1908.DOI:10.13328/j.cnki.jos.004674.
^徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術綜述[J].電子科技大學學報,2016,45(04):589-606.
^張吉祥,張祥森,武長旭,趙增順.知识图谱构建技术综述.計算機工程.doi:DOI:10.19678/j.issn.1000-3428.0061803.請檢查|doi=值(幫助).
^Cowie,Jim;Lehnert,Wendy.Informationextraction.CommunicationsoftheACM.1996-01,39(1):80–91.ISSN 0001-0782.doi:10.1145/234173.234209.
^Tsai,RichardTzong-Han;Wu,Shih-Hung;Chou,Wen-Chi;Lin,Yu-Chun;He,Ding;Hsiang,Jieh;Sung,Ting-Yi;Hsu,Wen-Lian.Variouscriteriaintheevaluationofbiomedicalnamedentityrecognition.BMCBioinformatics.2006-02-24,7(1).ISSN 1471-2105.doi:10.1186/1471-2105-7-92.
^Whitelaw,Casey;Kehlenbeck,Alex;Petrovic,Nemanja;Ungar,Lyle.Web-scalenamedentityrecognition.Proceedingofthe17thACMconferenceonInformationandknowledgemining-CIKM'08(NewYork,NewYork,USA:ACMPress).2008.doi:10.1145/1458082.1458102.
^Jain,Alpa;Pennacchiotti,Marco.Domain-independententityextractionfromwebsearchquerylogs.Proceedingsofthe20thinternationalconferencecompaniononWorldwideweb-WWW'11(NewYork,NewYork,USA:ACMPress).2011.doi:10.1145/1963192.1963225.
^Li,Yang;Wang,Chi;Han,Fangqiu;Han,Jiawei;Roth,Dan;Yan,Xifeng.Miningevidencesfornamedentitydisambiguation.Proceedingsofthe19thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining(NewYork,NY,USA:ACM).2013-08-11.doi:10.1145/2487575.2487681.
^Wong,Wilson;Liu,Wei;Bennamoun,Mohammed.Ontologylearningfromtext.ACMComputingSurveys.2012-08,44(4):1–36.ISSN 0360-0300.doi:10.1145/2333112.2333115.
^Cafarella,MichaelJ.;Downey,Doug;Soderland,Stephen;Etzioni,Oren.KnowItNow.ProceedingsoftheconferenceonHumanLanguageTechnologyandEmpiricalMethodsinNaturalLanguageProcessing-HLT'05(Morristown,NJ,USA:AssociationforComputationalLinguistics).2005.doi:10.3115/1220575.1220646.
^Dong,Xin;Gabrilovich,Evgeniy;Heitz,Geremy;Horn,Wilko;Lao,Ni;Murphy,Kevin;Strohmann,Thomas;Sun,Shaohua;Zhang,Wei.Knowledgevault.Proceedingsofthe20thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining(NewYork,NY,USA:ACM).2014-08-24.doi:10.1145/2623330.2623623.
取自「https://zh.wikipedia.org/w/index.php?title=知識圖譜&oldid=71299169」
延伸文章資訊
- 1GitHub開源史上最大規模中文知識圖譜 - IT人
近日,一直致力於知識圖譜研究的OwnThink 平臺在Github 上開源了史上最大規模1.4 億中文知識圖譜,其中資料是以(實體、屬性、值),(實體、關係、 ...
- 2中文知识图谱_百度百科
中文知识图谱(Chinese Knowledge Graph),最早起源于Google Knowledge Graph。知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(co...
- 3中研院中文詞知識庫小組】4年將建百萬詞規模 - iThome
Google知識圖譜(Google Knowledge Graph)這個結構化資料集,是讓Google搜尋引擎更聰明能主動提供答案的關鍵武器。但臺灣中央研究院早從30年前就成立 ...
- 4GitHub开源史上最大规模中文知识图谱 - 华为云社区
近日,一直致力于知识图谱研究的OwnThink 平台在Github 上开源了史上最大规模1.4 亿中文知识图谱,其中数据是以(实体、属性、值),(...
- 5OpenKG.CN – 开放的中文知识图谱
Skip to content. 注册 · 新冠专题 · cnSchema · Openbase · OpenKG工作组 · CIPS SIGKG · 中国中文信息学会.