概述知識圖譜在人工智慧中的應用 - 程式前沿
文章推薦指數: 80 %
知識圖譜(Knowledge Graph)的基本概念
程式語言前端開發IOS開發Android開發雲端運算人工智慧伺服器搜尋資料庫軟體開發工具概述知識圖譜在人工智慧中的應用2018.07.15程式語言分散式計算概述,區塊鏈的概述,噪音概述,大資料的概述,影象去霧演算法概述HOME程式語言概述知識圖譜在人工智慧中的應用Advertisement本文來自作者小崔 在 GitChat 上的分享隨著網際網路的發展,網路資料內容呈現爆炸式增長的態勢。
由於網際網路內容的大規模、異質多元、組織結構鬆散的特點,給人們有效獲取資訊和知識提出了挑戰。
知識圖譜(KnowledgeGraph)以其強大的語義處理能力和開放組織能力,為網際網路時代的知識化組織和智慧應用奠定了基礎。
知識圖譜是知識工程的一個分支,以知識工程中語義網路作為理論基礎,並且結合了機器學習,自然語言處理和知識表示和推理的最新成果,在大資料的推動下受到了業界和學術界的廣泛關注。
本文從知識圖譜出發,分別淺述了知識圖譜的基本概念、知識圖譜與人工智慧的關係、知識圖譜構建技術、知識圖譜的在行業中的典型應用,最後對目前的知識圖譜技術做出總結並展望。
目錄1.1.知識圖譜(KnowledgeGraph)的基本概念2.2.知識圖譜與人工智慧的關係3.3.知識圖譜構建技術3.1.3.1知識獲取3.2.3.2知識融合3.3.3.3知識計算及應用4.4.知識圖譜的在行業中的典型應用4.1.4.1金融領域4.2.4.2商業搜尋引擎的應用:如百度、搜狗等,國外谷歌4.3.4.3 問答系統的應用:蘋果的Siri4.4.4.4社交網路運用:FB4.5.4.5電商平臺運用:淘寶4.6.4.6其他領域5.5.知識圖譜的總結與展望1.知識圖譜(KnowledgeGraph)的基本概念知識圖譜(KnowledgeGraph),是結構化的語義知識庫,用於以符號形式描述物理世界中的概念及其相互關係,其基本組成單位是『實體-關係-實體』三元組,以及實體及其相關屬性-值對,實體之間通過關係相互聯結,構成網狀的知識結構。
其中:實體:對應現實世界的語義本體關係:對應本體間的關係,連線了不同型別的實體屬性:描述一類實體的common特性,實體被屬性所標註Theworldisnotmadeofstrings,butismadeofthings. 知識圖譜旨在描述真實世界中存在的各種實體或概念。
即知識圖譜實現對客觀世界從字串描述到結構化語義描述,是對客觀世界的知識對映(mappingworldknowledge)。
知識圖譜的核心:知識庫通過知識圖譜,可以實現Web從網頁連結向概念連結轉變,支援使用者按主題而不是字串檢索,從而實現真正的語義檢索,基於知識圖譜的搜尋引擎,能夠以圖形方式向使用者反饋結構化的知識,使用者不必瀏覽大量網頁,就可以準確定位和深度獲取知識。
圖1 知識圖譜示例2.知識圖譜與人工智慧的關係知識圖譜對於人工智慧的重要價值在於,知識是人工智慧的基石。
機器可以模仿人類的視覺、聽覺等感知能力,但這種感知能力不是人類的專屬,動物也具備感知能力,甚至某些感知能力比人類更強,比如狗的嗅覺。
而“認知語言是人區別於其他動物的能力,同時,知識也使人不斷地進步,不斷地凝練、傳承知識,是推動人不斷進步的重要基礎。
”而知識對於人工智慧的價值就在於,讓機器具備認知能力。
知識對於AI的價值,有了知識的人工智慧會變得更強大,可以做更多的事情。
反過來,因為更強大的人工智慧,可以幫我們更好地從客觀世界中去挖掘、獲取和沉澱知識,這些知識和人工智慧系統形成正迴圈,兩者共同進步。
機器通過人工智慧技術與使用者的互動,從中獲取資料、優化演算法,更重要的是構建和完善知識圖譜,認知和理解世界,進而服務於這個世界,讓人類的生活更加美好。
3.知識圖譜構建技術目前知識大量存在於非結構化的文字資料、大量半結構化的表格和網頁以及生產系統的結構化資料中。
構建知識圖譜的主要目的是獲取大量的、讓計算機可讀的知識。
為了闡述如何構建知識圖譜,本節首先給出了構建知識圖譜的技術圖,如下圖所示:圖2 構建知識圖譜技術圖整個技術圖主要分為三個部分:知識獲取:如何從非結構化、半結構化以及結構化資料中獲取知識;資料融合:如何將不同資料來源獲取的知識進行融合構建資料之間的關聯;知識計算及應用:基於知識圖譜計算功能以及知識圖譜的應用。
3.1知識獲取在處理非結構化資料方面,常見的非結構化資料主要是文字類的文章,因此需要通過自然語言技術識別文章中的實體。
常見的實體識別方法有兩種,分別是:使用者本身有一個知識庫則可以使用實體連結到使用者的知識庫上;當使用者沒有知識庫則需要命名實體識別技術識別文章中的實體。
當使用者獲得實體後,則需要關注實體間的關係,即實體關係識別。
其中有些實體關係識別的方法會利用到句法結構來幫助確定兩個實體的關係,因此有些演算法中會利用依存分析或者語義解析。
如果使用者不僅僅想獲取實體間的關係,還想獲取一個事件的詳細內容,那麼則需要確定事件的觸發詞並獲取事件相應描述的句子,同時識別事件描述句子中實體對應事件的角色。
在處理半結構化資料方面,主要的工作是通過包裝器學習半結構化資料的抽取規則。
由於半結構化資料具有大量的重複性的結構,因此對資料進行少量的標註,可以讓機器學出一定的規則進而在整個站點下使用規則對同型別或者符合某種關係的資料進行抽取。
最後當使用者的資料儲存在生產系統的資料庫中時,需要通過ETL工具對使用者生產系統下的資料進行重新組織、清洗、檢測最後得到符合使用者使用目的資料。
3.2知識融合當知識從各個資料來源下獲取時需要提供統一的術語將各個資料來源獲取的知識融合成一個龐大的知識庫。
提供統一術語的結構或者資料被稱為本體,本體不僅提供了統一的術語字典,還構建了各個術語間的關係以及限制。
本體可以讓使用者非常方便和靈活的根據自己的業務建立或者修改資料模型。
通過資料對映技術建立本體中術語和不同資料來源抽取知識中詞彙的對映關係,進而將不同資料來源的資料融合在一起。
同時不同源的實體可能會指向現實世界的同一個客體,這時需要使用實體匹配將不同資料來源相同客體的資料進行融合。
不同本體間也會存在某些術語描述同一類資料,那麼對這些本體間則需要本體融合技術把不同的本體融合。
最後融合而成的知識庫需要一個儲存、管理的解決方案。
知識儲存和管理的解決方案會根據使用者查詢場景的不同採用不同的儲存架構如NoSQL或者關聯式資料庫。
同時大規模的知識庫也符合大資料的特徵,因此需要傳統的大資料平臺如Spark或者Hadoop提供高效能運算能力,支援快速運算。
3.3知識計算及應用知識計算主要是根據圖譜提供的資訊得到更多隱含的知識,如通過本體或者規則推理技術可以獲取資料中存在的隱含知識;而連結預測則可預測實體間隱含的關係;同時使用社會計算的不同演算法在知識網路上計算獲取知識圖譜上存在的社群,提供知識間關聯的路徑;通過不一致檢測技術發現資料中的噪聲和缺陷。
通過知識計算知識圖譜可以產生大量的智慧應用如可以提供精確的使用者畫像為精準營銷系統提供潛在的客戶;提供領域知識給專家系統提供決策資料,給律師、醫生、公司CEO等提供輔助決策的意見;提供更智慧的檢索方式,使使用者可以通過自然語言進行搜尋;當然知識圖譜也是問答必不可少的重要組建。
4.知識圖譜的在行業中的典型應用目前,隨著人工智慧的不斷髮展,知識圖譜已經在搜尋引擎、聊天機器人、問答系統、臨床決策支援等方面有了一些應用。
圖3 知識圖譜在商業中的應用同時為了應對大資料應用的不同挑戰,藉助知識圖譜,實現不同的業務需求。
圖4 知圖譜助力資料分析實現商業智慧4.1金融領域反欺詐通過融合來自不同資料來源的資訊構成知識圖譜,同時引入領域專家建立業務專家規則。
我們通過資料不一致性檢測,利用繪製出的知識圖譜可以識別潛在的欺詐風險。
比如借款人UserC和借款人UserA填寫資訊為同事,但是兩個人填寫的公司名卻不一樣,以及同一個電話號碼屬於兩個借款人,這些不一致性很可能有欺詐行為。
圖5 知圖譜在反欺詐中的應用智慧投顧通過知識圖譜相關技術從招股書、年報、公司公告、券商研究報告、新聞等半結構化表格和非結構化文字資料中批量自動抽取公司的股東、子公司、供應商、客戶、合作伙伴、競爭對手等資訊,構建出公司的知識圖譜。
在某個巨集觀經濟事件或者企業相關事件發生的時候,券商分析師、交易員、基金公司基金經理等投資研究人員可以通過此圖譜做更深層次的分析和更好的投資決策。
比如在美國限制向中興通訊出口的訊息釋出之後,如果我們有中興通訊的客戶供應商、合作伙伴以及競爭對手的關係圖譜,就能在中興通訊停牌的情況下快速地篩選出受影響的國際國內上市公司從而挖掘投資機會或者進行投資組合風險控制。
圖6 知圖譜在智慧投顧中的應用4.2商業搜尋引擎的應用:如百度、搜狗等,國外谷歌查詢理解搜尋引擎藉助知識圖譜來識別查詢中涉及到的實體(概念)及其屬性等,並根據實體的重要性展現相應的知識卡片。
搜尋引擎並非展現實體的全部屬性,而是根據當前輸入的查詢自動選擇最相關的屬性及屬性值來顯示。
此外,搜尋引擎僅當知識卡片所涉及的知識的正確性很高(通常超過95%,甚至達到99%)時,才會展現。
當要展現的實體被選中之後,利用相關實體挖掘來推薦其他使用者可能感興趣的實體供進一步瀏覽。
圖7 知圖譜在搜尋引擎(百度)中的應用4.3 問答系統的應用:蘋果的Siri自動問答目前也是一個非常熱門的方向,這可能是面向應用最直接的方式,目前不管是學術界還是工業界都在做相關的研究,這裡有兩個例子,左邊是百度的度祕,右邊是蘋果的Siri,可以看到自然語言問答的結果。
圖8 知圖譜在問答系統中的應用4.4社交網路運用:FB社交網站Facebook於2013年推出了GraphSearch產品,其核心技術就是通過知識圖譜將人、地點、事情等聯絡在一起,並以直觀的方式支援精確的自然語言查詢。
例如輸入查詢式:“我朋友喜歡的餐廳”“住在紐約並且喜歡籃球和中國電影的朋友”等,知識圖譜會幫助使用者在龐大的社交網路中找到與自己最具相關性的人、照片、地點和興趣等。
GraphSearch提供的上述服務貼近個人的生活,滿足了使用者發現知識以及尋找最具相關性的人的需求。
其中主要功能就是興趣推薦和使用者聚類。
圖9知識圖譜在社交領域中的應用4.5電商平臺運用:淘寶電商網站的主要目的之一就是通過對商品的文字描述、圖片展示、相關資訊羅列等視覺化的知識展現,為消費者提供最滿意的購物服務與體驗。
通過知識圖譜,可以提升電商平臺的技術性、易用性、互動性等影響使用者體驗的因素。
阿里巴巴是應用知識圖譜的代表電商網站之一,它旗下的一淘網不僅包含了淘寶數億的商品,更建立了商品間關聯的資訊以及從網際網路抽取的相關資訊,通過整合所有資訊,形成了阿里巴巴知識庫和產品庫,構建了它自身的知識圖譜。
當使用者輸入關鍵詞檢視商品時,知識圖譜會為使用者提供此次購物方面最相關的資訊,包括整合後分類羅列的商品結果、使用建議、搭配等。
4.6其他領域如教育科研,醫療,生物醫療以及需要進行大資料分析的一些行業。
這些行業對整合性和關聯性的資源需求迫切,知識圖譜可以為其提供更加精確規範的行業資料以及豐富的表達,幫助使用者更加便捷地獲取行業知識。
5.知識圖譜的總結與展望知識圖譜是知識工程的一個分支,以知識工程中語義網路作為理論基礎,並且結合了機器學習,自然語言處理和知識表示和推理的最新成果,在大資料的推動下受到了業界和學術界的廣泛關注。
知識圖譜對於解決大資料中文字分析和影象理解問題發揮重要作用。
當前知識圖譜發展還處於初級階段,面臨眾多挑戰和難題,如:知識庫的自動擴充套件、異構知識處理、推理規則學習、跨語言檢索等。
知識圖譜的構建是多學科的結合,需要知識庫、自然語言理解,機器學習和資料探勘等多方面知識的融合。
有很多開放性問題需要學術界和業界一起解決。
Advertisement写评论取消回覆很抱歉,必須登入網站才能發佈留言。
近期文章Vue中容易被忽視的知識點2019.12.09if我是前端Leader,談談前端框架體系建設2019.12.09Spark入門(一)用SparkShell初嘗Spark滋味2019.12.08Spark入門(二)如何用Idea運行我們的Spark項目2019.12.08Spark入門(三)Spark經典的單詞統計2019.12.08Spark入門(四)Spark的map、flatMap、mapToPair2019.12.08Spark入門(五)Spark的reduce和reduceByKey2019.12.08Spark入門(六)Spark的combineByKey、sortBykey2019.12.08Spark入門(七)Spark的intersection、subtract、union和distinct2019.12.08Spark實戰尋找5億次訪問中,訪問次數最多的人2019.12.08AdvertisementAdvertisement
延伸文章資訊
- 1Google-知識圖譜-Google Knowledge Graph-一化網頁設計
知識圖譜(Google Knowledge Graph),是Google 在搜尋體驗上獨創的資料串聯應用,大多數的搜尋引擎,在結果的呈現上都是只有透過爬蟲程式在公開網路的串聯資訊中組成 ...
- 2知識圖譜- 維基百科,自由的百科全書
知識圖譜(Knowledge Graph),是結構化的語義知識庫,用於以符號形式描述物理 ... 知識圖譜的體系架構分為3個部分,分別獲取源數據、知識融合和知識計算與知識應用。
- 3Knowledge Graph 知识图谱梳理1. 概念及应用 - 知乎专栏
- 4知識圖譜 - iT 邦幫忙
知識圖譜(Knowledge Graph/Vault,以下簡稱KG)本質上是語義網絡,是一種基於圖的 ... 近年來,隨着人工智能的再次興起,知識圖譜又被廣泛的應用於聊天機器人和問答 ...
- 5一文打盡知識圖譜(超級乾貨,建議收藏!) | IT人
知識圖譜(Knowledge Graph, KG)是知識工程的重要分支之一,它以符號形式結構 ... 知識圖譜獲取資訊並將其整合到本體中,並應用推理器來獲取新知識。