知識圖譜與機器學習|KG入門-- Part2 建立知識圖譜 - sa123

文章推薦指數: 80 %
投票人數:10人

來源| Medium. 【磐創AI導讀】:本系列文章為大家介紹了知識圖譜與機器學習。

在能夠開發Data Fabric之前,我們需要構建一個知識圖譜。

在本文中,我將建立如何建立它的 ... 編譯|Arno 來源|Medium 【磐創AI導讀】:本系列文章為大家介紹了知識圖譜與機器學習。

在能夠開發DataFabric之前,我們需要構建一個知識圖譜。

在本文中,我將建立如何建立它的基礎,在下一篇文章中,我們將討論如何實現這一點。

點選檢視上一篇文章:知識圖譜與機器學習|KG入門--Part1-b圖深度學習。

想要獲取更多的機器學習、深度學習資源,歡迎大家點選上方藍字關注我們的公眾號:磐創AI。

介紹 在本系列前面兩篇文章中我一直在討論DataFabric,並給出了一些關於DataFabric中的機器學習和深度學習的概念。

並給出了我對DataFabric的定義: DataFabric是支援企業所有資料的平臺,它作為一個統一的框架來管理、描述、組合和訪問資料。

該平臺由企業知識圖譜構成以建立統一的資料環境。

如果你仔細看一下定義,它說DataFabric是由企業知識圖譜構建的,所以我們最好知道如何建立和管理它。

目標 建立了知識圖譜理論的基礎和講解如何構建一個知識圖譜 細節 解釋與企業相關的知識圖譜的概念 給出構建成功的企業知識圖譜一些建議 展示知識圖譜的例子 主要理論 DataFabric中的fabric是由一個知識圖譜構建的,而要建立一個知識圖譜,你需要語義和本體來找到一種有用的方法來連結資料,這種方法惟一地標識資料並將資料與公共業務術語連線起來。

第一節什麼是知識圖譜? 知識圖譜由資料和資訊組成,還包含大量不同資料之間的連結。

這裡的關鍵是,在這個新模型下,我們不是在尋找可能的答案,而是在尋找確定的答案。

我們想要的是事實——這些事實來自哪裡並不那麼重要。

這裡的資料可以代表概念、物件、事物、人,以及你頭腦中的任何東西。

圖中填充了概念之間的關係和聯絡。

在這種情況下,我們可以向我們的資料湖提出這個問題:這裡存在什麼? 這裡不同的是它可以建立一個框架來研究資料及其與其他資料的關係。

在知識圖譜中,表示在特定形式本體中的資訊可以更容易地進行自動化資訊處理,而如何最好地實現這一點是計算機科學(如資料科學)中一個活躍的研究領域。

本體語言中的所有資料建模語句(以及其他所有東西)和資料知識圖譜的世界本質上都是遞增的。

透過修改概念,可以很容易地在事後增強或修改資料模型。

透過知識圖譜,我們構建的是一種人類可讀的資料表示,它惟一地標識資料,並將資料與常見的業務術語連線起來。

這個“層”幫助終端使用者自主、安全、自信地訪問資料。

還記得這張圖片嗎? 我之前提過DataFabric中的“洞察力”(insight)可以看作是對其的一個凹痕。

而發現這種“洞察力”是什麼的自動過程,就是機器學習。

但這種fabric是什麼呢?是由知識圖譜構成的物件。

就像在愛因斯坦的相對論中,時空的連續體(或離散體?)構成了fabric,而在這裡,當你建立一個知識圖譜時,fabric就形成了。

為了構建知識圖譜,你需要連結資料。

連結資料的目標是釋出結構化資料,使其易於使用,並與其他連結資料相結合,本體作為連線實體和理解實體之間關係的方式。

第二節建立一個成功的企業知識圖譜 不久前SebastienDery寫了一篇關於知識圖譜挑戰的有趣文章。

這裡你可以看一看 https://medium.com/@sderymail/challenges-of-knowledge-graph-part-1-d9ffe9e35214 也可以看看cambridgesemantis.com上關於RDF的介紹以及其他資源,我在任何文章中都沒有提到,但非常重要的一個概念是三元組的概念:主語、賓語和謂語(或實體-屬性-值)。

通常,當你研究三元組時,它們實際上是指資源描述框架(RDF)。

RDF是三種基本語義Web技術之一,另外兩種是SPARQL和OWL。

並且RDF是語義Web的資料模型。

注意:順便說一下,這些概念幾乎都是隨著全球資訊網語義的新定義而來的,但是我們將它用於知識圖譜。

我不打算在這裡詳細描述這個框架,但是我將給出一個關於它們如何工作的例子。

記住,我這樣做是因為這是我們開始構建本體、連結資料和知識圖譜的方式。

讓我們看一個例子,看看這個三元組是什麼,這與Sebastien提到的例子密切相關。

我們將從字串“geoffreyhinton”開始。

現在,要開始構建一個知識圖譜,首先系統要識別那個字串實際上指的是GeoffreyHinton這個人。

然後它會識別那個人的相關實體。

順便說一下,下面就是GeoffreyHinton,如果你不認識他的話: 然後系統會開始給這些關係起名字: 這個系統可以在一段時間內找到連線的連線,從而為我們的“搜尋字串”建立一個表示不同關係的巨大圖。

為此,知識圖譜使用了三元組。

像下面這樣的: 正如你所看到的我們有一個主語(GeoffreyHinton)與賓語(Researcher),然後透過一個謂語(isa)聯絡起來。

這對我們人類來說可能聽起來很簡單,但是它需要一個非常全面的框架,機器才能夠進行處理。

這是知識圖譜形成的方式,也是我們使用本體和語義連結資料的方式。

那麼,我們需要什麼來建立一個成功的知識圖譜呢?來自CambridgeSemantics的ParthaSarathi為此寫了一篇很棒的部落格,你可以看一看: https://blog.cambridgesemantics.com/creating-a-successful-enterprise-knowledge-graph 總而言之,他說我們需要: 能夠構想它的人:你需要具有業務關鍵主題專業知識和技術交叉的人員 資料多樣性,儘可能還有大量的資料:採用企業知識圖譜的價值和規模與所包含資料的多樣性成正比 一個能夠構建它的好產品:知識圖譜需要具有良好的管理性、安全、易於連線到上下游系統、可進行大規模分析,而且往往是雲友好的。

因此,用於建立現代企業知識圖譜的產品需要為自動化、支援各種輸入系統的聯結器、為下游系統提供標準的資料輸出、快速分析任何規模的資料以及使管理變得友好進行最佳化。

可以閱讀下面的文章進一步瞭解如何建立一個知識圖譜: https://info.cambridgesemantics.com/build-your-enterprise-knowledge-graph 第三節知識圖譜例子 Google: Google基本上是一個巨大的知識(加上更多的補充)圖譜,他們可能在此基礎上建立了最大的DataFabric。

Google有數十億的事實,包括關於數百萬物件的資訊和關係。

並允許我們透過他們的系統去搜索,以發現其中的“洞察力”(insights)。

LinkedIn: 我最喜歡的社交網路LinkedIn有一個巨大的知識圖譜,它建立在LinkedIn上的“實體”之上,比如成員、工作、頭銜、技能、公司、地理位置、學校等等。

這些實體和它們之間的關係構成了專業世界的本體。

而“洞察力”(insights)幫助領導者和銷售人員做出商業決策,並提高LinkedIn的成員參與度: 記住,LinkedIn(以及幾乎所有)的知識圖譜都需要隨著新成員的註冊、新職位的釋出、新公司、技能和頭銜出現在成員簡介和職位描述中等等而進行擴充套件。

你可以閱讀下面的文章瞭解更多關於LinkedIn中的知識圖譜: https://engineering.linkedin.com/blog/2016/10/building-the-linkedin-knowledge-graph 金融機構知識圖譜: 在下面MartyLoughlin的這篇文章中,他展示了Anzo平臺可以為銀行做些什麼,在文章中你可以看到,這項技術不僅與搜尋引擎相關,而且可以處理不同的資料。

https://blog.cambridgesemantics.com/why-knowledge-graph-for-financial-services-real-world-use-cases 在文章中,他展示了知識圖譜如何幫助這類機構: 用於分析和機器學習的另類資料(AlternativeData) 利率互換風險分析 貿易監測 欺詐行為分析 特徵工程與選擇 資料遷移 總結 要建立知識圖譜,你需要語義和本體來找到一種有用的方法來連結資料,這種方法惟一地標識資料並將資料與公共業務術語連線起來,從而構建DataFabric的底層結構。

當我們構建一個知識圖譜時,我們需要使用本體和語義形成三元組來連結資料。

此外,知識圖譜的構建基本上取決於三件事:構想它的人、資料多樣性和構建它的好產品。

在我們周圍有很多我們甚至不知道的知識圖譜的例子。

世界上大多數成功的公司都在實現和遷移它們的系統以構建DataFabric。

你也許還想看: ●NLPer入門指南|完美第一步 ●一文總結資料科學家常用的Python庫(下) ●一文看懂NLP神經網路發展歷史中最重要的8個里程碑! 歡迎掃碼關注: 點選下方|閱讀原文|瞭解更多 相關文章 搜尋: Copyright©2022|Poweredbysa123.cc



請為這篇文章評分?