中研院中文詞知識庫小組】4年將建百萬詞規模 - iThome
文章推薦指數: 80 %
Google知識圖譜(Google Knowledge Graph)這個結構化資料集,是讓Google搜尋引擎更聰明能主動提供答案的關鍵武器。
但臺灣中央研究院早從30年前就成立 ...
移至主內容
文/王宏仁
|
2019-02-22發表
若在Google搜尋網頁,輸入「歐巴馬的身高多少」,不會跳出一篇文章或是一串連結,而是Google會直接告訴你,答案就是1.85公尺。
這個讓搜尋引擎搖身變成知識解答者的關鍵,就是2012年亮相的Google知識圖譜(GoogleKnowledgeGraph)。
一個記錄了大量詞彙、物件,以及它們彼此間關連性的結構化資料集,這正是讓搜尋引擎更主動提供答案,看起來更聰明的關鍵。
可是Google把這套知識圖譜視為他們自己的秘密武器,只用於自家產品,而沒有釋出給第三方。
但是在臺灣,中央研究院早從30年前就成立了一個跨所合作的中文計算語言研究小組,稱為中文詞知識庫小組(簡稱詞庫小組),要來打造一套臺灣的中文自然語言處理技術。
2003年時,更展開了一項龐大計畫,要建立一套中文知識圖譜,稱為廣義知網(E-HowNet)),在2011年正式上線,比Google知識圖譜還早了一年現身。
中央研究院資訊科學研究所助研究員馬偉雲是詞庫小組計畫負責人,率領了10人團隊,來打造這個已有9萬多個詞條,中文世界少見的知識圖譜資料庫,目前已經發展到了2.0版。
馬偉雲指出,中文自然語言理解可分為幾個層次,第一步是斷詞,接著是語法理解、語意理解,最後是要達到對背景知識的理解。
其中,背景知識又可以分成兩種,包括了詞彙知識以及世界的背景知識。
「因為人們對一個詞彙有共同的知識,所我們才能溝通。
」
同樣的道理,對各種與語言相關的AI應用而言,「AI需要有知識,才能夠進行推論,甚至能夠解釋,這套廣義知網正是為了這樣的目的而設。
」他說。
在廣義知網中,採用了知識概念圖來描述一個詞與相關物之間的關係,而彼此連結的關係線也具有屬性的概念。
例如,查詢「學生」的知識圖譜,會列出與「學生」相關的概念,以及不同屬性上的意義,像是「學生」的定義屬性是「人」,動作屬性是「學習」,領域屬性是「教育」。
學生與其他詞之間的關連也會並列列出,例如「留學生」和「學生」兩個詞,會視為是同樣的概念,只是場所屬性不一樣,「留學生」就是場所屬性是「國外」的「學生」。
一個詞彙,往往會有數百,甚至是上千筆相關說明,可以清楚地呈現出對一個詞彙相關的屬性和概念意義。
簡單來說,就像把人們對「學生」這的詞的所有常識知識,都一目了然地記錄在知識圖譜上。
過去,學界開發語料庫時,常找來語言學家、專家來標記這些語料或詞彙,透過專家們人工的判斷,來建立這套描述詞彙彼此間關係的資料庫,就是所謂的知識圖譜。
中研院詞庫小組從2003年至今,投入大量專業人力,來建立這套標記系統和機制,也人工標記出9萬多個中文詞彙各自的知識圖譜,而且還每年持續更新內容,或修正這些詞彙所用的知識圖譜架構,還提供一套知識圖譜API,可以透過程式自動套用廣義知網的內容和架構,成為了一個可用來理解各種中文內容所需的知識庫。
例如在詞庫小組網站上,就展示了一套中研院自製的輿情分析系統,輸入想要搜尋的關鍵詞,例如柯文哲,輿情分析系統會先彙整目標媒體中特定期間內所有的柯文哲報導,再進行中文語言理解分析,運用廣義知識圖譜提供的詞彙關連知識,可以判斷出這些文章每篇文中具有的情感分布,可列出哪些報導帶有喜悅、羨慕、感激或惋惜、懊悔、失望、不滿等更細緻的不同情緒。
金融、電商等多家臺灣企業開始採用
中研院近兩年開始對外釋出這套廣義知網,不只學術可用,也可供企業申請授權來轉移技術,企業還能自行添加各自專業領域的知識詞彙,例如自建的財金詞彙等,來擴充廣義知網對特定領域的知識。
去年已有5家臺灣企業開始採用,如壽險業者、銀行、網路電商、消費電子產品商、網路內容業者等。
不過,中研院的目標不只如此,馬偉雲已經提出了新的發展計畫,要用4年時間,來擴大廣義知網的詞彙規模,「盡可能累積所有詞,甚至包括專有名詞,來打造一個中文知識庫。
」他計畫利用現有9萬詞彙所建立的知識圖譜架構,發展相關的自然語言處理工具,來將中文維基百科上的百萬詞彙,一一自動建立其知識圖譜,「廣義知網未來就可以成為一個具有百萬中文詞庫的知識庫。
」如此一來,這個百萬詞知識庫,不只可來強化Chatbot對中文語意理解的能力,或像是中文或華語教學等,也可成為中文語料庫,用於各種文本分析上,成了中文語音應用最大的軍火庫。
熱門新聞
中國發表openKylin開源社群以建置自家桌面作業系統
2022-07-04
世界盃足球賽將引進新一代影像裁判技術
2022-07-04
FedEX未來2年內終止所有大型主機
2022-07-04
勒索軟體AstraLocker收山,釋出解密程式
2022-07-05
Google封鎖了數十個涉及駭客租賃服務的網域
2022-07-01
【資安日報】2022年7月4日,漏洞懸賞平臺HackerOne員工竊取研究人員通報的漏洞牟利、駭客聲稱攻陷IBM與史丹佛大學
2022-07-04
微軟揭開Android收費詐騙程式的面紗
2022-07-01
駭客在網路上兜售自上海警局盜來的10億中國人民資料
2022-07-05
Advertisement
專題報導
摩根大通2022科技新戰略
紅帽邊緣運算新戰略
【法律科技大創新】用區塊鏈貫穿司法流程,打造被民眾信任的司法聯盟鏈
【不讓x86架構專美於前,憑低功耗與更多核心獲寵】Arm走入公有雲世界
【確保軟體供應鏈安全的第一步】快啟用MFA!保護開發者帳號刻不容緩
更多專題報導
延伸文章資訊
- 1中文知识图谱_百度百科
中文知识图谱(Chinese Knowledge Graph),最早起源于Google Knowledge Graph。知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(co...
- 2GitHub开源史上最大规模中文知识图谱 - 华为云社区
近日,一直致力于知识图谱研究的OwnThink 平台在Github 上开源了史上最大规模1.4 亿中文知识图谱,其中数据是以(实体、属性、值),(...
- 3大规模1.4亿中文知识图谱数据,我把它开源了 - 搜狐
现在,一个名为OwnThink 的平台在GitHub 上开源了中文知识图谱项目,这也是目前已开源的最大规模的中文知识图谱,数据是以(实体、属性、值) ...
- 4中文知识图谱构建思路是什么? - 知乎
由于英文知识图谱火了,虽然不知道到底为什么就那么火了= =。。。中国也开始做中文的知识图谱,以至于我…
- 5知識圖譜- 維基百科,自由的百科全書
知識圖譜(Knowledge Graph),是結構化的語義知識庫,用於以符號形式描述物理世界中的概念及其相互關係。其基本組成單位是「實體-關係-實體」三元組,以及實體及其 ...