知識圖譜能否拯救NLP的未來?

文章推薦指數: 80 %
投票人數:10人

知識圖譜是NLP的未來嗎? 2021年了,不少當年如日中天技術到今天早已無人問津,而知識圖譜這個AI界的大IP最火的時候應該是18,19年,彼時上到頭部大廠 ... MdEditor 知識圖譜能否拯救NLP的未來? 語言:CN/TW/HK 時間 2021-04-1023:36:08 AINLP 主題: NLP 知識圖譜 作者|[email protected]知乎 編輯| 夕小瑤的賣萌屋 知識圖譜是NLP的未來嗎? 2021年了,不少當年如日中天技術到今天早已無人問津,而知識圖譜這個AI界的大IP最火的時候應該是18,19年,彼時上到頭部大廠下到明星創業公司都在PR自己圖譜+NLP佈局能夠賦予AI認知能力。

到了當下這個AI總體降溫的時間節點,我們是時候冷靜思考知識圖譜的未來到底該何去何從了。

回到這個問題本身:知識圖譜是否是NLP的未來呢? 我的看法:知識圖譜不是NLP的未來,因為知識圖譜是另外一種與NLP有很多交集的技術。

在目前所有已知的發展方向中,知識圖譜是最有可能長期和NLP互利共生的技術。

那麼,知識圖譜和NLP到底是什麼關係呢?直覺上看,機器學習可以類比我們人類學習。

回顧一下我們自己的學習過程,大腦和感官主要負責資訊獲取、處理、分析、決策。

對於簡單問題或少數天才,接受到資訊後,只需要在大腦中思考一遍即可得出結論。

但是對於複雜問題,比如工作彙報或期末考試,只靠大腦很難記住所有資訊,這個時候,很多人都會選擇將一些加工過的結構化或半結構化的知識整理成筆記,方便需要的時候快速回顧。

發現了嗎?大腦的角色非常類似NLP以及其他ML技術,而筆記幾乎就是KG的靈感來源。

具體來說,NLP在圖譜構建過程中舉足輕重,而圖譜又通過引入知識的方式反哺NLP。

不少證據已經表明諸如Bert之類的預訓練語言模型本身已經儲存了知識,就像我們的大腦中也存在一些關鍵記憶一樣,但它不可能將所有現實世界中的事實全部內化,猶如人腦不可能記住所有見過的東西一樣,而知識圖譜通過引入知識能緩解NLP的學習壓力。

另一個嚴重的問題是,由於NLP技術目前遠沒有人腦智慧,模型在訓練中記住的知識實際上是不可控的(此處可以圍觀隔壁的AI偏見問題[1]),這對NLP技術的落地應用是一個需要考慮的風險,而在可解釋性方面,知識圖譜是Bug級的存在。

知識圖譜如何賦能NLP技術? NLP技術如何賦能圖譜構建的資料很多,知識圖譜落地應用近些年也是進展地如火如荼,但,知識圖譜如何賦能NLP技術這個話題聊的人卻不太多。

我自己總結了最近幾年KG賦能NLP技術的一些打法,歡迎補充~ 預訓練中引入知識 代表工作: ERNIE[2],使用短語和實體mask策略在中文NLP任務上取得了較好的效果,其中短語和實體來自KG 圖2.ERNIE K-BERT[3],預訓練過程中注入相關的KG三元組,為模型配備領域知識,提高模型在特定領域任務上的效能,同時降低大規模預訓練成本。

圖3.K-BERT 資訊抽取中做遠端監督 用KG對齊文字做遠端監督標註資料是資訊抽取領域的大殺器,能夠有效降低人工標註成本,可以將實體抽取、關係抽取、事件抽取等子任務一網打盡,用過的小夥伴都說好。

圖4.遠端監督 實體連結中引入實體資訊 實體連結,就是把文字中的mention連結到KG裡的entity的任務。

如下圖所示[4]: 圖5.實體連結 顯然,KG中的實體資訊,如實體描述、實體屬性、實體embedding以及實體間關係等都是該任務的關鍵特徵,想深入瞭解的朋友請移步[4]。

文字生成中融合知識 通過知識圖譜中的顯示事實來指導生成文字是實現可控文字生成的一個重要方向,如下所示[5]: 圖6.文字生成 具體大致分為4種較為典型的方式[6]: 多工學習(生成+文字蘊含) 基於knowledgegraph的文字生成 基於memorynetwork的文字生成 結合分佈-取樣進行文字生成 想詳細瞭解的朋友請移步[6]。

語義匹配中引入關鍵詞資訊 在深度語義匹配任務中,有人發現,通過文字中關鍵詞之間的互動即可較為容易的找到匹配物件,與其他詞彙關係不大[7][8]。

圖7.語義匹配case  因此,考慮通過從KG中引入特定領域的關鍵詞表,然後在建模時highlight關鍵詞的重要度,從而達到更好的效果[8]。

圖8.關鍵字注意力機制 [1]AI的偏見:機器就是絕對理性的麼?https://baijiahao.baidu.com/s?id=1684480115111405061&wfr=spider&for=pc [2]ERNIE:EnhancedRepresentationthroughKnowledgeIntegrationhttps://arxiv.org/pdf/1904.09223.pdf [3]K-BERT:EnablingLanguageRepresentationwithKnowledgeGraphhttps://arxiv.org/pdf/1909.07606.pdf [4]ab【知識圖譜】實體連結:一份“由淺入深”的綜述-Nicolas的文章-知乎https://zhuanlan.zhihu.com/p/100248426 [5]TextGenerationfromKnowledgeGraphswithGraphTransformershttps://arxiv.org/pdf/1904.02342v1.pdf [6]ab文字生成12:4種融合知識的textgeneration(推薦收藏)-林小平的文章-知乎https://zhuanlan.zhihu.com/p/133266258 [7]騰訊專注關鍵詞的深度語義匹配模型https://blog.csdn.net/qq_27590277/article/details/113777978 [8]abKeyword-AttentiveDeepSemanticMatchinghttps://arxiv.org/abs/2003.11516 由於微信平臺演算法改版,公號內容將不再以時間排序展示,如果大家想第一時間看到我們的推送,強烈建議星標我們和給我們多點點【在看】。

星標具體步驟為: (1)點選頁面最上方"AINLP",進入公眾號主頁。

(2)點選右上角的小點點,在彈出頁面點選“設為星標”,就可以啦。

感謝支援,比心。

歡迎加入AINLP技術交流群 進群請新增AINLP小助手微信(id: ainlper) 請備註具體研究方向+加群目的 推薦閱讀 這個NLP工具,玩得根本停不下來 完結撒花!李巨集毅老師深度學習與人類語言處理課程影片及課件(附下載) 從資料到模型,你可能需要1篇詳實的pytorch踩坑指南 如何讓Bert在finetune小資料集時更“穩”一點 模型壓縮實踐系列之——bert-of-theseus,一個非常親民的bert壓縮方法 文字自動摘要任務的“不完全”心得總結番外篇——submodular函式優化 Node2Vec論文+程式碼筆記 模型壓縮實踐收尾篇——模型蒸餾以及其他一些技巧實踐小結 中文命名實體識別工具(NER)哪家強? 學自然語言處理,其實更應該學好英語 斯坦福大學NLP組Python深度學習自然語言處理工具Stanza試用 關於AINLP AINLP是一個有趣有AI的自然語言處理社群,專注於AI、NLP、機器學習、深度學習、推薦演算法等相關技術的分享,主題包括文字摘要、智慧問答、聊天機器人、機器翻譯、自動生成、知識圖譜、預訓練模型、推薦系統、計算廣告、招聘資訊、求職經驗分享等,歡迎關注!加技術交流群請新增AINLPer(id:ainlper),備註工作/研究方向+加群目的。

閱讀至此了,分享、點贊、在看三選一吧:pray: 「其他文章」 基於NLP的6大打工人擇業靈魂問題及應答彙總 我有文章了,但也不想搞學術了 大廠“畢業季”,講一講研究所 北京可以選擇哪些國企、央企以及研究所 程序員延壽指南 克里斯多夫·曼寧-人類語言理解與推理 日久見人心:論建模使用者長期興趣的幾種姿勢 Google十年 入行時間序列預測必讀的4篇論文(附程式碼) 入門nlp必讀的10篇baseline論文 知識圖譜:從理論到實踐 這千層transformer讓我目瞪口呆 關於大模型的發展趨勢,我突然有個細思極恐的腦洞 KaggleGrandMaster抱團作弊? 名校碩士苦攻5年AI無論文痛苦吐槽,導師放養怎麼辦? 在外企工作爽嗎? 後Prompt時代|NLP統一正規化:預訓練大規模多工學習 虎年春節,擼了一個文言文白話文轉換器 SimCLUE:大規模中文語義理解資料集 初入NLP領域的一些小建議 「NLP」 人工智慧NLP簡述 國內首次!這家中國企業的語言AI實力被公認全球No.2!僅次於谷歌 NLP論文領讀|文字生成模型退化怎麼辦?SimCTG告訴你答案 NAACL2022論文獎項公佈:谷歌成最大贏家 最新NLP賽事實踐總結! CausalML:如何將因果推斷與機器學習結合? 登頂KgCLUE,OPPO小布推出預訓練大模型OBERT 單機訓練200億引數大模型:Cerebras打破新紀錄 今年高考英語AI得分134,復旦武大校友這項研究有點意思 NLP論文領讀|改善意圖識別的語義表示:有監督預訓練中的各向同性正則化方法 「知識圖譜」 音影片知識圖譜2022.06 構建適合組織的雲原生可觀測效能力 論文淺嘗|KR-GCN:知識感知推理的可解釋推薦系統 基於NebulaGraph構建百億關係知識圖譜實踐 基於NebulaGraph構建百億關係知識圖譜實踐 論文淺嘗|ContinualLearningforNamedEntityRecognition 線上文字實體抽取能力,助力應用解析海量文字資料 降本增效,企業該如何釋放資料價值?|Q推薦 ​SIGIR2022|港大、武大提出KGCL:基於知識圖譜對比學習的推薦系統 谷歌知識圖譜十年發展史



請為這篇文章評分?