無需人工!無需訓練!構建知識圖譜BERT一下就行了!

文章推薦指數: 80 %
投票人數:10人

不需要在開放關係抽取或者實體抽取的任務上訓練,而僅僅依靠預訓練模型就可以完成建立知識圖譜的整個過程。

模型不針對一個單一的關係逐條分析,一次餵給 ... MdEditor 無需人工!無需訓練!構建知識圖譜BERT一下就行了! 語言:CN/TW/HK 時間 2020-12-0723:23:09 夕小瑤的賣萌屋 主題: 知識圖譜 BERT 文:Sherry 今天給大家帶來的是一篇號稱可以自動建立知識圖譜的文章《LanguageModelsareOpenKnowledgeGraphs》,文中提出了一個叫MatchandMap(MAMA)的模型,無需人工!無需訓練!只需語料和預訓練好模型,就可以從頭建立出知識圖譜,甚至可以挖掘出人類發現不了的新關係。

當Wikipedia再次邂逅BERT,知識圖譜就誕生啦! 通常來說知識圖譜的建立需要人工定義好的關係或者是實體類別,然後基於這些我們稱之為schema的骨架進行建立整個圖譜。

而傳統的自動識別關係及實體的方法大都基於訓練。

而MAMA就不一樣了,它就像媽媽一樣可以幫我們實現全自動圖譜建立: 不需要人工定義的schema,而是依靠開放實體抽取和開放關係抽取的方法去建立圖譜。

不需要在開放關係抽取或者實體抽取的任務上訓練,而僅僅依靠預訓練模型就可以完成建立知識圖譜的整個過程。

模型不針對一個單一的關係逐條分析,一次餵給MAMA整個段落,她就回報給你所有triple 到底是怎麼做到的呢? 開放知識圖譜 想要建立MAMA,我們先回顧一下知識圖譜中都有哪些基本元素: (熟悉知識圖譜的同學們可以跳過這部分)知識圖譜,我們想要把大量的非結構化的知識(一般是大量的網頁及其中的文字)轉化成結構化的圖結構,那我們的基本結構中既要有知識也要有圖。

 目前,知識圖譜中一共儲存兩類知識: 一類是實體,一般是諸如人名地名這類的名詞; 另外一類是這些實體之間的關係,比如出生地,職業。

 有了知識,我們只需要把它建立成圖結構,那麼把實體看成圖中的點,關係看成圖中的邊就可以了。

開放知識圖譜一般用三元組(起始實體,關係,結束實體)來表示邊,所有邊都被以這個形式儲存之後圖譜就建立好啦。

MAMA怎樣構建圖譜呢? 要構建知識圖譜第一步是獲取基本原料:一個清洗好的語料庫和一個預訓練模型。

 文中直接採用了維基百科作為語料,預訓練模型則直接用釋出的模型就可以了。

接下來關鍵的一步是自動抽取三元組,也是本文的主要貢獻點。

 實體抽取的技術已經相對成熟,給定一個語料中的段落,我們先用開源工具抽取出它的所有實體,來構成我們可能建立的關係候選。

我們按照他們在句子中出現的順序,分為頭實體和尾實體。

然後重點來了!我們利用BERT這類預訓練模型的注意力權重來提取實體間的關係。

對於一個(頭實體,尾實體)對,我們用Beamsearch的方法從一個頭實體出發生成一個到尾實體的序列。

比如圖中從Dylan出發,以songwriter結束。

對於每一位置,我們看注意力權重矩陣裡attend到這個實體的這一列,並且只關注在句子中當前位置之後的token的注意力權重,選擇權重最大的下一個token加入當前序列。

例子中從Dylan出發選擇了is這個token,然後重複之前的操作,下一個我們選到了songwriter,那麼搜尋結束,我們就得到了一個(Dylan,is,songwriter)的序列。

聰明的小夥伴們已經發現了,這樣提取出來的序列不就是我們想要的三元組嗎?沒錯!我們再加上一些修修補補,MAMA就可以為我們完成構建圖譜的工作啦! 按上面這樣選出來的序列雖然可以簡要表示我們所需要的資訊,但它還不是嚴格意義上的關係三元組——我們有可能提取出多個token作為關係,文中針對這個問題對關係提取加入了一些限制: 首先,我們只保留注意力權重和大於閾值的序列。

這是為了防止BERT這類模型單純地提取出符合語言模型的序列,而不是那些對實體有特殊意義的關係。

一個反例:在閾值篩選之前,模型會從句子RollingStonewrote:“Nootherpopsonghassothoroughlychallengedartisticconventions”中抽取關係(RollingStone,wrote,popsong) 提取出來的關係必須在整個語料中出現足夠多的次數。

這樣是為了防止出現一些過於細節偏門的關係。

例如(Dylan,signedtoSamPeckinpah’sfilm,PatGarrettandBillytheKid),這裡的關係特指簽約了SamPeckinpah的電影,非常罕見且缺乏泛化性。

關係序列必須是句子中出現的連續token。

這樣可以防止提取出沒有意義的關係。

例如(RollingStone,wrotechallenged,conventions),這裡wrote和chanllanged不表示合理的關係。

現在,我們就已經可以用MAMA從語料庫中建立一個知識圖譜啦! MAMA效果如何? 為了方便和其他方法比較,我們需要把這個開放圖譜和已有的資料集對應上。

使用已經比較成熟的實體連結,關係對映方法就可以了。

這樣造出來的MAMA無論在準確率還是召回率上都超過了之前的方法。

除了那些可以被對應到人造資料集中的關係之外,MAMA的一大亮點在於她可以發現其他沒有被schema預先定義的關係: 圖中藍色的關係是在預定義schema中出現的部分,MAMA額外還生成了33%的新關係(黃色)。

其中像Dylan和其他歌手曾經合作過,曾經是某個樂隊的成員等,這樣的資訊是人工schema中所沒有的,但對於歌手來說卻是很重要。

如果可以自動完善知識圖譜和schema的構建,那就解決了KG中很難窮盡所有關係的難題了。

一些評價 個人認為,MAMA的整體思想還是很新穎且值得借鑑的。

但是實驗部分以及一些細節上的設定還需要更精細的設定。

一大缺陷在於他沒有和其他的SOTA進行比較,效果尚未可知。

總體來說,為自動化的知識圖譜構建提供了一個不錯的思路。

論文連結: https://arxiv.org/pdf/2010.11967.pdf 講解影片: https://www.youtube.com/watch?v=NAJOZTNkhlI&t=276s 萌屋作者:Sherry。

本科畢業於復旦數院,轉行NLP目前在加拿大滑鐵盧大學讀CSPhD。

經歷了從NOIer到學數學再重回CS的轉變,卻堅信AI的未來需要更多來數學和自認知科學的理論指導。

主要關注問答,資訊抽取,以及有關深度模型泛化及魯棒性相關內容。

作品推薦: GoogleCloudTPUs支援Pytorch框架啦! 後臺回覆關鍵詞【入群】 加入賣萌屋NLP/IR/Rec與求職討論群 有頂會審稿人、大廠研究員、知乎大V和妹紙 等你來撩哦~ 「其他文章」 專心做搜尋也能登頂CLUE分類榜?在快手做搜尋是一種怎樣的體驗 一文跟進Prompt進展!綜述15篇最新論文逐一梳理 如何提升大規模Transformer的訓練效果?Primer給出答案 你的GNN,可能99%的引數都是冗餘的 分類問題後處理技巧CAN,近乎零成本獲取效果提升 工作6年,談談我對“演算法崗”的理解 谷歌|多工學習,如何挑選有效的輔助任務?只需一個公式! 誰說發paper一定要追快打新?2021年,研究word2vec也能中頂會! 圖靈獎大佬谷歌團隊,為通用人工智慧背書!CV任務也能用LM建模! 打破情感分類準確率80分天花板!更加充分的知識圖譜結合正規化 格局開啟,帶你解鎖prompt的花式用法 聊聊機器翻譯界的“灌水與反灌水之戰”! 別再Prompt了!谷歌提出tuning新方法,強力釋放GPT-3潛力! 谷歌:一篇論文,讓研究者吃我三份安利 學完文字知識,我就直接看懂圖片了! NYU&Google:知識蒸餾無處不在,但它真的有用嗎? 發現一篇專門吐槽NLP內卷現狀的ACL論文... 恕我直言,你的實驗結論可能嚴重依賴隨機數種子! 抓住訓練集中真正有用的樣本,提升模型整體效能! 我刪了這些訓練資料…模型反而表現更好了!? 「知識圖譜」 美團知識圖譜問答技術實踐與探索 搭建基於知識圖譜的醫療行業問答系統 重啟知識圖譜與機器學習(1) 美團知識圖譜問答技術實踐與探索 明略科技總裁姜平:與騰訊雲合作打造行業知識圖譜方案,大型案例超50個 OCRNLP提取資訊並分析,這個開源專案火了! 基於知識圖譜的行業問答系統搭建分幾步? 一文帶你理解TDengine中的快取技術 美團基於知識圖譜的劇本殺標準化建設與應用 美團基於知識圖譜的劇本殺標準化建設與應用 「BERT」 美團知識圖譜問答技術實踐與探索 模型優化漫談:BERT的初始標準差為什麼是0.02? 高複用Bert模型文字分類程式碼(二)模型部分 高複用Bert模型文字分類程式碼(一)資料讀取 Sentence-BERT詳解 Few-ShotConversationalDenseRetrieval 美團基於知識圖譜的劇本殺標準化建設與應用 bert4keras在手,baseline我有:CLUE基準程式碼 NeurIPS2021有哪些值得讀的NLP論文? 帶你瞭解3類預訓練語音模型預測方法



請為這篇文章評分?