無需人工!無需訓練!構建知識圖譜BERT一下就行了!
文章推薦指數: 80 %
不需要在開放關係抽取或者實體抽取的任務上訓練,而僅僅依靠預訓練模型就可以完成建立知識圖譜的整個過程。
模型不針對一個單一的關係逐條分析,一次餵給 ...
MdEditor
無需人工!無需訓練!構建知識圖譜BERT一下就行了!
語言:CN/TW/HK
時間 2020-12-0723:23:09
夕小瑤的賣萌屋
主題:
知識圖譜
BERT
文:Sherry
今天給大家帶來的是一篇號稱可以自動建立知識圖譜的文章《LanguageModelsareOpenKnowledgeGraphs》,文中提出了一個叫MatchandMap(MAMA)的模型,無需人工!無需訓練!只需語料和預訓練好模型,就可以從頭建立出知識圖譜,甚至可以挖掘出人類發現不了的新關係。
當Wikipedia再次邂逅BERT,知識圖譜就誕生啦!
通常來說知識圖譜的建立需要人工定義好的關係或者是實體類別,然後基於這些我們稱之為schema的骨架進行建立整個圖譜。
而傳統的自動識別關係及實體的方法大都基於訓練。
而MAMA就不一樣了,它就像媽媽一樣可以幫我們實現全自動圖譜建立:
不需要人工定義的schema,而是依靠開放實體抽取和開放關係抽取的方法去建立圖譜。
不需要在開放關係抽取或者實體抽取的任務上訓練,而僅僅依靠預訓練模型就可以完成建立知識圖譜的整個過程。
模型不針對一個單一的關係逐條分析,一次餵給MAMA整個段落,她就回報給你所有triple
到底是怎麼做到的呢?
開放知識圖譜
想要建立MAMA,我們先回顧一下知識圖譜中都有哪些基本元素:
(熟悉知識圖譜的同學們可以跳過這部分)知識圖譜,我們想要把大量的非結構化的知識(一般是大量的網頁及其中的文字)轉化成結構化的圖結構,那我們的基本結構中既要有知識也要有圖。
目前,知識圖譜中一共儲存兩類知識:
一類是實體,一般是諸如人名地名這類的名詞;
另外一類是這些實體之間的關係,比如出生地,職業。
有了知識,我們只需要把它建立成圖結構,那麼把實體看成圖中的點,關係看成圖中的邊就可以了。
開放知識圖譜一般用三元組(起始實體,關係,結束實體)來表示邊,所有邊都被以這個形式儲存之後圖譜就建立好啦。
MAMA怎樣構建圖譜呢?
要構建知識圖譜第一步是獲取基本原料:一個清洗好的語料庫和一個預訓練模型。
文中直接採用了維基百科作為語料,預訓練模型則直接用釋出的模型就可以了。
接下來關鍵的一步是自動抽取三元組,也是本文的主要貢獻點。
實體抽取的技術已經相對成熟,給定一個語料中的段落,我們先用開源工具抽取出它的所有實體,來構成我們可能建立的關係候選。
我們按照他們在句子中出現的順序,分為頭實體和尾實體。
然後重點來了!我們利用BERT這類預訓練模型的注意力權重來提取實體間的關係。
對於一個(頭實體,尾實體)對,我們用Beamsearch的方法從一個頭實體出發生成一個到尾實體的序列。
比如圖中從Dylan出發,以songwriter結束。
對於每一位置,我們看注意力權重矩陣裡attend到這個實體的這一列,並且只關注在句子中當前位置之後的token的注意力權重,選擇權重最大的下一個token加入當前序列。
例子中從Dylan出發選擇了is這個token,然後重複之前的操作,下一個我們選到了songwriter,那麼搜尋結束,我們就得到了一個(Dylan,is,songwriter)的序列。
聰明的小夥伴們已經發現了,這樣提取出來的序列不就是我們想要的三元組嗎?沒錯!我們再加上一些修修補補,MAMA就可以為我們完成構建圖譜的工作啦!
按上面這樣選出來的序列雖然可以簡要表示我們所需要的資訊,但它還不是嚴格意義上的關係三元組——我們有可能提取出多個token作為關係,文中針對這個問題對關係提取加入了一些限制:
首先,我們只保留注意力權重和大於閾值的序列。
這是為了防止BERT這類模型單純地提取出符合語言模型的序列,而不是那些對實體有特殊意義的關係。
一個反例:在閾值篩選之前,模型會從句子RollingStonewrote:“Nootherpopsonghassothoroughlychallengedartisticconventions”中抽取關係(RollingStone,wrote,popsong)
提取出來的關係必須在整個語料中出現足夠多的次數。
這樣是為了防止出現一些過於細節偏門的關係。
例如(Dylan,signedtoSamPeckinpah’sfilm,PatGarrettandBillytheKid),這裡的關係特指簽約了SamPeckinpah的電影,非常罕見且缺乏泛化性。
關係序列必須是句子中出現的連續token。
這樣可以防止提取出沒有意義的關係。
例如(RollingStone,wrotechallenged,conventions),這裡wrote和chanllanged不表示合理的關係。
現在,我們就已經可以用MAMA從語料庫中建立一個知識圖譜啦!
MAMA效果如何?
為了方便和其他方法比較,我們需要把這個開放圖譜和已有的資料集對應上。
使用已經比較成熟的實體連結,關係對映方法就可以了。
這樣造出來的MAMA無論在準確率還是召回率上都超過了之前的方法。
除了那些可以被對應到人造資料集中的關係之外,MAMA的一大亮點在於她可以發現其他沒有被schema預先定義的關係:
圖中藍色的關係是在預定義schema中出現的部分,MAMA額外還生成了33%的新關係(黃色)。
其中像Dylan和其他歌手曾經合作過,曾經是某個樂隊的成員等,這樣的資訊是人工schema中所沒有的,但對於歌手來說卻是很重要。
如果可以自動完善知識圖譜和schema的構建,那就解決了KG中很難窮盡所有關係的難題了。
一些評價
個人認為,MAMA的整體思想還是很新穎且值得借鑑的。
但是實驗部分以及一些細節上的設定還需要更精細的設定。
一大缺陷在於他沒有和其他的SOTA進行比較,效果尚未可知。
總體來說,為自動化的知識圖譜構建提供了一個不錯的思路。
論文連結:
https://arxiv.org/pdf/2010.11967.pdf
講解影片:
https://www.youtube.com/watch?v=NAJOZTNkhlI&t=276s
萌屋作者:Sherry。
本科畢業於復旦數院,轉行NLP目前在加拿大滑鐵盧大學讀CSPhD。
經歷了從NOIer到學數學再重回CS的轉變,卻堅信AI的未來需要更多來數學和自認知科學的理論指導。
主要關注問答,資訊抽取,以及有關深度模型泛化及魯棒性相關內容。
作品推薦:
GoogleCloudTPUs支援Pytorch框架啦!
後臺回覆關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~
「其他文章」
專心做搜尋也能登頂CLUE分類榜?在快手做搜尋是一種怎樣的體驗
一文跟進Prompt進展!綜述15篇最新論文逐一梳理
如何提升大規模Transformer的訓練效果?Primer給出答案
你的GNN,可能99%的引數都是冗餘的
分類問題後處理技巧CAN,近乎零成本獲取效果提升
工作6年,談談我對“演算法崗”的理解
谷歌|多工學習,如何挑選有效的輔助任務?只需一個公式!
誰說發paper一定要追快打新?2021年,研究word2vec也能中頂會!
圖靈獎大佬谷歌團隊,為通用人工智慧背書!CV任務也能用LM建模!
打破情感分類準確率80分天花板!更加充分的知識圖譜結合正規化
格局開啟,帶你解鎖prompt的花式用法
聊聊機器翻譯界的“灌水與反灌水之戰”!
別再Prompt了!谷歌提出tuning新方法,強力釋放GPT-3潛力!
谷歌:一篇論文,讓研究者吃我三份安利
學完文字知識,我就直接看懂圖片了!
NYU&Google:知識蒸餾無處不在,但它真的有用嗎?
發現一篇專門吐槽NLP內卷現狀的ACL論文...
恕我直言,你的實驗結論可能嚴重依賴隨機數種子!
抓住訓練集中真正有用的樣本,提升模型整體效能!
我刪了這些訓練資料…模型反而表現更好了!?
「知識圖譜」
美團知識圖譜問答技術實踐與探索
搭建基於知識圖譜的醫療行業問答系統
重啟知識圖譜與機器學習(1)
美團知識圖譜問答技術實踐與探索
明略科技總裁姜平:與騰訊雲合作打造行業知識圖譜方案,大型案例超50個
OCRNLP提取資訊並分析,這個開源專案火了!
基於知識圖譜的行業問答系統搭建分幾步?
一文帶你理解TDengine中的快取技術
美團基於知識圖譜的劇本殺標準化建設與應用
美團基於知識圖譜的劇本殺標準化建設與應用
「BERT」
美團知識圖譜問答技術實踐與探索
模型優化漫談:BERT的初始標準差為什麼是0.02?
高複用Bert模型文字分類程式碼(二)模型部分
高複用Bert模型文字分類程式碼(一)資料讀取
Sentence-BERT詳解
Few-ShotConversationalDenseRetrieval
美團基於知識圖譜的劇本殺標準化建設與應用
bert4keras在手,baseline我有:CLUE基準程式碼
NeurIPS2021有哪些值得讀的NLP論文?
帶你瞭解3類預訓練語音模型預測方法
延伸文章資訊
- 1建立知识图谱
知识图谱与机器学习| KG入门-- Part2 建立知识图谱. 在能够开发Data Fabric之前,我们需要构建一个知识图谱。在本文中,我将建立如何创建它的基础,在下一篇文章中, ...
- 2詳細說明知識圖譜構建全過程 - 每日頭條
知識圖譜是人工智慧的重要分支技術,它在2012年由谷歌提出,成為建立大規模知識的殺手鐧應用,在搜索、自然語言處理、智能助手、電子商務等領域發揮著重要 ...
- 3知識圖譜學習總結(持續更新)
知識圖譜 (Knowledge Graph)以結構化的形式描述客觀世界中概念、實體及其 ... 知識圖譜可以對這些數據資源進行語意標註和鏈接,建立以知識爲中心的 ...
- 4運用大數據建立水利知識圖譜 - Blogger
知識圖譜2012年加入Google搜尋,2012年5月16日正式發布,首先在美國使用。 知識圖譜除了顯示其他網站的連結列表,還提供結構化及詳細的關於主題的資訊。其 ...
- 5Python圖資料庫與知識圖譜開發實務 - 恆逸教育訓練中心
設置Neo4j開發與伺服器環境. 基本的Cypher編程語言. 圖資料庫數據建模模式. 深入思考的複雜查詢與圖形操作可用性. 導入和使用圖資料庫. 建立知識圖譜網頁並提供查詢 ...