菜单

微生物知图谱表示学习及涉及推理(2016-2017)(一)

2018年10月19日 - 微生物

作者:整理2016-2017年ACL、EMNLP、SIGIR、IJCAI、AAAI等国际闻名会议被实体关系推理与文化图谱补全的有关论文,供自然语言处理研究人口,尤其知识图谱领域的大方参考,如发荒唐理解的远在请求指出,不胜感激!(如需转载,请联系本人:jtianwen2014,并注明出处)

ACL 2016

Unsupervised Person Slot Filling based on Graph Mining

  • 作者:Dian Yu, Heng Ji 
  • 机构:Computer Science Department, Rensselaer Polytechnic
    Institute 

本文的天职为槽填充(Slot
Filling),即由常见的语料库中抽取给定实体(query)的叫明确概念之性能(slot
types)的价(slot
fillers)。对于此任务,本文叙述目前主流的点子可以分成两类:有监控的归类方法,设计分类器识别给定的实体和价值所属之涉项目,分类器的训练往往使用如运动学习、利用距离监督的噪声标注等方式;模式匹配方法,从文本中活动或半机动地抽取和生成词法或句法的模式,以用于关系之抽取,但为涉及所抒发的不二法门差异,这种模式匹配方法无法兼而有之较好之召回率。

正文认为,以上两类似方式还无法充分好的诺本着新的言语或出现新的涉及项目的状况,即移植性不高;而且,两种方式还止是注意让实体和候选值之前的平滑表示,并没设想到其中间的全局结构关系,以及讲话中任何的涉及事实的影响。本文重要之算法思想基于以下简单独相:

  1. 在句子的依存图中,触发词结点(trigger)经常是与实业(query)与价值(filler)结点都死相关的,并且是图中之重点节点;
  2. 当实体(query)与价值(filler)结点通过一个涉显然的触发词强涉嫌起来,往往意味着在必然的涉及(slot
    type)。

基于以上两个着眼,本文的提出了一样种基于图的槽填充的方式:首先,利用简易的启发式规则,从句子中分辨出候选实体和属于性值;然后,对于给定候选实体和属于性值对,利用PageRank图算法和AP(Affinity
Propagation)聚类算法自动识别触发词
;最后,根据识别的触发词对性能类型(slot
type)进行分拣。

生图为以PageRank算法对候选触发词结点打分: 

微生物 1 

生图也使用AP算法对候选触发词进行聚类(关系触发词可能连一个单词),以选定最终触发词。如下图最终选定“divorced”为最后触发词。 

微生物 2 

作者:本文主要的思想与创新点在于,以性触发词为切入点进行关联的开掘,将PageRank算法和AP算法引入中,将扇填充问题易为图及之打桩问题。候选实体和属于性值的辨识、属性类型的归类就半个组成部分采用了启发式的条条框框及表面的词典资源。但迅即吃图挖掘的不二法门,由于下句法依存与PageRank算法来或在计算复杂性上存在问题。

Knowledge Base Completion via Coupled Path Ranking

  • 作者:Quan Wang†, Jing Liu‡, Yuanfei Luo†, Bin Wang†, Chin-Yew
    Lin‡ 
  • 机构†:Institute of Information Engineering, Chinese Academy of
    Sciences 
  • 机构‡:Microsoft Research 

本文的职责吗知识库补全,即通过考察知识库中曾经存在的真情,自动推理出丢失的实情。本文叙述这项任务的章程大概分为三种:

鉴于PRA方法有比较好的解释性,并且不待额外的逻辑规则,本文主要行使PRA方法对那个改良。在动用PRA进行关联推理时,以往底措施还是当演绎等,利用PRA为每个关系独立建模,也就是为每个关系上一个独门的分类器。

本文的初衷是:如果利用PRA对某些关乎国有建模是否会面落重新好之成效,尤其是当这些关乎互动紧密联系的时光,比如,“出生”和“生长为”这简单独涉最好有或联手持有一些涉及路径:“国籍->首都”等。很多钻表明这种多任务上相比单任务上而言,往往有着双重好之效能。本文提出CPRA的法子,该办法所设化解简单个问题:(1)哪些关系需组合在一起学习?(2)如何组合在一起学习?

(1)哪些关系需组合在一起学习?本文提出了同一种植冲公共路径的形似度度量方法,并以这个基础及用关乎聚成不同的组,同组的涉并学习。公共路径的貌似度具体值依据两独涉(或簇)的门径交集数量占比。

(2)如何组合在一起学习?依循多任务上之规则,对于同训练之分类器使用有限局部参数,即共享参数与私家参数。共享参数可以反映相似关系中的得共性,私有参数用于描述不同关系间的风味。这点儿近乎参数在训练过程中凡一块学习之。

笔者:PRA的方法的施用或存在局限,比如对于开放域知识图谱,如Reverb等,其关系项目多样还无事先定义,则无从对每个品种训练分类器;而且这种每个类别训练分类器的法门吃其实较生,更不便民让定实体对的干推理。是否可合为一个分类器,或者未是分类器,而是生成器,生成于定实体对的或是波及,这样即便应用叫干项目体系未知的开放域知识图谱。

Compositional Learning of Embeddings for Relation Paths in Knowledge Bases and Text

  • 作者:Kristina Toutanova, Xi Victoria Lin∗, Wen-tau Yih, Hoifung
    Poon, Chris Quirk
  • 机构:Microsoft Research
  • 机构∗:University of Washington

本文的天职为知识图谱补全,推理预测实体间暧昧的涉及。本文叙述,当前之片段家以涉及路径信息融入到知识库嵌入式表示被,取得了好醒目的结果。知识库嵌入式表示,指的凡拿知识库中实体和事关映射到低维稠密之半空中被,知识的推理转化为实体和关系所关联的向量或矩阵之间的演算。这种嵌入式的代表,操作费较小,推理的频率比高。为了更加升级基于嵌入式表示的干推理,一些大方拿干路径信息融入其中。

本文发现,目前之用关联路径融入知识库的嵌入式表示方法有如下问题:首先,当干的路径总类增多时,时间开比较生,严重影响推理的频率;另外,目前之计才考虑了路信息,并未设想结点的信息,即使是一律路线,包含不同结点也装有不同之音讯。本文提出了同样栽动态规划的办法,可以快捷地将涉嫌路径融入到知识库的嵌入式表示,并且又对路线上之涉嫌项目和结点进行表示。

正文为基因调控网络为条例,网络的节点是基因,边也少单重大之关联:正调控、负调控,为了一道代表文本信息,将基因共现的文本语句之依存关系嵌入到网被,所生图所显示,红色边也本来网络的调控提到,灰色边也文本依存信息:

微生物 3 

主导的文化图谱嵌入式表示学习的道是,首先学实体和涉的向量(或矩阵)表示,然后同用习及之参数\(\theta\)和函数\(f(s,r,t|\theta)\)为可能的老三首先组进行打分。其中,双线性模型(BILINEAR)用矩阵表征关系,向量表征实体,打分函数\(f\)定义为:\(f(s,r,t|\theta)=x_s^{\rm
T}W_rx_t\)。

此外,为了减少参数,本文介绍了另一样种模型双线性-对角模型,即将关系矩阵\(W\)替换为对角矩阵。

用关联路径引入嵌入式表示一般有三三两两栽艺术:(1)利用关乎路径生成辅助的老三首组用于训练(通过任意游走获得路,端点实体的关联之所以干路径代替);(2)将关联路径作为特色用于打分,打分函数替换为\(f(s,r,t|\theta,\prod_{s,t})\),\(\prod_{s,t}\)为路径上涉嵌入式表示的加权求和。对于双线性模型,关系路径\(\pi\)的嵌入式表示一般为:\(\Phi_{\pi}=W_{r_1}…W_{r_n}\)。

正文更偏于吃次种方法,因为那个针对性路线上之涉嫌展开剪枝。本文对\(f(s,r,t|\theta,\prod_{s,t})\)做了详尽规划以及概念:用\(F(s,t)\)代表\(\prod_{s,t}\),用\(P(t|s,\pi)\)代表头实体经过路径到达尾实体的概率,令:\(F(s,t)=\sum_{\pi}w_{|\pi|}P(t|s,\pi)\Phi(\pi)\)。最终\(f(s,r,t|\theta,\prod_{s,t})\)定义为:

\[f(s,r,t)=x^{\rm
T}W_rx_t+vec(F(s,t))^{\rm T}vec(W_r)\]

其中\(F(s,t)\)的计算时间耗费比较生,本文通过动动态规划的方法ALL-PATH高效学习及计算该打分函数,使得可以迅速地将关乎路径融入到知识库的嵌入式表示,并且又对路线上之涉嫌项目和结点进行表示。本文用参数\(w_{e_i}\)用于表示针对通过实体\(e_i\)路径的影响,对于双线性模型:\(\Phi_{\pi}=W_{r_1}tanh(w_{e_1})…W_{r_n}tanh(w_{e_n})\)。用\(F_l(s,t)\)表示实体\(s\)和\(t\)之间长度也\(l\)的不二法门的加权和,则闹:

\[F(s,t)=\sum_{l=1…L}w_lF_l{s,t}\]

其中,\(F_l{s,t}=\sum_{\pi \in
P_l(s,t)}P(t|s,\pi)\Phi_{\pi}\),\(P_l(s,t)\)表示实体\(s\)和\(t\)之间长度也\(l\)的路径。

动态规划算法如下图所示:

微生物 4 

笔者:本文针对往融合路径信息的嵌入式表示方法的时光复杂度进行优化,并加入节点信息,旨在高效运算并融入更尽的音。本文的方法ALL-PATH在时空以及力量达到优化之前的计。本文的措施的贯彻基于的凡双线性模型,这里当只是示例,完全好以双线性替换为外模型,这种干路径集成的思辨好动用被众早就部分嵌入式表示学习道,所以本文的极致酷亮点应该在于动态规划的提出,用以高效之盘算。

TransG : A Generative Model for Knowledge Graph Embedding

  • 作者:Han Xiao, Minlie Huang, Xiaoyan Zhu
  • 机构:Dept. of Computer Science and Technology, Tsinghua
    University

正文的任务也知识图谱表示学习,旨在以文化图谱映射到低维稠密的向量空间里。与过去研究工作不同,本文将目光聚焦让“多语义关系”,即和同称呼互动的关联可能具备不同的语义含义,如对涉及“HasPart”,对于实体“桌子”和“桌腿”有这种关涉,对于“英国”和“伦敦”也如出一辙颇具这样的涉及,但双方所抒发的义却不尽相同。

连于感性层面达到,本文对TransE的知识图谱向量表示进行可视化(PCA降维):抽取四栽不同关系,将有着给定关系之实业对向量相减(据TransE思想,可以落关系之向量),将结果向量展示在二维空间里。理想状态下,对于每个关系该只是与一个簇对应,但诚实的结果是每个关系持续一个蔸,而是多单明白分开的簇。这也于旁一个角度证明了关系的多语义性质。

针对当下等同题材,本文提出TransG模型,利用贝叶斯非参数无限混合嵌入式表示模型来十分成涉之多语义表示。TransG可以自动发现涉及之多语义簇,并且采用关乎之交集语义对实体对拓展翻译操作,以进行关联推理。

本文利用了片只举足轻重之模子与算法微生物,分别是贝叶斯非参数无限混合嵌入式表示模型和中餐馆过程算法。实际的实业和关系嵌入式表示生成过程如下:

微生物 5 

透过该过程会拿走初始化的实体和涉及向量,三最先组的自分函数为:

\[\sum_{m=1}^{M_r}\pi_{r,m}e^{-\frac{||u_h+u_{r,m}-u_t||_2^2}{\sigma_h^2+\sigma_t^2}}\]

今非昔比让往的艺术,本文对于涉的勾勒更加细化,对于实体对,可以当获得多语义关系的引人注目语义:

\[m_{(h,r,t)}^*=argmax_{m=1…M_r}(\pi_{r,m}e^{-\frac{||u_h+u_{r,m}-u_t||_2^2}{\sigma_h^2+\sigma_t^2}})\]
\[h+u_{r,m_{(h,r,t)}^*}\approx
t\]

学习过程是凡的正例的分不断增高,负例的分数不断回落,最终取得实体和涉及的意味。

笔者:本文的切入点是多语义关系存在吃知识库中,而前的模子没有观测并解决就同题材。本文使用非参数贝叶斯模型,借助CRP算法用于对涉及大多语义的识别和变化。本文主要的贡献在于提出了多语义关系的题目,并赖CRP解决这无异于问题。

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图