5.1 总结.......................................49
5.2 展望.............................50
第 4 章 基于图卷积网络的联合实体关系抽取方法研究
4.1 研究思路
实体关系抽取检测文本中的实体和关系,是构成知识图谱的根基。理想的实体关系抽取系统应该能够抽取重叠关系(即多个关系共享一个共同的实体)。传统的管道方法首先识别实体,再对实体对进行关系分类,进而得到实体关系三元组。这样的框架虽然灵活,但不能有效整合实体与关系之间的信息。在本章中仍然关注联合抽取模型,基于标注策略的联合实体关系抽取模型,在实体识别时同时考虑实体的类型和边界,这样的方式在关系抽取时放弃了考虑全部实体的信息,并在识别实体类型时没有考虑到对关系类型的影响。本章采用参数共享的方式,在实体识别任务中把边界检测分离了出来,再同时对实体关系类型进行识别、推理。
一些基于深度学习的实体关系抽取模型将关系抽取任务也视为端到端问题,取得了不错的成绩,然而这些模型放弃了重叠关系如图 4.1(a)。在实践中,一个句子通常包含多个实体和复杂的关系,其中这些实体可能相互嵌套,并且关系三元组也可能重叠。首先,如图 4.1(b)所示,一个实体与另一个实体重叠,例如,实体‘the Manhattan office’与实体‘Manhattan’重叠。不同于广泛应用的序列标签框架,基于跨度的模型可以解决这个问题,但这些模型在对子序列进行分类时计算昂贵,并且缺乏明确的边界监督。其次, 实体之间的依赖关系对于促进关系三元组的推断至关重要。比如,三元组(Jackie R.Brown, Birth_place, Washington)可以推理出三元组(Jackie R.Brown, Birth_place, United States of America )。因此,需要模型有较强的能力捕捉实体之间的依赖关系。
图4.1 关系重叠、实体嵌套实例
.............................
第 5 章 总结与展望
5.1 总结
传统的管道模型将实体关系抽取任务当作两个独立的子任务,这样的模型存在着信息冗余,错误传播以及实体识别和关系抽取两个子任务之间缺乏关联性等问题,这都直接或间接的影响实体关系抽取任务的最终效果。为了解决管道模型中存在的弊端,本文对联合实体关系抽取模型进行了深入研究。本文的主要工作如下:
首先总结了实体关系抽取任务的研究背景和意义,回顾了实体识别、关系抽取以及联合实体关系抽取的发展历史和研究现状。又分别介绍了实体识别、关系抽取以及联合实体关系抽取的具体任务描述、相关方法等基本理论知识,方便加深对后续研究的认识。因为全文主要是基于深度学习的方法来构建的模型,本文还概括了深度学习中的基础理论知识,主要有注意力机制、循环神经网络、指针网络和图卷积网络。
然后提出了一种基于双指针网络的联合实体关系抽取模型。在解码器端设计了双指针模块,可以准确预测出头实体和尾实体对应的开始位置和结束位置。本文的双指针解码器的优势就是可以复制出完整的实体,解决了复制机制只能抽取单词之间关系的弊端。并且本文在实体关系抽取任务中引入了强化学习,可自动学习三元组之间的提取顺序,减少了三元组提取顺序对于实体关系抽取性能的影响。在公共数据集上进行了实验,结果显示该模型提升效果明显。
最后提出了一种基于图卷积网络的联合实体关系抽取模型。该模型采用双向长短时记忆网络作为共享编码层,对输入的句子进行编码,提取丰富的特征。通过设计的边界检测模块,为跨度表示模块提供了高质量的实体跨度,有效的解决了实体嵌套问题。为了更全面的考虑实体跨度和关系之间的相互作用,本文在图神经网络上融入了注意力机制,构建了完整的实体-关系图,更加充分的学习候选实体之间的关系和挖掘丰富的隐含特征。这对解决关系重叠问题起到了至关重要的作用,并在公共数据集上进行了实验,验证了本文模型的优秀性能。
本文提出的两种实体关系联合抽取模型,虽然解决了目前模型中存在的一些缺陷,并在实验中取得了不错的性能,但是仍然存在着不足之处。比如基于图卷积网络的联合实体关系抽取模型虽然通过参数共享的方式使两个子任务之间产生了依赖关系,但还是在获取高质量候选实体时产生了冗余信息;而基于双指针网络的联合实体关系抽取模型解决了三元组抽取顺序对于结果的影响,却增加了计算复杂度。针对上述的不足,需要在以后的工作中继续摸索更加高效的网络结构和解码方式。
参考文献(略)