本文是一篇计算机软件论文,本文提出的两种实体关系联合抽取模型,虽然解决了目前模型中存在的一些缺陷,并在实验中取得了不错的性能,但是仍然存在着不足之处。比如基于图卷积网络的联合实体关系抽取模型虽然通过参数共享的方式使两个子任务之间产生了依赖关系,但还是在获取高质量候选实体时产生了冗余信息;而基于双指针网络的联合实体关系抽取模型解决了三元组抽取顺序对于结果的影响,却增加了计算复杂度。针对上述的不足,需要在以后的工作中继续摸索更加高效的网络结构和解码方式。
第 1 章 绪论
1.1 研究背景
随着互联网的迅猛发展,极大的丰富了信息资源,数据量也呈现出了爆炸式的增长。每时每刻互联网都在产生海量的文本信息,其中隐藏着大量的有价值信息。但由于信息内容规模大、冗余多、来源广和结构多样性的特点,在这杂乱无序的海量数据中如何准确、及时的挖掘出高价值信息变得十分迫切。在此背景下,信息抽取技术应运而生,其主要目的是从非结构化的自由文本中提取出结构化的信息。信息抽取(Information Extraction,IE)任务[1]主要包含三个子任务: 事件抽取(Event extraction, EE)[2]、命名实体识别(Named Entity Recognition, NER)和关系抽取(Relation extraction, RE)。
实体关系抽取包括命名实体识别和关系抽取两个子任务。最近几年实体关系抽取技术作为一项基础任务应用于越来越多的领域中,其主要应用于知识图谱[3]、自动问答[4]、智能搜索引擎[5]等任务。具体而言,知识图谱通过实体关系抽取获得实体与实体之间的关联知识,将杂乱的隐式结构数据信息抽取出来用于下游的知识融合[6]、知识推理[7]等任务,完成从非结构化文本到结构化文本的第一步转化;自动问答通过实体关系抽取从知识库中抽取用户问题的答案,精确分析用户寻找内容的内在逻辑,扩展答案检索过程,从而为用户提供精确的答案抽取和丰富的内容推荐;智能搜索引擎通过实体关系抽取获得实体信息之间的关系进行导向与连接,便于将搜索信息以知识卡片的形式展示给用户,建立词与词之间的关联关系,更精确理解用户查询请求,满足用户多层次需求。实体关系抽取在金融、法律、生物医学等领域也有广泛应用[8],比如在生物医学方面,通过实体关系抽取技术对基因(蛋白质)、化学物、病例文本等进行实体识别,并抽取医学实体之间的潜在关系[9],充分挖掘出高价值的生物医学信息,从而有助于提升医疗健康水平。
传统的实体关系抽取通常采用管道模型,两个子任务独立进行,即先进行实体识别,然后进行关系抽取。这样的框架比较灵活,处理简单,每个子任务可以单独实现对应的需求功能。但管道模型忽略了两个子任务之间相互影响,关系抽取极易受到命名实体识别的误差传播。而联合模型可以有效的整合实体与关系的信息,避免管道模型中出现的问题。本文主要研究了联合模型,用同一个模型完成命名实体识别和关系抽取,充分利用两个子任务之间的关联性进行信息抽取。
..............................
1.2 研究现状
随着大数据和云计算时代的到来,计算能力得到了前所未有的提升,深度学习迎来了快速发展,实体关系抽取任务也实现了突破性的进展。早期基于规则的实体关系抽取方法灵活性差,后来基于传统的机器学习的实体关系抽取方法,未能突破标注成本高的限制。迅速崛起的深度学习技术能够自动学习文本特征,在实体关系抽取任务中大放异彩。基于深度学习的实体关系抽取任务目前存在管道模型和联合模型两种研究方法,与管道模型不同的是,联合模型可以在同一模型中完成两个子任务,实现三元组的抽取。
随着深度学习的发展,长短时记忆网络-条件随机场在实体识别方面取得了非常有前途的结果[10]。然而,传统的顺序标记模型不能处理嵌套结构,因为它们只能为每个令牌分配一个标签。Wang 等人[11]提出基于超图的方法来解决实体嵌套问题,他们设计了一个超图来表示所有可能的嵌套结构,这保证了嵌套实体可以从超图标签中恢复。然而,超图需要精心设计,以避免虚假结构和结构歧义,不可避免地在训练和推理过程中导致更高的时间复杂性。此外,Muis 等人[12]开发了一个基于间隙的标记模式来捕获嵌套结构。Wang 等人[13]提出了一种基于过渡的方法,通过一系列特别设计的动作来构建嵌套提及。Fisher 和 Vlachos 建议通过将令牌合并到实体中来实现实体表示,从而形成嵌套结构[14]。Lin 等人[15]提出了一种序列到序列的架构,该架构首先识别所有实体对应的语义类型的锚词,然后识别每个锚词的实体边界。针对嵌套 NER 问题的另一种策略是基于跨度的方法。在基于区间的方法中,可以很容易地检测到嵌套实体,因为它们属于不同的子序列。最近,Xu 等人[16]试图通过将每个子序列编码为一个固定大小的表示,直接对句子的所有子序列进行分类。Sohrab 和 Miwa 在一个句子中考虑所有可能的区域,并将它们分为实体类型或非实体类型。然而,他们的穷尽方法在检测实体类型时考虑了太多的非实体区域,并将这些区域单独分类,而不考虑上下文信息[17]。Xia 等人提出了 MGNER 模型[18],该模型由一个检查所有可能跨度的检测器和一个将跨度分类成相应语义标签的分类器组成。Luan 等人[19]提出了一个通用框架,该框架利用了相关引用和关系类型可信度来实现更好的跨表示。
.................................
第 2 章 实体关系抽取理论基础
2.1 实体识别
实体识别任务是从原始文本中识别出类似于人名、组织、地名等实体。文本中的实体蕴藏着丰富的语义信息,对于理解上下文信息有着不可小觑的影响,从语料库中识别出有价值的实体对信息抽取和信息检索等任务至关重要。举例说明,“任正非是华为的董事长。”这句话中包含的实体有:人名实体“任正非”,组织实体“华为”。针对实体识别任务,国内外研究人员已经做了大量研究,随着近些年来深度学习的蓬勃发展,实体识别任务得到了长足的进步。
当前基于深度学习的实体识别任务已经不需要领域知识和特征工程,可以从原始语料中自动学习所需要的表示,并能够在非线性映射函数中学习复杂的特征。基于深度学习的实体识别采用了序列标注框架,框架结构如图 2.1 所示,分布式表示从输入词中捕获语义属性,通过上下文编码器获取新的单词表示,最后标签解码器产生与输入序列对应的标记。
图2.1 实体识别框架图
.................................
2.2 关系抽取
实体识别出实例中有价值的实体后,关系抽取在此基础之上抽取出实体对之间存在的关系,是信息抽取和知识图谱构建中至关重要的一项任务。举例说明,“济南是山东的省会。”关系抽取任务的目的就是确定实体“济南”和实体“山东”之间存在的隶属关系。
由于语篇表达的多样性,从语篇中提取关系并非易事,这在很大程度上取决于语篇理解能力。经典的方法主要集中在特征工程,旨在提取有效的特征来表示目标关系。然而,所有的特征都是基于符号表示(字符、单词、短语等),这些符号表示存在一词多义和歧义问题[49]。随着深度学习的发展,深度学习在许多研究领域都表现出了毋庸置疑的优势。利用神经网络的模型通过端到端的方式可以自动学习特征表示,即使是复杂的特征。这种范式已被广泛应用于关系提取,相关研究也出现了爆发式的发展。根据是否使用依存句法树,可以把句子级别的关系抽取任务分为基于卷积神经网络模型的方法、基于循环神经网络模型的方法和基于依存句法树的方法。
(1)基于卷积神经网络模型的关系抽取方法:
关系抽取任务可以把特征表示加入卷积神经网络,进行并行学习。在句子中检测到实体对后,把额外相关的实体信息赋予词的表示中,除此之外,还可以加入词向量位置信息、词法信息,比如地名词典[50]。这一切得益于卷积神经网络的神经元在特征提取层可以完成局部感知,通过多个特征映射组成了计算层,使神经元的权值在同一映射平面上相等,获得并行学习能力。在卷积操作之后,通过池化操作便可以获取当前与实体相关的完整的句子表示,然后再选择适宜的损失函数训练模型。但卷积神经网络具有难以捕捉长距离信息的缺点[51]。
(2)基于循环神经网络模型的关系抽取方法:
关系抽取任务中经常存在实体对之间相距较远,这时需要循环神经网络来捕获具有长距离信息的三元组关系。文本中前后单词相互关联,循环神经网络可以记忆前一单词的信息,在输出时不仅包括当前单词的信息还包括前一单词的隐藏信息。这样便不受文本数据长度的限制,并且可以处理任一时序的文本信息。但是文本足够长的情况下,很早之前的单词信息会在传递中消失,不再继续学习。为了缓解短时记忆问题,学者将长短时记忆网络引入关系抽取模型中,并在该模型中加入注意力机制,可以有效的捕捉长距离依赖[52]。
......................................
第 3 章 基于双指针网络的联合实体关系抽取方法研究....................... 23
3.1 研究思路..................................... 23
3.2 基于双指针网络的联合实体关系抽取方法....................................24
第 4 章 基于图卷积网络的联合实体关系抽取方法研究....................... 37
4.1 研究思路................................... 37
4.2 基于图卷积网络的联合实体关系抽取方法.................38
第 5 章 总结与展望..................