计算机论文范文栏目提供最新计算机论文范文格式、计算机论文范文硕士论文范文。详情咨询QQ:1847080343(论文辅导)

面向关系提取的多通道神经网络探讨

日期:2021年12月24日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:487
论文价格:150元/篇 论文编号:lw202112081125565718 论文字数:35266 所属栏目:计算机论文范文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
相关标签:计算机论文范文

本文是一篇计算机论文范文,本篇论文的研究重点主要包括面向关系提取的神经网络构建,以及远程监督数据集噪声的滤除。具体地,本文针对面向关系提取的大多数神经网络难以获取足够的语义特征来提取关系,提出基于全局和局部特征感知网络的关系提取方法。针对面向远程监督关系提取的大多数降噪方法存在感受视野不足的问题,提出基于多层次特征精炼的远程监督关系提取方法。针对面向远程监督关系提取的大多数神经网络缺乏对句子全局信息的有效感知,提出基于 IR-Net的远程监督关系提取方法。


第一章  绪论


1.1  研究背景及意义

随着大数据时代的到来,人们需要处理的数据量急速增长,如何快速有效地从浩瀚的网络中提取到关键信息,成为业界迫切需要解决的难题。关系提取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从海量的非结构化文本信息中抽取实体对间的语义关系,进而形成知识[1]。其研究成果主要应用于文本摘要[2]、自动问答[3]、知识图谱[4]等。其中知识图谱又被广泛应用于搜索引擎、智能客服和知识推理等应用中,并取得了良好的效果,显示出大数据时代中知识的重要性。

现有大型知识图谱,诸如  Wikidata、Yago、DBpedia,富含海量世界知识,并以结构化形式存储[5]。然而在大数据时代,每天产生的数据量极其庞大,其中蕴含的知识也是日新月异,现有知识图谱难以满足日益增长的数据量。为了及时准确地将新产生的知识补充至现有知识图谱,单靠人力进行手工标注显得难以为继。而关系提取技术由于其能够自动提取结构化信息,而被广泛用来自动高效地获取世界知识。

从用户需求层面看,用户期望从文本中直接挖掘出自己所需的结构化数据,而不是从一堆包含自己并不感兴趣的非结构化信息中搜索。从具体应用上看,关系提取的结果能够产生结构化三元组,利用结构化三元组能够轻松地构建知识图谱。而利用关系提取技术得到的结构化三元组也能够在搜索引擎中进行应用,当用户使用搜索引擎时,搜索引擎能从其结构化数据库中快速准确地检索到答案并提供给用户。从研究价值层面看,由关系提取技术而产生的结构化知识,能够为自然语言处理领域诸如机器翻译,自动问答,阅读理解等应用提供知识支持。

由于信息网络和互联网技术的高速发展,数据呈现出爆炸式的增长。各行业能够从海量的数据中获益,但是同时也面临着由于数据量过大,而难以处理的问题。通过传统特征工具处理这些数据已经难以满足日益增长的数据量,如何快速高效地从开放领域的文本中抽取出有价值的信息,成为摆在人们面前的重要问题。因此,信息抽取任务开始蓬勃发展,该任务是自然语言处理的一项关键任务,涉及从非结构化文本的句子中提取可由机器或程序轻松解释的结构化信息。


1.2  国内外研究现状

根据不同的数据集标注方式,关系提取方法分为全监督和远程监督两类,下面分别介绍基于全监督和远程监督的关系提取的国内外研究现状。

1.2.1  基于全监督的关系提取

基于全监督的关系提取方面的研究主要包含早期基于人工规则的方法,以及近几年发展较快的基于神经网络的人工智能方法。前者主要利用 NLP 工具或手工设计不同的内核来选择特征[11, 12]。此类方法主要存在由 NLP 工具带来的误差传播,以及人工经验的局限性问题。随着神经网络的快速发展,国内外学者尝试利用其来进行关系提取。全监督关系提取的改进一般在特征抽取阶段,通过构建不同的神经网络或者结合不同的注意力机制来提高神经网络对语义特征的抽取能力。其中基于 CNN(Convolutional  Neural Network)结构方法主要如下:Zeng 等人[13]利用 CNN 提取词语和句子级别的特征,并结合句子中每个词与实体对之间的相对位置信息进行关系提取,相比与基于人工规则的方法更加高效。Dos 等[7]通过最小化排名损失函数来生成文本的分布式矢量表示,并且能够通过将该矢量表示匹配到分类空间中来预测最终关系。Wang 等人[14]利用实体注意力机制来学习输入句子中各单词与实体的联系,获取句子内各单词的重要性,最终运用池化注意力,来凸显重要特征。

CNN 抽取特征的方式是通过卷积核在句子内进行滑动卷积计算,受 CNN 自身结构的限制[15],CNN 提取特征时在面对较远距离的实体对,无法有效发挥其性能。RNN(Recurrent  Neural  Network)擅长处理时序信息,在获取单词长距离依赖时有其优势[16]。Li 等人[17]利用 RNN 对句子进行时序编码,获取包含上下文时序信息的语义特征。由于长短期记忆网络(Long Short-Term Memory, LSTM)的结构利用门控机制有选择的加入当前时刻信息和遗忘历史隐含状态信息缓解了长期依赖问题,因而许多学者开始将LSTM 作为 RNN 的替代品。LSTM 在捕获时序联系时展现了良好的能力,在实际中一般考虑正反两个方向的序列,因而双向长短期记忆网络(Bidirectional Long-Short Memory, BiLSTM)应用较为广泛。Zhang 等人[8]借助 BiLSTM 强大的记忆保存能力,捕获句子中距离相隔较远单词之间的时序依赖信息。Xiao 等人[18]等通过将句子内实体对的位置将句子划分为三部分,利用双向长短期记忆网络分别对三部分的特征进行抽取。Miwa等人[9]通过引入依赖树结构来提供更多的特征信息,为 BiLSTM 补充关于句子语法的先验知识。李卫疆[19]等利用词汇、语法、语义和位置等特征结合自注意力网络和 BiLSTM提高网络关系提取的能力。Zhou 等人[20]在 BiLSTM 的输出门后加入注意力机制,用于调整每个句子内不同单词的权重。


第二章  关系提取相关技术、数据集和评价指标


2.1  特征输入

在关系提取任务中,首先需要考虑用计算机语言来表示文本数据。常用方法是采用词向量(Word Vector)的形式,将文本信息映射到语义空间中进行表示。其中静态词向量主要包括 One-Hot,Word2Vec 和 GloVe 词向量,本节主要阐述几种词向量的相关算法。

2.1.1  独热编码

One-Hot 向量使用唯一的向量来表示每个单词,这样能够使文本信息被计算机识别。独热编码通过一维只包含 0、1 的向量来表示单词,首先将所有语料中的单词进行去重,得到一个语料库词表,词表的维度即为一维向量的长度。这种词表示的方法主要优点是实现简单,但是存在两个主要问题:

(1)语义鸿沟:近义词之间的距离关系应该是相近的,但是无法通过这种词向量表示方法来描述词的相关性。因为任意两个向量之间的距离是相同的。

(2)维度灾难:One-Hot 的表示方法通过将词表中每个词进行唯一描述,这导致随着词表的数量增大,那么表示每个词的向量维度也会随之增加,在进行下游任务时,会导致维度灾难问题。

计算机论文范文怎么写

2.2  特征抽取

在自然语言处理领域,如何从自然文本中抽取出具有鉴别能力的特征,是实际任务中的一大难题。特征抽取的方法主要有两类,一类是基于手工特征的方法[54],一类是基于神经网络的方法[55]。

设计基于注意力机制的神经网络的灵感来源于我们人眼在观察事物时,并不是对所有看见的事物分配同样的权重,而是会聚焦于某一感兴趣的区域这一现象。基于注意力机制的神经网络在进行特征抽取时会让神经网络聚焦于对实际任务有效的特征上。注意力机制能够看作是一种将可用的计算资源的分配偏向信号中最有用的部分的方法[60]。到目前为止,各种注意力机制已经证明了它们在许多 NLP 任务中的效用,例如问答[61],机器翻译[62],文本摘要[2]和情感分析[63]。在这些任务中,它们可以解释为一系列操作,这些操作着重于建模寻找适应性最强信息。在这些研究的基础上,注意力机制表明它们能够通过使用选择性映射操作来增强网络的关注度。

系提取任务的数据集根据标签获取的方式不同,分为全监督和远程监督两种。其中全监督的标准数据集主要包括语义会议评测的 SemEval-2010 Task  8 数据集和 KBP37数据集。全程监督的标准数据集则是从纽约时报中抽取的 NYT 数据集。

本文关于远程监督关系提取实验是在名为纽约时报(NYT)数据集的基准数据集上进行的。该数据集由 Riedel 等人首先发布,并已被以前关于远程监督关系提取的研究广泛使用[8]。通过将 Freebase 与 NYT 语料库自动对齐来生成 NYT 数据集。具体来说,训练数据集和测试数据集分别是 2005-2006 年和 2007 年来自 NYT 语料库的对齐句子。该数据集包含 52 个实际关系和一个特殊关系“NA”,指示两个实体之间没有关系。训练数据集包括 570088 个句子,293162 个实体对。测试数据集包含 172448 个句子,96678个实体对。在本章的实验中,利用 Word2Vec 在 NYT 数据集上训练词向量,并将这些词向量用作文本表示的初始化值。


第三章  基于全局和局部特征感知网络的关系提取 ..................... 21

3.1  全局和局部特征感知网络 ......................... 22

3.1.1  相关性时序特征提取网络(CSFEN) ...................... 22

3.1.2  全局和局部特征感知卷积神经网络(GLFCNN) .......................... 23

第四章  基于多层次特征精炼的远程监督关系提取 ..............