本文是一篇软件工程硕士论文,本文的主要工作如下:(1)分析了当前多个深度学习模型,由于循环神经网络(RNN)具有信息传递的能力,但是无法利用序列数据中长距离的信息,于是本文使用长短期记忆网络(LSTM)来解决这一问题。但是在文本处理中,后向的信息也是十分重要的,于是在 LSTM 的基础上使用双向 LSTM(BiLSTM)模型来解决特征抽取的问题。
1 绪论
1.1 研究背景与意义
互联网技术不断的发展和应用,网络带给人们许多便利、高效的服务,于是网络逐渐成为人们日常活动的主要平台。与此同时在互联网世界的每一天都将产生数以百亿记的数据,在这些数据中大部分都是以非结构化的形式存在。且非结构化的数据中往往存在许多有价值的信息。如何从非结构化的数据中抽取出有价值的信息,将它们整理、归纳成对人们有价值的信息,让人们更好的享受网络带来的便利,这项技术已经变成了一个研究热点。
信息抽取(Information Extraction,IE),目的是将目标信息,从自然语言文本中识别出来,帮助人们从海量的数据中自动分类、提取和重构。这些信息通常包括实体(Entity)、关系(Relation)、事件(Event)。在信息抽取中有三大任务,分别是命名实体识别(Named entity recognition,NER)、关系抽取(Relationextracion,RE)和事件抽取(Event Extraction,EE),其中命名实体识别是实体关系抽取和事件抽取的基础。在大数据时代,人们通过信息抽取技术将大量的实体、实体关系从海量的非结构化数据中抽取或转化为结构化的数据,并将这些结构化的数据存储起来,这是人工智能及自然语言处理领域的基础性研究。无论是在知识图谱构建、智能问答系统,还是在自动文摘、情感分析中,信息抽取都有广泛应用。例如通过信息抽取技术,我们可以从商品简介中抽取商品名称、生产日期、制造商,或者从新闻中抽取发生的事件、事件发生的地点、时间以及涉及的主要人物等。近年来,随着命名实体识别技术逐渐成熟,抽取的准确率越来越高,因此越来越多的学者投入到实体关系抽取和事件抽取的研究中,如何准确高效地识别实体间的关系成为了信息抽取的重点和难点。
.................................
1.2 国内外研究现状
由于信息抽取的用途越来越多,许多国内外的学者对其进行了研究。作为这领域内一项重要的任务,实体关系抽取也备受关注。研究者们根据在实体关系抽取任务中对预先标记数据的依赖性,将这些方法概括为有监督的实体关系抽取方法,半监督的方法,无监督的实体关系抽取方法和开放域的关系抽取方法,它们在知识图谱的构建、自动答疑系统、机器翻译、大规模文本摘要获取等领域都有着不错的应用。
1.2.1 有监督的方法
顾名思义有监督即是指在使用正确分类的训练数据的情况下建立模型,训练数据中既有特征也有标签,让机器自己寻找特征和标签之间的关系。随后再面对只有特征没有标签的数据时,也可以做出正确的判断。常见的方法如:基于特征向量的方法和基于核函数的方法。基于特征向量的方法目的是将句子中对于分类有用的特征信息识别出来,例如词法和语法等信息。随后构建出特征向量,把相近的特征向量归入一个类别中,使不相似度较低的向量分为不同的类别,从而实现关系的分类。这种方法首先需要对数据中的特征进行选择,随后为特征赋予权重,获得最适合的特征向量,最后通过分类器获得分类结果。针对有监督的实体关系抽取,Sun 等[1]人通过两个实体之间的相关性特征、实体间顺序特征、实体顺序特征和标点符号特征和融合上下文特征,并利用朴素贝叶斯模型以及投票感知模型两种算法进行关系分类。Jiang 等[2]研究了不同特征对实体关系抽取结果的影响,他们认为不是尽可能的添加特征就能获得好的效果,过多的特征信息会导致模型性能下降,加入必要的基础特征就能达到较好的结果。Kambhatla[3]则利于最大熵的原理进行建模,取得了一定的效果。高俊平等[4]人提出了一种基于关系推理模型的领域知识来演化关系抽取方法,以用于中文关系抽取任务,实验结果表明,该方法考虑到了深层句法特征,具有更高的准确性。甘丽新等[5]人在关系抽取中融入句法语义特征,使用支持向量机进行分类,取得了更好的效果。
...............................
2 相关知识介绍
2.1 词的向量化表示
文字的发明解决了语言交流在时间和空间上的局限,使一发即逝的语言可以保留下来,原始社会仅靠口语来交流和传承,文明社会靠口语和文字文本来交流和传承。可以说在人类的进化过程中,语言的发明是第一个里程碑,文字则是第二个。词语作为组成文章的最小结构单元,是所有语言和文字的基础。自然语言处理(NLP)其主要的研究内容是如何令计算机理解和分析人类的语言、语音及文字等,其研究涉及自然语言,即人类生活中使用的语言,因此它与语言学有着密切的联系,但是又存在一定的区别。因为计算机无法理解文字符号,只能对数字数据进行处理和分析。通常人们使用向量来表示单词,因此这一过程叫做词的向量表示,也叫做词嵌入。将词语转化为向量的技术起源于 20 世纪 60 年代,随着语言学和计算机科学的发展,越来越多的词向量技术被提出。
2.1.1 One-hot 编码
早期的研究者们提出使用独热编码的方法将文字转化为数字形式,其思想是假定有 n 个词,则构建一个 n 位的向量,每一位的值为 0 或 1,将 n 个词按顺序表示在向量中。对于第 t 个词,则向量的 t 位值为 1,其他位为 0。例如:“苹果”、“香蕉”、“桃子”、“梨”四个词。苹果表示为[1,0,0,0],香蕉表示为[0,1,0,0],桃子表示为[0,0,1,0],梨表示为[0,0,0,1]。
这种方法的优点是简单直观的对所有的词进行了不重复编码,因此广泛应用于自然语言处理任务中,但通过这种方式得到的数据没有表现出词与词之间的关联性,同时这种方法也没用考虑到词与词之间的语义联系。而且随着词的数量的增加,词向量的维度也会增加,出现维度灾难的现象,导致计算机的计算难度加大。由此人们需要一种更好的编码方式,使单词的向量表示能够包含文本中的上下文信息,获得的向量可以尽可能多的保留词与词间的语义信息,并解决维度灾难的问题。针对这些问题,文献[33]提出了通过建立语言模型的方法对词进行编码。
图 2-1 Word2Vec 结构图
...........................
2.2 神经网络模型
人工神经网络是人工智能领域的研究热点,它从信息的处理角度模拟人脑神经元结构从而建立模型,神经元通过连接方式的不同,形成各种不同的网络。神经网络模型通过大量的节点(神经元)连接构成,它的结构就像一个网络。网络中的每个节点利用其中的函数(激励函数)输出计算的结果,两个节点间通过权重相连。虽然单个神经元的结果和功能比较简单,可通过大量的神经元组成的神经网络系统却可以实现复杂的任务,具有丰富多彩的功能。近十多年来,无数的学者对神经网络进行研究,已获得很大的进展,其解决了语音识别[37]领域的许多技术难点,同时对于计算机视觉[38][39]等领域的研究也有着突出贡献,成功地解决了许多传统计算机科学无法解决的问题,表现出很好的效果。
一个简单的神经网络结构包含三个层次。最左边的是输入层,它代表模型的输入或连接着上一个神经元的输出,中间的是中间层(也叫隐藏层),通过各种各样的激活函数计算出模型的输出。最右边的是输出层,它表示模型的输出结果,也可以作为输入传递到下一神经元中。图 2-3 是一个简单的神经网络模型,输入层有 3 个输入单元,隐藏层有 4 个单元,输出层有 2 个单元。
图 2-3 神经网络结构图
..............................
3 基于注意力机制的 BiLSTM 人物关系抽取模型..................... 17
3.1 任务描述与研究思路.........................17
3.1.1 任务描述............................17
3.1.2 研究思路............................19
4 基于 BERT-BiLSTM 的人物关系抽取模型............................. 32
4.1 问题描述...........................32
4.2 BERT 预训练语言模型.........................................33
4.2.1 BERT 模型结构.................33
4.2.2 预训练任务.....................................34
5 总结和展望............................ 43
5.1 总结.......................................43
5.2 展望.............................43
4 基于 BERT-BiLSTM 的人物关系抽取模型
4.1 问题描述
通过第二章的介绍,我们可以知道词向量是自然语言处理的基础,只有先构建词向量,才能对文本进行建模。一个好的词向量对模型的影响至关重要,因此好的词向量应当含有足够丰富的语义,并且能准确的表征词语,这样才能在后续的任务中抽取出正确的句法、语法特征。然而由于语言是十分复杂且灵活的,词语的表达并不是一成不变的,其受到前后文语境和词语之间固定搭配的影响,而且随着网络用语的兴起,许多词被赋予了新的含义,导致词语的含义和过去大不相同。比如“潜水”这个词,原本