本文是一篇计算机论文范文,笔者针对中学数学知识命名实体中存在的语义交叉嵌套、逻辑关系复杂以及短时间内的高识别精度要求等问题,本文主要进行的工作以及结论如下:(1)提出基于 BERT-BILSTM-CRF 的中学数学知识命名实体识别模型。该模型结合了 BERT 预训练词向量嵌入模型和 BILSTM-CRF 模型的优点,提高了对中学数学知识命名实体识别的精确度。利用各种中学数学知识相关文献资料标定实体及关系的数据集合对该模型进行实验验证,再与其单一模型的实验结果进行对比,F1 值比 CRF 高出 26.25 个百分点,比 BILSTM 高出 16.1 个百分点,比混合模型 BILSTM-CRF 的 F1 值高出 7.56 个百分点,比 BERT-CRF 的 F1 值高出0.91 个百分点。
第 1 章 绪论
1.1 研究背景及意义
命名实体识别作为自然语言处理(Natural Language Processing, NLP)的重要下游任务之一,在文本实体识别中起着重要作用。命名实体识别旨在从文本中识别出实体信息,如人、位置、组织信息等等,Nadeau 和 Sekine[1]提出,“Named”一词将任务限定为只有一个或多个指示符代表所指对象的实体。命名实体识别不仅是信息抽取(Information Extraction, IE)的重要工具,而且在各种自然语言处理应用中发挥着重要作用,如文本阅读理解[2,3]、信息资源检索[4,5]、文本摘要自动生成[6]、问答[7]、翻译[8, 9]等上游任务。“命名实体”首次在第六届信息理解会议[10]上被提出,作为识别文本中组织、人员和地理位置的名称,以及货币、时间和百分比表达式的任务。自 MUC-6 以来,人们对 NER 越来越感兴趣,各种科学会议(如 CoNLL03[11]、ACE[12]、IREX[13]和 TREC[14]等)对此主题展现出极大的兴趣。Petasis 等[15]为命名实体做出如此定义:“NE 是一个合适恰当的名词,作为某物或某人的名字”这种定义合乎常理,因为在语料库中有相当大的比例的专有名词。在[16]中定义的硬性指示符包括适当的名称和自然种类术语,如生物物种和物质。尽管对神经网络有各种各样的定义,研究者们还是对神经网络的类型达成了共识。我们一般将神经网络分为两类:泛型神经网络(如人和位置)和特殊领域神经网络(如蛋白质、酶和基因),本文主要研究中文中的特殊领域神经网络——中学数学知识命名实体。
随着人工智能技术的发展,机器阅读理解和机器做题等任务越来越重要,中学数学知识资料在日益增多,其相关题目也爆炸式增多,这些离散存储的资料中包含着许多重要文本数据,如何合理其资源配置、开发这些资料与文献中的重要信息不仅是当下中学数学知识自然语言处理任务的重中之重,也能为中高考命题研究做出重要贡献。因此,设计模型自动识别实体成为目前中学数学知识命名实体识别的热点问题。
...........................
1.2 国内外研究现状
1.2.1 国外研究现状
众所周知英语是全世界使用范围最广泛的语言,早期研究者们都以研究英文语料为主。研究方法主要有建立文本语料字典和利用语言学家建立的统计规则这两种方法。最早的相关论文是 Raulf 等[17]提出了一个能够自动通过输入的文本语料来识别企业名字的命名实体识别方法。在 CoNNL 大会上,科研人员对当时的一些 NER 模型进行了验证,这些模型都是由语言学家建立的统计规则的方法开发,并且运用了早期的机器学习算法,例如 Bikel 等提出的隐马尔可夫[19]模型(Hidden Markov Models,HMM)可以用“接近人的表现”来识别 MUC-6 任务中指定的名称和其他数字实体,通常能够得到 90%甚至以上的 F1 值。Mc CallumA 等提出最大熵[20]马尔可夫模型,为达到给定的观察状态和先前状态的概率建立模型,之后又提出一种无方向的图形概率模型条件随机场(ConditionalRandomFields,CRF)[21],是一种有条件训练的有限状态机器的特例,使用无向图形模型来计算指定条件输出节点的值的概率并指定给其他指定输入节点的值,在特殊情况下图形模型由直链中的边连接。CRF 始于一阶马尔可夫独立性假设检验,因此可以理解为它是需要符合独立假设条件的训练模型。CRF 能够通过维特比解码算法对标注序列计算出最优解。Cucchiarelli 等[22]使用基于规则的分类器来对文本上下文进行序列标记,将简单的“语言移植”应用于新语法(例如,用相应的意大利语单词和介词替换英语单词和介词),虽然开始注重文本上下文的语义依赖关系,但该方法只采用人工定义规则的根实体来重定义命名实体,对人工标注的要求较高,而对重定义以外的实体的识别精确度较差。
.................
第 2 章 命名实体识别相关技术
2.1 常用命名实体识别技术
从早期命名实体识别技术发展至今,常用的识别技术主要有两种:基于统计机器学习的方法和基于深度学习的方法。
2.1.1 基于统计机器学习的命名实体识别方法
早期基于统计的方法主要是基于规则和词典,但需要利用人工标注的语料进行训练,标注语料时需要广博的语言学知识,耗时耗力。高效率的统计方法主要是后来发展的基于机器学习的识别方法。主要包括以下几种:
(1)隐马尔可夫[29]模型(Hidden Markov Model, HMM)
隐马尔可夫模型是一种可以用于提取信息的通用线性序列标记概率模型,该模型将联合概率分配给输入标签序列,然后对参数进行训练得到训练集最大联合概率。隐马尔可夫模型采取固定的状态与状态之间转换的模型结构,其模型中的状态隐藏的,但受状态影响的部分变量则是显性的,可以手动调节参数选择信息提取优先级,输出符号的序列能够透露出状态序列的数据信息,在有先验概率模型时能够高效处理数据集。
Yu 等[32]提出一种基于双层隐马尔可夫的中文命名实体识别模型,该模型首先对数据集进行模糊分词,并用下层模型识别出简单的语义不模糊的实体,然后再用上层模型识别出嵌套的语义复杂的实体。
(2)支持向量机(Support Vector Machine, SVM)
SVM 是一种监督学习[41]模型,该算法可以用于数据分类[29]和回归分析[33]。其原理是给定二组训练示例,每个训练示例都标记为属于两个类别中的一个,SVM 训练算法将建立一个新的向量机模型,该模型将新示例分配给一个类别或另一个类别,使其成为非概率的二进制线性分类器。SVM 将训练示例映射到空间中的点,以最大程度地扩大两个类别之间的差距。然后,将新示例映射到相同的空间,并根据它们落在间隙的哪一侧来预测属于一个类别。
......................
2.2BILSTM-CRF 模型
BILSTM-CRF 模型是由 BILSTM 模型和 CRF 模型复合而来。
2.2.1 BILSTM 模型
与标准前馈神经网络不同,LSTM 具有反馈连接,它不仅可以处理单个数据点(例如图像),而且可以处理整个数据序列(例如语音或文本)[57]。因此 LSTM适用于诸如未分段的手写识别、语音识别、实体识别等任务。LSTM 不仅可以运用门控技术实现对序列的长期记忆,它也能够捕获序列信息,有效的解决了 RNN训练时所产生的梯度爆炸或梯度消失问题。LSTM 单元结构如图 3-1 所示。
图 3-1 LSTM 单元结构
........................
第 3 章 基于 BERT-BILSTM-CRF 的中学数学命名实体识别 ..............................15
3.1 BILSTM-CRF 模型..................................15
3.1.1 BILSTM 模型 .....................15
3.1.2 CRF 模型 ......................................17
第 4 章 基于 BERT-BIGRU-CRF 的中学数学知识命名实体识别.........................29
4.1 BIGRU 模型...........................29
4.1.1 BIGRU 模型结构 .........................30
结论...........37
第 4 章 基于 BERT-BIGRU-CRF 的中学数学知识命名实体识别
4.1 BIGRU 模型
由于中学数学知识的可供使用的标注语料较少,实体更新频率较低,不需要外部词典的支持,数据可能存在一些噪声,因为在对每一个样本进行实体标注时是采用模式匹配实现的,可能存在标注错误问题,例如对于句子“一元二次方程组成的方程组是一元二次方程组”,很容易把前头的“一元二次方程”标注为“一元二次方程组”,而这里的“组”应该与“成”字为“组成”。BERT-BILSTM-CRF 模型尚不能很好的解决此类标注错误问题,并且由于上游任务诸如机器阅读理解和机器做题等需要时间限制,而 BILSTM 的计算能力较弱,需要花费较多时间做实体识别任务,在有限的时间任务中,当限制时间做中(高)考数学题时可能因识别时间长导致后续时间不够用,而识别速度快可能精度低。因此引入门控循环单元进行改进。
门控循环单元(GRU)是循环神经网络(RNN)中的一种门控机制,并且在许多诸如语音识别的序列任务上与 LSTM 同样出色[69],不过它的参数比 LSTM 少,GRU 使用了所谓的更新门(updategate)和复位门(resetgate),这是两个向量,它们决定了应将