本文是一篇计算机论文范文,本文对基于深度学习的命名实体识别方法进行了相关的研究,并针对上述问题,提出了两种解决办法,具体工作如下: (1) 针对目前大多数中文命名实体识别方法大多利用单一级别的特征进行识别,没有同时考虑字和词级别特征,难以获取足够的字形信息和词义信息。为了将基于字和词的方法进行有效结合,改进单一模型识别效果,本文提出一种基于多级别特征感知网络的中文命名实体识别方法。首先构建DCGCN感知字级别特征,以表示单字的字形信息。同时,利用自注意力机制感知带有位置信息的词级别特征,以表示词语的词义信息,并减少未登录词数量。
第一章 绪论
1.1 课题背景及意义
近年来,随着数据呈现出几何式的增长,同时伴随着计算机硬件性能的极大提升,深度学习逐渐在一些实际生活场景中取得了突破性进展。早期的深度学习主要是利用神经网络处理分类问题,现如今更主要用于计算机视觉[1]、自然语言处理[2]等较为复杂的人工智能问题。其中自然语言处理是利用计算机处理人类语言的技术,并且逐渐成为一个热门的研究领域。现如今随着互联网技术的飞速发展,网络中产生了海量的文本数据,在这海量的文本数据中,有非常丰富的、且可利用的信息资源。如何从这些网络文本数据中准确获取具有价值的信息资源,已成为目前国内外研究的热点。
作为自然语言处理的一项基础任务,命名实体识别目的在于识别文本中姓名、地点、与时间等专有名词,或者一些具有特殊意义的数量短语例如:节日、日期等。然后再把实体凝练成结构化的信息,最后利用其他技术,从而起到理解文本、获取有价值信息的目的。命名实体识别首次提出是在 1995 年的第六届信息理解会议(MUC-6)上,随后广泛的应用在关系抽取领域。命名实体识别发展到今天,已经不仅仅局限于关系抽取[3]领域,而越来越成为例如情感分析[4, 5]、问答系统[6]。机器翻译[7, 8]等诸多自然语言处理的基础任务之一。如图 1-1 所示,命名实体识别在构建知识图谱上的运用。
图 1-1 知识图谱
..................................
1.2 国内外研究现状
本文先分别介绍基于规则和字典的方法以及基于机器学习的方法的国内外研究现状,同时将着重介绍基于深度学习的方法的国内外研究现状。
1.2.1 基于规则和字典的方法
早期的命名实体识别方法主要通过一些规则和词典来直接进行实体匹配,这些方法主要由语言学领域的专家、学者通过人工标注的方式,针对不同的数据集构建的特征规则和词典。其中规则主要由关键词、方位词以及标点符号等信息组成。词典由特征词和一些由已存在的常识词典的外部词典组成。根据制定好的规则与词典,对文本进行匹配处理,从而达到命名实体识别的目的。Rau[14]等人首先利用规则和词典从文本中自动识别公司名称类型。Quimbaya[15]提出了一种基于字典的电子健康记录中的命名实体识别方法。Kim[16]建议使用 Brill 规则推理方法进行语音输入。该系统基于 Brill 的部分语音标记自动生成规则。在生物医学领域,Hanisc[17]利用预处理的同义词词典来识别生物医学文本中的蛋白质和潜在基因。但是这种基于规则与词典的方法,存在可扩展性差和查找未登录词能力弱问题。
1.2.2 基于机器学习的方法
机器学习将命名实体识别的研究推到了一个新的高度,隐马尔可夫链、最大熵和条件随机场等方法逐渐取代了早期的基于规则和词典的方法,推动了命名实体识别技术的发展。其中最主要的是条件随机场和隐马尔可夫链两种模型。通常,把命名实体识别看作序列标注问题,在序列标注问题中,输出的结果即预测标签与输入的标签信息有密不可分的关系。同时,标签之间也有一定的潜在联系,影响着最终识别效果。1997 年,Bikel[18, 19]提出了一种利用隐马尔可夫链实现命名实体识别的方法,识别且分类姓名、日期、时间表达式和数值数量。条件随机场可看作是一种隐马尔可夫链模型的变体。与隐马尔可夫链模型不同的是,条件随机场的灵活性更高,无需独立假设,能满足更为丰富的语言特征需求。McClallum 等人[20]将条件随机场用在命名实体识别中。与此同时,Szarvas[21]提出一种利用 C4.5 决策树和 AdaBootM1 学习算法来进行命名实体识别。Borthwick[22]等人提出一种最大熵命名实体方法,该方法能够利用极其多样化的知识来源来做出标记决策。Krishnan 和 Manning[23]提出了一种基于两个耦合 CRF 分类器两步方法,第二个 CRF 从第一个 CRF 的输出中获取潜在表示。
..............................
第二章 命名实体识别相关工作
2.1 词向量模型
词向量蕴含了词语的基本语义信息,是词的一种分布式向量表示方法。伴随着ELMO、GPT 和 BERT 等预训练模型的出现,词向量逐渐演变为知识表示方法。常见的词向量表示形式主要有以下几种:独热向量(one-hot)、World2Vec 词向量、Glove 词向量和 BERT 词向量等。一般情况下,词向量的选取关系到自然语言处理下游任务的整体性能。
2.1.1 Word2Vec
Word2vec[35]来源于 2013 年的论文《Efficient Estimation of Word Representation in Vector Space》,它的核心思想是利用神经网络对词的上下文训练得到词的向量化表示,训练方法:CBOW(通过附近词预测中心词)、Skip-gram(通过中心词预测附近的词)。 如图 2-1 所示,CBOW 模型的输入是某一个词周围的相关词向量,从而得到该词的一个词向量。
图 2-1 CBOW-Gram 模型
...........................
2.2 相关工作介绍
命名实体识别模型在编码阶段,主要使用卷积神经网络、循环神经网络以及Tansformer。使用注意力机制获取句子的重要语义特征。在解码层,一般使用多层感知机结合 softmax、条件随机场以及循环神经网络。
2.2.1 卷积神经网络
早期的卷积神经网络主要运用在图像领域,目前也逐渐也应用到文本领域。通常卷积神经网络由输入层、卷积层、Relu、池化层和全连接层组成。在图像任务中,数据经过卷积神经网络被映射成一组特征,最终分类或生成任务。与文本信息不同,图像在计算机中以像素点存储,根据图像的分辨率和尺寸,从而进一步转化成相应的矩阵形式。卷积神经网络的卷积层有若干个不同的卷积核,矩阵经过每一个卷积核卷积后得到新的特征图。如图 2-4 为卷积计算过程,卷积核在输入层矩阵移动一个位置则产生一个新的特征值。
图 2-4 卷积神经网络卷积计算过程
与其他神经网络相比,卷积神经网络有三个概念:感受野、共享权值、池化。
(1)感受野。与人观看一张图像时通常关注局部信息类似,卷积神经网络通过卷积核将图像的每个局部区域连接到一个隐藏节点,通过卷积层的叠加扩大局部感受野的范围。有效减少了训练参数量。
(2)共享权值。在设计卷积神经网络时,根据图像特征与位置无关这一特性,提出共享权值的概念。卷积核遍历整个特征图时提取同一种特征,权重固定不变,因此可以减少训练的参数量。
(3)池化。为了获取图像的有效特征,减少特征的数量,对经过卷积的特征,以池化的方式,去除冗余特征,缩小图像特征的尺寸,通常为最大池化。
................................
第三章 基于多级别特征感知网络的中文命名实体识别 ....................... 21
3.1 多级别特征感知网络 ..................................... 22
3.1.1 字级别特征感知网络(CFPN) ..................................... 22
3.1.2 词级别特征感知网络(WFPN) ........................................ 24
第四章 基于多通道空洞自注意力卷积网络的命名实体识别 .................................... 31
4.1 多通道空洞自注意力卷积网络 ....................................... 32
4.1.1 局部特征层 .......................................... 32
4.1.2 全局特征层 ................................... 33
第五章 中文电子病历命名实体识别系统实现 ................................... 39
5.1 需求分析 ..................................... 39
5.2 技术简介 ......................................... 40
第五章 中文电子病历命名实体识别系统实现
5.1 需求分析
数字与信息化医疗技术已逐渐成为当前医学领域的一个热点研究领域。在结构化电子病历出现之前,多数医院仍然保留着大量非结构化的病历。由于非结构化的病历并不具备有效信息检索的能力,从而导致大量的病历不能起到至关重要的作用。因此,如何从这些海量的非结构化病例中充分挖掘其中有效的信息,已经成为现代医学领域一个难点问题。近年来,伴随着计算机技术的飞速发展,将