本文是一篇工程硕士论文,本文分别从命名实体识别模型体系结构的词嵌入层、神经网络层和序列标注层这三个方面进行了充分的研究和大量实验工作。虽然提出的三种改进方式取得了一定的效果,但在面对文本信息爆炸的当下,仍然具有不少的局限性。
第1章绪论
1.1研究背景及意义
随着互联网的普及和信息化建设的不断完善,互联网上的文本数据呈现指数级增长,其文本内容涉及各种领域,包括新闻、体育、娱乐、医疗等。如何从这些数据中提取有效信息,提高数据资源的利用率,挖掘信息之间的潜在关系,成为推动未来社会信息化发展的关键。自然语言处理[1](Natural Language Processing,NLP)是目前人工智能领域的一个重要研究方向,它将计算机作为语言研究的强大工具,用于分析、理解和处理自然语言。并且随着计算机算力的大幅提升以及人工智能研究领域的理论创新,自然语言处理取得了巨大进展,并被广泛应用于医疗、教育、环境、卫生等社会生活领域,对提高社会生活质量起到了一定的作用。
NLP技术的研究和应用旨在让计算机能够理解和处理自然语言,进而对自然语言数据进行语义分析和文本挖掘。其中的关键问题包括语言模型、词嵌入、文本分类、命名实体识别、句法分析、机器翻译、信息抽取等。在医疗领域,NLP可以帮助医生快速准确地获取病人的病历信息,从而提高医疗效率和诊疗准确度。在环保领域,NLP可以用于分析环保报告和监测数据,识别并分析环境问题,帮助决策者制定科学的环保政策。而NLP的研究和应用离不开数据,而大数据时代的到来为NLP技术的发展提供了更加丰富的数据资源。
近年来,随着国家出台一系列支持“互联网+医疗健康”的政策,各大医院逐渐进行信息化建设,并建立了各种医疗系统,实现了医疗信息可视化。在疾病治疗过程中,医生不断需要记录更新病人的身体状态信息、对新推出的治疗药物、医疗设备、手术方法等进行学习,因此建立规范统一的医疗信息可视化显得尤为重要。而在个人层面,人们对互联网上医疗信息的准确性提出了更高的要求。虽然搜索引擎可以满足人们对信息查找的需求,但是搜索结果中存在大量虚假的诊断信息和广告信息,影响用户对互联网的信任。
1.2国内外命名实体识别研究现状
命名实体识别任务最早是由Grishman[11]等人于1996年在第六届消息理解会议(Message Understanding Conference,MUC-6)上提出的,该会议的主题是识别文本中的组织、人员和地理位置等实体。自MUC-6以来,NER的研究受到越来越多人的关注。随着时间的推移,研究范围也逐渐从新闻、公司活动等扩大到各种专业领域。同时,该任务的研究方法也从最初基于规则的方法发展到基于统计的方法,随后又逐渐发展到近些年比较热门的基于神经网络的方法。这些不断发展的研究方法和技术的进步,都为NER的进一步发展打下了坚实的基础。
1.2.1基于规则与词典命名实体识别方法
基于规则的NER系统的设计模式主要为语法-词汇模式,然后具体实现依赖于手工制作的规则,其主要策略是运用目标领域内的当前所有实体构建出一个词典库,然后将需要进行实体提取的文本通过匹配的方式,一一与词典库中的实体进行比较。由于其本质是通过利用语言相关特性以及通过字符串的匹配算法进行实体识别,因此对于特定领域的特定文本进行识别常常能取得较好的效果。Kim[12]提出使用Brill规则推理方法进行语音输入。该系统基于Brill的词性标注器自动生成规则,在没有大小写与标点符号的文本中,取得了88.58%的F1值。Hanisch[13]等提出了用一个预处理的同义词字典来识别生物医学文本中提及的蛋白质和潜在基因的算法,在酵母文本中取得了96.6%的准确率和84%的召回率。Quimbaya[14]等利用电子健康记录构建了一个特定的词典,该方法对电子健康领域的文本实体识别达到了较高召回率,但对准确率影响有限。向晓雯[15]首先构建了一个中文实体的规则,在此规则上利用统计机器学习的方法设计了一个中文命名实体识别系统,该系统在863组织的命名实体识别测试中,取得了81.93%的准确率和78.02%的召回率。还有一些其他的比较著名的基于规则的NER系统包括LaSIE-II[16],NetOwl[17],Facile[18],SAR[19],FASTUS[20]和LTG[21]系统,当字典中词汇是详尽的时候,这些基于规则的系统通常能取得较高的性能。
第2章相关理论及技术
2.1文本向量化表示
为了能够将文本数据输入神经网络模型,需要先将文本数据进行向量化表示。文本向量化可以将文本数据按照单词或者字进行分割,并将其映射为向量形式。这种向量化的过程可以帮助模型理解单词或字之间的关系,从而提高模型的预测准确度。合适的文本向量化表示对于模型的最终效果起到重要的作用,因为模型只能处理数字数据,不能直接处理文本数据。通常,文本向量化会将单词或者字按照其在文本数据中出现的频率进行编码,同时也会考虑上下文信息,例如将每个单词或字与其相邻的单词或字一起编码。这种方式可以帮助模型更好地理解单词或字之间的关系,提高模型的预测准确度。
2.1.1独热编码
在自然语言处理中,独热编码是处理分类数据的常用方法。One-hot向量是一个1xN的矩阵,用于区分词汇表中的每个单词和词汇表中的每个其他单词。向量在所有单元格中由0组成,但唯一用于表示单词的单元格中数值为1。独热编码可确保机器学习不会假设数字越高越重要。例如,值“7”大于值“1”,但这并不意味这“7”比“1”更重要。以预测一个人的工资为例,这个人的就业行业可能是一个需要考虑的重要因素。例如,医生往往比学生赚更多的钱。假设为了希望区分四种类型的就业:学生、教师、医生和银行家,可以使用如图2-4所示的独热编码来表示这些信息。
2.2神经网络模型
2.2.1循环神经网络
自上世纪80年代提出的语言模型,经历了基于规则模型、统计语言模型和神经网络语言模型三个阶段。在这些语言模型中,循环神经网络及其变体因为其强大的序列数据处理能力和自学能力而成为应用最广泛的语言建模技术。2010年,Tomas Mikolov提出将RNN模型应用于语言建模,并将其应用于语音识别、机器翻译等各种NLP任务,并取得了最佳效果。循环神经网络语言模型的突出优势是能够捕捉长序列文本数据的特征,并具有良好的泛化能力,这标志着语言模型的研究进入了一个新时代。此后,随着循环神经网络结构的多种变体的出现,如LSTM和GRU等,循环神经网络语言模型得到了不断的完善,并进一步促进了各种NLP应用的蓬勃发展。在NLP任务中,语言模型是重要的组成部分,可以为文本分类、命名实体识别、情感分析等任务提供基础支持。因此,对语言模型的研究和应用具有重要意义。
Transformer是一种深度学习模型,具有优秀的性能,其结构不同于传统的语言结构。最初,Transformer被用作序列到序列模型,用于机器翻译。研究表明,基于Transformer的预训练模型可以在各种任务上实现最先进的性能,因此成为了NLP中的首选体系结构。Transformer的编码器和解码器由多个块组成。每个编码器块包括一个多头自注意力模块和一个前馈神经网络模块。为了构建更深的模型,每个模块都有残差连接,并且每一层后面都有归一化模块。与编码器不同,解码器在多头自注意力模块和前馈神经网络模块之间增加了交叉注意力模块。使用Transformer模型可以实现不同任务的最先进性能,这是因为它的注意力机制能够有效地处理输入序列,同时残差连接有助于解决梯度消失和梯度爆炸问题。与其他模型相比,Transformer模型不需要使用循环神经网络或卷积神经网络来处理序列数据,而是通过注意力机制实现了序列的处理,从而提高了效率。因此,Transformer是一种能够处理序列数据的深度学习模型,通过注意力机制和残差连接实现了优秀的性能,成为了NLP中的首选体系结构。
第3章基于多级别特征的医学命名实体识别模型........................19
3.1引言.............................19
3.2基于多级别特征的医学命名实体识别模型结构...............................19
第4章基于BiGRU-GlobalPointer的医学命名实体识别模型........................28
4.1引言...........................28
4.2基于BiGRU-GlobalPointer的医学命名实体识别模型..................28
第5章基于分层双向门控循环网络的医学命名实体识别模型.......................35
5.1引言.......................35
5.2嵌套实体....................................35
第5章基于分层双向门控循环网络的医学命名实体识别模型
5.2嵌套实体
命名实体识别任务中存在一个难点,即对嵌套实体的处理。嵌套实体是指在一个命名实体中包含另外一个命名实体。例如“胰腺癌”是一个疾病名称类实体,但是其中也包含了“胰腺”这个器官组织类实体。为了避免下游任务忽略这些嵌套实体以及他们之间的语义关系,对嵌套实体进行研究具有重要的意义。又如下面两句:
S1:Employing the EBV-transformed human B cell line SKW6.4.
S2:the burial site of Sheikh Sbbad is located…
S1显示了一个来自GENIA数据集的嵌套命名实体:“human B cell”和“EBV-tran