生物医学工程论文栏目提供最新生物医学工程论文格式、生物医学工程硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于知识库的生物医学实体关系抽取探讨

日期:2024年09月06日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:42
论文价格:150元/篇 论文编号:lw202409041344174552 论文字数:42566 所属栏目:生物医学工程论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇生物医学工程论文,本文基于深度学习技术,探索不同的文本序列对于生物医学文本语义信息挖掘的影响。同时,引入了知识库中的先验知识对药物诱导疾病关系抽取进行专业性指导。最后,采用远程监督学习方法,自动构建大规模标注语料用于提升药物诱导疾病关系抽取性能。

1绪论

1.1研究内容及意义

随着数字化、信息化时代的到来,互联网上每天都产生海量的信息。这些信息对于特定领域的科学研究、生产生活有着重大的意义。而如何在海量的信息中准确、快速地获取有价值、有意义的知识显得尤为关键。互联网中的信息大多数以无结构化的文本形式出现,其中包含了大量实体对间的语义关系。自动抽取这些关系是获取结构化知识的重要方式之一,实体关系抽取任务也随之被提出。

作为自然语言处理领域一项重要的基础任务,实体关系抽取旨在从定文本中发现实体与实体之间的语义联系。它对于信息抽取[1]、自动问答[2]、本体关系学习[3]、知识图谱构建[4]等任务具有重要的指导意义。根据给定文本内容所属的领域不同,实体关系抽取可以分为两类:通用领域关系抽取与特定领域关系抽取。通用领域关系抽取一般针对常识性的文本,不涉及专业知识,实体类型大多为人物、组织、地点等常见实体;特定领域关系抽取一般针对的是领域相关的文本,涉及专业领域知识,实体类型为该领域内的专业性实体,如对于生物医学领域,存在药物实体与疾病实体间的药物诱导疾病关系抽取任务。

随着互联网技术的发展,电子文献的数量呈爆炸式增长。对于浩瀚无边的文献资料,采用人工手动标注实体间关系显然已经无法满足人们的需求,因此,大量的组织与个人致力于采用机器学习的技术对文献中的文本进行建模,自动抽取实体间的语义关系。2010年,国际计算语言学会(Association for Computational Linguistic,ACL)将关系抽取定为第5届国际语义计算研讨会(5thInternational Workshop on Semantic Evaluation,SemEval 2010)的共享任务之一[6],推动了机器学习算法在实体关系抽取中的应用。随后,许多相关的评测任务纷纷被提出,吸引了众多国家的专家与学者的参与,实体关系抽取任务也因此取得了飞速的发展。

1.2国内外研究现状

本小节主要从技术手段角度出发,介绍国内外实体关系抽取的研究方向与进展。由于不同领域间文本语言差距较大,实体类型与关系类型也各不相同。因此,各领域实体关系抽取方法一般存在较大差异。下文将首先介绍通用领域的实体关系抽取方法,然后介绍生物医学领域实体关系抽取方法。

1.2.1通用领域实体关系抽取研究现状

目前,通用领域中的实体关系抽取技术普遍采用机器学习的方法,而根据标注语料的数量与质量不同,大致可以分为有监督学习[8-30],无监督学习[31-33]和弱监督学习[34-39],一般来说,标注语料的质量高低决定了模型性能的好坏。

(1)有监督学习方法

有监督学习方法一般基于一定规模的标注语料,将关系抽取任务转化为关系分类任务解决。有监督的学习方法大多利用机器学习学习模型,根据训练数据设计有效的特征或和函数,用以衡量不同实体间的相似度,从而学习到相应的模型参数。一般可以分为基于特征向量的方法[8-12]和基于核函数的方法[13-15]。

基于特征向量的方法一般采用支持向量机(Support Vector Machine,SVM)模型或最大熵模型等机器学习模型,通过人工制定一系列的词汇、短语、语义、句法特征等,进行实体关系抽取。Chan等[8]抽取了词汇、词性、词聚类、句法树等特征,并用SVM对实体关系进行分类。Zhao等[9]在实体的词汇、类型等特征基础上,进一步细化特征类型,引入了实体属性与实体间依存路径的特征,并采用最大熵分类器进行关系抽取,他们的模型在ACE2004关系抽取任务上取得了优异的性能。Che等[10]进一步利用了实体的子类别、实体上下文及词与实体间的相对关系特征,提升了ACE2004关系抽取任务的性能。Zhou等[11]详细探讨了不同特征对于关系抽取性能的影响,并指出WordNet等语义信息对于关系抽取的重要性。Li等[12]提出了一种基于单字特征的关系抽取模型,用以解决分词错误对于关系抽取性能的影响。

2关键技术概述

2.1卷积神经网络

卷积神经网络(Convolutional Neural Network,CNN)是一种常用的神经网络模型,它最早由LeCun等[16]等提出,并广泛应用于图像分类、自然语言处理领域。卷积神经网络利用卷积操作代替传统神经网络的矩阵乘法,学习数据中的有效特征,从而省略人工特征抽取的步骤。同时,池化操作的引入使得学习得到的特征可以有效地进行降维与过滤。卷积操作使得CNN具有局部连接(神经元仅与局部区域连接)、权重共享(同一感受域的权值相同)的特点。因此相较于传统神经网络,CNN能够有效地减少模型的参数、降低模型训练难度。

在关系抽取任务应用中,CNN一般由四个独立的层组成:嵌入层、卷积层、池化层以及最终用于关系分类的全连接层。图2.1为CNN的结构示意图,下面分层进行介绍。

生物医学工程论文怎么写

2.2多头自注意力网络

多头自注意力网络(Transformer)由Vaswani等[30]于2017年首次提出,用以解决LSTM和CNN不能编码长距离依赖关系的问题。它包括编码器和解码器两部分,主要由注意力机制和前馈神经网络构成,本文主要介绍Transformer的编码器部分。编码器主要包含三部分内容:位置编码(Position Embedding)、多头注意力(Multi-HeadAttention)和前馈神经网络(Feed Forward Networks,FFN),如图2.3所示。

生物医学工程论文参考

3基于上下文语义的药物诱导疾病关系抽取......................23

3.1基于上下文语义的药物诱导疾病关系抽取系统.....................23

3.1.1系统概况.................................23

3.1.2语料预处理...................................24

4基于知识表示的药物诱导疾病关系抽取..........................39

4.1基于知识表示的药物诱导疾病关系抽取系统.......................40

4.1.1系统概况.................................40

4.1.2知识表示学习...........................................40

5基于远程监督的药物诱导疾病关系抽取....................54

5.1基于远程监督的药物疾病关系抽取系统.......................54

5.1.1系统概况..............................54

5.1.2远程监督语料构建......................................55

5基于远程监督的药物诱导疾病关系抽取

5.1基于远程监督的药物疾病关系抽取系统

5.1.1系统概况

基于远程监督的药物诱导疾病关系抽取系统主要分为七部分:远程监督语料构建、语料预处理、候选样例生成、最短依存路径抽取、知识表示学习、关系抽取和关系合并,如图5.1所示。

其中远程监督语料构建通过将大规模无标注文本与药物疾病知识库通过实体对齐实现,预料预处理、候选样例生成和最短依存路径抽取阶段,均沿用第3章的方法,构建句内和跨句两个级别的样例,并抽取其相应的最短依存路径作为模型输入,知识表示学习与第4章内容相同,采用TransE模型获得相应的知识表示。在关系抽取阶段,采用四种不同的训练策略,在远程监督语料与人工标注的训练语料上训练实体关系抽取模型,并引入噪音转换器解决噪音数据的问题,模型采用的是第4章中的GCNN与GTransformer。最终将句内和跨句级别的结果进行关系合并,得到最终文档级别的关系抽取结果。

生物医学工程论文参考

结论

药物诱导疾病关系(CDR)抽取面临文本语义复杂、专业性强、缺少标注语料等问题。本文基于深度学习技术,探索不同的文本序列对于生物医学文本语义信息挖掘的影响。同时,引入了知识库中的先验知识对药物诱导疾病关系抽取进行专业性指导。最后,采用远程监督学习方法,自动构建大规模标注语料用于提升药物诱导疾病关系抽取性能。本文的主要研究内容总结如下:

(1)构建了基于上下文语义的实体关系抽取系统

生物医学领域文本语义复杂,实体关系有时会反映在多个句子中。针对该问题,本文将药物诱导疾关系抽取分解为句内和跨句两个级别的任务,分别构建基于CNN、BiLSTM、Transformer的神经网络模型进行关系抽取。同时,提出了五种基于不同文本序列的上下文输入,并利用实体注意力机制关注更加重要的上下文信息。实验结果显示,包含词、依存方向、依存类型的最短依存路径序列能够有效地过滤冗余的上下文信息,并充分引入句法特征辅助实体关系抽取,而注意力机制能够进一步关注重要的上下文特征,挖掘关键语义信息,从而提升药物诱导疾病关系抽取性能。

(2)构建了基于知识表示的实体关系抽取系统

生物医学领域知识库中蕴含着大量描述药物和疾病间关系的先验知识,这些知识能够有效指导药物诱导疾病关系抽取。本文首先利用知识表示学习方法学习知识库中的三元组知识,获得知识表示。然后利用门控机制和注意力机制将知识表示与文本信息进行融合,分别提出了门卷积神经网络和门控Transformer模型用于药物诱导疾病关系抽取。实验结果表明,先验知识的引入能够显著提升实体关系抽取的性能,而门控机制和注意力机制能够根据先验知识进一步关注重要的上下