计算机论文范文栏目提供最新计算机论文范文格式、计算机论文范文硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于半监督学习的中文电子病历实体关系抽取思考

日期:2021年08月13日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:569
论文价格:150元/篇 论文编号:lw202108061603263229 论文字数:29222 所属栏目:计算机论文范文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
相关标签:计算机论文范文

本文是一篇计算机论文范文,本文主要的研究成果包括以下几个方面: (1)针对目前国内缺少较大规模的中文电子病历标注语料的问题,首先对实体关系抽取任务的流程、关键问题以及数据特点进行了细致的分析,在当前国内外已有的语料库研究的基础之上,完成了适合中文电子病历的实体关系标注规范的制定和标注语料库的构建。 


1  绪论


1.1 课题背景

随着国民经济的发展,人们越来越重视个人健康状况,对于社会所能提供的医疗服务也越来越关注。受限于医疗资源的匮乏和医疗服务分配不均的因素,现有的医疗水平已经难以满足人们日益增加的需求。为了解决多样化的医疗问题,国家出台了一系列深化医药卫生事业改革的措施和政策,严格把控不同医疗环节的信息技术应用,重点建立实用共享、统一高、互联互通的医疗管理系统和医疗服务平台[1]。

传统的病历是由医生手工撰写的纸质病历,易于出现书写错误和不一致的情况,使得患者或者其他医生难以辨认,纸质的病历在长期传输和保存方面也存在问题。近年来,得益于互联网、信息科学和人工智能的普及,医疗机构的管理和建设正朝着数字化、信息化的新方向发展,电子病历就是医疗信息化研究的最新进展之一[2]。电子病历是指医务人员在医疗活动过程中使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录[3]。电子病历中记录了患者从诊断、治疗、住院到出院的整个医疗过程,主要包括主诉、现病史、诊断结果、病程记录、超声报告和出院小结等[4]。电子病历作为医疗信息系统的核心数据,在其之上的处理和信息化管理在各个领域中得到了充分应用。电子病历有结构化数据和半结构化数据,其中更多的是以自由文本形式存在的非结构化数据。这些自由文本虽然便于描述医疗过程,但同时也为电子病历的存储、加工和在其之上的医学研究制造了障碍[5][6]。

......................


1.2 国内外研究现状

关系抽取的概念在 MUC-6[9]评测会议中被首次提出,之后同命名实体识别任务一起转入了 ACE-7[10]评测会议。实体关系抽取任务是实现信息抽取的必要步骤之一,已被成功应用于智能问答、智能检索和智能推荐等领域,在自然语言处理技术中一直保持着较高的关注度。早期开放领域的关系提取主要采用特征工程或核函数方法[11],不仅分类效果不佳,且需要耗费大量人力来构建特征集,目前研究者们主要采用深度学习方法来提取实体关系。Zhou[14]等将长短期记忆网络(Long Short-Term Memory,LSTM)和注意力机制相结合用于关系分类,该方法在仅使用词向量的情况下优于大多数方法。Zeng[15]等利用分段卷积神经网络(Piece Convolutional Neural Network, PCNN)结合多实例学习来解决远程监督关系抽取中的误标记问题。Li[16]等提出了一个基于句子级注意力的关系抽取模型,该模型能充分利用所有的信息性语句并动态地减少噪声实例的权值。Zhang[17]等提出了一种新的基于胶囊网络的关系提取体系结构,并引入动态路由的特征聚合机制,该方法在多标签分类问题上取得了较好的效果。

在电子病历领域,实体关系抽取研究主要集中于国外,生物医学组织 I2B2 从 2006年就开始引入了电子病历相关的评测任务,例如去除患者隐私信息、识别患者吸烟状态和药品属性识别等,并针对不同的任务提供了共享语料库  [1]。在 2010 年所发布的电子病历信息抽取任务中,包括识别病历中的实体、实体修饰和实体间的关系三个子任务,需要识别出医疗问题、检查和治疗三类实体,以及医疗问题和医疗问题、医疗问题和检查、医疗问题和治疗之间的三类实体关系,提供了由出院小结和病程记录组成的871 份已标注的病历[18]。该任务在 i2b2 历年所组织的所有任务中影响力最大,对于推动电子病历的信息抽取研究做出了较大的贡献。

...........................


2  中文电子病历实体关系标注语料库构建


2.1 相关语料库介绍

现有的电子病历关系抽取方法大多以有监督学习为主体,模型的训练和评估效果依赖于大规模和高质量的标注语料。表 2-1 总结了从 2006 年至今为止临床领域中一些比较重要的电子病历标注语料库,表格从语料构建的时间、语料的语言类型、语料规模、是否标注命名实体、实体修饰和实体关系等多个方面进行了展示,其中“√”表示具有此类型的标注,“-”表示没有此项标注。

表 2-1 已构建的中英文电子病历标注语料

表 2-1 已构建的中英文电子病历标注语料

.....................


2.2 中文电子病历特点

2.2.1 结构特点

电子病历有表格、自由文本和图像三种主要形式,非结构化的自由文本的数量在所有电子病历中占比最大,主要包括入院记录、病程记录和出院记录等。图 2-1 是某中心医院骨科的住院病历。入院记录按照内容可以划分为患者基本信息、主诉、现病史和既往史等。主诉主要记录的是患者就诊时陈述的主要症状或体征既往史详细描述了患者以前的病史,主要涉及心、肺、肝等一些重大脏器的病史或重大手术,现病史描述的是患者病后从发生后的全过程。病程记录主要描述了患者临床表现、  医生采取的检查措施和治疗方案等医疗活动过程[4],按照内容可以分为一般项目、体格检查、专科情况、诊疗计划和手术记录等。出院记录是患者住院和出院时的病情、医嘱的总结。病程记录和出院记录中描述性语言和专业术语分布非常密集,涉及到患病情况、检查结果和治疗方案等多方面的患者健康信息,是电子病历实体关系抽取的重点内容。通过分析电子病历的结构特点和各组成部分之间的联系,能够有针对性地选择语料的文本来源和标注范围、减少数据预处理操作和标注工作量,便于展开标注语料库构建和关系抽取的研究。

图  2-1  某中心医院骨科的住院病历

图  2-1  某中心医院骨科的住院病历

.......................


3  中文电子病历中的复杂医疗实体识别..................20

3.1  引言.................20

3.2  实体识别的主要方法.................20

4  基于半监督学习的中文电子病历实体关系抽取.................25

4.1  引言.................25

4.2  基于混合神经网络的实体关系抽取模型.................25

5  中文医学知识图谱构建...................30

5.1 引言.................30

5.2 数据处理与知识表示.................30


5  中文医学知识图谱构建


5.1 引言

基于深度神经网络和半监督学习算法完成中文电子病历的关系抽取后,得到了结构化的医学知识,然而医学知识仍不具有延展性和实际应用价值。为了更加便于后期的管理、搜索和统计分析,需要将这些信息进行根据具体的需求进行数据结构设计并存入数据库,知识图谱(Knowledge Graph, KG)作为新兴的知识服务技术已然成为了解决该问题的最优选择。知识图谱旨在将客观世界中零散的概念和知识相互连接,从而构建出以语义网络为骨架的巨型知识系统,具有强大的数据集成、语义检索、组织关联和知识推理能力[55]。开放的知识图谱中大多基于百科数据构建,属于通用知识图谱,例如国外基于维基百科构建的“Knowledge Graph”、“DBpedia”和“Freebase”,以及国内基于百度百科等构建的百度“知心”等[56-59]。领域知识图谱更侧重于知识的深度,具有更强的针对性和专业性,涉及金融、生物、医学和军事等不同的垂直领域,其中基于医学领域的知识图谱构建是目前的研究重点。

国外利用大量丰富且开放的生物医学信息抽取工具和语言资源,已经构建好了一些大型医学知识图谱,在其之上的应用也逐渐趋于成熟,例如 IBM 建立的 WatsonHealth、美国国家图书馆建立的 UMLS、马里兰大学构建的 Partitioned Knowledge Graph 等。国内的研究由于医疗水平的限制才刚刚起步,近几年受到国家政策的支持,全国各大高校、互联网企业和研究机构开始投入到中文医学知识图谱的研究中。例如,北京大学计算语言学实验室与鹏城实验室合作构建的中文医学知识图谱 CmeKG[60],江西中医药大学构建的中医药知识图谱等。搜狗、阿里、百度、医渡云、平安科技和神州医疗科技等企业基于大规模多源异构的医疗数据构建的真实世界医学高精度模型、可更新医学知识图谱和提供健康医疗服务的大数据云平台,例如“搜狗名医”、“百度医学大脑”、“医知鹿”等。医学知识图谱可以对电子病历文本中分散、异构和碎片化的信息进行结构化的建模和管理,对抽取出的医疗知识做出进一步的评估,并作为辅助信息以弥补医生医疗水平和知识的不足,对于推动智慧医疗和健康医疗大数据发展具有重要意义。

..............................


6  总结与展望

电子病历中蕴含了丰富且具有实际应用价值的医学健康信息,通过关系抽取可以将电子病历中的非结构化文本转化为结构化的医学知识,而由于现有关系抽取方法特征提取能力的不足和中文医学语言资源的匮乏,导致中文电子病历的实体关系抽取研究进展较慢。针对这些问题,本文采用深度学习技术,针对中文电子病历,分别完成了标注语料库构建、复杂医疗实体识别、半监督学习实体关系抽取和中文医学知识图谱构建的研究工作。本文主要的研究成果包括以下几个方面:

(1)针对目前国内缺少较大规模的中文电子病历标注语料的问