随着信息化建设的快速发展,目前我国医疗数据急速增长,积累了大量电子临床数据资源,为医疗大数据的分析和挖掘提供了基础。然而当前医疗文档大多是以自然语言描述的非结构化文本,由于自然语言与机器语言之间存在巨大鸿沟,导致用计算机直接处理和分析非结构化文本的效率较低,也影响了分析结果的质量。为了能有效利用现有技术成熟的分析工具对医疗文档进行数据分析和数据挖掘,从而提高医疗数据价值,对非结构化数据进行结构化就成为了该领域学者关注的重点。
病理检查报告是诊断病理学中的重要临床文档,医生将活检样本送往病理科检查,然后凭借自身经验对检查结果作出判断并将影像描述、临床诊断、诊断意见等内容以自然语言形式记录在报告中。这些文档包含的信息往往是临床医生进行疾病诊断的重要依据,也决定了病人将要接受的治疗方案。检查报告的结构化目标是发现其中包含的关键指标key,以及对应指标值value,最终形成key-value形式的结构化模板。
甲状腺超声检查报告中的1个实例,其结构化结果由13个key-value形式的二元组组成,其中诸如甲状腺大小、形态、边界等关键指标及其对应指标值是病理诊断的关键内容。从上例可以看出,将甲状腺超声检查报告中的所有描述转化成结构化模板,可保留报告中的核心信息,并建立简明规整的结构,方便读取和查询,同时也有利于借助R软件或SPSS(statisticalproductandservicesolutions)软件等现有数据挖掘工具对结构化指标与诊断结果进行关联分析,挖掘出大量与患者密切相关的医疗知识,从而辅助医生进行诊断。
目前,在非结构化文本转化为结构化数据领域已存在大量的研究工作,如自动问答系统、关键词抽取和自动摘要等,而针对中文医学自然语言处理的研究相对较少,主要研究方向集中于实体识别和信息抽取,其研究对象往往是结构化或半结构化文本,于是如何对文本进行结构化便成了关键步骤。目前文本结构化技术大多采用基于规则的处理方式,但由于医疗文本中不同组织器官所具有的属性不同,且描述不同病种所使用的指标词也不同,又由于基于规则结构化方法的可扩展性较差,所以若想制定出一种适用所有病理检查报告的结构化规则十分困难。除了上述基于规则结构化方法外,还可以通过句法语义特征和词性特征识别语义,从而进行实体关系抽取和结构化处理,有效减少人工阅读工作量。
Socher等人提出了一种基于依存关系树识别语义的方法,利用循环神经网络将句子成分抽象为语序和句法信息,从而得到句子的语义信息。但是病理检查报告在语义特征上具有其特殊性,医生通常采用名词、形容词或名词性短语对指标进行描述,句中的谓语往往不以动词形式出现。而传统的依存句法分析方法以动词作为核心词支配其他句子成分,可见现有句法分析方法对于病理检查报告的结构化并不适用。
针对上述问题,本文在传统句法分析和信息关系抽取技术的基础上,根据医疗病理检查报告特有的语法特征,提出了一种基于依存句法分析的医疗指标结构化方法,从病理检查报告中抽取某一器官组织或病症的属性描述,随后生成依存关系树并按照句子的语义特征形成key-value形式的结构化数据。实验表明:本文提出的结构化方法能够较好地针对不同组织器官的检查报告,指标词及对应指标值提取的准确率分别可达82.91%和79.11%,接近基于规则方法。
1相关工作
近年来,文本标注方法也逐渐应用于自然语言处理方面,而且对于提高计算机处理自然语言的准确率起到了很大作用;Araki等人提出了基于词袋相似模型的文本标注方法,并将其用于自动问答系统中的文本检索,对于提高文本排序准确度起到关键作用。早期对于文本关键信息抽取的研究大多采用基于启发式规则方法,其优势在于实现简单且准确率高,但获取规则是一个非常复杂的过程,且完全依赖开发人员的知识和经验,若要提高分析结果的质量,必须增加人工阅读量,且其健壮性和可移植性较差,若文档结构不适合当前启发式规则,就不得不对已有规则进行修改。在语料库构建技术越发成熟后,人们开始采用基于统计的句法分析方式,该方法采用统计学的处理技术从大规模语料库中获取语言分析所需的知识,能在减少人工规则制定的同时尽可能使语言接近真实规律。
依存文法是由法国语言学家Tesnière于1959年提出的一种信息抽取方法,通过分析词语之间的依存关系揭示其句法结构,并主张句子中核心动词是支配其他词语的中心成分,而它本身却不受其他任何词语的支配,所有受支配词语都以某种依存关系从属于支配词。依存关系反映的是句中词语的语义修饰关系,它可以无视句中词的位置关系,获取长距离搭配的信息。
在针对非结构化中文自然语言的信息抽取研究中,其主要研究对象是命名实体之间的关系抽取,郭喜跃等人提出了一种基于句法特征、语义特征的实体关系抽取方法,融入了依存句法关系、核心谓词、语义角色标注等特征,实验结果表明该方法的F1值与传统方法相比有明显提升;甘丽新等人提出了一种基于句法语义特征的实体关系抽取方法,将2个实体各自的依存句法关系组合,获取依存句法关系组合特征,并利用依存句法分析和词性标注获取最近句法依赖动词特征;Li等人提出了一种基于位置语义特征的实体关系抽取方法,利用位置特征的可计算性与可操作性以及语义特征的可理解性,将词语位置信息增益与基于HowNet语义计算结果整合在一起;在医疗领域也存在信息关系抽取方面的相关研究,Uzuner等人以句子为单位识别电子病历实体关系,并训练了6个支持向量机分类器实现疾病、症状、检查和治疗之间的关系识别,其结果表明词汇特征在关系识别中发挥了重要作用;Chen等人从医学文献和电子病历中分析疾病和药品实体的共现来发现二者间的关联关系,获取疾病和药品的潜在医疗知识。
上述关系抽取的结果一般以二元组或三元组的形式出现,这种键值对的表示形式与本文所要提取的指标词及指标值模板相似,然而上述方法主要关注医疗领域特定实体如疾病、治疗等之间关联关系的知识发现,针对适用于不同病理检查报告的通用、自动的结构化方法目前研究较为少见。
目前,随着机器学习领域研究的发展,人们逐渐开始尝试借助机器学习方法对自然语言进行处理,而后,深度学习也从语音识别和图像处理扩展到自然语言处理领域。词向量是将深度学习方法引入自然语言处理的关键因素,而从神经网络语言模型中获取词向量已成为研究热点,许多训练词向量的工具也随之产生。Blunsom等人提出一种基于组合范畴语法方法将句子训练成高维词向量,并在向量空间中获取语义信息;Vulic'等人提出了一种利用skip-gram模型从双语词向量中训练新单词表示的方式,并将其应用于机器翻译领域;本文利用Word2vec词向量训练工具得到病理检查报告中高频词的词向量,并通过余弦相似度合并同义词。
Word2vec是Google在2013年开发的1款基于深度学习的开源工具,采用“输入层-隐含层-输出层”结构的3层神经网络,其核心架构包括连续词袋模型(continuousbag-of-wordsmodel,CBOW)和skip-gram模型。其中连续词袋模型是将相邻的词向量直接加到隐含层,并用隐含层预测中间词的概率;而skip-gram模型通过中间词来预测周围词的概率。文本标注方法在图像检索领域中已得到广泛使用,Tariq等人通过抽取图像所在网页中的文本信息对图像添加标注,并将文本检索与图像检索相结合,有效提高了图像检索的效率和准确性。
2系统框架
本文提出了一种基于依存句法分析的病理检查报告结构化方法,具体流程如下:1)针对病理报告中频繁出现的同一指标多种描述情况进行预处理,利用神经网络模型求出词向量,在此基础上计算余弦相似度找出同义词,规范病理检查报告的文本表述,同时切分短句并引入词语信息标注方法简化句子结构,降低依存关系树的高度,从而使语法关系更加清晰,提高结构化结果的准确度;2)利用依存句法分析得到每个短句的依存关系树,利用所得语义特征和词性特征提取指标及对应指标值,便可将非结构化文本转化成key-value形式的结构化模板;3)将标注信息还原,同时修正噪声数据。根据实现功能的不同,整个结构化过程可以划分成3个模块:预处理模块、结构化模块、后处理模块。
2.1预处理模块
一义多词在自然语言文本中是普遍现象,且在病理检查报告中尤为突出,所以设置预处理模块的主要作用是消除文本中的一义多词现象。举例来说,“甲状腺左右叶大小正常”和“双侧甲状腺大小未见异常”是甲状腺超声检查报告中经常出现的2种描述,所要表达的含义都是该病人2侧甲状腺的大小在正常范围内,这2种表述的句法结构分别如图2所示(依存关系树的概念将在4.1节中详细介绍),前者用形容词“正常”作为谓语描述甲状腺的大小而后者采用动宾短语“未见异常”表达了相同的意思。另外,在这组描述中用于表示位置信息的词也不同,前者使用了“左右叶”而后者用了“双侧”。
由此可见,中文自然语言的复杂性导致了句法分析难度的增加,所以,针对