电子病历实体识别[62, 63]的研究起步晚、难度大,主要是因为不存在大规模的语料库;病例实体结构复杂,没有一个统一的标准化命名规范;病历实体的类型和数量多,随着医疗技术的飞速发展,新的病历实体正逐渐涌现出来。因此一款性能较好的电子病历命名实体识别系统对医疗信息的存储、管理与后续的研究起到至关重要的作用。 本文是基于 B/S 和 flask 的一款中文电子病历命名实体识别系统。具有跨平台、可视化以及良好的交互性。本系统具有如下几种功能。
(1) 跨平台。本系统是一款基于 B/S 模式(客户端/服务器端)的应用,用户通过浏览器即可访问服务器端,获取各项功能。
(2) 可视化。本系统可直接通过可视化界面完成中文电子病历中的实体识别,操作简单,无须专业知识。
(3) 良好的交互性。本系统在浏览器中输入要识别的电子病历,即可反馈结果。
...........................
主要结论
随着大数据时代的发展,网络中存在海量的非结构化文本数据,如何从这些海量的非结构化文本数据中获取有用的结构化知识信息,已经成为一个核心任务,因此命名实体识别任务成为了 NLP 方向热门的研究方向。本篇论文的研究重点包括如何同时考虑字和词级别特征与命名实体识别模型在实际场景中的应用。针对上述问题,文本提出了一种基于多级别特征感知网络的中文命名实体识别方法。并且运用到中文电子病历的命名实体识别系统中。
本文对基于深度学习的命名实体识别方法进行了相关的研究,并针对上述问题,提出了两种解决办法,具体工作如下:
(1) 针对目前大多数中文命名实体识别方法大多利用单一级别的特征进行识别,没有同时考虑字和词级别特征,难以获取足够的字形信息和词义信息。为了将基于字和词的方法进行有效结合,改进单一模型识别效果,本文提出一种基于多级别特征感知网络的中文命名实体识别方法。首先构建DCGCN感知字级别特征,以表示单字的字形信息。同时,利用自注意力机制感知带有位置信息的词级别特征,以表示词语的词义信息,并减少未登录词数量。进一步地,将字级别特征和带有位置信息的词级别特征进行拼接,以全面表示词的语义信息。并利用 Highway 网络对拼接的语义信息进行筛选,过滤冗余信息,以减少字、词级别特征产生的重复语义信息。最终结合 CRF 实现中文命名实体的识别。为了验证所提方法的有效性,在 MSRA 和《人民日报》数据集进行广泛实验。同时与近年来主流的中文命名实体识别方法进行比较。实验结果表明所提方法在 MSRA 和Resume 数据集中实体识别的 F1 分别达到 92.15%和 94.32%,在《人民日报》数据集上识别人名、地名和机构名的 F1分别达到 94.28%、94.17%和 90.33%。总体上优于近年来主流的中文命名实体识别方法。
(2) 在命名实体领域,多采用循环神经网络的模型,由于循环神经网络在计算的过程中主要以递归为主,时间成本较大。相比较而言,卷积神经网络由于属于一种前馈神经网络,时间成本小,但是卷积神经网络由于不擅长处理时间序列任务。针对上述情况,本文构建一种自注意力空洞卷积网络,从而更好的“代替”循环神经网络。首先通过空洞卷积获取字级别特征,由于外部知识往往起到积极的作用,因此本文在字级别特征的基础上融入词级别特征获取局部信息。然后利用多通道卷积网络获取全局特征,通过自注意力机制更关注实体部分,然后结合局部信息,从而获取局部与全局的信息。通过Highway 网络过滤掉其中的噪声,最终结合 CRF 实现命名实体的识别。实验结果表明,本文所提的方法在 CoNLL-2003 English NER 与 OntoNotes5.0 数据集上的结果总体上优于近年来主流的命名实体识别方法。
参考文献(略)