(2)针对中文电子病历中复杂医疗实体的识别问题,提出了一种联合特征与多头注意力相结合的实体识别方法。该方法使用字符、词性和词典组成的联合特征,利用 BiLSTM 和多头注意力分别提取句子的全局特征和局部特征,最后利用 CRF 结合所有特征完成实体标签的预测。在中文电子病历语料上的实验结果证明,该方法 F1 值达到了 89.16%,其中治疗和疾病两类实体分别达到了 94.76%和 95.56%,与 CRF、BiGRU-CRF 和 Lattice LSTM 等主流方法相比,能更有效地解决复杂医疗实体识别中的边界模糊和结构嵌套问题。
(3)针对目前浅层神经网络模型在中文电子病历关系抽取中效果较差和缺少关系标注语料的问题,本文提出了一种基于半监督学习的混合神经网络关系抽取方法。该方法首先使用残差网络结合 BiGRU 捕获语义特征和句子内部的长距离依赖信息,通过使用注意力机制进一步突出对关系分类有用的信息,将两个注意力的输出融合后进行分类预测。使用已经构建好的小规模关系语料库和 bootstrapping 半监督学习算法改进训练过程。实验结果表明,与浅层的基线 CNN 模型相比,该方法对于多种关系类型的识别准确率有明显提高,在整体关系类型上的 F1-score 达到 89.78%。
参考文献(略)