第6章总结与展望
6.1论文总结
本文围绕医学命名实体研究方向的三大问题展开研究工作,三大问题分别是:1、医学实体识别精度不高。2、命名实体识别模型结构复杂导致训练时间过长。3、医学文本种存在大量的嵌套实体,不利于识别。针对这三大问题,本文分别进行相应的研究,分别为:1、基于多级别特征融合的医学命名实体识别研究。2、基于GlobalPointer的医学命名实体识别研究。3、基于分层双向门控循环单元网络的医学命名实体研究。
在传统命名实体识别方法中大都采用一种技术对文本进行向量化,例如使用Word2vec技术或者使用BERT预训练模型对医学文本进行向量化表示,导致命名实体识别模型的识别精确度不高。针对词嵌入特征不充足的问题,本文提出了一种基于字符级别、词级别、BERT预训练模型的多级别特征融合方法,利用简单循环神经网络对医学文本进行字符级的训练,得到字符级词嵌入表示,然后通过使用GloVe技术进行词的语义特征提取,最后使用BERT预训练模型对医学文本的动态语义特征提取,将获取到的三种词向量进行cat操作,将融合的多级别特征的词嵌入表示输入到BiLSTM-CRF中进行训练。实验结果证明,从多个角度对词的特征进行充分提取,能够有效的解决的传统命名实体识别模型对词特征提取不充分的问题,有效提升了模型识别的精确率。
在基于神经网络的命名实体识别任务中,传统的命名实体识别方法,多数采用的长短时记忆网络,在长短时记忆神经网络中,存在内部神经元结构过于复杂的问题,就会导致模型训练时间过长等问题。以及使用条件随机场进行序列标注计算过于复杂的问题。为此,本文提出了一种基于门控循环网络与GlobalPointer命名实体识别方法。该方法中,门控循环单元神经网络相比较于长短时记忆神经网络内部优化了门控结构,因此门口循环网络同样可以实现对文本上下文特征的有效提取,保证了相同的训练效果的同时减少了计算的复杂度,同时GlobalPointer相比较于条件随机场模型更加具备全局观,也不必进行复杂的递归运算,因此缩短了模型的整体训练时间。通过实验表明,采用门控循环神经网络的命名实体识别方法在识别的精确度上比长短时神经网络略有提升。但在模型整体的训练时间上缩短较为明显。
参考文献(略)