工程硕士论文栏目提供最新工程硕士论文格式、工程硕士论文硕士论文范文。详情咨询QQ:1847080343(论文辅导)

融合多级别特征的医学命名实体识别探讨

日期:2023年10月03日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:284
论文价格:150元/篇 论文编号:lw202309270927281845 论文字数:29696 所属栏目:工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
sformed human B cell”都被认为是cell line类型的命名实体,前者嵌入后者。S2源自ACE语料库,显示了一个person类型的实体“Sheikh Sbbad”嵌套在提到了的location类型“the burial site of Sheikh Sbbad”的实体中。大多数现有的命名实体识别和实体体积检测方法都会遗漏每句话中的嵌套实体。同时不幸的是,嵌套实体在大部分中数据集中都相当普遍:GENIA语料库中17%的实体嵌入在另一个实体中;在ACE语料库中,30%的句子包含嵌套的命名实体,因此需要开发性能更好的模型来有效地处理这些语言现象。在处理嵌套命名实体识别的方法中,基于特征的方法是最常见的。Alex[53]等人提出了一个联合条件随机场的模型,但是该模型不能识别相同类型的嵌套命名实体。Finkel[54]和Manning提出将句子中的每个命名实体构建成一个成分分析器。他们的方法问题在于开销巨大,也就是说时间复杂度的是句子中单词数量的三次方。Lu[55]和Roth提出一种用于嵌套实体检测的线性时间复杂度的超图模型。Muis[56]和Lu为这项任务引入了一种基于提及分隔符的多重图表示。但该方法不能直接应用于扩展基于循环神经网络的模型。

工程硕士论文参考

第6章总结与展望

6.1论文总结

本文围绕医学命名实体研究方向的三大问题展开研究工作,三大问题分别是:1、医学实体识别精度不高。2、命名实体识别模型结构复杂导致训练时间过长。3、医学文本种存在大量的嵌套实体,不利于识别。针对这三大问题,本文分别进行相应的研究,分别为:1、基于多级别特征融合的医学命名实体识别研究。2、基于GlobalPointer的医学命名实体识别研究。3、基于分层双向门控循环单元网络的医学命名实体研究。

在传统命名实体识别方法中大都采用一种技术对文本进行向量化,例如使用Word2vec技术或者使用BERT预训练模型对医学文本进行向量化表示,导致命名实体识别模型的识别精确度不高。针对词嵌入特征不充足的问题,本文提出了一种基于字符级别、词级别、BERT预训练模型的多级别特征融合方法,利用简单循环神经网络对医学文本进行字符级的训练,得到字符级词嵌入表示,然后通过使用GloVe技术进行词的语义特征提取,最后使用BERT预训练模型对医学文本的动态语义特征提取,将获取到的三种词向量进行cat操作,将融合的多级别特征的词嵌入表示输入到BiLSTM-CRF中进行训练。实验结果证明,从多个角度对词的特征进行充分提取,能够有效的解决的传统命名实体识别模型对词特征提取不充分的问题,有效提升了模型识别的精确率。

在基于神经网络的命名实体识别任务中,传统的命名实体识别方法,多数采用的长短时记忆网络,在长短时记忆神经网络中,存在内部神经元结构过于复杂的问题,就会导致模型训练时间过长等问题。以及使用条件随机场进行序列标注计算过于复杂的问题。为此,本文提出了一种基于门控循环网络与GlobalPointer命名实体识别方法。该方法中,门控循环单元神经网络相比较于长短时记忆神经网络内部优化了门控结构,因此门口循环网络同样可以实现对文本上下文特征的有效提取,保证了相同的训练效果的同时减少了计算的复杂度,同时GlobalPointer相比较于条件随机场模型更加具备全局观,也不必进行复杂的递归运算,因此缩短了模型的整体训练时间。通过实验表明,采用门控循环神经网络的命名实体识别方法在识别的精确度上比长短时神经网络略有提升。但在模型整体的训练时间上缩短较为明显。

参考文献(略)