同时 BERT 采用了 Mask Language Model(MLM),它实际上是一种无监督的自我训练,它对自身部分节点进行遮掩(mask)操作,从而通过上下文来预测这个 Mask 应该是什么词,从而表示当前被遮掩的单词的词向量。这种方法能够有效地通过当前文档的信息训练出符合该被遮掩单词的当前的词向量的状态。
对于长文本,该算法使用滑动窗口的方式对长文本进行切片输入进 BERT 模型中,对切片进行融合,以获取长文本的语义信息。
为了使 BERT 能够更好的提取数据的语义特征,采用迁移学习的思想,通过使用其他类似的数据集对 BERT 进行预训练,让 BERT 能够从更多的信息中学习出重要的知识和规律,进一步地增强 BERT 对数据的表征能力。
第 5 章 总结与展望
5.1 总结
文本数据的海量增长使得生活中迫切需求优质的文本分类算法,目前在自然语言处理领域的研究上,通过神经网络取得了很大的进展,相关的产品也给人们的日常生活带来了许多便捷,随着科技和人类生活品质的提高,这些技术将会在人们的生活中广泛应用。
本文第 1 章从自然语言处理的研究意义出发,介绍了自动文本分类的意义和当前时代的研究背景,对国内外近年来文本分类技术的发展历程进行了概述,介绍了带有较大研究意义的文本分类技术。在第 2 章中,首先介绍了在文本分类领域中具有重要意义的相关知识,其中包括文本分类任务中的步骤流程,以及对文本分类技术中常用和具有创新意义的算法及技术进行了较为详细的介绍和分析,发现这些技术中尚存在的问题,并针对其中的部分问题,提出了新的解决方案。
在第 3 章中,针对现有技术存在的问题,提出了基于图卷积神经网络的文本分类算法。针对邻接矩阵的构造,提出使用基于 TF-IDF 算法的改进算法构造更优秀的邻接矩阵,并针对图卷积神经网络在加深层数的同时容易引起梯度消失的问题,引入残差网络思想作为改进办法。接着通过与其他模型的对比验证了第 3 章中提出的算法的有效性,对层数的深度对模型的影响进行了测试,证明了深层次的图卷积神经网络具有更加良好的效果。最后针对第 3 章提出的方法进行消融实验,证明提出方法的有效性。
在第 4 章中,使用 BERT 进行迁移学习,以达到学习到更加丰富的语义表示的目的,并且引入注意力机制,对数据的邻接矩阵中特定的信息进行关注,经过实验证明了所提出的方法在大部分数据集上能达到显著的效果,并且分别构建了只用了一个注意头的模型和由 8 个注意头组成的模型,进行比对发现由多注意头组成注意力层的模型在短文本上的分类效果与只有一个注意头的模型相差甚少,但在长文本类型的数据集上的分类效果要优于只有一个注意头的模型。
本文通过四个章节对当今文本分类领域的现状进行介绍,对应用于文本分类任务的模型进行了理论阐述和分析,针对发现的问题提出了现有模型的创新与改进,进行相关实验对想法进行证明和分析。
参考文献(略)