文本分类的图卷积神经网络算法

日期：2022年04月20日编辑：ad201107111759308692 作者：无忧论文网点击次数：969

论文价格：150元/篇论文编号：lw202112031119117297 论文字数：29525 所属栏目：软件工程硕士论文

论文地区：中国论文语种：中文论文用途：硕士毕业论文 Master Thesis

本文是一篇软件工程硕士论文，笔者认为文本数据的海量增长使得生活中迫切需求优质的文本分类算法，目前在自然语言处理领域的研究上，通过神经网络取得了很大的进展，相关的产品也给人们的日常生活带来了许多便捷，随着科技和人类生活品质的提高，这些技术将会在人们的生活中广泛应用。

第 1 章绪论

1.1 课题研究的背景与意义

由于计算机技术的发展和互联网时代的到来，信息以各种各样的形式存在着，自然语言作为信息的主要载体，数据量呈指数级上涨，各种各样的大数据被应用于各种各样的场景，由于数据量过于庞大，采用手工提取特征的来处理数据会花费大量的人力物力，因此通过计算机进行数据处理成为了必然趋势，人工智能作为一种计算机处理数据的方式也得到了广阔的发展及应用。自然语言处理是人工智能的子领域之一，它的目的是通过计算机对自然语言的形、音、义等数据信息进行处理，从而达到人类的某些需求，使用户可以提高工作效率。文本分类属于自然语言处理领域，分类能够有效地将同类的数据归纳在一起，从而进行下一步资源整合，而通过机器学习进行文本分类，能够有效的降低劳动力成本，提高效率。在现实生活中，文本数据大量存在人类日常生活中，如淘宝，新闻等大部分数据都是由文本数据构成的。基于文本分类技术诞生的应用也充斥着人类的生活，比如新闻分类，文本分析，垃圾邮件过滤，病历诊断等。由于文本自身的特点，一个词可能包含多个意思，语序的变化也会产生不同语义。随着人工智能不断发展，这些问题都在不断被优化，但目前并没有研究者将这些问题完全解决。通过研究这些问题，本文希望能够提出一种更加优质的算法，挖掘数据中隐含的信息，更加有效的进行文本分类任务[1]。

机器学习是一种高效的数据处理方式，以往的文本分类采用的是传统的机器学习模型，常用的有贝叶斯模型和支持向量机模型。贝叶斯模型通过概率分布计算文本的类别概率分布，算法比较简单，分类速度快，但对训练数据的依赖性很强，如果训练数据质量不高并且特征数量过多，贝叶斯模型的分类效果也将受到影响。支持向量机模型通过构建决策边界对样本进行分类，但支持向量机面对大规模的训练样本需要消耗大量的计算成本[2]，一般会通过特征选择方法来缩减样本的大小达到节省资源的目的[3]，但这并不能根本上解决问题。随着学者们的研究深入，传统机器学习的效率已经难以满足现在的需要，神经网络成为了大家关注的新热点。神经网络是从计算机的信息处理角度将人脑神经元抽象化，构建一个类似人脑运行的计算机模型，通过不同的构建方式组成不同的网络，实现算法的“智能化”。神经网络有着自学习和寻找优化解的速度快的特点，不需要针对样本构建复杂的算法，只需要将样本和标签输入人工神经网络，就能够慢慢学会识别样本，这对预测有着特别重要的意义。并且相比传统的机器学习，神经网络的预测能力要普遍高于传统机器学习[4]，所以神经网络在学习过程上有着传统机器学习算法无法比拟的优势。

1.2 国内外研究现状

在过去的几十年里，在广泛的实际应用中研究者们解决了许多文本分类所遇到的问题，特别是随着计算机性能的不断提升和自然语言处理技术的突破，文本分类针对不同的问题出现了许多分支，例如垃圾邮件识别，新闻分类，情感分析，这些都是在文本分类的基础上进行的工作，而这些工作能对我们的日常生活产生大量的便利，所以也受到了不少的关注和研究。

大多数文本分类或者文档分类算法可以被系统的分为两个步骤，第一步，将初始的文本数据进行清洗和处理，尽可能的减少数据中含有的噪声，为后续步骤提供有效的数据；第二步是将这些特征输入到分类器中进行预测，流行的分类算法包括贝叶斯模型，支持向量机模型，随机森林等。通常，文本和文档都是非结构化的数据，所以在使用机器学习模型进行文本分类任务前，需要将这些非结构化的数据转化为结构化的特征形式才能够进行后续操作。

首先需要把文本数据进行数据清洗，去除不必要的字符和满足特定条件的单词，在将数据处理完后，采用形式化的特征信息提取办法来提取数据的特征，在提取完数据的特征之后，将这些特征输入设定好的分类器中进行训练和测试，当模型训练效果达到最优时终止训练，将待预测的样本输入学习好的分类器进行分类预测。

随着计算机性能的提升，人工智能行业迎来了较大的发展，研究热点也从传统的机器学习逐渐转向深度学习方法，基于深度学习的方法也在各领域取得了良好的效果，随着预先训练词嵌入模型和神经网络的发展，文本分类领域中产生了许多不同的文本分类方法。最常用的文本分类模型是基于递归神经网络的，而递归神经网络中最常用的是双向递归神经网络（BiLSTM）[8]，模型通过关注输入语句的顺序和倒序信息，模仿人类的自然语言习惯来学习句子的特征。Dong 等人提出了一种树结构递归神经网络用于情感分类，通过句法树来判断句子的结构信息，挖掘重要的树“节点”，证明了递归神经网络能有效地捕获句子语义[7]。

第 2 章相关工作

2.1 文本数据的预处理

特征提取和预处理是文本分类应用的关键步骤。本节首先介绍清理数据“噪声”（一些对模型理解数据产生负面影响的特征）的方法，因为数据噪声会增加模型对数据的信息提取难度，所以对数据进行预处理是非常有必要的，然后介绍文本特征的表示方法。

2.1.1 文本标记标准化

首先是文本的标记化，如下图 2.1 所示，模型将文本解析为单词或短语等具有意义的元素，标记化方法可以把文本转化为统一的标准格式，从而方便进行后续的文本预处理步骤。

其中最常见的文本标记方法主要分为词粒度和字粒度和 subword 粒度，其中图 2.1 展示的为词粒度的文本标记方法，以单词为单位进行文本区分。词粒度的切分可以较为完好的保留完整的语义信息，但如果文本中出现拼写错误或者缩写的情况，则容易产生巨大的词表。字粒度则是将文本以更细微的方式划分，以字母为单位，将文本划分成字母集合，例如“it is good”会被划分成“i, t, I, s, g, o, o, d”。字粒度虽然解决了词粒度的部分缺陷，但是单个字母是不具有任何语义的，并且会提升模型输入的计算压力。

软件工程论文怎么写

2.2 自然语言处理中的特征处理方法

2.2.1 One-Hot 编码

图像数据的每个像素都是通过固定的元素组合而成，将每个像素点的特征以数值的形式输入就能够变成机器学习算法能够理解的特征。而文本数据并不像图像数据一般有着固定的格式，文本数据的单词并不能依照图像数据处理的过程，因为文本数据的特征是离散的，在机器学习的算法中，计算特征之间的距离或者相似度对于机器学习算法进行相关任务非常重要。而 One-Hot 编码便是将输入的变量转换成机器学习算法能够利用的一种形式的过程，One-Hot 编码能够将离散的特征扩展到欧式空间，这使得特征之间的计算更加合理，One-Hot 编码是通过使用 N 位状态寄存器来对 N 个状态进行编码，如下图所示，计算机将每个单词作为一个单独的特征，用 0 和 1 表示该特征是否存在，每一维都可以看作是连续的特征。

尽管 One-Hot 编码能够有效处理文本数据，当数据类别多的时候，过多的单词会造成特征空间维度过高的问题，这会导致模型的性能降低，甚至影响到模型的效率，所以为了防止空间维度过高而导致的负面影响，一般使用主成分分析方法（PCA）来进行高维数据的降维。

并且 One-hot 编码对特征只区分 0 和 1，一般一个单词不断出现在文章中的时候，大概率能判定这个单词是一个文章的关键词，因为出现次数的多少可以作为一个判定单词对文章主题重不重要的直接因素，所以当一个单词在样本出现多次时，可能这个单词对这个样本非常重要，但是 One-Hot 编码只记录一次，所以在 One-Hot 编码在中与其他单词的权重一致，所以很容易产生信息的丢失。

第 3 章基于深度图卷积神经网络模型的文本分类算法 ................................ 19

3.1 文本分析方法 ..................................... 19

3.1.1 TF-IDF 加权算法....................................... 19

3.1.2 TF-IWF 加权算法 ................................. 20

第 4 章基于 BERT 迁移学习的图注意力卷积神经网络模型文本分类算法 ......................... 30

4.1 文本特征提取模块 ....................................... 30

4.2 图注意力卷积神经网络 ...................................... 31

第 5 章总结与展望 ............................................. 41

5.1 总结 .......................................... 41

5.2 展望 ........................................... 41

第 4 章基于 BERT 迁移学习的图注意力卷积神经网络文本分类算法

4.1 文本特征提取模块

众所周知，数据特征的好坏决定了数据质量的好坏，优秀的特征可以更充分地表达数据的真实信息。本文第 3 章提出的算法为了提取更好的特征表示信息，近年被提出的Transformer 由于其独特的算法框架使得 Transfo