本文是一篇软件工程硕士论文,本文通过相关研究现状发现传统的文本情感分类方法过分依赖情感词典的构建和繁重的特征清洗工程,消耗了大量的人力并且可维护性很低,而基于统计机器学习的方法对其特征学习能力较差,无法准确地识别出一些文本中隐含的情感特征信息。如何准确、有效地挖掘出文本的内部情感以及提升目前现状阶段情感分类的性能是可以让计算机更加理解人类的情感和推动 NLP 领域向前进一步发展的重要一环。
第一章 绪论
1.1研究背景与意义
随着 2001 年互联网泡沫的破灭,一个全新的、面向未来的新时代来临了。互联网开放、共享等特性使得我们不再只是互联网上的一名冲浪者,同时也成为了波浪的制造者。当移动互联网、智能设备普及率呈现爆发式增长的同时,人们的生活方式随之发生了天翻地覆的变化。电商平台创造了一种全新的购物模式,线上教育平台弥补了乡村教育的巨大短板,网络直播平台为人们提供展现自我的舞台,政务服务平台带来了高效便捷的办事体验。
根据中国互联网络信息中心(China InternetNetworkInformationCenter,CNNIC)2019 年第 44 次《中国互联网络发展状况统计报告》显示,截至 2019 年 6 月,我国整体网民人数达8.54 亿,普及率达到 61.2%,而我国手机网民的规模高达 8.47 亿,通过手机上网占比 99.1%。无线网络以及移动互联网的迅速发展,移动端设备已经成为人们进行网上冲浪的主流方式,共同推动着各行各业走向了多元化的道路。
电商平台、社交平台、新媒体新闻平台等专业化生产和运营的应用服务拥有着绝对数量的用户群体。我国的网络购物用户数量将近 6.4 亿,而下沉市场、跨境电商、模式创新又为网络市场新添了增长的动能。当用户面对大量良莠不齐的内容和产品时,网络环境中的评论、看法、观点则起到了相当重要的引导作用。
这些海量的价值数据常见于以下模块:
1、热门新闻事件下的舆论
大多数热门新闻事件具有强烈的话题性,能吸引群众甚至是政府机关单位的高度关注。这类数据通过情感分类可以迅速地分析其情感的倾向性以及社会热门事件的舆情事态,相关单位可及时引导或纠正舆论导向,提供社会舆论监督工作的有力保障。
2、商品评论
商品评论主要分为实体商品评论与虚拟消费级商品评论。实体商品评论主要集中于国内拥有着海量客户群体的电商产品,天猫、京东、苏宁的众多热销商品拥有数以万计的网购用户评论,大部分用户无法将数万条评论数据阅读完整后再做出判断,利用机器将这些真实评论数据进行分析、挖掘,从而提供给用户具有建设性的参考意见来引导推荐便显得很有价值。
....................
1.2国内外研究现状
文本情感分析又称意见挖掘、倾向性分析,其任务是帮助用户快速获取、整理和分析相关评价信息,对带有情感色彩的主观性文本进行分析、处理、归纳和推理。该领域的发展和快速起步得益于网络上的社交媒体。自 21 世纪初以来,情感分析已经成为 NLP 领域中最热门的研究领域之一,同时也在数据挖掘、WEB 挖掘、文本挖掘和信息检索方面有着广泛的研究。事实上,它已经从计算机科学蔓延到管理科学和社会科学,如市场营销,金融,政治学,通讯,医疗科学,甚至是历史,因其重要的商业价值引发整个社会的共同关注。
情感分析中包含了较多的任务,比如情感分类、观点抽取等等。随着互联网技术的迅速发展和普及,对网络内容管理、监控和垃圾信息过滤的需求越来越大,网络信息的主观倾向性分类受到越来越多的关注。这种分类与传统的文本分类不同,传统的文本分类所关注的是文本的客观内容,而倾向性分类所研究的对象是文本的“主观因素”,即作者所表达出来的主观倾向性,分类的结果是对于一个特定的文本要得到它是否支持某种观点的信息。这种独特的文本分类任务又称为情感分类。纵观目前主观性文本情感倾向性分析的研究工作,主要的研究思路分为以下三类:
1、基于语义情感极性词典的文本情感分类方法2、基于传统统计机器学习的文本情感分类方法3、基于更深层次深度学习的文本情感分类方法
本文将针对以上三种均具有广泛性应用的文本情感分类方法的研究现状逐一进行简单综述。
...........................
第二章 相关背景知识介绍
2.1文本表示模型
文本是由字符、标点符号进行合理组合而生成的可被人类理解的一种非结构化数据。而计算机仅能处理二进制模式的数据,对于这类特殊的抽象字符无法直接进行处理,所以首要的工作便是如何将这类抽象字符转换成可被计算机处理的数值模式结构化数据。文本的向量化则是后续研究工作得以解决该问题的关键思想。目前文本主流的向量化表示方法分为基于空间向量表示[79]的词袋模型以及基于分布式表示的词嵌入模型。
2.1.1 词袋模型
最初的 One-Hot 编码是如今词袋模型的前身,将每一个词表示为一维向量,其中向量的维度是文本所有词构成词集的数量,每个词都独立地将某一个向量位置置为 1 其余位置置为0,该方法直接通俗易懂且简单易于实现。
词袋模型是对 One-Hot 编码的进一步优化,是一种先将文本中出现的词进行频率统计,再使文本词集数量表示维度的文本向量对应词位置通过词频数值来表示的方法。当然这种仅仅通过统计词频的方式确实一定程度上解决了 One-Hot 编码严重稀疏的问题,但仍然没有包含文本中任何的语法、语义信息,也直接丢失了词之间的顺序信息。而随着神经网络逐渐登上舞台,基于分布式表示的词向量模型瞬间成功占据了文本表示方法的主导地位。
..........................
2.2文本机器学习模型
文本情感分类就是将文本蕴含的情感倾向归类到所预设的类别中,目前主要分为监督学习文本情感分类、半监督学习文本情感分类以及无监督学习文本情感分类。本文所涉及的文本情感分类主要是监督式学习的方式,其中针对朴素贝叶斯、支持向量机和决策树模型展开简要介绍和分析。
2.2.1决策树模型
决策树是一种基于实例的归纳学习并且将输入空间分成不同的区域,每个区域有独立参数的算法模型。该模型利用树形结构进行分类决策,树中每个非叶子结点记录了使用某个特征来进行类别的判断即 if-else 规则,而每个叶子结点则代表了最后判断的类别,其中针对特征选择划分结点的原则便是使得当前结点的分支节点类别纯度尽可能最大化。DT 模型与其他分类算法模型相较而言比较简单易懂,训练数据集只需要满足能够使用特征向量和类别进行表示的条件即可直接构造 DT 模型,算法复杂度仅与树型结构的层数有关,因此预测处理效率很高。
由于可以根据不同的准则来进行特征划分结点,于是衍生出了几类常见的DT分类模型,具体区别对比如表 2.1 所示。
..................................
第三章 基于DBGRU-MFCNN 的文本情感分类研究.............................25
3.1 深度双向门控循环单元..............................25
3.2 多特征卷积神经网络...............................27
第四章 基于VAE-ECGAN的文本情感分类研究.................................... 46
4.1 基于VAE-ECGAN 的文本情感分类...................... 46
4.1.1 编码器.................................. 47
4.1.2 解码生成器................................. 47
第五章 总结与展望................... 61
5.1 工作总结..............................61
5.2 未来展望.................................62
第四章 基于 VAE-ECGAN 的文本情感分类研究
4.1基于 VAE-ECGAN 的文本情感分类
本章将介绍基于 VAE-GAN,并结合了 BiLSTM、DBGRU、注意力机制、集成学习以及策略梯度优化来进行情感文本的生成,具体网络如图 4.1 所示。
模型在整体结构上采用了 VAE 和 ACGAN 相结合的方式,但在辅助分类器部分本文使用了集成学习的模式对其进行了改进。由于真实的文本情感特征信息不会特别明显,当特征信息与标签存在较弱的对应关系时,模型对其建模和特征挖掘会存在一定的难度,导致情感分类效果出现瓶颈现象。而 VAE-ACGAN 因其是由模型自身在充分学习带有情感信息的文本特征后,通过指定情感类别的方式进行文本生成,模型会为了满足其需要携带的情感特征,在文本生成过程中有主观选择性地将情感信息特征较为明显的词优先加入至文本中。因此将输入至 D 中的生成文本和真实文本同时输入至集成学习的基分类器进行训练学习,当训练数据集中同时包含了人工标注情感数据集和机器标注情感数据集时,再结合 Stacking 算法对混合训练数据集进行建模学习,可以使情感分类效果进一步提升的同时,又能够让 G 生成情感类别更加准确的文本。首先将原始数据同第三章进行预处理工作,将处理好的训练数据使用BERT 和 Word2Vec 两种预训练模型进行文本特征向量表示,然后将文本输入至 VAE 模块进行训练,其中 VAE 编码器和解码器均采用 BiLSTM 进行潜在向量提取和序列输出,并结合了注意力机制。随后将两种生成的文本特征向量输入到基于Stacking 算法并且包含了 NB模型、DT 模型、SVM 模型以及 DBGRU-MFCNN 的集成模型中进行判别,其中 DBGRU-MFCNN 还需要对文本的真伪性进行判定,通过策略