Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\GmuZN7XT7RdLDIj2865bffN9mXiymLToig2Tinew in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\LGLEJs6N5h62SY2X52HOGlUrKgYtQ7MKm4wxBbXV in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\M7EJix7RSl5egwCveie3pXg5RxFln94AGdW42BQy in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\NnQlHN0xaWMvkn4KuOITqM1j3t2FQFQRxyGKFMYU in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\Qm5B7FxrEXga8SnGNWEmBlKpGG6dwbk5QooAQvlU in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\aiU0GlWwxYwGwfIsM3fQl5v0X2pZslJGpuU7H3eZ in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\j6BBYx3k39wpHUBbAPJdKc14TOnBfPi40YXPYxSK in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\mkg8xrNrfLSnHFhXayJuaxQTY6kfk1Au8rAGf3uB in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\qwWmk3oeDuWFmG3etE3LRECQSzxuqpbcFbtfk5kq in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\rQHqe7Ct1f6PUfmrGQpY4AYhVqz0cvDaStub4PM5 in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\wx8Y8cTh2ZoPSfU1jDtvXbFkeSBybHXFUwHkzBEV in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64

Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\yq6VDmNWf2i0oDrCan6u78KAqCq0TrWS5dKad4Xc in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64
基于多层注意力机制的服装评价文本情感分析探讨 - 计算机软件 - 无忧论文网
Warning: Cannot modify header information - headers already sent by (output started at E:\wwwroot\51lunwenwang\Core\View\Pages\common\header.view.php:31) in E:\wwwroot\51lunwenwang\Core\View\Pages\common\header.view.php on line 37

计算机软件论文栏目提供最新计算机软件论文格式、计算机软件硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于多层注意力机制的服装评价文本情感分析探讨

日期:2021年08月14日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:588
论文价格:150元/篇 论文编号:lw202108061626554831 论文字数:36533 所属栏目:计算机软件论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
相关标签:计算机软件论文

本文是一篇计算机软件论文,本文通过对服装电商文本的情感分析任务的分析研究,分别从服装电商评论文本数据集的采集、基于注意力机制的服装电商评论文本情感分析,融合多层次注意力机制的情感评论分析三方面研究。主要完成了以下几点工作:(1)本文首先针对学术界没有公开,关于服装电商评论文本的数据集。因此本文在第三种提出了一种基于 Python 的分布式爬虫系统。可以高效从各类电商网站采集本文需要的服装评价文本。在面对各类电商网站存在的反爬虫机制,可以通过通过伪造 User-Agent、代理 IP 池、分布式多线程采集等相关技术。有效解决了反爬虫等相关困扰。并将通过分布式爬虫采集到的数据集,永久化存储到本地数据库 MySQL 中。为后续的算法验证提供了良好的数据集支持。


1 绪论


1.1 研究背景与意义

随着信息时代的发展,网络信息的传播方式也有曾经的单向传播发展为现在的动态交互传播。论坛、微博、微信、QQ、电商购物平台雨后春笋的出现,互联网深入人们生活的点点滴滴。人们也逐渐习惯在互联网众多平台发表自己的主观意见,用来表达自己对关注事件和购买商品的观点和看法。伴随着时间的向前发展,网络上海量用户产生了蕴含情感信息的文本数据,这些海量数据富含的情感价值具有很大的价值。针对微博、微信等社交平台的网络评论,可以快速了解到人们群众关心的热点话题,和对当前政策的舆论倾向。通过对天猫、京东等购物平台的评价文本,可以得出买家发表的好评、中评、差评等信息。通过分析得出相关结论,可以给卖家提供相应的策略,对商品市场做出相应的调整。因此,通过对文本的情感分析具有很重要的价值和意义。

本文研究的重点是服装评价文本的情感倾向,提高服装文本情感分析的准确率。传统的文本情感分析技术有两种,第一,基于知识库的方法主要是利用情感词典来完成文本情感分类。此方法存在一定的缺陷,人工构建词典会消耗大量时间,词典质量也会影响准确率;第二,统计机器学习方法,首先通过清洗和处理并打上标签的文本情感语料,然后训练机器学习算法分类模型。但众多机器学习算法属于比较浅层次的学习方法,很难提取到文本较深的情感特征,在面对数量巨大,特征丰富的文本情感数据集的时候,往往很难取得很高的准确率。

深度学习的广泛运用,给自然语言处理带来了新的思路。而本文也将研究的重点放在深度学习算法模型的改进上面,提高算法模型在服装评价情感分析方面的准确率。

.........................


1.2 国内外研究现状

情感分析(Sentiment Analysis)[1],通过分析图像、视频、音频中蕴含的情感倾向,其主要目的是为了研究数据挖掘和分析数据中的立场、观点、态度等情感倾向问题。而图像、视频、音频这些数据较为复杂,在情感分析中存在着大量的噪声,处理起来相对比较困难,且情感特征较为单一,难以提取到真正有用的情感特征,而影响了最终的情感分析结果。而评论文本与其不同,海量的评论文本蕴含着丰富的情感特征,文本在数据处理方面也比其他数据方便,可以较好地提取到文本情感特征。

随着微博、微信等社交平台的兴起,天猫、京东等购物网站也逐渐丰富人们的生活,人们在互联网信息时代的交流会产生更丰富的价值的文本信息。而文本方情感分析[2]通常分为,正面(positive)、负面(negative)或中立(neutral)的倾向态度。目前情感分析问题,国内外众多研究学者提出了一些研究方法,如下图 1.1 所示:

图1.1文本情感分类方法概括

图1.1文本情感分类方法概括 .......................


2 相关概念与技术原理

2.1 文本情感分类任务

2.1.1 概述

文本情感分类旨在从对应的文本中,通过挖掘分析得到人们的认可态度,完成情分析,是自然语言处理的重要研究方向之一。随着互联网的发展,电商和社交平台的丰富,越来越多的人们参与到信息传播过程中来,从单一的信息传播发展为交互式的信息沟通。在此过程中,人们习惯对于身边的事物、产品出现了一定的评价。尤其在电商购物平台中,人们充当着购买者的角色,购买之前会浏览分析前者的评论,作为自己是否购买的依据之一,随后也会发表自己的观点和评价信息,用来表现自己对此商品的满意程度。因此本文研究的服装电商评论文本情感分析,对于身边人民有一定的价值意义。

本文所研究的是服装评价文本中的情感倾向,文本情感分析作为自然语言处理常见的任务之一,常见的有电影评论的二分类,通过分析电影影评存在的情感倾向,来判断这电影是好或者是差,来作为影评推荐。也存在一定的文本三分类任务,微博上某些公共话题的评论,通过分析得到人们对于此公共事件,究竟是积极、消极还是中性的关注态度。

2.1.2 文本情感分类基本过程

文本情感分类流程如下图 2.1 所示:

图2.1文本情感分类基本流程图

图2.1文本情感分类基本流程图

.........................


2.2 文本情感词向量

2.2.1 文本预处理

我们通过爬虫采集到的服装电商评论文本,一般都属于最初层次的评论文本,存在一定的噪声需要预先处理。因为算法模型最终的效果优劣,评价指标的效果,训练数据的质量有至关重要的作用,因此文本预处理是不可或缺的重要一环。接下来将详细介绍文本预处理的详细步骤和方法。

(1)数据清洗

数据清洗是开始自然语言处理的第一步工作,是对文本进行清洗去除掉无用字段及符号、表情等噪音。首先要去除掉服装电商评论文本之间存在的无用噪音,以服装电商评论文本为例,人们在评论过程中,往往存在一些特殊符号@、###、****、还有特殊的评论表情,偶尔也会夹杂一些无用的链接。这些特殊符号与文本内容没有太大的关系,属于特殊的噪声,去除掉这些无用的噪声对文本表达没有任何影响。第一,针对这些无用的字段或者特殊符号,我们采用直接删除的方式去除噪声;第二,而针对一些具有情感的表情特征,我们会将这些表情替换成同义词,用来展现出评论文本的情感特征;第三,而存在出现等繁体字符,英文字符,我们都将其翻译为可以示意的中文词语。通过数据清洗,将采集到的原始数据集处理为本文算法模型可以运用的数据集。

(2)中文分词

中文分词,因为很难有关于词的具体分界,缺乏令大众满意的词表。主要存在的难点是因为汉语语言结构和印欧体系语言结构相差巨大,难以分界词语之间的界限。比如在英文中,“单词”可以表达简单的意思,若干个单词组成了文章。而在汉语中,词通常以字为单位,但语义的表达仍然需要通过词语的划分来理解。以经典例句来说“买了票的和尚未购票的”,容易出现“买了票、的、和、尚未、购票、的”和“买了票、的、和尚、未、购票、的”这两种情况,存在一定的歧义,由此中文分词技术在自然语言处理中尤为重要。

..............................


3 基于分布式的服装电商评论数据采集系统.............................21

3.1 爬虫介绍..................................21

3.2 爬虫框架 Scrapy................................22

4 基于自注意力机制的服装文本情感分析..................................32

4.1 注意力机制.......................................32

4.1.1Encoder-Decoder 框架...........................................33

4.1.2 融入注意力机制 Encoder-Decoder 框架..................33

5 基于多层注意力机制的服装文本情感分析...............................46

5.1 模型结构.......................................46

5.1.1 GRU 模型结构.....................................46

5.1.2 融合多层注意力机制的 GRU 整体模型....................................47


5 基于多层注意力机制的服装文本情感分析


5.1 模型结构

5.1.1 GRU 模型结构

GRU 是 LSTM 的改进,减少了单元状态,用更新门代替了输入门和遗忘门,加入了重置门,结构如下所示:

图5.1 GRU结构图

图5.1 GRU结构图

GRU 只是一种单向的传播算法,很难考虑到双向的情况。而服装评价文本具有一定的口语化,序列化。因此本文采用了双向序列的门控神经网络 BIGRU,并对不同层次的序列进行情感特征提取。

通过爬虫采集到的服装电商评论文本,一般都属于最初层次的评论文本,存在一定的噪声需要预先处理。因为算法模型最终的效果优劣,评价指标的效果,训练数据的质量有至关重要的作用,因此文本预处理是不可获取的重要一环。而作为文本预处理最重要的一环,本算法模型采用的是公开的 jieba 分词。通过分词后,然后去除掉文本特征中多余的空格、一些特殊字符、一些表情符号和 URL 等与评论文本不相干的噪声。

............................


6 总结与展望


6.1 总结

本文通过对服装电商文本的情感分析任务的分析研究,分别从服装电商评论文本数据集的采集、基于注意力机制的服装电商评论文本情感分析,融合多层次注意力机制的情感评论分析三方面研究。主要完成了以下几点工作:

(1)本文首先针对学术界没有公开,关于服装电商评论文本的数据集。因此本文在第三种提出了一种基于 Python 的分布式爬虫系统。可以高效从各类电商网站采集本文需要的服装评价文本。在面对各类电商网站存在的反爬虫机制,可以通过通过伪造 User-Agent、代理 IP 池、分布