计算机网络论文栏目提供最新计算机网络论文格式、计算机网络硕士论文范文。详情咨询QQ:1847080343(论文辅导)

面向网络商务系统评论的情感分析

日期:2018年02月06日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:1502
论文价格:150元/篇 论文编号:lw201706091536195611 论文字数:33245 所属栏目:计算机网络论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

1 绪论


1.1 课题研究背景与意义

随着互联网时代的来临,越来越多的人通过网络进行各种各样的商品交易活动。于是,电子商务应运而生。电子商务以卖家、消费者、商品、物流为要素,迅速的占领了国内交易市场。在“双十一”活动中,商品交易额一度破亿。如此空前的网上交易活动,留下了珍贵的文本信息,即用户评论。用户评论是用户完成交易之后发表的自己对于商品的看法,包含了大量的用户对于商品的主观而直接的感受。通过这些评论内容,可以看出用户的喜好以及商品的优缺点。这对研究商品交易活动至关重要。如何让这些评论对以后交易活动产生作用也是本文研究的主要内容。

...............


1.2 国内外研究现状

数据挖掘作为一个热门领域,主要是通过分析大量的无规律的或者有规律的数据来揭示一些更加有意义的新的数据之间的关系、对人们有用的趋势和模式的过程[10]。文本情感分析作为数据挖掘的一个重要的研究方向,在国外已经发展较为成熟,有了较好的基础和资源,然而因为中文和英文语言结构的不同,中文情感分析无法直接移植英文的研究成果,成为一个值得具体研究的领域。随着互联网上各类社交软件的飞速发展,数以亿万计的用户在网上分享心情与观点。越来越多的学者将目光转移到了文本情感分析的研究上。文本情感分析是指对作者发表的关于某个事物或者事件的观点、对某个事物或者事件的喜好、对某个事物或者事件所表达出的情感的这些文本进行提取、分析并且挖掘其中的内容的过程[11],可分为对文本中情感信息的提取、对文本中的情感信息进行分类以及对中文中的情感信息进行搜索与概括三项主要任务[12],涉及到自然语言处理的知识、操作数据库的知识、对有用的信息进行检索的知识、数据挖掘的知识、人工智能等多个领域[13]。根据分类研究的倾向性的不同又可分为主观和客观的分类,褒义和贬义的分类和多个情感倾向的分类;根据分类的领域不同可分为对产品的评论、读新闻中的评论和对影评的分类[14]。

...............


2 相关技术与理论背景


2.1 数据挖掘

由于大量的有用的或者无用的数据的快速增长,数据挖掘因此诞生了。数据挖掘(Data Mining),又称知识发现,指的是通过对大量的数据进行详细研究和分析来获得以前不知道的隐含在这些数据中的并且非常有意义的信息的过程[36]。数据挖掘是在 80 年代后期诞生的,是目前计算机领域中一个非常有应用前景的学科,受到大多数研究者的热捧,它融合了数学等很多个热门学科的重要技术和理论。

...............


2.2 文本挖掘

在自然语言处理和数据挖掘技术发展到一定程度时,文本挖掘应运而生。文本挖掘这一概念最早由 Feldman 在 1995 年提出[40]。由于电子设备的普及,人们更喜欢在微博上分享自己对于一件事情或者一个事物的感受,在论坛上发表自己的文章,在购买商品后发表自己对于商品的使用体验。这种可以快捷的发表自己观点、爱好的渠道使得电子形式的文本信息快速的增长,进而使得文本挖掘技术成为信息领域的研究热点。Choon Yang Ouek 认为文本挖掘是通过分析大量的文本数据来发现隐藏在这些数据中的人们不知道的模式。如果将输入定义为文本集合 C,将输出定义为发现的模式 p,那么文本挖掘的过程就是这样的一个关系  : Cp[41]。文本挖掘的主要目的就是从海量文本数据中发现并产生新的最终可理解且可用的知识。

...............


3 基于语义规则的服装电商评论情感分析...............19

3.1 服装电商评论数据采集...............19

3.2 文本预处理...............20

4 情感分析结果与销量之间的关...............38

4.1 通过分类算法确定最佳评论页数................39

4.2 不同评论页数参数对比................40

5 应用..................43

5.1 开发环境及实验平台..................43

5.2 基于语义规则的情感分析.................43



5 应用


5.1 开发环境及实验平台

本文开发环境使用 Python 语言,使用 PyCharm 作为开发工具。Python 语言开发快,语言简洁,操作数据库方便受到很多编程爱好者的支持与关注。同时,Python 下有庞大丰富的库,可以直接用来进行各种各样的工作。更重要的是这里面大量的库都是开源的,可以更加直观的让人们理解代码的原理,而不仅仅是直接调用相关的接口或者函数。本文实验代码中使用 Python 下大量的包,其中使用的编写网络爬虫向远程服务器请求的包为 requests,通过正则表达式解析爬取到的内容的包为re以及解析爬取到的 json 格式然后转换成正常文本的包为json;使用的对 MySQL 数据库中的数据进行增删改查的包为 MySQLdb;使用的解析XML 文本然后进行相应的处理和操作的包为 cElementTree;使用的读入 csv 数据作为输入,以及将 csv 格式的数据写回的包为 csv;使用的数据分析的包主要有 Pandas,本文主要用他来操作数据;使用的 Python 下机器学习的包主要有scikit-learn、Pybrain;使用的画图工具包为 matplotlib。

..................


5.2 基于语义规则的情感分析

本文使用的数据为近一个月的评论和数据。因为淘宝页面上最多显示 99 页评论,每页 20 条评论,所以需要隔一段时间爬取一下数据最后根据时间整合。对于销量,淘宝页面上只能看到月销量数据,但是月销量数据随着商品的卖出或者退回自动随时变更,所以截取每天的月销量数据,两天之间的月销量相减即为当天的销量。本文爬取两个不同的商品,一个评分销量较好,评分比较稳定一直维持在 4.8 分及 4.9 分左右,爬取该商品评论共 3785 条。一个评分和销量一般,评分在 4.7 分左右,爬取该商品评论共 256 条。页面中获取到的评论内容是以 json格式存储的,所以需要用 json.load 进行解析。解析完成后将文本内容和日期保存到 mysql 数据库中。


..................


总结

中国是个纺织服装电商大国,至 2015 年末,重点纺织服装品牌企业开展电子商务的比例超过 80%,纺织服装电子商务交易额占全国电商交易额的17.79%[52]。针对服装电商评论的情感分析是一个值得研究的课题。本文提出了一种基于语义规则的电商评论情感分析流程并通过该流程计算情感倾向强度值将其应用到具体实践中,进一步研究评论的情感倾向强度与商品销量之间的关系。本文的工作具体总结如下:(1) 提出了一种基于语义规则的情感分析流程,通过哈工大 LTP 将评论转化为 XML 文本内容,使用词典修正标记 XML 文本,根据该 XML 文本的结构利用提出的语义计算规则计算情感倾向强度值;(2) 提出了一种根据通用情感词典建立服装领域情感词典的方法,这个词典也可以被其他人使用来研究服装领域关于评论的情感分析;(3) 通过对评论中大量的句子进行分析,总结并建立了中文评论句子结构规则,提出了一种量化情感倾向强度的计算方法。

参考文献(略)