本文是一篇计算机软件论文,本文主要致力于研究电子商务平台中检测低度恶意用户的问题,提出了识别水军的一般框架FILS,在本框架中使用三种方法预测用户缺失评分以缓解数据稀疏对水军检测准确率的影响。
第一章绪论
1.1研究背景及意义
随着电子商务的发展,越来越多的商家选择在电子商务平台上开店铺售卖产品以及提供服务,这不仅为消费者提供了丰富的商品种类、更为便捷的购物方式,同时也为商家带来了更大的利润[1][2][3][4][5]。但是,随着电子商务的发展以及电商平台相关检测技术的不完善,遭受水军攻击不可避免[6][7]。水军攻击主要表现为商家雇佣大量水军通过虚假评论、恶意评分等行为提高自家产品在平台上的竞争力,抑或是恶性打压竞争对手,这将严重影响消费者的购物体验和其他商家的利益。因此,如何准确地检测和识别在线水军,具有非常重要的现实意义[8][9][10]。
电子商务平台中的欺诈行为也不断演化和变化。例如,水军欺诈者会利用虚假账号、虚假评价等方式,在平台上进行虚假评论等不当行为,从而获得非法利益。除此之外,还有一些欺诈行为如恶意评价、评论刷单等,这些行为也极大地影响了消费者的购物体验和平台商家的信誉[11]。
水军欺诈在电子商务平台上的出现,早在几年前就引起了人们的关注。水军欺诈行为的多样化和不断升级,使得传统的欺诈检测方法已经无法胜任[12]。目前,欺诈检测技术中的主要方法是基于机器学习和数据挖掘算法,以及人工智能和图神经网络技术,对水军欺诈行为进行检测和识别。通过大量数据的分析和模型的训练,可以有效地提高欺诈检测的准确率和鲁棒性。
1.2国内外研究现状
1.2.1基于评分预测的研究
评分预测问题按照由简易到复杂,大致可以分为如下几类模型,如图1.1所示:
(1)平均值法
在评分预测中,平均值模型是一种简单的模型,它通过计算所有已知评分的平均值来预测缺失评分。主要有三种常用的评分值模型:用户评分值模型、物品评分值模型以及全局评分值模型。
(1)用户评分平均值模型
用户评分平均值模型是一种评分预测模型,它基于用户历史评分数据来预测用户对未评分物品的评分。该模型的基本思想是,每个用户有一个隐含的评分偏差值,该值可以根据该用户历史的评分均值来计算,然后通过加上该值来预测该用户对某个物品的评分。
第二章论文相关理论知识
2.1网络水军及其危害
网络水军指的是在网络上利用虚假账号、虚假交易、虚假评价等手段,伪造出一种不真实的网络环境,这种行为扰乱了市场秩序,影响了网站的信誉,造成了不小的经济损失。
网络水军在电子商务平台(如Amazon,JD,TAOBAO)、社交媒体平台(如Twitter,Facebook,新浪)、论坛(如百度贴吧)等各种网络平台上都有可能存在。在电子商务平台上,网络水军往往利用虚假评价、刷单、刷流量等手段,为商家创造虚假的交易记录和评价,欺骗消费者和平台,获取商业利益。在社交媒体平台上,网络水军通过虚假关注、虚假转发等手段,制造热门话题以及引导舆论走向,对公众舆论产生不利影响。在论坛等平台上,网络水军也会通过发帖、回帖等手段扰乱平台秩序,引导话题等,网络水军的存在给电子商务平台带来了极大的危害。
网络上盛行的恶意水军给电商平台带来严重的问题。首先,他们干扰了电商平台的正常秩序,给网站管理带来了很大的压力。其次,网络水军的行为会破坏电子商务平台的商业生态,导致商家之间的不公平竞争,降低整个行业的声誉和竞争力。最后,网络水军的行为会对消费者的利益造成极大的损害,消费者可能会因为虚假交易、虚假评价等行为而受到损失。
为了应对网络水军的威胁,各种网络平台都采取了不同的技术手段和管理手段。首先,通过监控用户的网络行为,可以快速发现网络水军的行为,对其进行处罚和封禁。其次,通过优化网站的安全机制,提高用户身份验证和防刷机制的准确性和稳定性,可以有效遏制网络水军的行为。此外,还可以利用人工智能、机器学习等技术手段来识别和过滤水军账号,对网络水军的行为进行数据分析和挖掘,提高网络水军检测的准确性和效率,防止其在平台上发布不良内容或进行欺诈行为。然而,尽管针对网络水军的打击手段不断升级,但网络水军的存在依然是一大问题。
2.2网络基本概念
一个网络由节点和连接这些节点的链路组成,这些节点和它们之间的连接代表着对象及其相互关系[46][47]。一个网络G(V,E)可以被视为一个集合,其中V表示一个包含顶点的元素集合,E通常是一组称为边的成对顶点集合。一个网络通常可以分为两种类型:(i)有向网络:有向图中的边都有方向;(ii)无向网络:图中的每条边都没有方向。
(1)评分网络
在电子商务平台中,评分网络也被称为评级网络或评价网络,是由消费者对商品或服务进行打分或评论所构成的网络。它是电商平台中评价体系的一部分,主要用于展示商品或服务的评价等级。
评分网络通常包含用户对商品或服务的平均评分或评价等级,以及每个评价者的评价或评论内容。在电商平台中,用户可以对购买过的商品或服务进行评分或评价,并将这些评分或评价公开展示在商品或服务的详情页面上,以供其他用户参考。这些评分或评价通常包含用户对商品或服务的描述、使用体验等信息,对于其他用户进行购物决策具有非常重要的参考作用。
评分网络对于电商平台具有非常重要的作用,它可以帮助消费者更好地了解商品或服务的质量和口碑,提高用户购物决策的准确性和信心。对于商家来说,评分网络也是一种促销和营销的手段,好的评价和评分可以帮助商家提升产品和服务的信誉度,增加销量和收入。
评分网络通常包含用户对商品或服务的平均评分或评价等级,以及每个评价者的评价或评论内容。在电商平台中,用户可以对购买过的商品或服务进行评分或评价,并将这些评分或评价公开展示在商品或服务的详情页面上,以供其他用户参考。这些评分或评价通常包含用户对商品或服务的描述、使用体验等信息,对于其他用户进行购物决策具有非常重要的参考作用。评分网络对于电商平台具有非常重要的作用,它可以帮助消费者更好地了解商品或服务的质量和口碑,提高用户购物决策的准确性和信心。对于商家来说,评分网络也是一种促销和营销的手段,好的评价和评分可以帮助商家提升产品和服务的信誉度,增加销量和收入。
第三章 基于用户相似性填充缺失评分改善水军检测 ........................ 17
3.1 问题的提出 .................. 17
3.2 基于用户相似性填充缺失评分改善水军检测 ............................ 17
第四章 基于 RBM 和 DBN 填充缺失评分改善水军检测 ............... 29
4.1 动机 .................................. 29
4.2 基于RBM填充缺失评分改善水军检测 ...................... 30
第五章 总结与展望 ........................... 47
5.1 工作总结 ................................ 47
5.2 未来展望 ............................ 48
第四章基于RBM和DBN填充缺失评分改善水军检测
4.1动机
众所周知,现有方法的准确性在很大程度上受到底层网络的稀疏性的影响,其中有很多低度用户[58]。如图4.1(a)-(c)的热力图可见,数据集中大多数用户位于红色的图表底部,即他们评分数量很少,这也可以从子图(d)-(f)三个数据集下用户度分布图得出。现有方法难以解决低度用户的问题,在GR和IGR的预处理期间,评分次数少于20的低度用户会被删除,因为它们会影响最终的检测结果。因此,本文试图使用矩阵填充技术来降低不同恶意用户检测方法对稀疏数据集的影响。Movielens、Movielens_100和Netflix上的实验表明,在用预测的评分填充低度用户之后,现有的恶意用户检测方法的准确性和鲁棒性显著提高。
第五章总结与展望
5.1工作总结
随着电商平台的快速发展,商品评价已经成为人们购物的重要参考依据之一。然而,由于水军的存在,商品评价系统的可靠性受到了极大的影响。在水军检测中,低度用户非常普遍,因为这些用户通常只提供了少量的评价,导致其评分质量较难被准确识别。为了解决这个问题,本文提出了填充低度用户的框架来改善水军检测效果。
本文主要致力于研究电子商务平台中检测低度恶意用户的问题,提出了识别水军的一般框架FILS,在本框架中使用三种方法预测用户缺失评分以缓解数据稀疏对水军检测准确率的影响。首先借助用户行为特征的形似性(即兴趣相同的用户通常对商品有一致的喜好)来预测缺失评分,紧接着使用受限玻尔兹曼机以及深度置信网络来进行更准确的预测,最后分别将各方法下预测的评分扩展到现有数据集上结合水军检测算法来识别恶意用户。实验结果证实了本框架可以有效提高水军检测的准确率和鲁棒性。本文的主要工作可总结为如下两个方面:
(1)其一,为了提高稀疏数据下水军检测的准确率,本章节使用常见的基于邻域的预测模型缓解数据稀疏。我们首先基于Pearson相关系数衡量用户之间的相似性,然后再根据高相似度邻居的评分预测其缺失的评分值。这种方法的优点是简单易用,而且可以在不进行复杂计算的情况下提高预测准确率。接下来FILS框架将通过Pearson相关系数预测的评分扩展到原始数据集上,然后再分别与DR、IGR以及IOR结合来识别恶意用户。
(2)其二,对于低度用户,由于其提供的评价数量有限,相似用户或相似商品的数量也会受到限制,使用Pearson相关系数预测时效果较差。因此本文接下来使用RBM和DBN预测用户的缺失评分。RBM能够学习到用户和项目之间的潜在特征,首先使用原始数据评分来训