第 1 章 绪论
1.1 研究背景及意义
近年来,随着计算机的普及,互联网迅猛发展,网络中的信息数据量呈爆炸式指数增长,而且种类也成千上万。但是伴随着信息量增大的同时人们也不得不面临信息过载[1]的问题,用户想要从海量的数据中找到自己感兴趣或者说需要的信息,其难度如同大海捞针,在这样的条件下,从海量数据中筛选有效信息,从而进行信息检索和准确推荐,已经成为人们亟需解决的问题,于是在 20 世纪末,个性化推荐系统作为一类实用性系统出现在人们生活中。个性化推荐系统[2,3]官方定义为一种在海量数据上进行数据挖掘的高级商务智能平台,它的功能是当买家用户购物时,电子商务网站为其提供个性化的决策支持和信息服务的帮助。现在推荐技术已经在我们的日常生活中屡见不鲜。电子商务网站用来推荐商品,如淘宝、京东商城、当当网、Amazon,值得一提的是Amazon35%以上的销售额要归功于个性化推荐,社交网站如新浪微博、人人网、Facebook 等推荐好友,百度、Google 等线上投放广告,大众点评、手机淘宝等基于位置服务进行个性化推荐等等,这些都是个性化推荐技术在我们生活中的应用。
...............
1.2 国内外研究现状
20 世纪末,电子信息时代的降临使得推荐系统雨后春笋般冒出。Grouplens[10]是最早的极具代表性的推荐系统之一,于 1994 年由麻省理工大学 Paul Resnick 和明尼苏达大学 Neophytos Iacovou 等人开发而出。20 世纪末本世纪初,随着亚马逊、淘宝、eBay 等电子商务网站的迅速崛起,也掀起了个性化推荐的浪潮,推荐系统层出不穷,而推荐算法作为推荐系统的核心组成,其不但决定了推荐的策略和方式,其性能还直接影响了推荐系统的性能,如速度、准确性、可靠性等。所以推荐算法一直是国内外专家研究的热点与焦点,近年来也取得了许多新的进展,按照策略不同,目前推荐算法大致可以分为以下三类:(1)基于内容的推荐算法[11,12]:这类推荐算法的理论依据是信息检索和数据过滤。它提取推荐对象的内容特征与已经创建好的用户模型中的用户偏好内容进行匹对,然后将结果按照匹配度进行排序,将靠前的若干结果对象推荐给用户。优点是简单、有效,得到的推荐结果也直观、可信度高,即使是没有相应理论基础的用户也能非常容易的理解和接受,最重要的是不受数据稀疏性的限制,同时也没有新商品的冷启动问题。但是缺点也非常明显,需要推荐对象的内容与模型中的内容完全一致,这样很难出现新的推荐结果,往往是千篇一律,难以挖掘用户隐藏的兴趣偏好,同时对多媒体资源的推荐应用也非常受限。
...............
第 2 章 个性化推荐技术
2.1 个性化推荐技术概述
在 20 世纪 90年代之前,推荐系统主要用于信息数据的过滤,帮助筛选出有用信息,代表系统有 Tapestry 推荐系统[31]、GroupLens 推荐系统[32]等,可以说它们是现在各个网站推荐系统的雏形,之后推荐系统被应用到新兴的电子商务领域,应用个性化推荐系统可以预测用户的偏好,将用户感兴趣的物品推荐给他们。近几年来,国内外许多专家对个性化推荐算法进行了研究与优化,使得推荐服务从学术研究渐渐走向了实际应用,并取得了较大成功。电子商务网站,如淘宝、唯品会、Amazon、京东商城、当当网等进行商品推荐,它们当中的推荐引擎根据用户的历史行为数据,挖掘用户的潜在需求,将商品推荐给用户,促进用户的消费,据说 Amazon35%以上的销售额要归功于个性化推荐;社交网站,如新浪微博、Facebook、人人网等,通过推荐系统满足用户扩展社交圈的需求;百度、Google 等网站利用个性化推荐系统针对特定人群在特定时间进行线上广告投放,不但效率高还不易引起用户的反感;大众点评、手机淘宝等则基于位置为用户提供周边个性化服务推荐。
...............
2.2 信任网络的相关知识及其应用
电子商务虽然发展迅猛,但是仍然有很多因素阻碍其发展,而用户之间缺乏信任就是其中的典型代表因素之一,如买家对卖家商品质量缺乏信任,买家对系统的推荐结果缺乏信任等等。对于上述情况各大电子商务网站纷纷采取了一系列不同的有效措施,其中用户评分是非常理想的方法。例如,淘宝在用户完成交易后,会邀请用户对所购商品的质量、卖家服务态度、快递速度等进行评分,来作为其他用户的参考。信任作为一个社会交际中的一个概念,被引入到推荐系统中,反映了一个用户对社交网络中其他用户的主观行为或主观意识。在文献[41]中,信任被如此定义:若用户 B 的行为能够对用户 A 的决定起到积极的作用,那么文中就认为用户 A信任用户 B。
...............
第 3 章 基于信任网络和完全三部图的推荐算法...............23
3.1 基于信任网络的预填充算法 ................23
3.2 基于完全三部图的推荐算法...............26
第 4 章 实验对比与结果分析................37
4.1 实验环境...............37
4.2 数据集...............37
第 4 章 实验对比与结果分析
4.1 实验环境
本文基于信任网络和完全三部图的推荐算法的实验在一台普通的 PC 机上运行,基本配置为:硬件环境是 Intel(R) Core i5-2400 CPU @3.10GHz,4GB内存,500GB 硬盘 5400RPM;软件环境是 Windows7 操作系统,开发环境为 Eclipse,使用的开发语言是 Java。MovieLens 数据集包含系统网站用户的真实行为数据,目前对外公开的数据集有 100K、1M、10M 和 20M,前两类只是含有用户对电影的评分,没有标签信息,因此,本文采用了数据量更大的 20M 数据集,来进行实验的验证。
...............
4.2 数据集
实验所需全部数据均来自于公开的 MovieLens 数据集,目前在协同过滤推荐算法中应用最为广泛,由美国著名的明尼苏达大学的 Grouplens 工作组提供,创建于 1997 年。MovieLens 项目是一个与电影有关的社区网站,同时也可以理解为一个电影推荐系统,它搜集该网站用户对电影的所有的历史行为数据,通过协同过滤技术对用户的打分行为进行数据分析,从而实现电影的个性化推荐。MovieLens 系统允许用户对自己看过的电影进行自由的标签标注,标签内容不受限制,可以是电影的名字、题材、主演人员、上映年份等,也可以是自身对电影的理解、感受,甚至是一些无关紧要的东西,可以说标签不但反映了电影的相关主题信息,还隐含了用户的兴趣取向。同时,MovieLens 系统还允许用户对所有电影进行评分,评分范围是 1~5,中间间隔是 0.5 分。系统根据用户已有的评分数据,来预测用户可能对其他电影的评分,从而形成推荐。由于系统存在新用户冷启动的问题,所以要求新进入 MovieLens 系统的用户要至少对 15 部随机挑选的电影进行评分,以便系统构建新用户的兴趣偏好模型来进行电影推荐,再根据用户对推荐的电影的反馈,来进一步完善,实现个性化准确推荐。...............
结论
本文通过对传统的推荐算法中存在的问题进行分析,并对现在国内外个性化推荐的研究现状进一步调查,提出了一种基于信任网络和完全三部图的推荐算法。该算法将用户之间的隐式信任关系引入到推荐系统中,不但考虑用户之间的局部信任度,还考虑了用户在网络中或系统中的全局信任度,并结合用户的相似性作为预测评分的权重因子,来对原始评分矩阵进行数据的预填充,不但解决了数据稀疏性和冷启动的问题,在一定程度上避免了恶意攻击,还使得填充的数据最大化可靠、准确。同时提出了一个全新的完全三部图模型,该模型中不但充分考虑了三部图中用户、物品、标签三者之间的关系,而且考虑到现实情景中推荐结果准确性与多样性的不可兼得,引入准确率较高的物质扩散算法和多样性较优的热量传播算法,并按一定的混合比例进行两种算法的调节。通过 MovieLens 数据集上的实验验证,表明本文提出的混合推荐算法与传统的推荐算法相比在性能指标上有了明显的提高,并且有效地解决了数据稀疏性和冷启动问题,并且在保证一定程度多样性的情况下提高了推荐结果的准确率。
参考文献(略)