基于用户行为特征的混合推荐方法思考 - 软件工程硕士

本文是一篇软件工程硕士论文，本文提出了一种基于用户行为特征的混合推荐算法模型来优化推荐多样性中的类别多样性与时间多样性。但工作依旧还有很多不足以及可以改进的地方，在未来任需要继续研究，具体如以下几点：1. 本文的数据并非是一整年的数据，但是依旧把时间分成 12 段进行模拟，今后的研究争取考虑更多更细化的时间模型。例如，将把时间段从 12 增加到 24 甚至是 48，并将工作日和周末分开，假设用户在工作日和周末有不同的行为模式，进一步分析用户的时间分布。

1 绪论

1.1 研究背景和意义

1.1.1 研究背景

随着信息科技与互联网的不断发展，人们的衣食住行、工作娱乐都已离不开互联网。从电商平台、搜索引擎、即时通信，到互联网金融、人工智能、虚拟现实，互联网提供的各式各样的服务满足了不同人群对于工作、学习、娱乐等不同方面的需求[1]。截止至 2020 年 3 月，中国网民规模为 9.04 亿，较 2018 年底新增网民 7508 万，互联网普及率达 64.5%，较 2018 年底提升 4.9 个百分点[2]。庞大的网民数量所产生的信息量呈爆炸式增长。根据《中华人民共和国统计局.中国统计年鉴 2018 版》[3]的统计，截止至 2018 年中国的图书出版印数就已超过 100亿，电子出版物出版超过 2.5 亿，火爆的短视频 app 用户规模超过 8 亿，淘宝网上的商家数量超过一千万家，在线商品数量更是超过 10 亿。

软件工程硕士论文参考

海量的信息数据是时代的产物，给人民的生活带来了巨大的便利，但是如此庞大的信息量，对于个人而言是过载的，需要对相关信息进行过滤和传递，以缓解信息超载的问题。通常的解决方法是用户通过搜索引擎或者网站的分类栏来查找到自己想要的信息，但是随着信息量的增大，获得期望的信息，往往费时费力。由于搜索等方式需要比较明确的输入才能进行查询，当用户对自己想要获取的信息不明确时，此类方法则并不适用。除此之外，用户也会通过朋友或者网络文章、博客的推荐来做出适合自身的选择。但是，朋友或者网络博主的推荐无法从用户自身的角度的进行分析推荐，较难得到最适合用户本身的结果。由此，推荐系统应运而生。

1.2 国内外研究现状概述

早期的推荐系统研究起源于信息检索和过滤研究[5]。随着研究的进一步发展，研究学者将推荐算法扩展到更广泛的内容类型，从文档搜索[6-9]到电子邮件过滤[10]和个性化多媒体项目检索[11-15]。亚马逊早在 2004 年就为其推荐系统的第一个版本申请了专利。Netflix 在其应用程序中实现了一个推荐系统，以减少取消订阅的数量，并增加用户与应用程序交互的平均时间。Facebook、Twitter、微博等网站也纷纷加入了推荐系统，以保证网站的用户黏度提升盈利水平。

起初对于推荐领域的研究关注于提升推荐结果的精准度，直到 2001 年，Bradley 和 Smith[16]的研究才提到了推荐的多样性，他们提出在推荐程序中引入多样性指标，并将多样性定义为相似性的对立面。Fleder 和 Hosanagar[17]在 2007年进行了一项实验，表明大多数推荐系统聚焦于每个用户的准确性推荐，从而减少了推荐条目的多样性。然而，强调准确性而缺乏多样性会出现潜在的问题。Harald Steck[18]指出，推荐系统只注重准确性，只捕捉用户的主要偏好，而对不太感兴趣的信息表示不足，这会逐渐缩小用户的兴趣范围。此外，在用户行为和推荐之间的反馈循环中出现的算法混淆[19]将增加同质化，并对用户体验产生负面影响。随着研究不断的深入，推荐多样性也逐步受到重视，推荐多样性的研究也在不断的涌现。

Symth 和 McClave[16]使用后过滤策略改进传统的协同过滤算法从而提升推荐结果的多样性，并提出了一种能够很好的表现出多指标优化综合特性的贪心搜索方法，该算法开启了推荐多样性在这方面的研究。但是，以上的研究都将多样性与准确性对立起来，没有建立有机的统一。张国富[23]等人在 2010 年通过选择候选集中多样性较好的信任邻居作为推荐代表，来调节推荐结果的多样性和准确性,从而提出融合信任机制的推荐多样性算法。李冰等人[24]提出一种多目标的混合推荐模型，基于 3 个多样性选择因子，在推荐之前先挖掘客户对不同多样化因子的偏好程度，运用马尔科夫链计算不同因子的权重，基于混合算法得出能同时满足客户所有多样性选择因子的服务项目。这些学者的研究相对弥补了一些多样性与准确性平衡方面的研究，但是他们都只关注于推荐物品最基础的类别多样性，忽略的其他因素的考虑。2017 年，H.Jungkyu 等人[25]的研究提出了考虑地理位置的多样性在 POI 推荐领域的重要性，其通过增强推荐地理位置多样性从而覆盖更多用户兴趣点。Yuan 等[26]首先提出考虑时间因素来提高推荐的准确性。

2 相关理论知识

2.1 推荐系统优化方向

由于推荐系统的快速的发展，信息量每天都在增加，公众获取信息的方式不断增多，对收到的信息的质量要求也逐渐提高，因此对推荐系统的要求也在不断提高，例如：一开始推荐系统的推荐质量很大程度上取决于推荐结果的准确性。现在，只提高推荐结果的准确性是不能充分满足公众的需求的。下面将就这两方面进行详细的介绍。

2.1.1 准确性

由于推荐系统首先必须保证推荐结果的准确率，这样才能达到用户最基本的需求，所以推荐系统最基本的指标就是准确性[29]。此外，准确性指标的根据不同的优化重点，其细节内容是不一样的。

度量分类准确度最常用的指标有准确率（precision）和召回率（recall）[32]。一般来说，推荐模型中会将物品分为两类，分别是正类和负类。正类常常是需求中所需要的目标类，例如，在一个推荐中，用户可能感兴趣的项目则可以看作正类。负类则是其余的非需要的类。在测试数据集上的预测结果则有两种情况，分别是错误或者正确的。根据以上表述，可以总结出四种情况，分别可以表示为：FN（False Negative），错把正类分为负类的数量；

对于评分方面的准确率，在推荐模型中用户会对物品产生的预测性的分值，而实际上物品会有一个实际的分值，评分准确率的作用就是对这个两个分值之间的差异进行度量。将物品的历史分值数据用于创建用户的喜好模型，应用于推荐系统中，从而可以预测那些没有被评分过的物品的分值。[33]。

2.2 相关推荐算法

推荐算法对于推荐系统的影响是至关重要的，不论是在电影推荐、商品推荐、书籍推荐中都是如此。但是正如前面所说，在电影推荐中会使用更利于电影推荐的算法，在商品推荐中会使用更利于商品推荐的算法，在书籍推荐中亦是如此，这是因为不同的推荐算法常常有不同的侧重点。所以，只有根据实际的应用情况与实际的用户需求去设置不同的算法，才能达到最好的推荐效果。下面介绍一些常用的经典推荐算法。

2.2.1 协同过滤算法

本节介绍本文已有协同过滤推荐算法的基本流程及方法。为了表达的更加清晰，在表 2.5 中定义了一组用于描述算法和相似性度量的符号。

软件工程硕士论文怎么写

协同过滤算法的主要优点是它能够不依赖于关于内容的领域知识来进行物品推荐，目前常用的协同过滤算法主要有两种：1.基于用户的协同过滤算法 2.基于物品的协同过滤算法。基于用户的协同过滤算法会识别与目标用户有相似兴趣的用户，并计算目标用户的预测偏好，基于物品的协同过滤算法[36]能发掘所有对项目之间的相关性，然后根据相关性向目标用户推荐相似的物品。

3 基于用户行为特征的混合推荐算法模型........................26

3.1 基本框架.................................... 26

3.2 类别多样性优化模型..........................................27

4 实验与分析....................................37

4.1 实验环境与实验数据集...........................................37

4.1.1 实验环境....................................................37

4.1.2 实验数据集...................................37

5 总结与展望.................................47

5.1 总结....................................47

5.2 展望................................49

4 实验与分析

4.1 实验环境与实验数据集

4.1.1 实验环境

本实验运行所使用的硬件设备为主频 2.6GHz，ROM 4G 的 Windows10 系统PC机。实验使用Python3.0进行编码，编写工具为 JetBrains PyCharm 2018.3.1 x64。

4.1.2 实验数据集

本文使用“阿里巴巴淘宝用户行为数据集”[45]，该数据集来自阿里天池的公开数据。该数据集为在 2017 年 11 月 25 日至 12 月 3 日期间随机抽取的淘宝网中约 800 万用户和 1500 万购物样本。每个示例包含 100 个用户历史数据。数据集的组织形式与 MovieLen-20m 非常相似，即每一行代表一个特定的用户-项目交互和历史交互，包括关键信息，有用户 ID，项目 ID，类型 ID，商店 ID，节点 ID，产品 ID，品牌 ID，行为时间戳。数据集被分为训练集和测试集。训练集有 15M个样本，测试集有 0.97M 个样本。由于数据量过于庞大，文本只选取 8 万条数据作为代表，这部分数据包含 1893 名用户的记录。