推荐算法的质量评估是推荐系统中的关键一环,对于推荐系统具有重要的作用[30]。已有繁多的相关文献资料介绍了推荐系统评估工作,在文献[46][47]中,详细地介绍了推荐系统中较为常用的评价方法。评估方法分为离线评估、用户调查和在线评估[46]。在线评估和用户调查的成本较高,因而离线评估的方法在研究中使用更为广泛[30]。离线评估方法之中包含了很多不同指标,不同的研究根据不同的研究目的来选取不同的评估指标,而本文主要关注准确性和多样性两种评价指标,其中多样性中分成了类别多样性与时间多样性指标。
5 总结与展望
5.1 总结
随着互联网普及率的急剧增高,互联网上的用户量和信息量呈爆炸式的增长,无处不在的信息过载问题,困扰着全世界的网络使用者,推荐系统被认为是潜在的强有力的解决方案。用户发现,通过搜索引擎等传统手段在正确的时间获取正确的信息越来越困难,这限制了他们从网络中充分获取信息的能力。推荐系统试图通过提供一种更智能和个性化的方式来解决这个问题,让用户更快速、更容易地找到满意的新信息。过去研究者们通常把关注点放在推荐的准确率上,在过去这是一个很好的发展方向,但是随着时代多元化的发展,这显然不能满足用户的个性化需求,会导致用户对推荐结果失去兴趣。近些年,不少专家学者对于推荐多样性的关注正在逐步增加,同时出现了越来越多对于提升推荐多样性的研究。然而,由于多样性与准确率是一对相对对立的指标,提升多样性的同时必然会降低一定的准确性,且用户的兴趣是在不断的变化的,因此如何捕捉到用户的兴趣变化,相应的平衡好准确性与多样性依旧是一个亟需解决的问题。此外,类别和地理因素已经被考虑到与多样性的关系,除了这些因素,时间因素被考虑进多样性研究中还比较稀缺。因此,本文通过分析用户的行为特征,挖掘用户的多样性偏好,将类别与时间两个因素同时考虑到多样性中,提出了一个混合推荐算法模型以优化推荐系统的多样性,并实验证明该算法模型是有效的,下面简要对本文所做的工作做一个简单的总结:
1.基于文献[24]提出的基于多样性选择因子的多目标混合推荐方法的思想,本文提出了一个结合记忆遗忘曲线的类别多样性偏好因子计算策略。类别作为物品最本质的一个属性,在多样性研究中占据重要地位,过去对于推荐算法的多样性的研究针对的多是类别多样性,但是单纯的提升类别多样性是盲目的,适应用户偏好的类别多样性优化才是好的,且用户的偏好会随时间的流逝产生漂移,时间越接近对于偏好的影响越大。因此,本文采用三个多样性偏好因子去度量用户的类别多样性偏好,分别是:热门偏好因子,个性偏好因子,重复偏好因子,同时物品也被归为这三种类型。接着再从用户的物品选择历史记录中计算其中这三种类型物品的占比,在此过程中每个物品根据时间的远到近结合记忆遗忘曲线赋予不同的权值,最后得到的是各偏好因子的概率值。此外,由于现有的推荐算法往往都对不同的方面有所侧重,有的推荐算法侧重于推荐重复性的物品,有的则侧重于推荐热门性。于是,通过梳理各个已有推荐算法的推荐侧重性,最终采用协同过滤算法、基于内容的推荐算法、基于关联规则的推荐算法、基于聚类的推荐算法,分别侧重热门性、重复性、热门性和用户个性。接着,将偏好因子与这些算法所对应,同时去将每个推荐算法都进行运算,将运行结果按照偏好因子的概率值取得不同占比的推荐物品,最后将取得的物品混合后得到推荐结果。
2.基于文献[44]提出的基于时间多样性的兴趣点推荐方法的思想,本文提出了两个小策略对文献[44]算法进行了改动,分别是随机窗口策略和保留 Top-t 策略。首先采用物品时间分布和用户时间分布重叠的大小为依据计算候选推荐列表中候选物品的分值,并迭代选取分值大的候选物品进去已选列表,计算采用的规则是:当候选物品的时间分布与用户的时间分布重叠越大所得到的分数增加,候选物品的时间分布与已选物品的时间分布对比重叠越少所得到的分数减少。为了使得候选物品分值不会过于接近,则利用随机窗口策略,每次只随机选取连续的 k个已选物品进行时间分布比较。此外,由于文献[44]的算法的初始候选列表是由其他算法得来,为了保证最后结果的准确性,采用保留 Top-t 策略,即将初始候选列表前 t%保留,只将后 1-t%的列表作为候选列表进行后续的流程。
参考文献(略)