本文是一篇SCI论文发表,本文设计了一种融合社交信息和地理信息的连续兴趣点推荐模型——SGLSMT。该模型利用非负矩阵分解技术,将用户的社交信息和兴趣点的地理信息转化为特征向量。通过改进 LSTM 结构,设计了一种融合社交信息和地理信息的连续兴趣点推荐模型,将用户的社交特征向量、兴趣点的地理特征向量以及时间特征作为上下文信息融入到 LSTM 模型中,基于循环神经网络,对不同特征信息进行深入挖掘与学习,最后给出用户对不同兴趣点的访问概率,为用户推荐 Top-N 访问的兴趣点。
第一章 绪论
1.1 研究背景与意义
近年来,随着移动互联网技术的发展,大众点评,Yelp,Flicker 等在线社交网络应用应运而生,并迅速发展壮大,吸引数十亿用户实时交互、共享信息。大多数用户的信息可以根据传感技术和用户生成的文本内容获取到。同时,随着移动定位技术的普及,许多在线社交网络应用引入了位置服务,促进了基于位置的社交网络(Location-based social network,LBSN)迅速发展壮大,使其逐渐成为人们生活中不可或缺的部分[1]。
基于位置的社交网络添加了真实世界的地理信息,这是与传统社交网络最大的不同点。地理位置作为一个纽带,将虚拟与真实的社交网络连接起来。如图1-1 所示,基于位置的社交网络不仅仅是一个位置维度的嵌入,还引入了人与人的关系、人与位置的关系以及位置与位置的关系,揭示了用户之间真实的社交关系。用户以签到的方式分享想法、活动、兴趣等,位置信息与线上社交网络存在千丝万缕的联系,将用户的线上行为与线下活动融合起来。例如,在 Foursquare中,用户以“签到”(check-in)的方式让其朋友知道本人在何时何地做了什么,用户也可以在签到周围发现朋友。海量的用户签到数据由此产生,如经纬度坐标、时间、评论信息以及图片信息等,体现了用户的移动模式与行为信息,对研究用户日常喜好和行为模式具有重要价值和意义[2]。
1.2 国内外研究现状
本小节阐述了影响兴趣点推荐效果的三类主要因素和兴趣点推荐算法,并对相关影响因素的兴趣点推荐模型进行文献综述。影响兴趣点推荐效果的三类因素包括社交影响、地理影响和时间影响,兴趣点推荐的方法主要分为通用兴趣点推荐方法和连续兴趣点推荐方法。其中,通用兴趣点推荐主要介绍矩阵分解模型和概率模型,连续兴趣点推荐主要阐述马尔可夫链模型、张量分解模型和神经网络模型。
1.2.1 兴趣点推荐的影响因素
位置社交网络中的签到数据蕴含丰富的上下文信息,可以深入理解用户的签到行为和真实偏好。现有的兴趣点推荐模型会挖掘位置社交网络中的上下文信息,从而提高推荐精度。
1.2.1.1 基于社交影响的兴趣点推荐模型
根据社会学中同频共振、同质相吸的理论,用户与其朋友很有可能会有共同的兴趣爱好,好友关系会影响用户的行为偏好。数据稀疏性问题可以通过引入社交信息得到缓解,因此许多研究者利用社交信息提高推荐算法的质量。LBSN 中包含丰富的用户社交信息。一方面,受朋友之间真实的社交关系的影响,用户有很大概率会去朋友访问过并且推荐的兴趣点签到,朋友的兴趣对用户的行为偏好存在很大影响。另一方面,位置信息作为独有的特征存在于社交网络中,会扩展社交关系的边界。例如,两个互不认识的用户访问了同一个兴趣点,说明他们处于同一地理空间范围内。二者签到的相同兴趣点数越多,二者行为偏好越相似。
第二章 基础理论与相关技术
2.1 协同过滤推荐算法
协同过滤推荐算法(Collaborative Filtering)[65]是对用户的行为数据进行探究,将相似的用户进行划分,并推荐相似的商品,通俗的说就是物以类聚,人以群分。为了更好的描述协同过滤的思想,本小节对基于内存的协同过滤算法和基于模型的协同过滤算法进行具体阐述[66]。
2.1.1 基于内存的协同过滤
基于内存的协同过滤有两种类型:基于用户(user-based)的协同过滤和基于物品(item-based)的协同过滤。本小节主要针对基于用户的协同过滤和基于物品的协同过滤进行介绍。
(1)基于用户的协同过滤
基于用户的协同过滤与“人以群分”的概念异曲同工,例如书籍推荐,用户A 喜欢《活着》、《城南旧事》等书籍,用户 B 恰巧也喜欢这类书籍,并且用户 B还喜欢《欢乐颂》,则很有可能用户 A 也喜欢《欢乐颂》这本书。因此,如果要对用户 A 进行书籍推荐,可以先找到与用户 A 具有相同或相似兴趣偏好的用户B,并根据 B 喜欢的书籍为 A 进行推荐。这就是基于用户的协同过滤算法。因此,可以将基于用户的协同过滤分为两步:(1)探寻与目标用户爱好相同或相似的用户群体。(2)为目标用户推荐相似用户群体喜欢并且目标用户没有尝试过的物品[67]。余弦相似性、Jaccard 相似性、皮尔逊系数等是研究者常用的相似度计算方法。
2.2 非负矩阵分解技术
非负矩阵分解(Non-negative Matrix Factorization, NMF)算法是 1999 年由Lee 等人[68]提出,矩阵中的所有元素都是非负的[69],增强了算法的可解释性;可以有效对高维数据进行压缩,在数据损失较少的情况下,获得稠密向量以及数据的关键特征。本小节从非负矩阵分解技术的基本概念和算法推导两方面对其进行阐述。
循环神经网络(recurrent neural network, RNN)是一种应用广泛的神经网络(neural network)结构,非常适合建模序列数据和语义文本数据。本小节将对循环神经网络及其一个应用十分广泛的结构——长短时记忆网络(long short-termmemory, LSTM)展开详细阐述。
循环神经网络的特殊结构,可以有效的处理和建模序列数据,学习序列数据中当前输出和以往序列数据的联系。根据网络结构可知,循环神经网络的每一个循环体相当于一个记忆细胞,储存先前的数据信息,并对之后的输出结果产生影响。图 2-3 是一个基本的循环神经网络。在每一时刻 t,RNN 会针对该时间点的输入以及序列的历史信息输出当前时刻的一个结果,进而对模型进行更新。由图2-3 所示,RNN 主体单元结构 A 包括两个部分:tx 表示输入层,t1h表示t 1时间点的隐藏状态(hidden state),RNN 的模块 A 可以挖掘tx 和t1h中的交互影响与有效信息,获得新的隐藏状态th ,以及本时刻的输出to 。由于模块 A 中的运算和变量在不同时刻是相同的,即不同时间的位置参数共享,所以 RNN 可以通过多个相同的结构进行复制得到,因此这个结构被称为循环体。
第三章 基于位置社交网络的用户签到行为分析...............................24
3.1 数据集的概述.................................24
3.2 位置社交网络中用户社交偏好分析.............................25
3.3 位置社交网络中用户地理偏好分析..........................26
第四章 基于非负矩阵分解的社交信息模型和地理信息模型.....................31
4.1 连续兴趣点推荐问题描述.............................31
4.2 基于非负矩阵分解的社交信息模型........................32
第五章 融合社交信息和地理信息的连续兴趣点推荐模型....................40
5.1 基于 SGLSTM 的连续兴趣点推荐模型.................................40
5.1.1 SGLSTM 模型的构建.............................40
5.1.2 SGLSTM 模型的训练.................................43
第五章 融合社交信息和地理信息的连续兴趣点推荐模型
5.1 基于 SGLSTM 的连续兴趣点推荐模型
循环神经网络(Recurrent Neural Network,RNN)被广泛地应用在与序列数据相关的任务中[76],本文研究的连续兴趣点推荐问题,基于的位置社交网络数据是人类的移动行为轨迹,具有很强的时间序列性和空间序列性,因此本文考虑用循环神经网络进行连续兴趣点推荐,其网络结构对兴趣点签到序列进行建模可以有效提取到序列特征。用户的签到序列可能会很长,经典的 RNN 结构在反向传播时会出现梯度消失的问题,无法处理长期依赖。长短时记忆网络(LongShort-Term Memory,LSTM)[71]增加了输入门,遗忘门和输出门,解决了 RNN梯度消失问题。本文通过拓展 LSTM 模型结构,将社交信息、地理信息与时间信息融入到 LSTM 的门控结构中,提出了一种融合社交信息和地理信息的连续兴趣点推荐模型(Social-Geographical Long Short-Term Memory, SGLSTM)。
第六章 总结与展望
6.1 研究工作总结
针对 LBSN 中连续兴趣点推荐任务面临的挑战,本文设计了一种融合社交信息和地理信息的连续兴趣点推荐模型——SGLSMT。该模型利用非负矩阵分解技术,将用户的社交信息和兴趣点的地理信息转化为特征向量。通过改进 LSTM 结构,设计了一种融合社交信息和地理信息的连续兴趣点推荐模型,将用户的社交特征向量、兴趣点的地理特征向量以及时间特征作为上下文信息融入到 LSTM 模型中,基于循环神经网络,对不同特征信息进行深入挖掘与学习,最后给出用户对不同兴趣点的访问概率,为用户推荐 Top-N 访问的兴趣点