电子商务领域数据量的迅速增长,各大网站每天的点击流量数据和用户行为数据,是数据量增加的主要因素。截至2015年底,中国手机用户已经达到6亿,移动互联网的使用人数己经达到11亿,预计2016年底,中国手机网民规模将达到7亿[1]。
随着移动互联网的发展,移动电子商务是电子商务的发展趋势。推出移动端电子商务是趋势更是需求,智能移动终端给移动电子商务带来了巨大的商机,然而移动电子商务的具有时间的碎片性,需要决策快,也就是说,用户需要在短时间内快速决定购买商品,因此就需要商品成本低,能快速决策。因此电商需要在有效的时间内整理好用户可能喜欢的商品,以短信、网页或其他方式发送给移动终端客户[2]。
2.1 个性化搜索技术的国内外研究现状
个性化搜索作为当今搜索领域的一大研究热点,其研究主要集中在聚类技术、个性化推荐、用户兴趣建模等几方面。
国外方面,Google搜索引擎在个性化搜索领域做得相对较好,早在2006年Google就针对注册登陆其系统的用户发布了定制化搜索引擎,而后又慢慢扩大到匿名用户。
2010 年,谷歌还曾表示:“通过个性化服务,能够更了解用户需求从而帮助用户省去很多麻烦”。此外,Yahoo 在 2008 年发布了一款 BOSS 服务—“打造你自己的搜索引擎”。相关研究还有华盛顿大学开发的元搜索引擎 Metacrawler,它提供了统一接口,使用多个搜索引擎,将检索结果进行分析、整合,并根据用户兴趣进行过滤,返回用户感兴趣的结果[3]。
目前,国内主流的搜索引擎有百度、360、搜狗等。相比国外而言,国内个性化搜索的研究相对较晚。国内在个性化搜索服务领域的研究有,岑荣伟[4]等提出的检索结果重排序方法,借助日志信息,构建用户常用查询词集合,用户提交查询请求时,将集合中的内容和搜索结果进行融合,将重新排序后的结果网页呈现给用户;黄萱菁[5]等提出的基于VSM的文本过滤系统,受到了国家自然基金和国家 863 高科技发展计划的支持,得到了国家的高度重视。此外,2011 年百度更换了新首页,使用户能够个性化定制应用和小插件,为百度个性化服务的发展开辟了崭新的道路。
虽然在实现个性化的过程中会遇到一些困难,但个性化的服务确实能为用户带来极大的方便。此外,个性化服务也会应用于一些购物网站及交友网站,根据用户的搜索历史、浏览历史向用户推荐一些某用户可能感兴趣的商品,或者推荐一些可能认识或感兴趣的人。
2.2 排序算法的国内外研究现状
对于排序算法的研究,国外要早于国内。PageRank 算法和HITS 算法是比较有代表性的两类排序算法。PageRank 是 Google 创始人 Larry Page 于 1997 年构建早期的搜索系统原型时提出的链接分析算法,该算法也是其它搜索引擎和学术界十分关注的计算模型[2]。其核心思想是一个网页的入链数越多,引用它的网页越权威,该网页就越重要。对网页的重要性评分计算,是离线计算,和查询主题无关,因此具有快速的响应能力。然而它也有主题漂移、歧视新网页、忽略用户的个性化需求等明显缺陷。
HITS 算法,是 1997 年康奈尔大学(Cornell University)的 Jon Kleinberg 博士提出的。算法核心是,借助彼此有影响的两个权值,内容权威度(Authority)和链接权威度(Hub),来评估网页内容的价值和网页中超链接的价值,它是和查询主题相关的。Authority和Hub 相互依赖、相互增强的关系是 HITS 算法的基础。该算法也存在主题漂移、计算效率低、结构不稳定、容易被欺骗的问题。
国内对排序算法的研究起步较晚,主要是对一些算法的改进。郭庆宝[6]等人首先利用向量空间模型VSM 计算网页间的相似度权值,然后分析统计网页的点击量增量权值,最后将两个权值结合,融合反馈信息与内容相关度改进 PageRank 算法,提高了搜索结果和用户查询内容的相关性。王德广[7]等人提出了四级改进PageRank 的方法,通过引入时间权函数 W、分段函数F、网页权值比例函数 P 及兴趣度V,改善PageRank存在的问题,并通过实验证明了改进算法在排序质量上的提高[7]。马瑞新[8]等在矢量空间模型理论的基础上提出改进方法,将用户查询和网页都表示成矢量,基于扩散理论、优先情节及增长定律,综合考虑链接内容的查询方式和页面信息,有效抑制 HITS的主题漂移现象。
第二个方面,虽然各式各样的社交网站数量在不断增加,社交网络市场的规模在不断壮大,但是各社交网站之间越来越雷同,越来越趋于同质化,缺乏创新性和独特性,缺少用户体验的独特性。大量的社交网络基本信息和用户交互数据没有得到有效地利用和挖掘,社交网络个性化交互和智能化应用方面的功能还远远达不到广大用户满意的程度。一方面社交网络存这些问题,另一方面用户需求不断增长,这样双方就产生了激烈的矛盾。谁能解决矛盾,争取到用户,谁就是赢家。Web数据挖掘技术就成为了能解决这一矛盾的利器,近年来社交网络领域的焦点话题就是如何在社交网络中使用Web数据挖掘技术。
研究以数据挖掘技术为出发点,进而分析数据挖掘的相关理论。介绍数据挖掘在互联网领域的应用,从而形成独立的WEB数据挖掘研究领域。为达到更好地将WEB数据挖掘技术应用到社交网络中的目的,研究社交网络的特性,了解社交网络的发展现状和用户需求。通过数据预处理和文本数据挖掘的整个过程,提出WEB数据挖掘技术在社交网络中实际应用的设计与实现,即创建基于社交网络的个人标签云。
研究实证分析了社交网络(微博)的用户特征,通过对网络、用户行为、微博、时间与演化等特征,多维度的分析新浪微博的真实数据,根据数据分析与统计结果,定性地指出影响用户权威性判定与微博传播关系的参考因素。通过以上分析建立了基于改进HITS算法的节点权重计算思想,综合了社交网络中用户特征、好友特征、用户信息质量、交互关系与活跃度特征等因素的用户权重计算模型。研究认为,对于信息的推荐与传播具有重要的意义的社交网络中用户的权威性,应作为推荐与传播模型的参考建模因素。
2.课题主要研究内容
研究研究了社交网络中的用户个性化推荐算法。针对传统推荐算法存在的不足,即社交网络中的用户偏好性不能很好的被描述的问题,首先通过微博用户特征与行为模式分析,利用用户微博与回复关系统计数据,提出了算法逻辑简单、易于实现,适用于在线真实微博平台的应用级研究的基于统计特征的微博推荐算法。为使该算法的推荐精度得到进一步提高,借助基于二元网络的NBI推荐模型,结合协同过滤推荐思想,对模型初始矩阵与计算中连接权重关系进行了改进,并将具有社交网络特色的权威用户与亲密用户对于用户的微博偏好性影响加入到模型中,利用参数调节改进NBI模型与用户特征两部分因素的权重,通过训练样本得到最佳参数取值,以实现对于未知微博的推荐。通过实验得出,该算法比NBI模型或单一用户偏好推荐模型,具有更好的个性化推荐效果。
3.课题拟解决的关键问题
研究基于大数据集的社交网络特征挖掘,利用复杂网络模型对社交网络进行分析。首先详细的分析了数据挖掘和 WEB 数据挖掘的相关理论,总结了当前它们的主要技术、分类、数据源、功能、处理流程以及面临的关键问题等,为后文在实践中使用 WEB 数据挖掘打下了很好的技术理论基础。其次细致地概括和研究了社交网络的相关特性,分析了社交网络的组成元素、主要内容、结构表达方式、主要特点和功能等。帮助我们全面地了解到了社交网络的发展状况、体系结构、用户需求模型以及面临的主要问题。
在应用方面,研究基于多Agent建模方法和复杂网络理论,对社交网络中的社团话题发现进行分析和建模。借鉴数据挖掘分析理论的最新研究成果,对社团话题发现模式和演化