本文是一篇计算机软件论文,本系统首先分析新闻的文本信息,系统自动对新闻消息提取关键字,组建一个包含用户兴趣指标的数据集,通过历史行为数据,构建用户阅读兴趣模型。然后通过用户画像模型分析得到一个关联内容的权重排序的集合结果,向用户推荐新闻。
第 1 章 引言
1.1 研究背景与意义
1.1.1 研究背景
信息的传播方式及传播速度因互联网的发展产生了很大的变化,从而使人们在获取信息的途径上产生多样化趋势[1]。移动互联网和智能设备的快速发展,使人们能够快速、轻松地获取信息,并及时了解新闻[3]。新闻最重要的价值是源于它有时效性,因此新闻传播必须要依靠互联网这个载体,使其发挥出更大的价值[2]。2014 年-“媒体融合的第一年”,新兴媒体在今年开始迅速发展,为传统媒体带来了强烈冲击[4]。
电商领域需要为顾客提供个性化推荐,个性化推荐技术也就得到迅速发展,同事也影响到了诸多的领域:与人交往、书籍阅读、影视产业等等。尤其是对于传统的新闻行业,因为新闻是大家关注的热点,每天都会有海量的信息数据在传输,也就使得受众群体无法及时获取对自己感兴趣的有用的价值消息[5]。观众体验感大大减少,被各种繁多复杂的新闻信息所包围。
大量信息已成为必须面对并解决的问题,因此信息过滤技术已经成为搜索引擎以及协同过滤这样的技术[6]。搜索引擎就是在互联网的海量信息中采集数据、分析数据,根据索引搜索查询新闻信息。协同过滤是通过分析两种事物的联系,进行分类,发现之间的密切关系,在这个基础上对今后进行预判,从而帮助用户获取有效信息[7]。
协同过滤推荐基于用户、基于物品、基于模型三种模式。根据每个使用者的个人浏览记录、评论以及评分信息对新闻进行协同过滤。基于内容的推荐是对信息的内容开展分析,根据阅读历史信息选取相类似的信息推送给使用者。上述技术将在随后的章节中详细分析。
1.2 国内外研究现状
1.2.1 国内研究现状
国内的推荐技术应用基础薄弱,起步较晚,与国外存在明显差距。但是,国内的个性化推荐技术也在不断发展[13]。
清华大学的“Open Bookmark”与南京大学的“DOLTRI-Agent”在代理之间进行消息传递,数据挖掘。系统分析用户兴趣特征以实现个性化推荐。 达到学习用户兴趣特征的目的。目前,国内研究者广泛将代理技术应用于个性化推荐技术[14]。
使用个性化推荐技术的是豆瓣。 它反映在豆瓣的电影,书籍,相册和日志中。豆瓣的每个页面相关按钮将收集有关用户浏览信息的信息[15]。比如: 如果您想观看喜欢的电影,本书的页面布局将收集信息,例如用户是在阅读还是想要阅读。系统采集到感兴趣的电影的数量不断增加,就会提供更多符合个人兴趣的精准个性化需求。
2003 年百度推出了新程序:百度新闻搜索。根据用户的历史数据真实地分析用户的兴趣[16]。 主要工作流程如下:首先,每天对新闻信息的关键字分类进行分类和更新。 由于正在处理大量新闻,更新的频率要快得多,远远超过其他网站。 用户可以通过地域关键字人们普遍关注的热点话题来寻找相应新闻信息。
需要集成在线个人图书馆和知识管理平台。通过 360doc 网站实现社交功能,把优秀的文章、信息添加到收藏夹,分享到朋友圈,甚至达成文档在线交易。与此同时,该网站的注册用户数量达到 300 多万,文章数量达到数千万[17]。但是还应清晰地意识到,优质的文章数量还是太少。个性化推荐对于解决这一棘手问题尤其重要[18]。文章间的相似度通过系统筛查分析整理之后根据用户的收藏和搜索记录进行优质推荐。一是推荐感兴趣的文章信息。 第二是推荐具有相同兴趣的朋友。
第 2 章 相关技术综述
2.1 推荐系统概述
传统新闻的传播方式使得每个新闻阅读者看到的都是一致的内容,有些千人一面。其主要原因是刊登在报纸上或者是门户网站上的新闻都是基于新闻类别进行不同板块的划分,选取的新闻素材相同,编辑分类也趋于一致。
推荐系统所研究的核心问题是如何挖掘用户偏好,建立一个用户画像模型用来预测用户喜好程度。系统主导用户,为用户提供信息高低排序,培养阅读习惯,以此引导用户行为,使得用户越来越依靠网站,提高用户使用忠诚度[20]。
推荐系统使得无效信息不可能在用户的视野中累积。重要的是主要解决了 Internet上信息过载的问题,并通过推荐系统过滤 Internet 的信息。与此同时,从用户的使用数据中获得用户的兴趣偏好,进而分析这些数据,为用户推荐相关信息。是为了保障用户在获取信息的过程中,能够极大地满足个人需求。这需要用户需求和资源之间建立推荐机制,这是系统的最大价值。
2.2 推荐技术研究现状
2.2.1 协同过滤推荐技术
(1)基于物品的协同过滤(Item-based)。
基于物品的协同过滤侧重于基于物品的推荐。例如天猫商品、当当网书籍等。该算法实现的基础是需要在用户会对自己感兴趣东西的相似物品产生一样的兴趣,关键是根据物品与物品之间相似程度进行分析[21]。
那么使用什么方式去度量物品与物品之间的相似性重要的研究方向,余弦相似度算法是目前为止已经得到证明的算法,并且已经得到了有效验证。针对于新闻,世界各地每时每刻都会产生海量的新闻,而且用户在阅读时都有一种泛读的特点夹杂在其中,将每一篇新闻单独看作一件物品进行推荐,那么推荐结果的精确度就显得十分重要了。
(2)基于用户(User-Based)的推荐
基于物品的算法与基于用户的算法的产生是相对的,他们的侧重点不同。基于用户是侧重于搜索相似用户,将用户之间具有关注的相似兴趣事物推荐给用户。它的逻辑思路是根据不同的用户行为历史数据进行分析,根据分析结果筛选出具有相似性的用户,将具有高度相似性的且未推荐的事物集合向用户推荐。主体是用户与用户之间的相似度,找到用户感兴趣的相似内容,分析用户的评论、点赞等,找到相似且评论、点赞程度最高的内容推送给用户。
像这种直接的逻辑思路经常出现在日常的生活场景当中。例如,两个人之所以能够成为朋友常常是因为他们有相同的兴趣和爱好,就浏览新闻而言,他们对同一类型的新闻产生兴趣的概率大于任意两个人具有相同兴趣的概率。如若任意的两个人对同一类新闻都产生了极大的兴趣,那么,两个人极有可能具有相同兴趣点,可能会对对方感兴趣的新闻产生兴趣[22]。
第 3 章 系统的需求分析 ............................. 9
3.1 系统非功能性需求分析 ........................................ 9
3.2 系统功能性需求分析 ......................................... 9
第 4 章 系统的总体设计 ............................... 15
4.1 系统的总体模块设计 .......................................... 15
4.2 数据库设计 .................................. 15
第 5 章 系统的详细设计 .................................. 25
5.1 新闻展示模块设计 ............................ 25
5.2 后台首页模块设计 ............................. 25
第 7 章 系统的测试
7.1 测试方法
使用黑盒测试方法中的边界值测试以及等价类划分,进行功能性测试。目的是为了检查本系统的功能设计是否可以根据需求正常使用,对功能和数据的操作是否可以反馈出正确的输出信息,各个业务流程能够满足用户需求。主要是手工对系统进行测试。
第 8 章 总结与展望
8.1 总结
本系统首先分析新闻的文本信息,系统自动对新闻消息提取关键字,组建一个包含用户兴趣指标的数据集,通过历史行为数据,构建用户阅读兴趣模型。然后通过用户画像模型分析得到一个关联内容的权重排序的集合结果,向用户推荐新闻。
本文完成主要工作如下:
(1)对本系统用到的技术进行了详细的介绍,包括开发框架、开发模式,所使用的数据库,使用到的推荐技术,之后对系统进行了需求分析,包括功能性需求分析、非功能性需求分析。
(2)根据本文使用用户兴趣相似性的模型,对推荐系统进行整体构思,包括总体模块功能设计、数据库设计、详细设计。详细的讨论了以用户为设计中心的设计理念。
(3)对新闻推荐系统进行了详细的实现和测试,主要从测试方法、测试环境、测试用例三个方面进行阐述。
参考文献(略)