第一章概述
本章主要介绍本文研究内容的应用背景、国内外相关研究的发展现状、本文主要研究内容以及本论文的全文结构安排。
1. 1应用背景
互联网行业的发展使得世界发生了翻天覆地的变化,而微博的产生更是在网络新世界出现的一座划时代的里程碑,改变了人们获取和分享信息的方式,网络文明从此进入了“微时代”时期。
微博是一个由用户行为产生的关于世界各种事件的巨大的库,人们可以通过手机、网页等浏览行为在微博这个平台上通过简短的文字或者媒体文件交流。Mardi et al. 研究表明,人们使用博客的动机主要有用户希一望分享一个人的生活信息、对某些事情提供评论或者意见、表达自己的感情或者想法,或者是单纯的想与社会交流等。如微博上某一用户曾发表微博评论“人有善恶,当行己有耻;权有美丑,应关进笼子里!(2012年4月11口)”来评论另外一个用户对权力滥用的看法,或者另外一个用户发表“Buena victoria la de hoy. Creoque estamos jugando bien y quedar a un punto del Madrid es importante a esta altura de la Liga今天我们赢得很棒。我认为我们踢得很出色,在西甲目前的这一阶段距离皇马只差1分非常重要。(2012年4月11口)”来分享自己的球赛等。据2010年DCCi互联网数据中心‘数据统计显示,微博常用功能偏向话题讨论与信息获取,超过50%的微博用户倾向于关注热门信息、即时信息,将感兴趣的信息转发,关注热门话题的用户达到了57. 2%,形成以人为中心的自媒体,在时间上,96. 1%微博用户平均每天花在微博上的时间不超过两个小时,66. 88%的用户使用时间为0. 5小时及0. 5小时以下,而互联网的信息则千变万化,如何在纷乱繁杂的微博信息中最快的获取有用的相关信息成了改善用户体验的关键,而通过统计关键词聚合信息能节省用户的时间,使用户高效的获取有用信息。
信息获取和分享方式的改变推动了阅读聚合应用的发展,从进入“微时代”开始,就有各种信息聚合i具专注在微博信息这一领域上,如Twitinfo,Vox Civitas, Narratives, FlipBoard"等等,但是这些具普遍使用在关注同一事件的发展历史信息,如Twitnfo事件聚合具等,或者是关注于某一片领域,如Vox Civitas, Narratives等这类专注于新闻、媒体或者是其他同一领域事件的具,或者是只关注十用户个人的微博信息聚合,如Flipboard, Eddi等这类个人信息重组和聚合的i具,这些具对于事件中相关联的信息挖掘却鲜有涉足,这些具虽然对信息有了一定的聚合,但是对于事件的相关联系并没有挖掘,因此用户在浏览微博时获取的信息依然比较单一,如何在短时间内获取更多更大范围的相关和有效信息,改善用户体验,增大用户的信息获取量则是在微博信息关系网络这个领域中待解决的问题,从6度人脉关系网络的思路出发,信息关系网络或许将会是新型的信息关系空间。
第三章 基于用户行为的微博信息........19-37
3.1 基于用户行为的微博信........ 19
3.2 微博用户浏览行为分析........ 19-20
3.3 增量式微博文本搜索........ 20-24
3.4 微博关键词分析........ 24-31
3.5 热词关系可视化........ 31-36
3.6 本章小结........ 36-37
第四章 基于用户行为的微博信........ 37-63
4.1 基于用户行为的微博........ 37-40
4.2 数据采集端分........ 40-47
4.3 可视化展示端........ 47-57
4.4 基于用户行为的微博........ 57-62
4.5 本章小结........ 62-63
第五章 总结与展望........ 63-65
5.1 总结........ 63-64
5.2 展望........ 64-65
总结
本文实现了基于用户行为的微博信息聚合的可视化系统,针对用户使用微博时对话题粘性词条的关注度,实现了从微博数据收集、网页内容提取、数据过滤、信息分解到可视化视图生成的完整过程。
本文实现了基于用户行为的微博信息聚合的可视化系统,主要完成工作包括:
1.实现了数据采集端的所有流程:根据用户使用微博的行为,本文研究对象为用户使用微博时对微博信息中特定词条关注度的行为,从设计微博信息聚合的可视化系统。系统从新浪微博的APi处获取最新热门话题,并将话题作为关键字进行微博搜索,然后提取搜索结果中的有效微博信息,并对信息进行清洗,最后分解微博,提取出话题中的相关词条。为可视化系统准备了有效的显示数据。