第一章绪论
1.1研究背景与意义
在现代社会中,网络媒介在信息传播领域的影响力越来越大。网络技术的发展已经把新时代的人类带入信息时代,促进社会观念和人类的产业结构发生巨大变化。信息逐渐成为一个国家的财富基础,我们正逐渐从传统的物质消费为主变为信息消费为主[1],而在这个过程中,以微博为代表的社交媒体的出现正加速了这一转变过程。
社交媒体作为Web2.0时代技术的产物,其兴起最初是从2006年的美国,Twitter的产生带动了这一变局。截止到2013年年底,Twitter在过去七年多的时间里全球注册数量已经超过10亿。Facebook,作为美国的又一典型社交媒体,截止到2013年12月,在过去九年多的时间里,注册用户也超过10亿,而且保持每个季度4500万的新增用户数量,每R平均活跃用户数量达到7.57亿。而在国内,截止2013年年底,中国网络微博用户已经达到2.81亿,而且还在保持着快速增长的势头,每円的活跃用户也达到了 10%。很多社会各界名人、企业都在新浪微博上开设自己的账号,这无疑也加速了微博的发展。随着移动互联网的发展,任何人可以通过手机客户端、短信、电脑等方式,随时随地的发布微博。从2010年的青海玉树地震,到2011年的甬温线动车事故,微博以其特有的便捷性、原创性和实时性凸显了其传播优势。
例如图1-1所示,这是新浪微博上一个很热门的应用,叫做微博集体照。照片中的头像均代表各个微博用户,此照片的意义是其中的微博用户因联系紧密或兴趣相同,可能存在于同一个“社区”中。由照片中微博用户的真实身份可以看出,这些人的兴趣大多与计算机相关,特别是信息检索和自然语言处理。因为这些人具有共同的兴趣爱好,会有共同讨论的话题,在微博网络中具有复杂的关注关系,所以会组成这个微博集体照。在微博网络中,人际关系和现实情况一样,会形成一个个虚拟的社区。在社区内部,人们联系紧密,会有共同的兴趣与爱好,具有共同讨论的话题。
最近的研究显示,确实有一些微博用户关注一些人是因为共同的兴趣爱好,而不是简单的追求关注粉丝数量的增加。研究如何在微博客网络中进行社区发现,具有重要的学术价值和实际应用价值。随着网络技术的发展,网络规模变得越来越庞大,而如何在大数据环境下设计出高效的社区发现算法成为现在国内外研究人员的目标。同时,微博网络中的社区发现可以帮助人们发现各种潜在的关系,在监测社会舆论发展和定向广告推送方面具有很重要的实用价值。
随着微博的普及,越来越多各个文化背景、各个年龄层次的人在实用微博,这也就是说微博消息中包含着各种各样的主题。微博消息仅限于不超过140个字,属于典型的短文本类型。由于微博发送方式多样化,每时每刻都会有大量的微博内容被发布出来。根据新浪公司的统计,每天大约有1亿条的微博消息被发出来。但现在的搜索方式还仅限于文本匹配。由于微博公司对于数据安全性的考虑,收集、查询、分析微博数据具有很多现实困难。首先,仅仅利用微博公司提供的An检索所有的微博是相当困难的;其次,因为微博消息被限制为不超过140个字,所以用户在发布消息时会精简自己的语言,或者过多借助于表情符号来表达自己的想法。这样使得单纯使用简单的自然语言处理工具来分析微博语义很困难。第三,微博世界和现实世界一样,是一个动态变化的过程。综合各种考虑,一个微博检索模型应该集合语言分析技术和复杂网络知识[2]。
.....................................
1.2本文的主要研究内容
本文的创新点在于把对微博复杂网络的研究和微博内容的研究结合起来,弥补了单一方法在微博信息检索方面的缺陷。本文主要研究在微博社区发现和主题模型等理论的基础之上构建微博信息检索系统。通过查询扩展可以得到更多与查询词相关的微博内容,通过社区发现找到微博网络中关系密切的一群人,通过利用发布和转发微博消息的主题模型来得到微博用户的兴趣模型和微博社区的兴趣模型,进而可以检索与关键词相关的微博消息、微博用户,并可以推荐与微博用户兴趣相近的人和微博用户可能感兴趣的微博内容。具体的研究工作包括:
1、提出一种新的微博社区发现算法Label-Influence-Algorithm(LIA)。LIA算法考虑到社交网络中人与人之间的关系,即一个人的朋友中大多数属于一个社区,自己也很大概率属于这个社区,同时借鉴社会学的研究,在发现微博社区时考虑到用户的影响力。微博中用户的粉丝数目并不能客观反映用户的影响力,还需要考虑关注数目、评论数和被提到的数量等,即重点需要考虑如何排除“僵尸粉”。
2、微博社区用户兴趣模型建模。本文利用微博用户所发布和转发微博的主题模型来表示其兴趣模型。由于微博消息限定为140个字,属于典型的短文本内容,所以单纯的主题模型效果很差。在一定的时间段内,微博用户的兴趣相对固定,而社区内的用户也具有相对固定的话题。对于每个用户,利用其发布和转发微博内容的主题模型来构建微博用户-主题模型,得到用户的兴趣模型;对于每个社区,构建社区-用户-主题模型,得到社区的兴趣模型。
3、构建微博信息检索系统。本系统主要有查询功能和推荐功能:在查询功能中,可以基于查询词查询扩展之后得到与其相关的微博用户和微博内容;在推荐功能中,检索微博用户得到与其兴趣相同的其他用户和可能感兴趣的微博内容。
1.3论文的组织结构
本文共分为五章内容,其中包括:
第一章主要阐述微博信息检索的研究背景与研究意义,同时概括了文章的主要研究工作和论文组织结构。
第二章介绍了信息检索方面的相关研究工作,以及国内外在微博、Twitter等应用方面的相关工作及其原理。主要包括信息检索的基本概念、模型和技术、微博社区发现、LDA主题模型、微博主题发现和微博信息检索系统等方面的研究工作和几种典型的方法,并对各种方法的原理进行了分析。
第三章着重介绍了微博信息检索系统的两个重要的模块,包括微博社区发现模块和微博用户兴趣模型发现模块。利用Label-Influence-Algorithm(LIA)算法得到微博网络中的虚拟社区,对于每个用户,构建微博用户-主题模型,得到用户的兴趣模型;对于每个社区,构建社区-用户-主题模型,得到社区的兴趣模型。利用微博用户所发布和转发的微博内容的主题模型来表示其兴趣模型,通过计算两个概率分布的相似程度来得到与查询用户兴趣相同的其他用户和其可能感兴趣的微博内容。
第四章构建微博信息检索系统。将微博社区发现和微博用户兴趣模型发现,以及基于Hownet的查询扩展应用于微博信息检索系统中,主要包括查询功能和推荐功能。在查询功能中可以基于查询词查询扩展之后得到与其相关的微博用户和微博内容;在推荐功能中,通过检索微博用户的昵称,得到与其兴趣相同的其他用户和可能感兴趣的微博内容。
................................
第二章相关研究工作
随着网络技术的发展,网络上的资源越来越多,这就凸显信息检索技术的重要性。如何从海量的网络数据中快速找到满足用户需求的数据成为现代计算机的研究热点话题。本章主要介绍了信息检索方面的基本概念和国内外对于微博、Twitter等社交媒体进行信息检索的相关研究和系统开发。
2.1信息检索
2.1.1信息检索相关概念
信息检索这个词最早出现于19世纪40年代美国学者莫尔斯的论文——《让我们这样想象》中,但信息检索的理念进入人类思维要远远早于这个时间。随着信息技术和网络技术的发展,互联网成为现代社会人们获取最新资讯的重要途径,而互联网的信息量也随之呈现爆炸式的增长。由于信息量的急剧增加,用户查询感兴趣的内容就变得非常困难。现代意义上的信息检索技术就是为了从海量的计算机信息中找到用户需要的数据[3]。国外的谷歌以及国内的百度的成功给人们带来了巨大的便利,人们在信息时代已经习惯于在信息检索工具上获得知识,但随着信息时代的继续发展,网络中的资源总量在不断的膨胀,传统的信息检索模型已经不能满足人们的检索需要,所以人们在不断的改进检索方式,来提高用户体验的满意度。
信息检索技术涉及到数据库管理、自然语言处理、机器学习等多学科,其基本的技术包括:网页下载、文档处理、索引以及现在普遍应用的分布式文件系统等。
一般来说,信息检索可以理解为:用户在检索系统中提交检索词,系统根据检索词在资源库中查询出与该词相关的文档集合,并按照文档与检索词相关性的高低返回给用户。图2-1表示信息检索的体系结构。
经典的信息检索模型通常用一组词来表示文档,用来帮助人们理解文档的主题思想,而这组关键词通常由名词组成,这其中最为著名的模型有:布尔模型(Boolean)、向量空间模型(Vector Space Model)和概率模型(Probabilistic Model)。
布尔模塑是基于布尔代数和集合的理论基础,它定义查询词(wtj)或者与文档相关(即Wij=l),或者与文档不相关(即Wij=0) [4]。布尔模型通过文本向量与用户的检索向量进行逻辑比较,用户的检索向量也是一个布尔表达式,由布尔运算符与(AND),或(OR)和非(NOT)连接起来的多个查询词组成。文档dj和查询q的相似度可以定义为:
如果布尔模型运算结果Sim(dj,q)=l,则表示文档dj的内容和查询q是有关系的,Sim(dj,q)=0,则表示文档dj的内容和查询q是没关系的。布尔模型的一个突出优点是运算简单、处理速度快,可以高效的处理一些具有结构化的语料库。
空间向量模型对查询词和文档赋予多值权值,用权值来计算文档和查询之间的文本相似度,并按照相似度的高低排序反馈给用户。