1绪论
1.1研究背景与意义
1.1.1数据挖掘技术背景
上个世纪八十年代,为适应信息时代对于不断增长的海量数据的分析与判断,数据挖掘的概念被提出,其运用了多类学科的知识,包括人工智能、计算机技术、数据库技术、数理统计等,能够在大量的、不全面的、有干扰的数据中分析、提取并发现人们可能感兴趣的规则、模式。随着30多年的发展,数据挖掘技术从一种概念经历了理论的完善、算法的成熟到应用的成功,在算法上,数据挖掘技术已经拥有了很多种适合不同情况不同数据源的算法,包括关联分析、聚类分析、分类预测等中多种数据挖掘算法,在应用上,数据挖掘技术在金融、电信、物流、零售、电子商务等领域中取得了成功[1],只要有数据积累的地方,包括关系数据库、数据仓库、多媒体数据库、文本数据库等,数据挖掘技术就可以被应用,领域可以说是非常广泛,它在其他领域的应用研究也在不断得被提出与完善。本文试图将数据挖掘技术应用到在微博等相类似的新兴社交媒体上,通过对微博用户海量信息的分析与挖掘去发现微博用户群体兴趣。
1.1.2微型博客背景
根据最新的《中国新媒体发展报告(2012)》[2]上所做描述,2010年底到2012年年中,我国使用微博的用户的总量已经由区区的6311万人猛增至2.74亿人,后者是前者的近四倍之多,可见增长之快速。每两个使用互联网的中国人中,便有一个是微博用户。而中国在2011年底一跃成为全球使用微博人数最多的国家,达到2.498亿人。另外,由于微博强大的新媒体力量,越来越多的政府机关、党政机构与单位根据自身的需要开通了微博,以新浪微博为例,截至2011年年底,已经有18132个通过认证的政府、单位微博①。
作为一种新兴的社交媒体,微博已经改变了人们的生活方式。人们热衷在微博上关注自己的兴趣,分享自己的喜好,评论流行的趋势,这也给微博数据挖掘带来了相当大的价值,其可以被挖掘很多的即时的,潜在的,有价值的知识与模式,这些信息可以被用于网络热点事件发现,网络民意调查,舆情监督,特定市场分析,销售策划等领域[3]。而数据挖掘的一些成熟的技术与方法是完全有可能应用与微博以及其衍生应用之中的。所以通过数据挖掘,找到微博及其衍生应用中用户的潜在的、有价值的信息是完全可行的,也是有前景的。微博用户行为模式近似于社区网站,其蕴含的结构化与半结构化数据中中包含了很多可发现的内容,这些内容同样可以被运用于热点发现、民意调查、市场分析等领域。
通过数据挖掘的方法研究微博的意义具体体现在以下三个方面:
(1)微博及其类似的社交媒体需要一种工具,这种工具能够发现蕴含在其中的知识与模式。微博作为目前最具规模最具影响力的新兴媒体,海量的,多样的、时效的特点使得微博上中蕴含着许多有价值的、潜在的知识与模式,这些模式需要被发现以及应用。
(2)找到用户的兴趣与对用户进行分类可以为微博用户、微博运营者与商务机构提供不同的、有利的服务,而不同爱好、不同层次与不同使用目的的用户需要个性化的信息服务。从经营角度看,微博网站的经营者与管理者的目的是使网站的经济效益与声誉提高,因此他们需要深入了解每个用户的实际需求,从而做出对网站结构、功能的改变以利于网站的运营。从微博营销的商家的角度看,用户的兴趣发现可以为商家提供可供参考的、潜在的、有价值的用户信息,这些信息经过商家的分析可以为商家带来新的商机;从用户的角度上来看,他们也是带着需求来的,而他们在使用微博以及其衍生产品中透露出的自己的兴趣爱好,其也希望能够符合自己贴身需求的产品与服务的出现。
...............................
1.2国内外研究现状
国内外有关微博的研究是一大热点,研究领域也十分广泛。相比较而言,国外有关微博用户兴趣的研究较早,也比较全面,而国内有关微博用户兴趣的研究还不够广泛,此方向学者的研究总体可分为以下几类:
基于定性的研究,这方面的研究试图寻找出能够表示出微博用户兴趣的相关要素,根据相关要素的实际研究效果来检验这些要素是否能够客观准确得反应微博用户的兴趣,而这类研究使用的方法多为观察、问卷调查与实证研究。比如JAVA等[4]指出了获取微博用户兴趣的数据集的特点,探讨了运用多种数据源进行微博用户兴趣发现的可行性,同时根据数据是否由用户主动给出提出了显式反馈与隐式反馈的概念;孙威[5]指出,在能够表示微博用户兴趣的数据集中,用户关注的微博是最能够反应真实用户兴趣的,而因为中文文本处理技术的不成熟,基于用户发布、分享的内容进行兴趣分析的效果是不够理想的。
基于算法的研究,这方面的研究多以计算机技术一种具体的算法为基础,根据微博的特点,将算法具体应用到微博用户兴趣建模上,除了可以实现微博用户兴趣发现上,还可以检验算法的实用性。比如MIHALCEL[6]从PageRank算法中得到灵感,建立了基于文本处理技术的用户兴趣发现方法;赵岩路[7]等以经典的协同过滤算法为基础,对微博用户的数据集进行特征分析,建立了微博用户兴趣模型。
基于方法的研究,这方面的研究旨在实现微博用户兴趣识别与发现,以一种研究可行的识别方法去找出用户兴趣,并进行实证分析以验证方法的有效性。比如[8]以最新的文本处理技术为依托对微博用户发表的微博与分享的内容进行化词切词,再用语义分析的方法判别用户兴趣,或构建能够标志用户兴趣的标签分类体系进行兴趣发现研究等。
综合国内学者的研究,可以发现以数据挖掘技术为基础的研究还不多,本文根据已有的研究成果,再结合微博实际的情况,提出一种以用户关注为主的微博用户兴趣群体发现与分类方法。
..................................
2数据挖掘技术概述
2.1数据挖掘技术
2.1.1数据挖掘的背景与概念
随着计算机的出现与使用,信息时代的到来了,其大大促进了人类文明的进程。在便利的同时,信息时代所致的信息爆炸成为了新的问题。为了解决新时代所带来的新挑战,人们发展了数据库技术、计算机技术、数据管理技术,计算机技术是搜集处理日常工作生活所产生的必备条件,而数据库技术则使得数据能够以需要的结构与格式存储在计算机之中,大大方便了数据的存储、使用、分析与修改,数据管理技术中的存储、检索查询、分析、事务处理等功能为人们能够初步理解运用数据产生有用的分析结果提供了必要的帮助。
尽管如此,在面对海量、复杂、变化的信息之中如何得到有用的知识与模式仍旧是一个巨大的挑战,决策者无法有效的在如此庞大的数据之中的到对其有利与有价值的知识,这也催生了对于数据理解更加高层次的分析工具的强烈需求。于是数据挖掘的概念应运而生。数据挖掘是一种能从海量的、不确定的、不全面的、复杂的数据中提取出人们可能感兴趣的知识与模式,其涉及多门类学科的知识,包括计算机科学、数据库技术、数理统计、机器学习、图像识别、数据可视化、信息检索等[9]。数据挖掘中发现的知识与模式可以大大提高人们处理信息的效率,也可以提供有价值的信息来辅助进行决策。
在上个世纪八十年代数据挖掘概念被提出到现在,数据挖掘己经从一种概念逐步经历了理论的完善、算法的成熟与应用的成功。学者与技术人员提出了很多已经证明有效与实用的数据挖掘方法,比如关联分析、聚类分析、分类预测、统计分析等,而在应用方面,数据挖掘技术已经在金融、电信、电子商务、生物研究、地理研究、医学、零售等领域成功得运用,例如“啤酒尿布”⑴的经典营销案例就是以数据挖掘技术为依托的,另外譬如依托聚类分析的金融领域的客户市场细分、反信用欺诈系统,电子商务中的用户个性化推荐,依据关联分析医学中的疾病预测,警察系统中的犯罪预测,生物学中的DNA序列相似度比较等,已经取得了有效、积极的作用。换句话说,在信息时代,由于数据不断地产生与累计,只要存在数据,数据挖掘技术便有用武之地,这也说明了这种技术是拥有广泛的科研价值与应用前景的。
2.1.2数据挖掘的过程
数据挖掘的过程可以被概括为分为以下五步:提出问题、数据收集与预处理、数据挖掘、数据挖掘结果评估、模式发现。
(1)提出问题
虽然数据挖掘技术寻找到的模式是人们事先不知道的,但是这并不代表数据挖掘是无目的性的。所以,需要事先了解这些可能被发现模式的大方向,这样有助于对整个挖掘过程有一定的把握,再根据实际情况对数据挖掘的结果进行分析。
(2)数据的收集与预处理
在根据提出问题的基础上,进行数据收集的工作,数据可以是从数据库中获得的,或是数据仓库中存在的,也可以是基于问题,有目的的进行收集。
与其他数据分析方法一样,对于收集的数据需要进行预处理以保证数据的准确性和可分析性。而具体在数据挖掘任务下,需要消除噪音以平衡噪音敏感的数据挖掘算法,需要去重复处理与遗漏处理以去除不可分析的数据,最后进行数据类型的转换以适应具体的数据挖掘方法。
(3)数据挖掘的实施
根据第一步所提出的问题,选择最适合的数据挖掘方法进行数据挖掘。
(4)结果评估
数据挖掘的结果评估是整个过程中重要的环节。这是因为以下几个原因:
数据挖掘的可能会发现的没有任何实际价值的模式,这种情况可能是数据收集与处理环节出现问题,也可能是挖掘算法本身的缺陷。当产生这样的结果时,往往要重新进行数据挖掘。另外,数据挖掘产生的结果需要进行具体化的解释与分析以使用户易于理解,所以可视化技术是必要的。
而对于不同的数据挖掘方法,也有不同的评估方法。总体上说,收集数据的有效性与算法的正确选择是保证产生令人满意的挖掘结果的必要条件,同时也可以根据具体的数据挖掘方法采用相应的已经证明有效的评估方案进行评估。
...............................
2.2数据挖掘的方法
经过多年的发展,数据