市场营销论文栏目提供最新市场营销论文格式、市场营销硕士论文范文。详情咨询QQ:1847080343(论文辅导)

在半监督学习的基础上微博情感分析方法探究

日期:2018年01月15日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:1213
论文价格:150元/篇 论文编号:lw201408261514035869 论文字数:29157 所属栏目:市场营销论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

第 1 章 绪论

1.1  研究的背景及意义
1.1.1研究的背景
随着 Web2.0 的快速发展,互联网上出现了大量的社交服务平台,信息交互与知识聚集逐渐成为 Web 发展的主流趋势。信息交互衍生出了在线网络与社会计算等概念,以及不同的平台,如博客、维基、点对点网络、开源社区和在线商业网络。许多流行的在线网络得到了快速的、引人注目的发展,例如有着惊人的成就的 MySpace、YouTube 和Facebook。其中,微博平台以其即时分享和快速传播等特点得到了快速的发展。此外,在线网络具有自组织特征和一定的复杂度,随着网络规模的增大,其中出现了许多一致的模式,这使得其中聚集的信息蕴含着极大的价值。
“微博”一词意指一种信息媒介,通常以短文本进行连续性的信息发布,如发布会议和演讲内容[1],或是突发事件。通过微博平台发布的信息会即时推送给发布者的听众,非发布者的听众可以浏览发布者的主页来查看信息更新。微博平台中,除个人信息和观点外,还有大量的组织机构,发布特定领域和内容的信息。微博信息的多样性和用户的增长,在蕴含着庞大的社交网络的同时,使得微博信息的检索变得更加困难。虽然微博正不断的流行,但其信息的组织和有效的访问仍有待研究与发展。
2009 年 8 月,新浪网推出了“新浪微博”内测版,成为第一家提供微博服务的网站。在此之前,2006 年 3 月,埃文·威廉姆斯,也就是博客技术先驱、blogger 创始人,其创建的新兴公司 Obvious 首次推出大微博服务。在最初阶段,这项服务仅用于向好友的手机发送文本信息,而如今,微博已经可以共享图像、视频等多媒体信息。2010 年 4 月,Twitter的注册用户为 1.06 亿,每月有 1.8 亿的独立点击量[2],2013 年,其注册用户已达 5 亿,每日发布微博达 3.4 亿条。2011 年,中国的活动微博用户达到了 2.54 亿。微博的异军突起,在一定程度上改变了在线网络的格局和演化趋势。
伴随着在线网络的发展,大数据逐渐成为互联网信息技术行业的流行词汇,传统的关系数据库已难以胜任当今的海量数据处理的要求[3]。“大数据”的发展同时增加了对信息管理的要求。诸多行业巨头相继推出了针对大数据的应用与服务,如 IBM的 ELS 和 Netezza、Oracle 大数据机。
2003 年以来,Google 陆续公布了一系列高可扩展、高性能的分布式数据处理框架,包括 GFS、Map/Reduce等。Map/Reduce 是一个编程模型,用以在 GFS 等分布式存储系统的基础上处理超大规模的数据集。采用 M/R 架构可以使那些没有并行计算和分布式开发经验的程序员有效利用分布式系统的丰富资源。Google 的分布式技术的成熟,推动了 Nutch 的子项目 Hadoop 的形成与发展,后在雅虎公司的资助下,得到快速的发展,至今已形成了成熟的生态系统[4]。在 Hadoop 发展成熟的过程中,采用 Map/Reduce 编程模型及类似框架的系统也得到了广泛的部署和应用。基于分布式计算的云计算同时得到了快速发展,2003 年“云计算”的概念提出以后,至今已发展出许多成熟的云平台与云服务,著名的有 AmazonAWS、GoogleApp Engine,IDECloud9,Web 服务器 RedHat OpenShift、Heroku,云服务有Loggly、ZOHO 等。
语言和文字既是信息、知识、文化的载体,也是文化的组成部分。而在自然语言处理方面,相对于国外,国内的发展起步相对较晚,汉语所固有的一些特征也使得中文信息处理具有一定的挑战性。近年来,随着在线网络的发展和 Web 中数据规模的增长,自然语言的处理成为计算机科学与语言学交叉领域研究的热点[5]。在中文信息处理的发展过程中,形成了丰富的语言资源库,除了本文使用的同义词词林、情感词汇本体之外,还有大量的资源如词性标注库、句法树库等。丰富的资源库为自然语言处理的研究奠定了基础,许多技术,除基本的分词、词性和句法分析之外,实体抽取、关联分析、语义分析等技术也出现了大量的应用。
..........................

1.2  国内外研究现状及评价 
在互联网这个虚拟空间中,大量的信息是以文本为载体,其中,除去少量的代码和表格等信息,大量的文本符合以词法句法为基础的自然语言。而在线网络中的用户交互信息更是如此,如评论数据、微博数据,大量的情感和观点就蕴含在文本信息当中。如何抽取在线网络中的观点和情感并进行识别分类,本文首先从微博信息处理、文本情感分析及相关技术等方面介绍当前国内外的研究现状。
1.2.1微博信息处理
随着微博的流行,运营商推出了多种客户端和相关工具,以及开放的 API,如腾讯开放平台1。不仅是微博,许多流行的在线网络均有开放的 API,如 Facebook、LinkedIn[11]。但微博信息的发布与传播仍以网页为主要的载体,检索微博页面并从中抽取微博文本及其评论是获取微博信息的主要途径。此外,微博运营商提供的 API也有获取用户信息、微博评论及听众信息等功能,但 API 主要面向微博应用的开发者,具有一定的限制。
近年来,国外关于在线网络及社会计算的研究主要基于 Twitter、Facebook 等在线网络及其 API[11, 12]。Matthew[13](2011)对在线网络资源分析做了大量的研究和实践,包括 Facebook、Twitter 和 LinkedIn 和其他在线网络。通过数据挖掘、分析和可视化技术来回答下列问题:在线网络中谁与谁相识、谁是最安静的人、人们在谈论谁等等。同时,回答这些问题需要连接两个或更多的人,分析用户连接网络,而什么又蕴含了这种连接。Matthew 将在线网络看作一张有人、活动、时间和概念等结点组成的图来解决上述问题。
Miles 等[1](2011)介绍了微博信息检索系统的研究者与开发者所面临的问题,认为微博中信息查询与管理不是一个平凡的任务,其中存在诸多尖锐的问题,如:关于一个主题有数百万条微博,哪些是权威的、有质量的,对于产品的评论,尤其是对立观点,哪些是可信赖的。Arifah 等[14](2011)研究对用户信息需求的处理,如何查询最有趣和最相关的信息。此外,Arifah 提出的 LiveTweet 还处理了微博信息的两个问题:稀疏性及其对文档长度标准化的影响,评估内容质量问题,同时提出了寻找与给定查询主题最近和最有趣的推文的方法,忽略长度归一化,使用兴趣度作为静态质量度量。Pfahringer 等[2](2010)研究对微博信息资源应用数据挖掘技术,分析了微博数据流带来的挑战,同时提出一个滑动窗口 Kappa 统计来计算预测的准确度,避免频率较高的类在预测准确度中比重过高的问题。
国内方面,张剑峰等[15](2012)和文坤梅等[10](2012)相继对微博及其文本处理做了综述性研究,内容包括研究现状、文本数据集、微博社会网络的特征分析和语义分析等。樊鹏翼等[16](2012)进行了微博网络测量的研究,结合已有的在线社会网络测量结果,对新浪微博的网络拓扑和用户行为特征进行了分析和比较。杨亮等[17](2012)研究了微博热点事件发现,通过分析时序中相邻时段之间情感分布语言模型的差异,实现了热点事件的发现。
微博文本信息表达的多样性也是微博信息的处理变得更复杂,其文本中的缩写与一词多意等现象影响了微博数据挖掘的性能。Tang 等[12](2012)分析了这类问题的原因,提出了一种扩展的短文本表示框架进行跨语言知识融合并使用矩阵因子分解来降低特征维度。扩展短文本的特征维度得到了广泛的研究,主要是基于已有的语言资源库,如 Wikipedia、同义词词林,以及下文将提到的 WordNet 等。当然,扩展后的高特征维度问题也得到了广泛研究。
在线网络发展的过程中,其信息处理技术的应用除了上述的评论抽取外、信息检索之外,还有当前流行的舆情分析和观点挖掘等。从上述研究现状可看出,微博信息处理与传统 Web 信息处理不同,微博用户连接具有复杂性,不同于受众接收新闻信息。微博信息处理研究中的大量的方法均以自然语言及文本处理为基础。相对于在线网络的研究,自然语言及文本处理要更早,方法也更成熟。
..............................

第 2 章 基础理论与技术

在线网络的知识发现涉及大量的理论与技术,用以解析、表示 Web 数据,提高算法性能与效率。本章阐述微博情感分析涉及的理论以及部分本文所使用的技术,主