1.1 研究背景
互联网的迅速发展使事件消息的传播不再受到空间限制,传播范围越来越广,传播时效性也越来越强,这就可能造成了事件之间的模仿效应,事件与事件之间不再是独立存在,一个事件可能如蝴蝶效应一般触发另一个事件[1]。因此,了解这些突发事件在互联网上的触发、传播机理,找到相关事件间的影响关系和共性,进而预测并控制事件发生是意义重大的研究课题。 电子足迹数据本指人们真实世界中地理足迹在电子世界的映射,而随着互联网的发展,人们在赛博空间中的行为越来越趋于多样化。除了传统意义上的GPS 数据,对于浏览新闻网站,回复论坛帖子,发表微博等个性化社交行为也可以被引申为电子足迹,这种电子足迹数量庞大,突破了传统的无感情色彩的缺点,反映人们在生活中的关注点与情感,为本文的事件挖掘工作提供了数据基础。有效的利用这些数据并建立知识挖掘领域模型,并将数据转换成对我们有用的信息和知识是极其重要的。数据挖掘就是指从大量数据中通过算法搜索隐藏于其中信息的过程。数据挖掘利用了来自统计学领域的抽样、估计和假设检验,人工智能、模式识别和机器学习领域的搜索算法、建模技术和学习理论。同时也迅速地接纳了来自其他领域的思想,包括最优化、进化计算、信息论、信号处理、可视化和信息检索。数据挖掘技术曾成功的帮助 Credilogros Cía Financiera S.A.改善客户信用评分,帮助 DHL 实时跟踪货箱温度,在其他各种需求包括数据统计分析、预测预警模型建立、网络数据媒体数据分析等都有较好的应用及效果。因而根据数据具体属性,找到挖掘事件关联关系并进行预测的数据挖掘办法是可行的。
...........
1.2 问题分析
突发事件的发生有些是有组织有预谋的群体性破坏行动(近期越来越呈现离散化发生趋势),有些可能是经由某些社会因素影响(诸如媒体大规模报道、网民舆论传播带来的启发和情绪影响等)发酵形成的个体行为,个体行为导致的事件一旦形成模式,危险性不亚于群体性事件。而由于非结构化数据的文本处理困难以及人的思想与情感极强的不确定性,对于由人主导的事件之间关联关系挖掘还处于起步的定性阶段,量化分析较少,主要集中在对其传播特征的挖掘及应对上[2][3]。只有极少的分析突发事件的发生机理[4]。本文通过分析领域目标及领域工作流提出了突发事件关联关系本体模型及关联关系的分析方法,同时利用已有数据从以下几个方面对几类特定事件的关联因素进行挖掘与定量分析: (1) 挖掘同系列事件间的相互触发关系和传播影响因素。 (2) 挖掘不同系列事件间的可能关系、影响因素和共性。 (3) 对突发事件的发生进行预测。 确定领域目标及领域方法后,如何构建数据基础的问题呼之欲出。对于海量异构多源的数据,屏蔽数据差异,构造可扩展可配置高并发的任务框架尤为重要。其中涉及框架设计思想以及并发技术基础。策略模式定义了一系列的算法,并将每一个算法封装起来,而且使它们还可以相互替换,让算法独立于使用它的客户而独立变化。利用策略模式可以将数据转化为独立任务,提交至任务框架。而并发技术可以有效地提升服务器的响应能力,提高系统资源的占有率。利用现有并发线程库,可以构建高效的并发任务框架,将任务的提交与处理过程分离,实现对于数据高效的聚合与处理。
.........
第二章 相关研究
突发事件与电子足迹数据都具有极其明确的时间属性,因此本文对于事件关联关系的相关分析采用时间序列的分析方法。本章将介绍时间序列技术发展现状,同时对实际分析过程中所需要的计算因子的相关研究。首先,从理论角度对关联关系分析所使用的时间序列分析方法研究进行回顾、分析与对比,最后对于分析中所涉及的计算因子网络话题热度与话题情感倾向的相关研究进行简单阐述。
2.1 时间序列分析
时间序列是指一串按时间先后顺序排列的而又相互关联的数据序列。从统计意义上讲,时间序列指时间序列数据“Time Series Data”,即将某个指标在不同时间上的统计数值,按时间的先后顺序排列而成的数列,常用的宏观时间序列有三种频度:月度、季度、年度。从数学意义上讲,时间序列是随机过程一个特例,即由有序的随机变量组成的序列。从系统意义上讲,时间序列就是某一系统在不同时间上的相应,即系统在不同时刻的状态值。时间序列可以按照四个方面对其进行划分: (1) 按所研究对象多少划分:一维时间序列与多维时间序列。 (2) 按时间连续性划分:连续型时间序列与离散型时间序列 (3) 按时间序列的统计特征划分:平稳时间序列与非平稳时间序列,平稳时间序列又分为严平稳与宽平稳时间序列。 (4) 按序列的分布规律划分:高斯型时间序列与非高斯型时间序列。高斯型时间序列指服从正态分布的时间序列,非高斯分布即非正态分布的时间序列。
.............
2.2 网络话题热度研究
在热点话题的识别和追踪中,一种直观的方法是对话题的热度进行量化,当前根据关注重点的不同产生了不同的计算方法。 面向互联网海量的新闻网页,由于新闻文本具有比较大的冗余性,而且其数量庞大、更新速度较快,更重要的是文本异构性——不同类型网站的网页和结构有极大的区别,使得能够用来量化热度的特征种类较少,通常只能利用话题在一定时间内被报道数占总报道量的比例进行计算[18, 19, 20]。然而对于论坛[21]、博客[22, 23]以及特定的门户网站的新闻网页[24, 25]等采用的是特定类型的热度计算。由于同类型的网页具有较为相同或相似的结构特点,因而可以有更多的特征进行提取与分析。 在可以获得的网络信息中,一个话题往往伴随着大量可获得的记录(新闻报道与 UGC 记录),从这些记录中能够获得话题相关的信息包括:该话题总记录数、记录的开始时间、记录被点击查看的次数、记录被评论及回复次数、记录被回复的时间等。对于当前已经存在的相关记录而言,由于可能存在的信息不完整性,对其热度的量化也有一定的不准确性,只能够依据可以提取到的信息最大程度地进行还原。在此方面国内研究较少[26],现有的量化方法一般通过考虑记录浏览数量、评论及回帖数量、话题包含的记录数这些不同的指标,根据实际情况选取对应权重来计算,而文章[27]将用户活跃度也作为热度量化的一个指标,结合其他已有指标,提出基于用户活跃度的话题热度计算方法,防止了热度量化值的失真。
..........
第三章 基于电子足迹数据的突发事件关联关系分析模型 ............12
3.1 领域模型构建 ............12
3.1.1 领域目标 .....12
3.1.2 领域任务流 .........13
3.1.3 领域本体模型 .....14
3.2 计算因子定义 ............16
3.3 本章小结 ............20
第四章 突发事件关联关系分析及预测 ............21
4.1 数据集与预处理 ........21
4.2 同类事件关联关系分析 ............22
4.3 异类事件关联关系及共性 ........29
4.4 事件预测 ...........33
4.5 本章小结 ............33
第五章 面向突发事件的共享平台体系结构设计 ............34
5.1 系统结构 ............34
5.2 业务模型 ............35
5.3 角色模型 ............39
5.4 技术架构 ............42
5.5 模块 API ............49
第五章 面向突发事件的共享平台体系结构设计
突发事件不断发生,构建具体信息共享平台以提供事件的检索、展示与分析等服务有利于事件信息的整合与共享并为社会管理者提供预案与决策支撑。在本章中,主要讨论面向突发事件的平台设计,包括平台系统结构、平台业务模型、平台角色模型、平台技术架构以及部分构件的 API 设计。
5.1 系统结构
案例指人们在生产生活当中所经历的典型的富有多种意义的独特事件陈述。在本领域中,每个独立的突发事件被定义为一个案例。将爬取的互联网电子足迹数据及其他数据来源获得的事件相关信息整合为所有独立事件的一个案例库,提供案例检索、展示、挖掘以及定制等服务就是平台的设计目标。 图 5-1 表示了平台的系统层次结构以及各个层次交互的情况,各个层次规定了明确的功能任务。最底层是数据获取层包括数据源和数据的定义。之后,从源数据中通过案例抽取将独立案例抽取出来是案例抽取层。知识挖掘层是利用第三章所述模型在抽取出的案例的基础上进行案例知识挖掘。最后在平台已有的数据及信息资源的基础上构建面向用户及开发者的应用与服务。当前案例的电子足迹数据源主要分为网页爬取历史新闻数据、半结构化RSS 定时案例数据、用户众包数据以及静态数据库异构案例数据。 互联网爬取的数据包括非结构化的历史网页数据以及半结构化的实时 RSS数据。为保证数据真实可信,本文通过评定网站公信度来决定是否选取该网站作为种子。通过一系列调研与评定,对于历史网页爬取,本文选取了国家级与省市级别的面向突发事件的新闻官方网站。
............总结
本文首先回顾了时间序列分析