软件工程硕士论文栏目提供最新软件工程硕士论文格式、软件工程硕士硕士论文范文。详情咨询QQ:1847080343(论文辅导)

面向多通道时间序列软件系统的分层 IB 算法

日期:2018年01月28日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:1188
论文价格:150元/篇 论文编号:lw201709141901132062 论文字数:38592 所属栏目:软件工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
1 绪论

时间序列是指将某个对象的某个统计数值随时间变化的情况记录下来,并按照出现的顺序进行排列而形成的序列。时间序列是动态的,可以描述事物的变化过程,是一种相对比较复杂的数据对象。多通道时间序列是指同一个对象同时间有多个通道记录数据,如生物医学时间序列,在临床记录人类的生理状态监测时是记录在多个通道内以便提供更全面的临床资料;人类行为识别的传感信号也用多通道时间序列进行记录。作为一种特殊类型的时间序列,包含了多种从不同渠道观察得到的不同类型的集合的多通道时间序列可以存储比单通道时间序列更为的复杂信息,因此被广泛应用于多种的领域,如生物医学、人类活动识别(HAR)、情感识别等,如何有效地管理和分析大量多通道时间序列成为一个巨大的挑战。研究多通道时间序列是非常有意义的,从方法学的角度来说,可以改善目前此类研究缺乏的现状,基于某种现有方法的提出,可以丰富该方法的研究,使得该方法的应用范围进一步扩大。从现实的角度来说,多通道时间序列研究的应用价值在多个方面有所体现,例如,在医学方面,对于多通道时间序列的研究能帮助有效地管理和检查大量的生理时间序列;而对于人类行为识别,对于多通道时间序列的研究可以实现人类活动识别任务自动化的提取,有助于行为预测;另外,研究多通道时间序列也有助于识别与预测在不同情况下人类情感的变化等。

1.1 研究背景与研究现状
时间序列是指将某个对象的某个统计数值随时间变化的情况记录下来,并按照出现的先后顺序进行排列而形成的序列。它是动态的,可以描述事物的变化过程,是一种相对比较复杂的数据对象。从数据的不同特点出发,对时间序列可以给出不同的定义。时间序列的挖掘任务有多个不同的角度,而研究者们从不同的角度出发,有着不同的着重点,从而得到多种不同的研究成果。把这些已有的研究成果进行归类,可以把对时间序列的挖掘任务分为以下几个方面:时间序列的相似性搜索,即查询其内容[3]。时间序列的聚类与分类。分类是在已知类别的同时对原始的时间序列进行划分[4],而聚类对于原始的时间序列没有要求。有两种不同的分析形式可以用于对时间序列进行聚类与分类分析。第一种,首先对原始时间序列进行分割,分割的模式长度和时间粒度由用户指定,于是原始数据就被划分成等长度的或者不重叠的子序列集合,下一步就是分析这些子序列集合。第二种则是直接对原始的时间序列进行分析,或者是从原时间序列中提取多个特征,然后用这些特征来表示原始的数据并进行接下来的分析。
........

1.2 本文工作概述
本文首先对时间序列及多通道时间序列研究背景进行了介绍,并分析了目前对于研究多通道时间序列的关键问题及目前研究方法欠缺的现状。然后针对存在的问题,简单介绍一种针对多通道时间序列的改进的 Bag-of-Patterns 特征提取方法,提出一种名为分层 IB(hierarchical Information Bottleneck,简称 h IB)的针对多通道时间序列的无监督分类算法。分层 IB 算法包含两层,算法的第一层使用了自凝聚策略,以自底向上的方式把多个通道内的信息进行处理、合并,得到一个层次的特征聚类树,这种做法使得本算法能够结合从不同通道内提取的特征;第二层算法将第一层得到的特征聚类树作为输入,对原有的多通道时间序列进行划分,得到最终的聚类结果。值得注意的是,在 h IB 算法中,同层中不同通道中的信息能够相互影响、传播,同时,两层间的信息也能够相互传播,使得此算法能够充分的利用多个不同通道中所包含的信息,得到较好的聚类结果。最后,本文将 h IB 算法与传统聚类算法以及能够处理多种特征的新型的聚类算法进行了实验对比,实验结果表明本算法可以有效地解决多通道时间序列挖掘中的两个关键问题,对于处理多通道时间序列十分有优势。
...........

2 背景知识

2.1 时间序列的特征及其相似性度量
从不同的角度来看,时间序列可以划分成不同的类别。按照不同的数据类型,时间序列可以被分为数值型和类别型;按照不同的统计性质,时间序列可分成平稳型和非平稳型;按照不同的观测值维度,时间序列类别可分成单维的和多维的;按照时间序列不同的采样时间,时间序列可以被分成均匀和非均匀采样的。本文主要对数值型的时间序列进行研究。时间序列的复杂体现在它包含了多个方面,每个方面都可以用一个特征来描述,这些特征又有多种类型,而我们一般将它们分为形态特征、结构特征、模型特征。时间序列的形态特征,是指时间序列的形状变化特性,它包含能够表示时间序列整体起伏变化的全局特征,和时间序列中局部关键的时间点上观测值所能表示的局部特征。时间序列的形态特征一般用于描述短时间序列,因为它只能表现出一定程度的特性。提取关键点技术的提出,解决了对于如何表示长时间序列的问题,该方法通过压缩长时间序列成短关键点序列的方式,来很好的表示长时间序列。时间序列的结构特征,是指描述了时间序列的全局结构以及其内在的变化机制的特征,对于描述时间序列,它能较好的呈现全局特点。时间序列结构特征一般分为基本统计特征、时域以及频域特征。另外,时间序列的结构特征很难直接看出,一般都需要先对原始的数据进行统计或转换。时间序列模型特征,用于体现事物在变化时潜在的运动规律。下面列举了几个经常见到的模型:马尔可夫链模型、隐马尔可夫模型、高斯过程模型还有自回归滑动平均(ARMA)和差分自回归移动平均(ARIMA)两个模型。
........

2.2 时间序列的处理方法
在研究时间序列时,如何表示时间序列数据是其中最基本的问题。近年来,有许多类似的表示时间系列的技术和方法被提出,最常见的如上文所提到的动态时间弯曲(DTW)[5,6],象征聚合逼近(SAX)[7]。另外,Shapelets [8,9]也是一个用来学习无标记的时间序列数据并且受到很多关注的方法。然而,这些现有的方法虽然非常适合处理短时间序列,但他们处理长时间序列的时候并不是那么有效。针对长时间序列的研究任务,Lin 等人[10]提出了一种基于 SAX 的能有效编码长时间序列的表示方法 Bag-of-Patterns(Bo P),该方法可以同时考虑到时间序列中的局部结构和全局结构。Bo P 的表示方法的主要缺点是用该方法表示的数据维度会很高,而这一缺点使它不适合应用在大型数据集中。除此之外,还存在着一些针对于多通道时间序列的特征提取方法。例如,S.R.Haskey 等人[11]提出一种识别时间序列的多通道中的平均短时傅里叶变换的峰值的方法,但该方法也仅适用于具有周期性或大体上符合周期性的多通道时间序列。
.........

3 分层 IB 算法.......... 20
3.1 多通道时间序列的特征提取方法.......20
3.2 分层 IB 算法......21
3.2.1 分层 IB 算法思想......21
3.2.2 h IB 算法目标函数.....23
3.2.3 算法流程及其复杂度分析......26
3.3 本章小结.....28
4 实验与分析..... 29
4.1 实验设置.....29
4.1.1 数据集..........29
4.1.2 对比算法......29
4.1.3 评估方法......30
4.2 实验结果及分析.......31
4.3 本章小结.....38
5 总结与展望..... 39
5.1 本文总结.....39
5.2 下一步工作........40

4 实验与分析

4.1 实验设置

本文选用了三个包含了不同通道数的多通道时间序列的数据集来对 h IB 算法进行性能的评估。每个数据集都使用改进的 Bo P 方法按通道进行预处理。对数据集的简单介绍如下。Long Term ECG Database[52]:该数据集含有 7 组长时间的双导联心电图的记录,记录时间从 14 到 22 小时不等。本实验选取了该数据集中的所有数据,即此数据集包含 7 个有 2 个通道的时间序列。Stress Recognition in automobile drivers[53]:该数据集含有多个对象,每个对象的记录包括心电图(ECG)、肌电图(EMG)、在手上和脚上测到的皮肤电阻(GSR)和呼吸记录。除了两个只持续了 29 和 25 分钟记录,其他的每个记录都持续 65 到 93 分钟不等。本实验选取其中的 12 个对象的记录进行处理,即此数据集有 12 个含有 4 个通道的时间序列。PTB Diagnostic ECG Database[54]:该数据集包含了 290 个对象的 549 条记录,每个对象包含了一到五条记录,每条记录包括 15 个信号(12 个常规导联和三个Frank 心电图导联),所有记录都数字化为每秒 1000 个样本。本实验随机选取了 10 个对象的记录,即此数据集有 10 个含有 15 个通道的时间序列。

..........

总结

为了解决在研究多通道时间序列中出现的两个关键问题,即如何有效地提取多通道时间序列的特征和如何充分利用多个通道中所包含的信息,本文提出了一种无监督的分层 IB(hierarchical Information Bottleneck,简称 h IB)算法。h IB算法包含两层,其中同层中不同通道中的信息能够相互影响、传播,同时,两层间的信息也能够相互传播,使得此算法能够充分的利用多个不同通道中所包含的信息,得到较好的聚类结果。h IB 算法的第一层使用自凝聚策略,以自底向上的方式把多个通道内的信息进行处理、合并,得到一个层次的特征聚类树;h IB 算法的第二层算法将第一层得到的特征聚类树作为输入,对原有的多通道时间序列进行划分,得到最终的聚类结果。最后,本文将 h IB 算法与传统聚类算法以及可处理多重信息的新型的聚类