目录
第一章 数据挖掘与统计过程控制 3
1.1数据挖掘技术概述 3
1.1.1引言 3
1.1.2数据挖掘研究现状 4
1.1.3数据挖掘的挖掘任务和挖掘方法 6
1.2统计过程控制的发展 6
1.2.1引言 6
1.2.2统计过程控制与数据挖掘 7
1.2.3过程变化及其描述 8
1.2.4统计控制图 8
1.2.5单变量统计过程控制的局限性 9
1.3多变量统计过程控制 11
1.4统计过程控制的现状 12
1.5本文的主要工作以及安排 12
第二章 主元分析法(PCA) 13
2.1 引言 13
2.2 主元分析方法 13
2.2.1 计算方法 13
2.2.2 PCA模型中主元数目的选择 17
2.2.3主元分析的几何解释 18
2.2.4 一个简单的例子 18
2.2.5 例子分析 22
2.3 主元分析用于多变量统计过程控制 23
2.3.1 基本方法 23
2.3.2 Q统计量(SPE)和 统计量的几何解释 26
2.3.3 Hotelling 图及 统计量图的具体应用 28
2.2.4对获得图形的分析 30
2.3 小结 32
第三章 数据挖掘建模和故障诊断 33
3.1故障诊断简介 33
3.1.1 基于统计距离和角度的故障诊断方法 34
3.1.2 故障诊断的特征方向方法 34
3.2 数据挖掘过程步骤 35
3.3 PCA模型建立以及故障诊断 36
3.3.1 PCA模型的建立 37
3.3.2故障的检测 40
3.4 小结 43
第四章 总结 44
4.1 工作回顾 44
4.2工作心得和总结 44
4.3 结束语 45
致谢 46
参考文献 47
第一章 数据挖掘与统计过程控制
1.1数据挖掘技术概述
1.1.1引言
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,并且这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对"人们被数据淹没,人们却饥饿于知识的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。例如加拿大BC省电话公司要求加拿大Simon Fraser大学KDD研究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。同时需要指出的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。因此DMKD的研究成果是很讲求实际的。