软件工程硕士论文栏目提供最新软件工程硕士论文格式、软件工程硕士硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于概念漂移检测的数据流频繁模式挖掘算法探讨

日期:2024年11月04日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:38
论文价格:150元/篇 论文编号:lw202411012128362911 论文字数:38661 所属栏目:软件工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇计算机软件论文,本文设计尺寸可变的滑动窗口,并且引入了衰减模型来进行概念漂移适应,进一步提高算法对频繁模式挖掘的准确性和可靠性。

第一章 绪论

1.1 研究背景与意义

近年来,随着新兴的应用场景不断增长,如智慧城市、大规模基础设施、监控布防等[1],并且随着大数据分析技术、物联网技术、人工智能技术等技术的快速发展,每个行业都持续不断地产生大量的数据,例如生活中常见的网络数据、无线传感数据、金融数据等[2],这些数据都蕴含着丰富信息,通常称之为数据中的知识和模式,而诸如此类的数据也通常被称为数据流。

数据流挖掘的重大意义之一就是通过研究不同领域的数据,发现其中隐藏的有价值的知识和信息,从而能够为后续的评判或行动提供相应的决策支持,进而对社会产生更大价值。随着互联网技术的普及和发展,人们逐渐习惯了网上购物,从国内的淘宝、京东、拼多多,到国外的eB ay、亚马逊等,越来越多的企业开始利用电子商务进行产品销售,电子商务行业面临越来越大的压力[3]。因此,这些公司对销售业绩的追求推动了电子商务数据的分析需求。引入大数据挖掘技术对电子商务数据进行分析,不仅有利于公司销售业绩的提升,也有利于公司的产品定位,进一步促进转型升级,帮助企业跑在行业前列[4]。例如,在电子商务网站运营中,准确、可靠的商品需求分析和预测至关重要,错误或不准确的分析结论会严重影响产品的配置和配送,损害电子商务公司的决策效率和资源配置[5]。因此,通过分析用户的浏览访问偏好、购买商品偏好等相关的数据,建立有效的评价指标,可以制定更好的库存计划,设置具有竞争力的价格和及时的促销计划,也可以更好地对电子商务网站进行个性化的广告推荐与投放,从而提升用户满意度和服务体验[6],降低供应链成本,增加企业利润和品牌价值。

1.2国内外研究现状

1.2.1 数据流频繁模式挖掘现状

频繁模式挖掘是数据分析中的一项重要任务,因为它负责提取数据中频繁发生的事件、模式或项。这种模式的分析在决策过程中提供了非常重要的支持。Apriori[10]和FP-Growth(Frequent Pattern-Growth,频繁模式增长)[11]是频繁项集挖掘算法中公认的最经典的两种。后续的一些改进的算法,比如WSWFFP- T2[12](Weighted Sliding Window Fuzzy Frequent Pattern on Type-2 Fuzzy Set Theory over Data Stream,基于2型模糊集理论的加权滑动窗口模糊数据流频繁模式挖掘)、FHUI_DS[13](Fuzzy High Utility Itemset on Data Stream,基于滑动窗口的数据流高效用模糊项集挖掘)等算法,都是在经典的FP-Growth算法的基础上进行修改的。

近年来,针对数据流挖掘的研究变得越来越热门,并且随着相关技术的飞速发展,从数据流中挖掘出有趣的频繁模式的应用也越来越广泛,如针对网络趋势的分析、针对用户行为模式的分析、针对电信大数据进行欺诈排除的检测等[14]。此外,随着人们对挖掘的结果越来越感兴趣,不仅需要从表格和静态数据中提取频繁模式,还需要从各种类型的数据中提取各种有趣的模式[15]。

近年来,基于数据流挖掘来获得全集频繁模式的研究方法有很多。比如,Bustio等人[16]将界标窗口和滑动窗口相结合来处理数据流,并利用并行计算的方法来提高挖掘速度,该算法对于包含频繁项数量较少的数据流挖掘效果较为准确,对于包含频繁项数量较多的数据流,用该算法挖掘的结果是近似的且是非假阳性的,结果相对不够理想。Li等人[17]主要研究不确定数据流中的频繁模式挖掘问题,设计了一种索引树结构来存储数据流的信息,不仅可以减少时间消耗,还能降低空间消耗。

第二章 相关背景知识介绍

2.1数据流频繁模式概述

在数据流的挖掘中,关联规则挖掘仍是具有广泛应用范围的研究课题之一,关联规则挖掘算法以规则的形式来挖掘数据集中的关联关系,例如“如果吃得太多,那么就会肥胖”这种关联结论。而频繁项集的挖掘是关联规则挖掘[10]算法的关键步骤,初始的方法仅能处理和分析与布尔变量、序列或事务相对应的关联关系,但不能直接处理由浮点数表示的量化值[57]。本小节对频繁模式的相关知识进行介绍,相关的符号说明如表2.1所示。

软件工程硕士论文怎么写

2.2数据流挖掘模型介绍

2.2.1 窗口模型

在处理数据流时,常用的窗口模型有三种: 一是界标窗口,二是滑动窗口,三是衰减窗口[1]。

(1)界标窗口

界标窗口一般都是固定窗口的起点,当数据不断的到达窗口内,窗口的另一端就会随之增长,算法对起点至当前窗口尾端内的数据进行处理,不断地输出相应的结果。

(2)滑动窗口

滑动窗口仅定义窗口的长度,并不对窗口的起始与终端进行明确的定义。也就是说,算法处理两个单位间隔之间的最新的数据。当新数据到达窗口时,之前的数据就会被移出窗口,相当于是一个固定长度的窗口在数据流上不停的向前滑动,进而不停的输出挖掘出的结果。

(3)衰减窗口

衰减窗口同界标窗口一样,都是固定窗口的起点,窗口终点是随着数据的到达而不断地增长,不同的是,衰减窗口对不同时间进入窗口内的数据赋予不同的权重,这样先到达的数据所占权重很小,而最新到达的数据权重较大,算法处理起点至终点的所有数据。

第三章 基于概念漂移检测的可变滑动窗口频繁模式挖掘算法 ........ 17

3.1 研究背景 ............................. 17

3.2 算法框架及问题定义 .................. 18

第四章 基于概念漂移类型检测的双层可变窗口频繁模式挖掘算法................39

4.1 研究背景 .................................. 39

4.2 算法框架 ................................ 40

第五章 基于概念漂移检测的电子商务数据挖掘原型系统设计 ........ 54

5.1 前言 ............................. 54

5.2 系统的设计与实现 ...................... 54

第五章 基于概念漂移检测的电子商务数据挖掘原型系统设计

5.1前言

随着计算机技术的迅速发展,互联网在人们的日常学习、工作和生活中扮演着非常关键的角色,也成为了人们获取各种最新的信息和资源的主要途径。其中,浏览各类电子商务网站和网络购物是这个时代人们最常见的网络行为之一,由此产生了海量的数据,在这些数据中,比如用户的点击数据、交易数据等,成为了企业最大的财富密码[69]。随着应用数据挖掘、机器学习等技术的发展,通过网站平台来收集用户的浏览信息以及购买商品的数据,可以获得用户的购买偏好、情感倾向、行为习惯等信息,从而进一步预测用户的行为,进而能够把握用户的浏览习惯、购买意图和倾向。诸如此类的信息都能为构造用户画像提供相关支撑,企业利用用户画像进行经营管理决策,制定适当的营销策略,以及创新相应的互动机制,从而提高电子商务网站的用户流量进而实现利润最大化[70]。这些对于电商的精准营销和实时营销都有很大的帮助和提升,有非常强的现实意义以及经济价值,因此在挖掘相关的电子商务数据时,需要妥当处理数据中的概念漂移问题。综合以上所述,并基于本文第三章提出的VSW-CDD算法和第四章提出的DLVSW-CDTD算法,设计出一个基于概念漂移检测的电子商务数据挖掘原型系统,该原型系统可以应用在需要进行电子商务数据相关联分析的场景中,具有多种挖掘模式可供用户选择,用户可根据需要灵活选择相应的挖掘模型。

软件工程硕士论文参考

第六章  总结与展望

6.1本文总结

在电子商务行业产生的数据流中,数据一般具有高速、多变的特性且数据的分布会不断发生变化,基于固定尺寸的滑动窗口频繁模式挖掘算法显然不能适应这种变化着的数据流,因此,针对数据流会发生概念漂移和固定滑动窗口存在局限这两个问题,本文设计尺寸可变的滑动窗口,并且引入了衰减模型来进行概念漂移适应,进一步提高算法对频繁模式挖掘的准确性和可靠性。 本文主要做了以下三个方面的工作:

(1)本文提出一种基于概念漂移检测的可变滑动窗口频繁模式挖掘算法(Variable Sliding Window-Concept Drift Detection,VSW-CDD)。在以往的研究中,基于固定尺寸的滑动窗口的相关数据挖掘算法不能适应数据流动态变化的特性,导致挖掘出的结果不能反映数据流最新的概念,影响进一步的关联规则分析和预测行为。本文从数据的挖掘目标概念变化和数据潜在分布变化两个方面出发,分析数据流发生概念漂移的原因变量和数据流发生概念漂移后引起的结果变量,在数据流的频繁模式挖掘过程中分别检测窗口中的数据分布变化以及频繁模式挖掘结果的变化,并结合两者的检测结果来综合判断数据流中是否发生了概念漂移,以此来确定窗口的尺寸是继续变大还是缩小,从而解决频繁模式挖掘中数据流的概念漂移产生的相关影响。实验结果表明,该算法能够有效的跟踪数据流挖掘过程中的概念变化并做出窗口大小调整,并且,与已有的基于窗口模型的数据流挖掘算法相比,本文所提出的VSW-CDD算法兼顾了数据分布和挖掘结果变化两部分的检测,对于概念漂移的适应性更趋于稳定,而且在时间复杂度和频繁项集的覆盖性上都有一定的优越性。

(2)本文提出了一种基于概念漂移类型检测的双层可变窗口频繁模式挖掘算法(Double-layer Variable Sliding Window—Concept Drift Type Detection,DLVSW-CDTD)。为了适应包含多种概念漂移类型的数据流场景,本文在VSW-CDD算法的基础上,