本文是一篇计算机论文范文,本文从自动化机器学习技术获得思路,并针对当前自动化机器学习越来越需要针对特定工作场景来定制具体模型,因此,提出了基于树模型的自动化分类模型,旨在解决SIMBOX电信欺诈识别问题。
第一章 绪论
1.1 研究背景及意义
在20世纪60年代末,数据科学家发现,仅仅依靠单个的统计方法来建立模型是行不通的,因此,机器学习(Machine Learning,ML)应运而生,并且取得了很大的发展。随着科学技术的飞速发展,海量的数据正以惊人的速度涌入到各个领域,而机器学习建模也面临许多棘手的问题,比如:技术要求门槛高、人才严重短缺、过度依赖专家的经验以及建模周期长等。近些年来,为了使机器学习技术更易于应用并减少对经验丰富的专家的需求,自动化机器学习在工程领域受到了越来越多的关注。在电信领域,通信技术的发展,给人们的沟通交流带来了极大的便利,但随着电信市场的日益庞大,电信欺诈也日益猖獗,海量的电信通话数据也让运营商对欺诈用户的识别难度加大,由于欺诈数据分析建模的周期长,难度大,同样亟需自动化机器学习来帮助更快速、更高效的识别出欺诈用户
机器学习亟需自动化。机器学习是计算机科学领域研究的热点之一,其基本思想是使用一系列算法从大量的历史数据中提取出一些模式,然后利用这些模式对未来情况进行预测。它已被证明对生产中的不同应用程序是成功的[1,2],应用范围很广,在有监督、无监督和强化学习中都有用到[3],基于ML的产品质量预测等应用程序带来的好处包括缩短生产提前期和降低维修成本以及改善客户关系和更好地了解问题的根本原因[4]。目前,机器学习已广泛应用于图像处理、自然语言处理、计算机教育等诸多领域。机器学习在各领域的应用效果得到了广泛认可,已经深深植根于我们的日常生活。然而,构建和训练模型的任务在很大程度上仍然是传统的,过于依赖专家经验[5]和耗时的数据操作,目前依然属于知识和劳动密集型的,这阻碍了学术界和工业界机器学习模型的发展。由于应用领域的最终用户通常不是机器学习专家,因此迫切需要在易于使用的工具方面提供适当的支持。这种需求产生了完全自动拟合机器学习模型的新研究领域,即自动化机器学习(AutoML)[6]。
1.2 研究现状
1.2.1 自动化机器学习
自动化机器学习是一个端到端的过程,目的是在没有任何外部帮助的情况下自动化完成模型开发管道。AutoML可以研究传统机器学习模型开发管道以将其分割成模块并自动化执行每个模块以加速工作流程的过程,能够在极少人工干预的情况下构建机器学习模型的想法代表了应用机器学习实践的绝佳机会。然而,关于如何在实践中设计AutoML模型的信息非常少。大多数研究都集中在优化算法面临的问题上,而忽略了在实践中如何完成这些问题的细节。同时随着更深层次模型的出现,例如用于数据挖掘[10]、图像处理[11]、自然语言处理[12]的模型,越来越需要可以针对特定工作场景负载制作的定制模型。
目前,自动化机器学习在学术界和工业界都取得了极大的进展与应用。M.Bahri等人[13]针对目前AutoML的研究工作主要集中在用于监督学习上,而针对无监督学习的研究建议很少,提出了为无监督异常检测提出的自动化方法和策略;Y.Li等人[14]提出了VOLCANOML,这是一个可伸缩和可扩展的框架,有助于系统地探索大型AutoML搜索空间,并实现了基本构建块,将大的搜索空间分解为较小的搜索空间,并允许用户利用这些构建块来为手头的AutoML问题制定执行计划;B.Celik等人[15]设计了一个自适应在线自动机器学习(OAML)系统,搜索在线学习者的完整管道配置空间,包括预处理算法和集成技术,该系统将在线学习者固有的适应能力与快速自动化管道重新优化相结合。专注于可以适应不断发展的目标的优化技术,评估异步遗传编程和异步连续减半以不断优化这些管道。在医学领域,Antaki等人[16]使用超宽场(UWF)伪彩色眼底图像评估了AutoML在区分视网膜静脉阻塞(RVO)、视网膜色素变性(RP)和视网膜脱离(RD)与正常眼底方面的鉴别性能;在汽车领域,Balaji等人[17]研究了一种用于内燃机应用的基于机器学习的自动化优化框架,该框架包括一个Super Learner模型、多个基础学习器与优化算法相结合的集合,以及一种主动学习方法,通过使用基于精英的遗传算法优化超参数,Super Learner模型的性能得到了最大化。
第二章 相关理论和方法
2.1 单棵决策树模型
决策树[32]是一种基于树状结构表示分类或回归模型的常见机器学习算法。在决策树中,每个节点代表一个特征或属性,而每个叶子节点表示一个决策或类别。决策树的构建过程是通过递归地将数据集分成更小的子集,并在每个子集上选择最佳分割属性来实现的。构建决策树的过程可以使用不同的算法,例如ID3、C4.5和CART等。决策树模型具有易于理解和解释的优点,因此在许多应用领域中得到广泛应用,例如医疗诊断[33]、金融预测[34]和市场营销[35]等。此外,决策树还可以用于特征选择[36]和数据预处理等任务。
2.1.1 ID3
ID3算法[37]是一种用于构建决策树的经典机器学习算法,它使用信息增益度量来选择最佳的分割属性。在ID3算法中,从根节点开始,对数据集进行递归划分,直到所有数据都属于同一类别或达到预定的最大深度。具体而言,ID3算法通过精心挑选每个节点中具有最大信息增益的属性来实现分裂,从而极大地提升树的分类效率。信息增益度量是基于信息熵的概念,用于测量一个属性对分类任务的重要性。ID3算法还可以使用剪枝技术来避免过拟合,并提高模型的泛化性能。虽然ID3算法已经有一段时间没有被广泛使用,但是它为其他决策树算法的发展和改进提供了重要的基础和思想。
ID3决策树使用"最大化信息增益"作为节点划分的基础,接下来将对信息增益进行精确的计算,以实现最优的决策结果:
输入:训练集D和属性a (这里每个属性a有V个可能的取值{𝑎1,𝑎2,…,𝑎𝑣}
输出:属性a对训练数据集D的信息增益 Gain(𝐷,𝑎)
2.2 集成树模型
集成学习[39](Ensemble Learning)技术使用多种基础学习器的结合,可以大大改善模型的预测能力,从而达到更好的效果。它通过构建多个弱分类器并将它们组合起来形成一个更强的分类器,以此来提高预测的稳定性和准确性[40]。集成学习的核心理念在于,将多个学习模型有机地融为一体,从而提供出色的、精度高的、可靠性强的预测效率。
在树模型的集成学习中,有两种基本的方法,一种是基于Bagging[41]的方法,另一种是基于Boosting[42]的方法。Bagging方法是通过随机采样的方式获得多个子数据集,并针对每个子数据集构建一个基分类器[43],最终通过投票等方式将这些基分类器的结果进行集成,Bagging算法中最典型的是随机森林RF算法。Boosting算法旨在通过不断迭代来改善基分类器的准确度,它能够更加精细地检测出被错误分类的数据,从而提升预测精度。其中,GBDT、XGBoost和LightGBM等算法是最具代表性的。
相对于单棵树模型,树的集成学习模型具有更高的准确性、更强的泛化能力和鲁棒性、更好的可扩展性和不容易过拟合等优点,适用于处理大规模、高维度的数据集,以及需要高精度预测的任务。最近的研究表明,集成学习已经成为在许多现实世界问题中获得最佳预测结果的首选方法之一。
然而,集成学习也有一些挑战和限制。构建多个基础学习器需要大量的计算资源和时间[44]。此外,在某些情况下,基础分类器之间的相互作用可能导致过拟合问题[45]。因此,仔细选择基础分类器和调整集成学习的超参数对于获得最佳预测结果是必要的。
集成学习是一种强大的机器学习技术,它能够将多种学习算法融合在一起,从而大大提升预测的精度和准确性。尽管存在挑战和局限性,但集成学习在许多领域的应用是非常有前景的,如在医疗领域[46]、地质领域[47]等,随着机器学习技术的发展,预计它将在解决现实世界的问题中发挥越来越重要的作用。
第三章 自动化分类模型的设计 ................................ 22
3.1 模型设计背景 ...................................... 22
3.2 模型总体设计架构 ............................... 23
第四章 SIMBOX电信欺诈数据的自动化分析 ................ 34
4.1 数据准备 ......................... 34
4.2 数据预处理 .........35
第五章 SIMBOX电信欺诈用户的画像分析 .................. 41
5.1 变量重要性排序 ..................................... 41
5.2 欺诈用户行为分析 .............................. 43
第五章 SIMBOX电信欺诈用户的画像分析
5.1 变量重要性排序
本次自动化分类模型选择了适宜此次数据建模的LightGBM算法,并确立了较优的正负样本比,在完成对电信欺诈数据的训练预测之后,我们需要对欺诈识别的数据结果进行分析,首先,我们研究如何把握模型中的特征重要性,特征重要性即为对输入的特征进行打分,该方法反映出特征在预测过程中的相对重要性。特征重要性可以帮助我们了解数据集,了解模型,以及知