第六章 总结与展望
6.1 总结
欺诈识别在电信行业中具有重要的意义,因为欺诈活动可能会导致电信公司巨额损失,同时数据量的爆发式增长,也导致工作场景愈加复杂。在此情形下,从海量数据中识别分析出电信欺诈用户的工作面临越来越难的局面,如何为数据分析人员减轻工作负担、提升工作效率成为当前亟需思考与解决的问题。本文从自动化机器学习技术获得思路,并针对当前自动化机器学习越来越需要针对特定工作场景来定制具体模型,因此,提出了基于树模型的自动化分类模型,旨在解决SIMBOX电信欺诈识别问题,主要进行了以下工作:
(1)简述了自动化机器学习发展概况,对SIMBOX电信欺诈作了介绍,并针对本文用到的树模型机器学习算法做了系统的描述,同时详细的介绍了分类问题中数据预处理所需要用到的方法,为后文自动化分类模型的构建以及SIMBOX欺诈识别分析做了铺垫。
(2)提出了基于树模型的自动化分类模型,随着应用场景的逐渐复杂,AutoML越来越需要可以针对特定工作场景制作的细化模型,本文提出的自动化分类模型实现了多种不同的文本类型的数据读取方式、缺失值填补方式、连续变量离散化方式以及离散变量编码化方式,包含了RF、GBDT、XGBoost、LightGBM四种树模型的集成学习算法,并可根据自身具体需求选取需要入模的变量,自行设置正负样本比等,该模型可以适用大多数分类分析场景,让数据分析人员腾出更多的精力去关注初始的数据收集与观察以及最后的预测结果分析,中间繁琐的过程都可以自动化完成。
(3)完成了SIMBOX电信欺诈用户数据的自动化分析,主要包括对欺诈数据的观察分析,初步掌握数据基本特征,并通过设计搭建的自动化分类模型对电信欺诈数据进行分类预测,并对比了不同集成算法以及多种正负样本比,使用准确率、查准率、查全率、F1分值、AUC分值、KS分值六个维度来评估算法预测效果,选出本次SIMBOX电信欺诈分类识别的最佳模型。
参考文献(略)