基于树模型的电信欺诈自动化识别分析探讨 (第2页) - 计算机论文范文

基于树模型的电信欺诈自动化识别分析探讨

日期：2024年02月01日编辑：ad201107111759308692 作者：无忧论文网点击次数：241

论文价格：150元/篇论文编号：lw202401261049572026 论文字数：35222 所属栏目：计算机论文范文

论文地区：中国论文语种：中文论文用途：硕士毕业论文 Master Thesis

道在进行预测时哪些特征最重要和哪些最不重要，并通过删除低分特征，通过降维改善模型性能。在集成树模型算法中，特征重要性是在训练过程中通过记录特征的分裂总次数、总/平均信息增益来对特征重要性进行量化，我们会用特征在整个集成模型算法里面被使用的次数或者带来的总/平均信息增益来给特征重要度打分，最后进行排序。在筛去了部分无用变量之后，最终留下了25个有用变量，下表5-1展示了建模后从模型中导出的前25个变量重要性排序数据：

计算机论文范文参考

第六章总结与展望

6.1 总结

欺诈识别在电信行业中具有重要的意义，因为欺诈活动可能会导致电信公司巨额损失，同时数据量的爆发式增长，也导致工作场景愈加复杂。在此情形下，从海量数据中识别分析出电信欺诈用户的工作面临越来越难的局面，如何为数据分析人员减轻工作负担、提升工作效率成为当前亟需思考与解决的问题。本文从自动化机器学习技术获得思路，并针对当前自动化机器学习越来越需要针对特定工作场景来定制具体模型，因此，提出了基于树模型的自动化分类模型，旨在解决SIMBOX电信欺诈识别问题，主要进行了以下工作：

（1）简述了自动化机器学习发展概况，对SIMBOX电信欺诈作了介绍，并针对本文用到的树模型机器学习算法做了系统的描述，同时详细的介绍了分类问题中数据预处理所需要用到的方法，为后文自动化分类模型的构建以及SIMBOX欺诈识别分析做了铺垫。

（2）提出了基于树模型的自动化分类模型，随着应用场景的逐渐复杂，AutoML越来越需要可以针对特定工作场景制作的细化模型，本文提出的自动化分类模型实现了多种不同的文本类型的数据读取方式、缺失值填补方式、连续变量离散化方式以及离散变量编码化方式，包含了RF、GBDT、XGBoost、LightGBM四种树模型的集成学习算法，并可根据自身具体需求选取需要入模的变量，自行设置正负样本比等，该模型可以适用大多数分类分析场景，让数据分析人员腾出更多的精力去关注初始的数据收集与观察以及最后的预测结果分析，中间繁琐的过程都可以自动化完成。

（3）完成了SIMBOX电信欺诈用户数据的自动化分析，主要包括对欺诈数据的观察分析，初步掌握数据基本特征，并通过设计搭建的自动化分类模型对电信欺诈数据进行分类预测，并对比了不同集成算法以及多种正负样本比，使用准确率、查准率、查全率、F1分值、AUC分值、KS分值六个维度来评估算法预测效果，选出本次SIMBOX电信欺诈分类识别的最佳模型。

参考文献（略）