Warning: filemtime(): stat failed for E:\wwwroot\51lunwenwang\Storage\Sessions\tyUIxApueVzxT9sOCajKQFEimAcC6pDsrfncckPW in E:\wwwroot\51lunwenwang\Core\Seaway\Session\FileSessionHandler.class.php on line 64
识别移动支付欺诈风险的机器学习方法探讨 - 工程管理 - 无忧论文网

工程管理论文栏目提供最新工程管理论文格式、工程管理硕士论文范文。详情咨询QQ:1847080343(论文辅导)

识别移动支付欺诈风险的机器学习方法探讨

日期:2023年06月29日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:260
论文价格:150元/篇 论文编号:lw202306251021327890 论文字数:34252 所属栏目:工程管理论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇工程管理论文,本文采用“多项式扩展,交互项扩展”以及“高斯核函数”进行特征工程对模型进行了改进。实验比较了改进前、后的模型在精确率、召回率、AUPRC等指标性能,择优效果最佳的模型用于预测欺诈行为。

第一章  绪论

第一节  研究背景

互联网、大数据等新兴技术已经在中国的大地上蓬勃发展了很多年,拥有快捷、便利等优势的电子商务系统雨后春笋般涌现,移动支付已然成为人们茶余饭后的谈资,网购、线上交易对现代人来说已经不可或缺。显而易见,便捷的确是互联网金融带来的优点,但同时而来的欺诈问题也需要引起高度警惕。《中国互联网络发展状况统计报告》揭示出的数据真是触目惊心!2020年,超过20%的互联网用户的信息被走漏,多达10%的网民碰到木马病毒的攻击,账号、密码被窃取的用户占比将近8%,逾15%的用户已经成为网络电信诈骗的目标。为了躲避网络安全部门的监控,不法分子一般会利用多类软、硬件进行作弊,捏造子虚乌有的身份信息进而欺诈攫取利润,目前已经构成一条完整的欺诈犯罪产业链。这条产业链行动迅速、协同多边,对互联网金融业务的浸透简直无孔不入,每年涉及的犯罪金额数超过千亿元。

鉴于应用场景众多,移动支付是互联网金融举足轻重的组成部分,如影随形的是与此有关的安全问题。相关黑产从业者无所不用其极,利用采取包括伪造Wi-Fi、散布木马病毒以及山寨手机软件等在内的一系列恶劣行径,非法获取了用户的姓名、身份证号、手机号、住址等隐私,进而实施欺诈变现,令人防不胜防。可想而知这威胁的主体不仅是千千万万的个人用户,更挑战了整个互联网金融、电商体系的安全性,对整个经济社会产生不利后果。互联网金融业务在持续发展壮大,更理当重视与之有关的风险,提前防范。因此目前最紧要的是运用先进的大数据处理技术,构建细致、高效、广泛的智控模型,结合定性、定量分析方法精确甄别欺诈风险,获得事半功倍的效果。

第二节  研究目的和意义

一、研究目的

本文使用可靠的移动支付交易数据,阐述有关变量的意义内涵;从数据集所有的变量中梳理出关键变量构造移动支付反欺诈模型,同时具体解释模型中参数的意义,追求最佳参数组成,精益求精改良反欺诈模型,可以给予日常的互联网金融反欺诈一定程度的借鉴。终极目的也就是在于增强识别不良客户及其欺诈交易的手段,降低互联网金融业务因为遭受欺诈而带来的亏损。

二、研究意义

互联网金融反欺诈常用的传统方法有查询征信、专家辨认、用户行为风险识别引擎以及匹配已有的黑白名单等。经过前辈们的实践总结,上述方法有着缺陷,包括:适用维度小、效率低、范围不广、对新型欺诈无可奈何。目前市面上已经开发出成熟的机器学习模型用于检测欺诈行为,已经得以在互联网金融反欺诈领域广泛运用。监督学习、无监督学习是当今适用于反欺诈领域的机器学习的两种分类。监督学习模型使用同时包含了欺诈、正常两类交易的数据集来训练,通过将新的交易代入模型运算而取得的结果,鉴定新交易是否涉及欺诈;无监督学习模型核心是聚类算法,即经过模型运算把每一条交易分组到不同的类别,那分组后留下的异常值就是欺诈。两类模型在识别欺诈中都有各自更适合的特征数据集。

第二章  机器学习相关理论

第一节  机器学习概述

整理归纳历史数据、经验并加以概括成一个模型是机器学习所探讨的实质,将新数据代入模型是机器学习的应用。Mitchell[48]曾发表自己有关机器学习概念的理解,从机器学习其他的探索中脱颖而出,被普遍引用:T代表一个任务,P代表一种评估准则,经验E作用于整体,P作用于T的度量框架进行改善。

工程管理论文怎么写

图2.1表明机器学习有三个要素:学习任务T(task)、经验E(experience)、评估准则P(performance measure)。对于任务,通过经验建立模型,利用评估准则提升机能,像这样不断重复,最后得到完善的模型可以适用于新的数据预测结果。

机器学习通常情况下分为两种类型,如果数据中存在用于标注数据属于哪种类别的值则称为有监督学习,否则就是无监督学习。有监督学习就是找出标注变量与数据其他特征值之间的内在联系的过程。在有监督学习中,常被提及的回归模型、分类模型是根据数据自身的特征——连续、离散而确定的。无监督学习与有监督学习相反,数据中不存在标注变量,需要找到不同数据之间的相似点系,通常使用聚类和降维的技术。

第二节  机器学习算法

一、逻辑回归

逻辑回归(Logistic Regression)针对的因变量𝑦𝑦是离散型数据,当它运用于数据预测领域时具体作用就是数据分类。逻辑回归你别看它名字里带着回归(回归通常指代数据拟合,进而预测连续型数据),它其实是工业界最偏爱的二分类算法。其凭借高效率的训练以及预测能力,加之算法容易实现,使其与其他算法同台竞技时仍能立于不败之地。

逻辑回归的优势列举如下:

(1)运行时对计算机的内存消耗低,具备实现起来容易和机器学习的可解释性;

(2)运算时间短并且对计算机的内存利用率高;

(3)基于搭配使用分布式计算以及云计算,可实现大数据的学习运算;

(4)鲁棒性好能够处理数据自身隐含的微小噪声,通过正则化便可以处理轻微多重共线性的作用问题。

二、决策树

理论上,分类器分为线性和非线性的,逻辑回归属于前者——线性分类器,决策树属于后者——非线性分类器。机器学习领域,决策树(Decision Tree)算法的核心是分类及回归。循名责实,决策树其模型就像一棵树,在具体实践时,其主要作用就是根据特征不同,对数据个体划分类别。节点与有向边共同组成了决策树。结点又可以区分为内部节点、叶节点两种类型,其中,代表一个特征、一个属性的是内部节点,表示一个分类的是叶节点[49]。

将差异的特征从训练数据集中加以提炼是决策树算法的核心,而后由特征组成分类准则,准则可以广泛地运用于测试数据集。那么问题是如何选择对训练数据集筛选出用于分类的特征呢?这里就要提到:CART、ID3、C4.5算法,这几种均用于决策树特征选择,其中,CART算法目前在业界应用得最广泛。

第三章 实证研究····························26

第一节 数据集描述及预处理···························26

第二节 重要特征分析································28

第三节 模型建立与选择···························30

第四章 特征工程·························35

第一节 特征工程概述····························35

第二节 多项式扩展、交互项扩展··························36

第三节 高斯核函数·······························39

第五章 特征工程后的模型建立················44

第一节 使用多项式扩展、交互项扩展·······················44

第二节 使用高斯核函数·························46

第三节 模型对比与分析···························49

第五章  特征工程后的模型建立

第一节  使用多项式扩展、交互项扩展

一、逻辑回归:

最优参数组合:Family=gaussian;Linkfunction=identity。 混淆矩阵如下表5.1:

工程管理论文参考

对三个模型进行比较很容易得出XGBoost效果出类拔萃的结论,受益于算法本身具备的长处:

1、XGBoost为了方便学习并生成分类器𝑓𝑓(𝑥𝑥),应用了一阶、二阶导数来计算出伪残差。也就是说XGBoost迭代生成基础学习器的时候,依据的是一阶、二阶导数。

2、XGBoost充分考虑了传统贪心算法效果不佳,通过百分位方法罗列候选分割点并代入公式求解最优分割点以实现对传统贪心算法的改进。

3、为了削减每棵树个体的影响作用,XGBoost在完成了一次迭代之后,会将叶子节点的权值乘以系数作为新的权重,扩大之后的学习空间。

同时XGBoost兼顾了在计算机上的运行效率。为了避免传统决策树在追求最佳分割点时费时费内存的排序过程,XGBoost提前将数据排序后分成多块。块的作用在于能够在迭代中重复使用由此降低计算对时间和内存的耗费。块结构的构造实现了特征增益计算的多线程并行也就是特征粒度方面的并行。

第六章  总结与展望

近年来,移动支付正在深刻改变着人们的生活和消费方式。伴随着移动互联网的快速发展以及智能手机的普及,移动支付呈现出强劲的增长态势。虽然移动支付刚刚兴起的时间欺诈问题就已经形影相随了,但是金融科技以及互联网的繁荣发展还是推动者移动支付不断向前。移动支付的使用让支付行为脱离了实体卡片的束缚,只需要一部手机搭配短信、指纹、人脸等验证方式即可完成支付。以往持卡消费能够利用签名核对、银行致电持卡人核实等方式验证真实消费意愿达到防范某些支付欺诈的问题,但一旦脱离了实体卡、面对面等要素上述防欺诈手段将变得一无是处。现在有了计算机科学与统计科学的结合,应运而生了各类有效的反欺诈机器学习算法模型。这些模型又因为研究的深入以及计算机算力的升级让研究人员能够处理历史巨量的交易大数据,从中找出规律对可疑的移动支付欺诈行为提前预警保护各方利益。

因而,本次研究运用机器学习算法对识别移动支付欺诈风险进行探索。钻研以及论文撰写历时一年,主要达成下列事项:

在对移动支付深入了解的基础上,选取较为合适的算法夯实后续建模的基础。对移动支付的认识主要是从定义、分类、特点、发展现状和风险的