第1章 绪论
1.1 项目背景
我国互联网金融在当前呈爆发式增长的模式,人们的日常信用消费记录会同时影响人们的金融活动以及社会生活的各个方面。我国的个人征信商业化以及市场化的发展,成为社会信用体系建设中必不可少的一环,在市场竞争十分激烈的情况下,各类民营征信机构积极申请牌照,并且依托股东的背景和产业生态开始不断创新。该行业的迅速发展,使得人民群众对信用的重视程度逐渐加深,“征信”模式开始焕发出新的生机 。
随着信贷消费的壮大,个人征信也逐渐催生出来。据有关数据统计在过去的五年中,国民总消费翻倍增长平均增长率达到14%消费支出比例,预计在2018年将达到47%,据麦肯锡全国研究院发布的研究报告可知,预计在2025年,中国将成为世界第三大消费市场仅次于日本和美国,而我国的信贷消费也已达到19万亿。消费金融已经逐渐增长,预计在2016到2017年间,中国的信贷消费规模依然按照20%以上的增长率进行增长,到2017年将超过2,70,000亿。由此可见,个人征信具有较大的发挥空间。
随着该项业务在中国市场规模不断扩大,而产品以及服务的需求话也逐渐增多,作为人口大国,个人征信体系却较为薄弱,因此对社会融资成本以及放贷效率造成了较大的影响,对行业的风险较大,因此需要加入市场化的力量来促进信用经济的发展以及社会信用体系的建设。经过不断地改良,能够促进商业环境,不断改善个人征信行业将成为新蓝海行业。
党中央机构对信用体系的建设十分重视,2013年3月国务院下发《征信业管理条例》。于当年11月党的十八届三中全会对于信用体系提出要求,并在12月允许市场出现个人征信机构。
但是,当时中国的个人征信体系并不完善,在2014年年底央行征信系统收入了8.6亿自然人的信息,有3.5亿人具有信贷记录,并且有一定的个人信用,但是,对于民间借贷的个人并不开放,因此这些机构在对小微借款用户进行审核的过程中,增加了运营成本和风险,因此,民间金融借贷机构需要急切的发展成熟。
然而,随着互联网的不断发展大数据的新兴技术的普及,使得金融消费的个人征信体系不断发展。当前中国还在处于向互联网中心的过渡阶段。虽然当前网络数据积累量较大,但是并没有形成统一的标准,因此,民间金融机构交易数据并不统一,此外,网络中心的手段和评估方式并不成熟。因此,需要结合先进技术进行有效提炼数据,引领市场,掌握话语权。
1.2 研究现状
当前国外主要有三种中心机构运营模式,第一种是政府主导性,主要服务于宏观金融决策和监管以及商业银行。第二种是市场化运作型,主要为商业化机构进行服务。第三种为混合型,由政府部门以及私营部门进行合作。
1)美国
作为世界信用交易和最高的国家,美国主要实行市场主导型模式。在19世纪30年代起征信体系便开始兴起,已有200年历史,随着技术的更新和进步,美国征信体系已经较为完善。根据征信主体进行划分,主要分为企业中心以及个人中心,前者主要为商业市场进行服务,而后者主要用于个人信贷的参考。
企业征信机构主要是邓白氏集团公司。个人征信机构主要是环联公司(TRANS UNION)、意可发公司(Equifax)、益百利公司(Experian)这三家大的个人征信机构。此外,还针对不同的小型征信机构提供不同的服务方式。
2)英国
英国的征信数据主要通过1974年的《消费信贷法》和1984年的《数据保护法》两个法案进行支持。
英国中兴行业没有专门的政协监督部门,任何公司都可以自由进入。主要通过三家完全独立的第三方中心机构来提供这个信息,分别是意可发(Equifax)公司、益百利(Experian)公司及呼叫信用(Call Credit)公司。
3)法国
法国也属于政府主导型的征信体系,主要通过政府出资设立,分为企业征信以及个人征信,均由中央银行建立。登记的时间以月为间隔。向他们采取正面以及负面信息所统计的信息中,必须包括个人在财政以及贷款方面的不良行为信息。
4)日本
日本主要采用混合型的征信体系,个人征信是按照会员制,并且其这个机构属于行业协会的非营利性质。只向会员提供相关信息,而政府并没有设立专门的征信机构,只能在各自的职责范围内进行征信指导,其中个人征信机构包括CIC,JICC和BIC并分别服务于销售行业,消费信贷行业以及银行行业等。
5)印度
印度也是混合型的这个信息,其中财政部以及储蓄银行在2000年发起了印度信用信息有限公司(CIBIL)机构。该机构是公司合营性质,以股东的形式采取多元化的方式进行运作,并且由央行强制性为公司报送信息。实行共享互惠原则,但是必须先成为机构会员,才能享受便捷的服务。
根据2013年央行发布的《中国征信业发展报告(2003—2013)》从1934年,中国有了第一家征信机构,中华征信所开始已经有80多年的历史,但是从改革开放以后才能得到真正的发展。随着国内信用交易的不断发展,扩大推动了中国出现企业的迅速发展。
2013年3月国务院下发《征信业管理条例》,同年12月中国人民银行出台的《征信机构管理办法》,中国开始允许开设市场化个人征信机构。2015年1月,中国人民银行印发《关于做好个人征信业务准备工作的通知》,要求征信公司做业务,并给予六个月的准备时间,这次中国征信体系开始在市场上逐渐放开,并形成以央行征信中心为主导的多层次征信机构并存的形式。
第2章 系统实现技术概述
2.1 分布式存储技术
征信系统需要储存大量的数据和应用,因此在进行设计时,也采取分布式文件系统的方案,但开源HD M S只有一个主服务器,虽然可以增加日志服务器,但仍然无法扩展,因此在其节点上的原数据增多,使其占用的内存增多,达到存储瓶颈。因此单一Master节点储存数据有限,可扩展性差,不稳定。
优化路径:利用多层分布的Master结构,减缓整套系统的压力,解决瓶颈问题。此外,需要提供更高的访问接口来满足业务需求。
2.2 分布式计算
结合Hadoop MapReduce及Spark进行数据分析,其中前者主要对批量数据进行分析,而后者主要对计算流式数据进行分析,具体见下图。
2.3 细粒度分布式并行计算
计算平台的Flynn分类法,主要根据指令流和数据流来分类,共分为四种类型的计算平台,如下图所示:
将多台计算机服务器的征信系统作为一个MIMD类型的平台,在并发编程的过程中,主要解决以下两个问题。
1、缓存抑制问题,针对单台服务器数值一致性,主要是处理器缓存的数据项目值与系统内存的数目据项目值保持一致,但是,该行为有可能影响到软件的性能,通过JMM可以解决。多台服务器则需要通过分布式进行一致性协议解决。
2、服务器之间的网络I/O效率。全部是花车上的数据需要通过网络传输。其中,有三个方法可以解决网络传输遇到的瓶颈,分别是(1)硬件提升;(2)控制数据交互的频率;(3)通过在软件层面优化提升I/O效率。
2.4 征信评分模型
云征信平台采集的数据由结构化和非结构化数据所组成。主要依赖智能分析系统进行数据挖掘和分析。通过所分析的模型,对一万多条数据进行分析,并在五秒内完成计算。该性能已经远远超过行业平均水平。
完成多重卷积神经网络模型的构建,将数据带入到网络中,从而提升征信评分的准确性。经过多层模型的训练学习,将数据变换到新的特征空间,并形成模型。模型是点到点的映射,能够反映出映射关系,并不需要精确的数学表达式,数据经过变换抽象,经过传播调整,最后进行输出。
利用云平台的大数据分析结果来对模型进行预算,能够挖掘数据的关联性,充分分析事情可能发生的概率。经过模型训练后,会组建相关实体的关系,并提供可能生产的衍生产品。
利用Spark+R来搭建模型进行计算,并在七亿用户数据的基础上进行学习和实践。
2.5 规则引擎
规则引擎通过推理引擎发展来的用来镶嵌在应用程序中实现了业务决策的分离,并且编写了预定的语音模块,能够接受数据输入,并根据相关业务作出解释和决策。
通过与大数据平台进行结合,利用引擎进行模型的计算,结合有关业务对征信系统的指标进行决策。
第3章 系统分析
3.1 可行性分析
利用J2EE作为开发技术应使用MVC作为设计模式来解决多重式应用方案的开发部署以及管理问题,并逐渐成为标准本项目,在进行开发和设计的过程中,利用这一计算模式面向对象的组建技术,逐渐将业务进行独立,重复利用,逐渐加快软件的开发速度,降低开发成本。通过对征信系统的需求分析发现,根据信息系统的不同模块采用不同的人员和角色,以提高用户处理业务的效率。
3.2 业务分析
个人征信模块主要设计数据的纠错,删除以及正常数据的生产,对进行处理以及上传。
企业征信模块主要设计数据的纠错,删除以及正常数据的生产,对进行处理以及上传。
公共模块主要涉及到自检向管理以及用户的相关操作数据的上报,统计,清理,备份及恢复,参数的配置。
3.3 系统功能分析
软件构架模型是对复杂的系统进行抽象,能够反映出相对精解,但又核心的问题模型,该系统的模型主要有以下几个模块功能所示。
本系统将针对个人以及企业征信的需求,结合银行的设计系统所做出的设计。