本文是一篇投资论文,本文以人人贷为实证研究平台,通过关注网络借贷平台中借款文本语言特征的信息对投资人决策的影响,确定了借款人的主观信息—借款文本语言的三个特征对借贷平台中投资者投资决策的影响。在此基础上考虑将有效的借款文本语言特征指标引入到网络借贷平台信用风险评估和预测模型中,建立了基于机器学习分类算法的信用风险预测模型,确定了 LightGBM 是最佳的模型,可以考虑将该模型应用于借贷平台借款人信用风险的预警中,期望找到缓解信息不对称的有用机制,保障借贷平台中投资者的资金安全与利益,为平台后续的风险监控提供参考。本文将文本分析中的复杂性计算、情感分析技术、实体抽取技术与计量经济模型、分类算法模型结合起来,在信息不对称理论、文献分析和扎根理论的指导下,将金融学、文学和心理学中广泛认可的文本语言特征:复杂性、积极性和欺骗性,引入网络借贷平台中,并以我国最大的网络借贷平台——人人贷平台的大样本大数据进行实证研究。在计量经济模型建模过程中,重点探讨了借款文本语言的不同特征对投资者是否出借资金、出借愿意出借金额和愿意出借利率的投资决策的影响;在基于二分类的信用风险预测模型的构建过程中,重点探讨了借款文本语言的特征对预测借款人信用风险的价值作用。
第一章 绪论
1.1 研究背景与意义
1.1.1 研究背景
互联网信息技术的创新飞速发展,推动了我国金融业务体系升级换代。借助于互联网新兴技术兴起的 P2P 网络借贷作为传统融资模式的补充,为融资双方提供了便捷的信息传递、资料共享渠道,缓解了中小微企业等长尾群体的资金缺口问题,成为践行普惠金融和经济发展的重要一环。据统计,2018 年,网络借贷成交量为 17948.01 亿元,贷款余额为 7889.65 亿元,历史累计成交量达到 8 万亿水平,立于全球高位1,规模上,我国已经成为全世界网贷最为发达的国家。然而,在我国金融管制相对匮乏的背景下,网络借贷平台备案延期,投资者甄别信息成本较高,导致伴随平台规模和数量“野蛮生长”的是以互联网为名的非法活动的聚集以及跑路、诈骗等“爆雷潮”事件的频繁发生[1],“普惠”被贴上了“普骗”的标签。事实上,如图 1.1 所示,2015 年至 2018 年平均每天有 2-3 家问题平台爆出,部分平台因涉嫌非法吸收公众存款被立案调查,部分平台风险问题仍在持续暴露,尤其是自 2018 年 6 月以来,网络借贷平台陷入密集爆雷潮,停业的 P2P 平台累计达到 383 家2,已经开始形成全国性的行业危机[2]。当前,网路借贷市场险象环生的现实,不仅严重危害了投资者的资金利益,重挫了投资者对网络借贷行业的信心,而且波及了互联网金融行业的社会稳定。在这样的背景下,如何充分利用网络借贷市场中的信息并进行有效甄别,将有效的信息纳入模型中构建实时可追溯的风控体系,提升网络借贷市场中投资者辨识真伪的能力,实现中小微企业等群体有效融资的同时,帮助网络借贷平台“转危回暖,回归均衡,健康发展”成为亟需解决的重点课题。
...............................
1.2 文献综述
互联网金融行业在全球方兴未艾,新兴网络借贷市场蓬勃发展,依托于 P2P 网络借贷平台展开的学术研究日渐丰富,关于网络借贷平台实证研究主要集中在两个领域:一是借款人信息价值研究;二是,投资人决策行为研究。
1.2.1 借款人信息价值研究
(1)描述性信息的研究
网络借贷平台中的借款文本描述是借款人对自身状况进行表述的叙述性语言,影响投资者的心理、认知和行为。作为说服性信息的借款描述文本,其体现的说服性会显著影响投资者的态度并改变投资者的行为,削弱信息不对称带来的负面影响[7]。借款描述的长度、类型、字数、标点、风格、内容等特征揭示了借款人的某种特征或未来行为。投资者依据借款描述中获取的借款人信息,如:是否是信誉的、是否具备还款能力、是否具有欺诈行为等,作出投资决策。基于国外美国 Prosper、Lengding Club 网络借贷平台的实证研究表明借款人的借款描述信息影响投资人作出投资决策,借款描述中包含更多的种类,使用更多 many、losts of 等描述具体的数量词,使用更多 at、in、on 等描述具体的冠词[8],以及包含更多的正向词汇[9],是优质借款人的信号,这类借款人拥有更高的融资成功率,更低的违约率。基于美国 Kickstarter平台的实证研究表明借款人不同风格的项目文本描述对投资决策的影响存在差异,诉诸可信、诉诸回报和诉诸逻辑的描述风格传达了借款人的信誉与专业水平信息,这部分借款人的借款成功率更高,而借款人诉诸情感和诉诸夸张的描述风格传达了借款人背离真实情况的信息,这部分借款人借款成功率更低,违约率更高[10]。基于国内拍拍贷、人人贷等借贷平台的实证研究表明借款描述的内容影响投资者的投资决策,标点和字数对借款成功率具有增量作用[11]。借款描述中包含个人品质是可信、道德、正直、善良等,包含个人创业、家庭、诚信等信息的,更加吸引投资者,有助于提高借款成功率,违约率较低,而包含个人急迫主题的,不利于借款人成功借款,违约率较高[12]。由此可见,首先,借款文本描述传达的信息,影响了借款人的投资决策,侧面的反映是借款人的借款成功率。其次,借款描述揭示了借款人是否具有违约的潜在行为,对网络借贷市场中的借款文本对投资人决策影响进行研究十分有必要。
.........................
第二章 网络借贷的运营模式与特征分析
2.1 P2P 网络借贷的流程分析
P2P 网络借贷是想要借款的个人和想要出借闲置资金的投资人借助于互联网网络借贷平台完成资金交易,不同借贷模式的网络贷平台促成交易的流程相似。首先,借款人在特定的借贷平台中提供身份证明进行实名注册;然后,根据自己的融资需求和可承受的借款利率以及其他借款细节的考虑在平台中发布借款请求。接着,平台对借款人的请求资料进行审核,将审核通过的列表展示给投资人,供给投资人进行选择。投资人根据自身对风险的偏好程度和期望收益决定是否出借、出借金额和出借利率。最后,在标的期限内,平台将投资人愿意出借金额超过借款人想要融资金额的列表示为满标,而未达到融资金额的视为流标。在促进交易完成的网络借贷平台从中收取部分手续费和管理费,其运作流程图如图 2.1 所示。
..............................
2.2 P2P 借贷平台运营模式
2.2.1 国外 P2P 运营模式
国外 P2P 网络借贷平台的运作模式主要分为三类,第一类是以在 2005 年 3 月诞生于英国的 Zopa 为代表的无抵押有担保网络借贷平台,其运营模式为全国许多互联网公司效仿的对象。在该平台中依据投资分散化原理错配投资人和借款人,根据借款人信用等级对投资人设定固定收益率。Zopa 模式的特点是通过对借款人进行信用等级评分,强制借款人按月分期还款,强制投资人分散投资的方式控制风险,并给与投资人承诺在借款人违约时支付全额或者部分利息以保障投资者的利益,因而具有严格的风险控制措施,整个网站平台具有较为理想的网站坏账率。
第二类是以在 2006 年 2 月在美国上线运营的 Prosper 为代表的无抵押无担保网络借贷平台,其运营模式是仅仅充当简单的中介平台的作用。对借款人信用信息的审核是通过与第三方征信企业平台合作,根据制定的一套竞拍规则收取一定的佣金为资金借贷双方提供交易渠道。Prosper 平台的特点是其不参与借贷双方的账户资金管理,不承担信用违约风险责任,因而具有相对较弱的风险控制能力,因而整个网站平台的盈利模式为中介盈利模式。
第三类是以在 2005 年 10 月创立于美国服务于发展中国家创业者的 Kiva 为代表的小额借贷平台。批量的投资人向平台支付不低于 25 美元的金额,平台通过金融服务机构将资金转交给需要借款的群体,金融机构将收集到的还款资金返还给平台,然后平台通过 PayPal(国际贸易支付工具)将本息返还给资金出借人。Kiva 平台的特点是为发展中国家低收入群体服务,因而是一个不以营利为目标的服务型平台。
................................
第三章 研究假设与研究设计 ................................. 17
3.1 研究假设 ................................ 17
3.2 研究方案设计 ................................ 18
第四章 数据收集、预处理与统计性描述 ............................... 22
4.1 数据来源说明 .................................. 22
4.2 指标变量界定 .................................. 22
第五章 借款文本语言特征对投资决策影响的实证 .................................. 34
5.1 借款文本语言特征对融资成功率的影响分析 .............................. 34
5.2 借款文本语言特征对融资金额的影响分析.................................... 36
第六章 借款文本语言特征对信用风险评估的实证
6.1 基于 Random Foreast 的信用风险预测模型
6.1.1 模型参数调优
随机森林是一种较好的集成学习模型,比一般的