5.1.2 数据预处理
在进行实证之前,还需要先完成数据的预处理工作。首先,因本文用于实证研究的数据包含与债券自身相关的指标以及发债主体的财务指标,而发债主体并不全是上市公司,所以其中可能存在数据缺失的问题,需先对缺失值进行处理。其次,是需要对上一步处理完后的样本数据进行归一化处理,使各指标处在同一量级。再者,因信用债市场的客观情况,正常债券数量远多于违约债券数量,所以还需要在各模型中通过参数调整进行数据的不平衡处理。另外,因还有分类特征的存在,而对于XGBoost模型而言,分类特征需要进行独热编码的操作,所以针对代入XGBoost模型的特征变量,还要进行额外的独热编码处理。
第6章 总结与建议
6.1 研究总结
自2014年起,我国信用债市场的违约事件愈来愈多,随着我国金融市场的不断发展,对债券市场的风险管理显得越来越重要。制造业作为我国的支柱产业,其在信用债市场中存在的违约风险却远高于其他行业大类,在经历了疫情造成的影响后,更应该加强对其违约风险的衡量与管理。
本文先对我国制造业信用债的违约情况进行了分析梳理,而后选取了2016年至2021年3月间,违约的制造业信用债以及正常到期的制造业信用债作为研究对象,依据对制造业违约信用债的分析梳理,根据对近100起违约事件的深入研究,构建出了既包含财务指标也包含非财务指标在内的制造业信用债违约风险衡量指标体系。再者,运用Lasso-Logistic Regression、LightGBM以及XGBoost模型对我国制造业信用债违约风险进行分类预测。本文研究成果如下:
1、通过对我国信用债市场的整体研究以及对制造业信用债的细分研究得出,我国制造业信用债违约风险与宏观经济环境、市场需求、行业发展状况、公司治理及经营情况息息相关。其中宏观与中观方面的影响均先传导至企业的经营层面,进而体现在企业的财务指标中,最终再由企业的财务状况直接影响债券违约的发生与否。基于这个逻辑,本文又结合了制造业违约信用债的特征,构建出了包含“发债主体财务指标”、“发债主体自身性质”以及“债券自身因素”这三个层面在内的违约风险衡量指标体系,为实证研究奠定了基础。
2、通过实证部分的结果得到,XGBoost模型对我国制造业信用债违约风险的分类预测具有较高的准确性,并且经过参数优化后的XGBoost模型的AUC值为0.9638。这说明XGBoost模型可适用于我国信用债违约风险的分类预测,可为投资者和企业的风险规避以及后续学者的研究提供一定的思路及参考。
参考文献(略)