基于XGBoost+RF的个人信贷风险预测研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zou123456ting
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
全文阅读
随着中国经济由高速度增长阶段向高质量发展阶段转变,消费正在逐步代替出口和投资成为拉动经济增长的新的动力。在这样一个新的发展阶段,中国个人消费信贷市场正展现出惊人的潜力,这对于进一步推动消费需求成为经济增长的新动力、改善普惠性金融服务以及促进经济结构优化转型都将发挥越来越大的促进作用。由于个人消费信贷规模总量的扩大和未来一段时间内可以预见的快速增长,贷前风控也将成为一个非常重要的问题,而近些年来海量且高维度的客户数据积累使得在贷前利用定量分析的办法对客户的信用状况和行为进行较为准确的预测成为可能。本文主要基于机器学习的一些方法根据普通客户的基本信息对其贷前信用违约风险进行预测,主要的研究方向是推进机器学习方法在信贷风险预测中的应用与改进。在具体分析了Bagging和Boosting算法的相关技术及其特点之后,根据XGBoost算法作为一种梯度提升算法可以相对地直接得到每个属性的重要性得分的特点和Random Forest算法由于随机性的引入使模型不容易过拟合、抗噪声能力,而且训练速度快,容易实现并行化的特点,最终选择了使用XGBoost算法与Random Forest算法相结合的方法,即XGBoost+RF方法来作为本文进行个人贷前信用风险预测的主要方法。本文研究所用的数据样本来源于美国网络贷款平台Lending Club在2007-2015年之间的信用贷款情况数据。为了符合研究的需要,在进行具体的算法模型训练之前,对数据进行了如下预处理,首先对原始数据进行了缺失值比例较大的特征的删除、目标值的数字量化处理、特征抽象、特别特征的处理、特征衍生、空值插值处理等数据清洗工作;然后由于原始数据的庞大和正负样本比例不平衡,本文按照原始样本的正负样本比例,即1:13,随机抽取了14万数据作为训练数据集,从剩下的原始数据样本中抽取了1000个数据量作为模型训练完成后的实际应用预测集;最后由于训练数据集的正负样本数量严重失衡,本文采用了SMOTE+ENN方法进行了采样。为了说明本文提出的XGBoost+RF算法在个人贷前信用风险预测上比传统的机器学习方法更具优势,本文在模型训练上进行了两个阶段的比较,第一个阶段是XGBoost+RF算法与单独的XGBoost和Random Forest算法的比较,第二阶段是XGBoost+RF算法与Decision Tree、SVM、Logistic Regression等常用的二分类机器学习算法模型的比较。模型的训练效果用accuracy、precision、recall、F-measure以及ROC曲线和AUC值等评估指标来比较,模型的实际运用效果用最后的实际预测准确率来比较。最后的比较结果是在第一阶段的比较中XGBoost模型的训练效果最好,本文提出的XGBoost+RF模型与Random Forest模型的训练效果差不多,但是在实际预测时XGBoost+RF模型的准确率远高于XGBoost模型和Random Forest模型;第二阶段的比较中Decision Tree算法的训练效果最好,XGBoost+RF其次,Logistic Regression和SVM的训练效果差不多,但是从最后的实际应用预测结果来看,仍然是XGBoost+RF的预测准确率最高,由此而得出了XGBoost+RF算法模型在个人贷前信用风险预测上存在优势的结论。
其他文献
作为教师专业发展的重要组成部分,教师专业知识逐渐成为一个世界性的教育研究的热点、重点问题。MKT是教师专业知识在数学教育领域的应用,是由Ball等研究者提出来的,数学教师的KCS是MKT的一个下位概念。目前关于教师KCS的研究较为少见。问题提出是提问者基于特定的问题情境形成并表达问题的认知过程,问题提出的背后是学生数学思维的反应。从问题提出的视角分析职前教师和在职教师KCS的差异,既是教师专业发展
抗生素废水具有成分复杂、毒性较高、处理难度较大、生物降解性较差等特点,一般的工艺难以将其完全去除。发展一种高效的方法降解抗生素废水具有重要意义。光催化氧化降解难降解有机污染物技术具有经济效益高、去除率高等优点,已成为当前研究热点。光催化效率的高低取决于光催化剂的性质,因此,研发高性能光催化剂成为光催化技术的关键。氧化石墨烯(GO)是一种二维材料,具有电子迁移率高、比表面积大和化学稳定的优点,已经被
近年来,师生比在教育事业中受到广泛关注,其影响因素逐渐成为教育各界普遍关注的问题。师生比是衡量办学效益的重要指标之一,是对教育现状的一种描述,也是影响学校教育及学生成绩的重要因素。因此,探讨师生比的变化情况及其影响因素,对教育发展具有现实意义。基于国家制定的有关各级师生比的标准,本文从聚类分析结果出发,找到师生比的影响因素,并在此基础上对影响因素提出合理的估计值及政策建议。本文对近年来各省市、自治
从2000年10月上海证券交易所发布第一版股票质押细则至今,中国的股权质押业务已经历了近20年的发展,成为我国当前重要的融资渠道之一。由于股权质押融资具有的融资便利、控制权不受影响等优点使其受到众多上市公司的热捧,尤其是融资渠道相对较窄的民营企业,尤为偏爱通过股权质押获得融资,同时,民营企业也已成为当前股权质押融资市场的绝对主力。但是,股权质押融资会带来控制权与现金流权的分离,“两权分离”会导致高
汉阴县隶属陕南安康地区,唱孝歌是当地丧葬仪式中为超度亡魂而迎请歌师吟唱孝歌,将孝亲聚集一堂听歌陪灵之风俗,也是当地丧葬文化的特色代表。唱孝歌不是单纯的表演,而是集当地民间信仰、文化信息等综合于一体的表达。首先,文章结合当地流传的关于孝歌起源的说法与相关历史及其歌词信息三方面分析,探讨汉阴孝歌的由来问题,认为汉阴孝歌应为外地传入,对汉阴孝歌成俗影响最大的是移民因素,移民过程促进了孝歌的发生发展。其次
STEM教育以跨学科的教育模式整合了科学、技术、工程和数学四门学科,以问题为引领,以契合学生实践为根本,综合学生的各学科知识,培养学生独立探索,获取信息和新知识的能力,切实提高学生的科学探究和科学思维能力,为学生科学素养的培育提供新平台。既强调各学科的相互独立性,又重视各学科的相互渗透性,极大地促进了学生综合素质的全面发展。也为实现教师职业发展新目标提供极大地助力。在客观全面了解教育的基础上,笔者
股利政策是指将最终获得的净利润在留存与股利发放之间进行分配的企业政策。作为上市公司经营管理活动中重要的一项决策,有着不容忽视的地位。公司在制定股利政策时需要考虑到选择哪一种股利分配的方式,以及发放多少的股利。对其而言,股利政策的具体内容受到监管层的法律法规约束,与其自身的发展也息息相关。对于投资者来说,股利政策也是一种给予股东的积极回报。国内外的许多专家学者以不同的视角提出与论证了不同的理论,对股
一种绘画方式或绘画语言的形成,都是通过艺术家长期摸索和体会感悟的结果。本文通过对意象油画的绘画语言以及代表艺术家作品的研究,从多个角度探索意象绘画的形成和发展,发现意象绘画的“破形”手法在当代绘画表达方式中的重要作用与可能性。意象油画是融合中国传统文化精神与审美内涵的绘画语言,是在审美客体的形式之外,以想象、直觉、联想等方式去把握一种意味丰富且独特的表达方式,体现了审美主体“立象尽意”、“天人合一
目前上市公司面临各类风险,诸如政治风险、国家政策调整风险、财务资产风险、市场波动风险、投资风险等。面对各类风险以及日益激烈的股票市场,如何准确地评估出企业的盈利能力状况对企业未来的发展至关重要,这也是本文的重点研究方向。在前期阅读大量相关文献的基础之上,本文首先对盈利能力进行了介绍,然后运用统计学知识对六个行业盈利能力进行了描述性分析,并将不同行业的盈利能力进行对比,从而更加清晰的看出六个行业的发
卫生健康事业的发展水平关系到一个地区或一国人民大众的健康,以前卫生健康体系的重点是治病救人,而现代卫生健康体系的中心是保障人民健康,要想提高人口质量从而推动实施健康中国战略,只能不断提高预防控制重大疾病的能力水平。通过对地区卫生健康水平的评价,可以反应出一个地区的公共卫生体系建设水平,逐渐改善的人民生活水平、日新月异的现代科技发展、愈发严重的人口老龄化问题,以及发展经济造成的环境污染等因素都加重了