您现在的位置是:首页 >技术交流 >基于Logistic回归分析算法的银行信用评分卡模型 网站首页技术交流
基于Logistic回归分析算法的银行信用评分卡模型
摘 要
随着信息科技和国民经济的快速发展,人们的消费观念发生较大改变,逐步倾向于提前消费,这也是个人消费信贷发展的主要原因。现在消费信贷的形式和产品种类丰富多样,大大缩短了申请的时间,同时意味着增大了金融风险。为有效控制风险,银行广泛使用信用评分模型来对客户进行评分,对不同等级的客户实施不同信贷额度和政策,以此降低个人消费信贷的风险。
为了对客户风险进行合理的判断,实现风险和收益的平衡,引入信用评分卡模型。信用评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段,它衡量借贷者(受信人,需要借款的人)不能如期履行借贷合同中的还本付息责任,并让放贷者(银行等金融机构)造成经济损失的可能性。一般来说,评分卡打出的分数越高,客户的信用越好,风险越小。
本文通过研究历史文献及前人对信用评分卡模型的研究,了解评分卡模型的发展。结合H商业银行和M互联网消费贷款公司的个人消费信贷的数据,引入的客户特征有年龄、历史逾期行为定性、信用可用额度占比、历史逾期次数、债务与收入占比、每月工资收入、房产情况、家庭人数等。最后使用 Logistic回归分析建立信用评分卡模型,使用AUC准确率和ROC曲线验证模型的预测能力。
关键词:信用评分卡模型;逻辑回归;数据分析
- 前言
1.1研究背景
随着信息科技和国民经济的快速发展,人们的消费观念发生较大改变,逐步倾向于提前消费,这也是个人消费信贷发展的主要原因。现在消费信贷的形式和产品种类丰富多样,大大缩短了申请的时间,同时意味着增大了金融风险。为有效控制风险,银行广泛使用信用评分模型来对客户进行评分,对不同等级的客户实施不同信贷额度和政策,以此降低个人消费信贷的风险。
个人消费贷款是指银行向个人客户发放的有指定消费用途的人民币贷款业务,用途主要有个人住房、汽车、一般助学贷款等消费性个人贷款。随着国民经济的不断发展,人民生活逐渐富裕起来,这使得人民越来越接受信贷这种消费方式。由央行数据可知,2020年3月末,本外币贷款余额165.97万亿元,同比增长12.3%。人民币贷款余额160.21万亿元,同比增长12.7%,增速比上月末高0.6个百分点,比上年同期低1个百分点。这样的涨幅虽然可观,但我国消费信贷的成长速度仍然不及那些发达国家。不过随着互联网金融行业的快速成长,我国的消费信贷不再只包含银行业,一些互联网公司也开始推动一些线上的信贷产品,这种线上贷款方式最大的优点就是客户仅需要下载APP,然后根据提示填写个人基本信息以及相关验证个人信息的资料就完成了申请,这种贷款方式的审批速度也远远超过了传统方式,最快可以在30分钟内拿到贷款,这种消费模式完全适合现代社会快速的生活方式,所以其发展势头旺盛。在中国消费信贷虽然处在开始水平,但它的发展前景是光明的。
为了对客户风险进行合理的判断,实现风险和收益的平衡,引入信用评分卡模型。信用评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段,它衡量借贷者(受信人,需要借款的人)不能如期履行借贷合同中的还本付息责任,并让放贷者(银行等金融机构)造成经济损失的可能性。一般来说,评分卡打出的分数越高,客户的信用越好,风险越小。
本文通过研究历史文献及前人对信用评分卡模型的研究,了解评分卡模型的发展。结合H商业银行和M互联网消费贷款公司的数据,引入的客户特征有年龄、历史逾期行为定性、信用可用额度占比、历史逾期次数、债务与收入占比、每月工资收入、房产情况、家庭人数等。最后使用 Logistic回归分析建立信用评分卡模型,使用AUC准确率和ROC曲线验证模型的预测能力。
1.2国内外研究现状
1.2.1国内研究现状
国内商业银行初期的信用评分模式主要为专家判断,将客户的资料和客户的开户记录作为信用评分审核的标准,结合国内的实际情况和已有的数据,吸取国外信用评分卡模式的经验,开发出一系列的信用评分卡系统[1]。与此同时,在数据处理上,国内学者和金融机构为提高模型的准确性和客观性,不断的进行深入研究[2]。相较于国外的信用评分卡指标体系,我国的金融借贷机构更较关注申请者的受教育程度和单位性质等[3];迟国泰等人设计了个人信用指标评分标准与评分函数,建立了包含个人还款能力和还款意愿的15个指标的个人信用风险评价指标体系,在隶属度原理和层次分析法的基础上,构造出各类指标的评分函数及其权重。于立新等人在《基于判别分析的商业银行个人信用风险评价模型研究》中,以Fisher判别分析法为基础,构建了目标层指标和准则层指标,建立出基于判别分析的信用评分模型[4];石庆焱、靳云汇对国外有关商业银行常使用的个人信用评分模型与方法进行了综述,并包括判别分析、线性规划、神经网络等各种方法进行了分析比较;朱晓明、刘治国也曾做过类似的研究,理论部分涉及到 SVM方法和最邻近方法,但没有进行实证分析;庞素琳、王燕鸣[5]利用线性判别分析法构建信用评价模型对上市公司进行分类;刘莉亚结合传统评分模式和定量模型评分模式,并通过对两者进行相互校验,建立了混合型的个人住房贷款信用评分模型。马海英[6]等人在《基于神经网络及logstic回归的混合信用评分模型》中结合logistic回归和神经网络的优点,建立了混合信用评分模型,但由于模型的数据来源不明确,导致数据缺乏可信度[7];张初兵等人利用随机模拟的方法对判别分析和logistic回归方法做了比较,认为logistic回归的回判正确率低于判别分析,修正的logistic回归分类优于logistic 回归[8]。姜盛使用 logistic回归方法,设计了识别信用卡套现账户侦测的评分模型。
1.2.2国外研究现状
最早的信用评分方法是由美国人Bill Fair和Earl Isaac在上世纪四十年代发明的FICO评分方法,并成立了第一家使用数学模型进行评分的公司—FairIsaac[9]。之后Myers and Forgy在1963年利用客户申请表中的数据信息,通过判别分析方法和回归分析方法建立模型并对其信用风险进行了评判[10];1968 年,Altman构造出著名的“Z-score”模型来预测公司破产的可能性[11]。Granger C.W.J 和 Bates J.M.在 1969 年使用组合预测的方法对信用评分模型进行了系统的研究,他们设法将不同的预测模型进行组合,将预测方法得到的结果进行综合,赋予权重,得到最终的组合预测模型,从而提高性能[12]。Orgler在 1970 年利用线性回归分析法对消费者贷款的信用风险进行评估,并在 1971 年构建了关于未还贷款的评分卡模型。其后Fitzpatrick、Henley也将线性回归法应用于信用评分相关的研究。在1984年,Ramanathan和Granger使用最小二乘法对单个模型进行回归分析,该方法确保了组合后的模型没有偏差[13]。
1.3研究目的和意义
1.3.1研究目的
获取银行及消费金融公司的部分借贷信息数据;通过银行及消费金融公司的业务系统获取个人消费信贷数据信息。对数据进行数据清洗、数据集成、数据变换和数据规约,使用Logistic回归分析建立信用评分卡模型,使用准确率和ROC曲线验证模型的预测能力。
1.3.2研究意义
研究信用评分卡模型的主要方法有基于机器学习的神经网络、支持向量机等,基于统计学的逻辑回归、lasso回归等。本文通过统计学方法来建立信用评分卡,根据客户隐藏的丰富信息,建立出区分能力较强、评分结果校准、能够稳定运行的信用评分卡模型。
1.4全文组织结构
本文共分为7章,文章组织结构如下:
第1章 介绍了本设计的研究背景、目的和意义,以及信用评分卡的国内外研究现状。最后介绍了全文的组织结构。
第2章 主要是对数据挖掘的整体概述,包括数据挖掘的概念以及主要任务。
第3章 主要介绍了数据采集的概念、方法以及本设计中数据获取的具体过程。
第4章 主要介绍数据的清洗与预处理技术以及本设计中的预处理过程。
第5章 主要介绍了逻辑回归分析算法的描述和函数。
第6章 主要介绍了信用评分卡预测的实现过程。
第7章 主要是针对全文内容的总结和展望,总结了本设计的成果以及不足之处。
- 数据挖掘概述
2.1数据挖掘概念
数据挖掘技术是数据处理技术发展到一定阶段的产物。同时是金融领域重要的基础技术之一。数据挖掘技术的优势一是数据挖掘技术将数据库技术与统计分析技术、机器学习技术相融合,提高了处理海量数据的能力;二是数据挖掘技术相比其他数据分析技术而言,其可解释性和可理解性比较好,借助可视化工具,可以比较方面看到数据中蕴含的意义,提高数据分析的效率。数据挖掘需要完成的过程如图2-1所示:
图2-1 数据挖掘过程
2.2数据挖掘技术
2.2.1数据挖掘发展
作为新兴的研究领域,数据挖掘已取得显著的进展并且进行了广泛的应用。
数据挖掘出现于20世纪80年代末,最早是在数据库领域发展起来的,称为数据库中的知识发现(KDD)。数据挖掘就是从海量的数据(包括结构化和非结构化)中挖掘出隐含在其中的、事先不为人知的、潜在的、有用信息和知识的技术。这些信息是可能有潜在价值的,是用户感兴趣的、可理解、可运用的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。数据挖掘综合了各个学科技术,主要功能如下:
(1)分类:按照分析对象的属性、特征,建立不同的组类来描述事物。
(2)聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。
(3)关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。
(4)预测:把握分析对象发展的规律,对未来的趋势做出预见。
(5)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。
...... 【学习更多内容 流分享】