【特许全球金融科技师CGFT·读书会】导师分享 | 乔杨:数据驱动的风控技术及应用探索
日期:2020-08-27
近几年,数据驱动决策、数据化运营、智能风控理念逐渐为金融科技业界重视和践行,随着金融大数据技术和机器学习技术的进步,越来越多的新的科技手段被应用在银行风险管理业务中,突破了传统的依赖专家经验和规则等手段的局限,数据化风控和智能风控极大程度提升了风险管理决策的质量和效率。银行、保险、投资、支付、电商等领域,数据化风控和智能化风控越来越深入,数据驱动决策,让风控更有效。
8月13日,上海高金金融研究院和电子工业出版社联合主办的第二期线上“FinTech读书会”。
本次读书会精选近两年风控领域的扛鼎之作——《数据化风控》,介绍如何通过数据分析和量化建模实现更有效的银行零售信贷风控。本书作者乔杨先生亲自带领大家打开智能风控的视野,解读智能风控行业新趋势、新理念和新探索。
乔杨先生第一部分简单介绍了《数据化风控》这本书里提到的概念和在整个评分卡建立过程中行业人员需要关注的点,第二部分基于前面的介绍内容进行延伸,举例讲解了现在市场上对于整个评分模型和策略做的尝试和探索。
他首先介绍了信用评分的分类,按开发主体分为通用型评分、征信机构评分和定制评分三类,按用途分为A卡、B卡、C卡三类,具体分类和相关优势如下:
信用评分也可以按照模型所预测的未来表现结果划分:
随后,乔杨先生介绍了信用评分模型在信贷产品生命周期管理中的应用,并进行了模型框架举例。针对评分模型的开发步骤,他把最核心最基本的内容详细展开,提到了很多值得关注的点。他提到,学校知识和经验在实际业务中不一定完全适用,需要结合大量的实际业务场景,所以从业人员要严格遵守步骤流程,从确定评分目的到确定基本定义、数据准备、变量分析,再到建立模型、拒绝推论以及效力验证等。
步骤1:确定评分目的
一定要在开发模型前确定项目参与方、进行方式、建立时程、搭建成本、交付文档及格式、模型测试指标、验收标准以及其他特殊要求或条件限制。他特别提到,模型的交付文档及格式有着非常严格的界定,因为在成熟的金融机构,任何建模人员即使离职,也可以在不需任何人为干预的情况下通过他的模型文档完全复制还原之前建模的整个流程,包括模型搭建逻辑以及还原出的模型结果。而且在模型搭建过程中,需要独立第三方用公正客观的角度去判断当时搭建模型的流程中是否出现纰漏,但目前国内金融环境欠缺模型风险管理岗位,整个模型建立流程缺少第三方监控,一旦出现问题,再去回溯查找就为时已晚。
步骤2:确定基本定义
首先要设定观察期和表现期,通常都会设为6~24个月,且遵循近大远小的原则,即选取的数据和观察期和表现期越近,所占权重越大。其次是核心环节——设定违约定义,通常做评分卡来定义、来预测客户的好坏,但坏的表现并不确定,对于不能完全判断为坏的变量指标,一般通过转移分析(灰色地带定义)来进行观察,在起始点定义为好、坏、灰色地带的客户,观察后期表现是否偏移,类似灰色地带客户不适合纳入建模样本。
步骤3:数据准备
数据本身要具备正确性、完整性、实时性、合法性和可用性;其次还涉及到抽样方法和样本质量,抽样方法是随机抽样还是分类抽样,样本选择要遵循代表性、充分性、时效性以及排除性等原则。
步骤4:变量分析&步骤5:模型建立
步骤4变量分析和步骤5模型建立放在一起讲解。模型的数据类型一般分为事件类型数据,标签、描述性的数据,文本类型数据和网络关系数据这四种;多数情况下会用到事件型数据,它包含了交易数据、浏览数据等内容,如下是美国金融机构的特征构造——事件型数据,数据库里设定变量名分别为变量主体、度量维度、聚合函数和时间窗口:
在模型选择上,近期积极学习的模型不一定会非常火,模型选择实际上是服务风险策略的系统性工程:在数据和特征维度要看具体行业和应用场景,有传统金融行业、互联网、设备信息、生物识别,还有其他一些行业类型;在模型监管维度,模型要具备可解释性,尤其是经济危机发生之后,监管要求金融机构自主能够解释模型搭建的全流程;策略应用和模型效果维度也很重要,根据实际技术及数据现状决定模型训练程度、进行模型调参,通常情况下线性回归率模型效果可能略差,而像梯度学习的模型可能效果较好。
步骤6:拒绝推论,有实际经验
统计拒绝推论和经验拒绝推论三种。这一块国内信贷机构基本做的比较少,由于判断客户、建立评分卡都是基于核准的用户去做,对于拒绝的用户不了解、又不能掌握他们的表现数据,进而不能判断为坏用户,只有优化模型才能让我们判断是否拒绝掉的用户里面还有一些不错的用户,以扩大通过率、同时降低授信成本。拒绝推论方法有单纯扩充法、分群法、模糊法、迭代再分类等。
步骤7:效力验证
这是开发评分模型的最后一个步骤,模型最后要应用到整个风险策略服务里,最核心的就是怎么设定模型的阀值,即通常说的切点如何设定。设定阀值有四种方法:(1)保持一定的通过率,同时尽可能降低逾期/坏账率;(2)保持一定逾期/坏账率,同时尽可能提高通过率;(3)根据经验维持管理层可接受的通过率/坏账率的组合;(4)利润最大化。设阀值有几类,一类叫单切点或单一阀值,也有设定双阀值的,高度开放竞争的市场环境设定阀值时通常会对用户进行分层或划分,而不是设定统一阀值。如果双信用评分卡评分结果出现的差异变大,就要检查评分卡中之变量区隔效力有无变差或是出现偏移现象,可以通过MIS对评分模型进行持续监控修正并调整策略,还要看到业务知识及经验的重要性。整个模型开发及管理必须遵循一个非常的严格流程,如果任何一家机构能够按照乔杨先生列的整个流程去搭建,应该能达到业内模型开发及管理流程的最高标准。
最后,乔杨先生对关于欺诈进行了讨论。在反欺诈领域,中国消费信贷市场产品种类丰富、互联网化发展速度远超欧美国家,欺诈手段不断更新变化、欺诈风险涉及方面较多,对国内反欺诈工作提出了非常高的要求。在中国很多金融机构在前端利用数字科技加持、提高自身风险认知,对内建立有效的内控合规管理机制,对外平衡客户体验和风险管理,并进行反欺诈引擎部署,管理多样风险。
欺诈模型的探索创新可能要遵循4个点,(1)要有资深案件识别能力和业务知识判断,必须要建立一个较稳定案件库和欺诈数据标签;(2)特征工程涉及数据量和运算量非常大,要具备实时数据挖掘能力,才能够对于这种反欺诈探索进行前期铺垫;(3)欺诈手段多样化,会涉及多个模型融合;(4)模型迭代更新速度要赶上欺诈环境变化速度,考虑模型滞后性的因素,还要设定一个高频定期模型效果监控和后期建立自适应模型等。乔杨先生还列举了RNN和LSTM模型,并测试了某地理位置轨迹数据在风险模型中的效果。乔杨方还提出了“斑马”扩散概念,即白户黑户扩散,黑户扩散用在反欺诈较多,基于这个概念利用麦网技术扩散出来的模型,在实际表现中区分度非常高,白名单扩散授信在欺诈领域应用出色。
至此,嘉宾以《数据驱动的风控技术及应用探索》为主题的分享基本结束,在线大咖和网友都表示很有收获并踊跃提问,顺利进入在线互动交流环节。
文末好消息
乔杨先生在【特许全球金融科技师CGFT】认证项目中担任顾问专家委员会委员,目前CGFT已于7月1日正式上线,现正在火热报名中,欢迎各位小伙伴与我们一起加入CGFT的终身学习计划!