解读芝麻信用与FICO评分的差异

  • A+
所属分类:大数据 数据运营

解读芝麻信用与FICO评分的差异

如果你身为高富帅或者白富美,同时又是个剁手族,那你的阿里巴巴芝麻信用分一定很高。这样,当其他人还在焦急地等待签证消息时,你就可以潇洒地从限量版的爱马仕包包里拿出iPhone6s,点击支付宝,轻触芝麻信用,哇,你的信用分数是760!随后你任性地把护照和iPhone6s扔在签证官面前,看着他/她在你护照上盖章,你微笑着说:Please charge Visa fee directly from my Ant Credit Account (蚂蚁花呗)!

除了签证办理之外,其他许多生活方面的应用也离不开芝麻信用。如果你想免押金租车、租房,在酒店先入住后付款,都需要一定的芝麻信用分数;更不用说金融方面的信用贷款了……FICO评分在中国的推广一直说不上热火朝天,可是在中国有芝麻信用分的人不说上亿,起码也有几千万吧。这么广泛的客户来源,再加上支付宝的强大覆盖力,FICO评分这样的传统信用评分还有多大价值呢?会不会在不远的将来,就被芝麻信用分、腾讯征信评分取代映衬得黯然失色呢?

其实也不能一概而论。让我们先看看传统的FICO评分和芝麻信用分是如何计算出来的吧:

FICO评分是Fair Isaac公司开发的信用评分系统,也是目前美国应用得最广泛的一种。FICO评分系统得出的信用分数范围在300~850分之间,分数越高,说明客户的信用风险越小,它采集客户的人口统计学信息、历史贷款还款信息、历史金融交易信息、人民银行征信信息等,通过逻辑回归模型计算客户的还款能力,预测客户在未来一年违约的概率:

1. 人口统计学信息:如客户年龄、家庭结构、住房情况、工作类别及时间等;

2. 历史贷款还款信息:即过去6个月或12个月的付款方式、逾期次数等;

3. 历史金融交易信息:即过去6个月或12个月的平均月交易笔数、金额等;

4. 银行征信信息:如过去12个月中新开的账户总数、所有账户的总额度、账户是否逾期等。

看,以上这些信息都是FICO评分模型的自变量,最终会通过逻辑回归模型输出最终分数。不同的是,阿里巴巴推出的芝麻信用分则是以大数据分析技术为基础,采集多元化数据,包括传统的金融类交易、还款数据,第三方的非金融行为数据,互联网、移动网络和社交网络数据等,帮助贷款方从多个方面考察个体的还款能力、还款意愿,做出合理、全面的信用评分。

解读芝麻信用与FICO评分的差异
上图展现了基于大数据分析技术的机器集成学习法Ensemble。不同于传统的逻辑回归模型,它采集了上万个数据项、从不同的层面(还款能力、还款意愿、欺诈可能性、稳定性等)对个体进行建模打分;再把这些单个层面的评分、结合个体的综合信息,给个体一个最终的信用评分。

两种评分模型采用数据量的不同体现了其评分思路的区别。通常,FICO评分模型只有十几个评分项,每一个评分项对目标变量(即是否违约)的预测性和影响力都很高。但是,在机器集成学习法中,最终进入模型的评分项可能多达成千上万,而且每一个这样的评分项对目标变量的单独预测性可能都很小;Ensemble就是利用机器学习法,把这么多微小的预测性汇总成为最终对个体的违约可能性有很强预测性的评分。

那么,芝麻信用有哪些局限性呢?我们不妨参照已有的实例来进行横向对比分析。美国的互联网金融公司ZestFinance从2009年就开始研发基于大数据的信用评估模型:融合多源信息,采用机器学习的预测模型和集成学习策略,进行大数据挖掘。他们收集了上千种来源于第三方的数据,比如水、电、煤账单,电话账单,房屋租赁信息,和传统的金融借贷、还款信息等;通过机器学习的方法寻找数据间的关联性并对数据进行必要的转换;在关联性的基础上将数据重新整合成不同的测量指标;每一种指标反映个体的某一方面特征,比如诈骗概率、长期和短期的信用风险和偿还能力;最后,将所有指标按加权投票的原则,做成最终的信用评分。

但是ZestFinance的个体信用评分只适用于缺乏或没有信贷记录的人群,也就是说,这些人或者刚移民到美国,或者之前从来没有过贷款行为。所以ZestFinance 的大数据征信最终无法替换FICO评分,而只是用来补充FICO评分的不足。原因包括多个方面:

1. ZestFinance 的大数据征信的体量不大,到现在只为10万美国人提供服务,对模型的有效性、准确性还很难做出有效的评价。

2. ZestFinance 的大数据模型也给传统的风险管理带来挑战:传统的FICO评分需要处理的变量比较少,对模型结果可以给出合理的解释,方便金融机构不同部门之间、金融机构与客户之间的沟通。而ZestFinance 的基于大数据的数以千计的变量规模和多模型应用,使得数据的处理和模型的解释变得很复杂,在实际应用中会带来许多麻烦。

3. ZestFinance 在利用个体消费者的大数据进行信用评估时,很多数据会涉及个人隐私,比如个人社交网络数据(微信朋友圈)、电商交易数据、通话记录等,所以涉及个人隐私的保护和合规性。

阿里巴巴的芝麻信用和ZestFinance的大数据征信相似,也存在一定的问题,比如:芝麻信用覆盖的人群可能上亿,但是芝麻信用分的有效性和准确性还没有得到公认的评估;凭借高的芝麻信用分可以在支付宝开通蚂蚁花呗,类似信用卡的透支服务,但是芝麻信用在其他方面的应用还没有达到一定的规模。

当然,大数据信用评分终归是历史的趋势,目前FICO公司和国外三大征信机构都已经开始了利用大数据分析技术来完善传统信用评估体系的前瞻性研究。比如,益百利Experian已经投入研究团队关注社交网络数据对信用评分的影响;FICO公司也已经开始了在线评估的信息工具和基于互联网的信用评估系统的项目研究。我们相信,随着理论与方法的完善和实践的深入,基于大数据分析的信用评分终有一天将占据主流地位,不过,市场上会不会出现有力的新竞争者、最终赢家究竟是芝麻还是西瓜,仍需我们拭目以待。

via:KPMG大数据挖掘

南霁月
基于大数据的用户特征分析
深入浅出数据分析(中文版)
精选各名校数学专业考研初试试卷
误差分位数的默示有效估计与\ 自回归时间序列的预测区间

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: