芝麻信用评分模型解析

  • A+

传统的征信系统,其数据来源比较单一,但是这些系统当中记录的都是关于个人和企业比较核心的金融数据,如信贷、保险、税收等,都是“真金白银”,与个人信用关联度比较强。互联网公司积累的数据虽然多,但是这些数据和个人信用关联度比较弱,如何用这些关联度弱的数据,分析出与个人信用的关系,是个难题。

 

此外,数据来源单一、数据的第三方问题、隐私保护问题等,芝麻信用该如何破解这些顾虑?


数据来源是哪?

1.集团自有的数据

阿里巴巴和蚂蚁金服本身积累的数据,是芝麻信用的一大优势。这些数据包括淘宝、天猫等电商平台网络购物的相关行为数据,支付宝平台水电煤电信缴费数据、各种生活服务场景相关数据,还有千万级以上的贷款数据。其中,贷款数据包括阿里巴巴平台上接近两百多万的小企业贷款数据,千万级的天猫分期购的数据,以及消费者无忧支付产品蚂蚁花呗的数据。

2.外部的数据

大致可以分为公共部门数据、合作企业的数据、金融机构的数据、用户自主上传的数据等几个方面。

a.公共部门数据:目前完全开放的还不多,目前政府已经开放的工商、学历、学籍、公安四个方面的数据。“政府的数据公开这一块,我们也在思考政府为什么要开放数据给你。在现阶段唯一的解就是为他创造价值。比如和最高法执行局的合作,就是芝麻信用接入之后,老赖们在网络上的消费会受到限制,这对案件执行来讲是有价值的。很多老赖都开通了芝麻信用分,接入最高法执行局后,有人看到自己分数下降的很厉害,就打电话来问,感受到了失信者受限的麻烦。

b.合作企业的数据:芝麻信用的合作企业有30多家,神州租车是首家与芝麻信用合作的企业。此外还有婚恋网站、酒店等各种生活场景中的商家。当用户的芝麻分达到一定数值,租车、住酒店时可以不用再交押金,网购时可以先试后买,办理签证时不用再办存款证明,贷款时可以更快得到批复、拿到比别人低的利率,甚至相亲时也可以最大程度避免婚骗。

c.金融机构的数据:银行目前都有自己的违约概率模型,数据来源是央行征信中心或银行自身,数据类型都是和信贷违约息息相关的“硬数据”。目前中国银行业风控效果良好,低于世界平均水平,因此银行未必有动力与芝麻信用合作。同时,有银行业人士接受媒体采访时表示,蚂蚁金服旗下有蚂蚁小贷做小贷业务,还有网商银行,这对银行而言都属于竞争者,因此不可能将核心数据提供给竞争者。

怎么做数据分析

通过多种渠道汇集的数据,在芝麻信用分的评分当中,被分为五个维度:身份特质、履约能力、信用历史、人脉关系、行为偏好。

a.身份特质:是指在使用相关服务过程中留下的个人基本信息,包括从公安、学历学籍、工商、法院等公共部门获得的个人资料,未来还可能包括网络使用习惯等可以用于推测个人性格的数据。

b.履约能力:包括享用各类信用服务并确保及时履约,例如租车是否按时归还,水电煤气是否按时交费等,还包括通过消费情况、消费稳定性、消费层次等等来判断用户未来履约有什么样的能力。

c.信用历史:是指过往信用账户还款记录及信用账户历史。这些历史包括用户的在蚂蚁微贷、蚂蚁花呗等蚂蚁金服旗下服务的信用历史、用支付宝还款的历史,还包括用户在合作伙伴处产生的信用历史,“我们把信用历史看得非常重要。因为大量的研究已经表明,如果一个人有持续的好的借贷还款行为的话,他在其他各个场景当中都会有类似的延续、惯性。”

d.人脉关系:是指好友的身份特征以及跟好友互动的程度。根据“物以类聚人以群分”的理论,通过转账关系、校友关系等作为评判个人信用的依据之一。当判断关系的时候,要看两个人之间联系的紧密程度如何,以及历史的一贯的行为表现是怎样的,这些都是通过一个一个的模型判断出来的,而每个模型在判断一个指标的时候,都会用到几十上百个变量。

e.行为偏好:是指在购物、缴费、转账、理财等活动中的偏好及稳定性。“比如讲一个用户你是否经常做一些与家庭责任相关的、跟社会责任相关的事情,在你购物的行为当中能不能体现出这种特征,如果是的话可能对你的个人信用会有正向的作用。

芝麻信用评分模型解析

如何保护隐私?

利用大数据进行信用评估,目前只对特定人群、特定服务有效,比如对年轻人进行小额消费贷款。

第一,很多数据,不是存在芝麻信用,而是在各数据源,如政府机构、合作伙伴、电商平台等。

 

第二,得到芝麻用户的授权,我们的系统才会调用各数据源和用户相关的数据,这个调用过程是没有人工参与的,都是系统运营的。

 

第三,系统运营的过程,会通过运算规则的设置,按照法规要求,不碰种族、血型、宗教、信仰等等信息。

 

第四,整个数据开发团队有很好的防护墙,只有核心成员知道系统运营的内核是什么。但即使他们知道运营规则,也不能接触到用户的信息,整个计算是在黑匣子里。

 

第五,只有在用户授权的情况下,第三方才可以调用用户的芝麻分等信用数据。

其表示,从用户数据的调用、运算,到第三方对信用分等的使用都是在用户授权的前提下进行,芝麻评分全过程工作人员不接触用户的信息,一切均由系统运营,确保用户隐私全程保密。

南霁月
误差分位数的默示有效估计与\ 自回归时间序列的预测区间
数学建模教材(包括十大算法、matlab、lingo、spss、exce以及多种实例模型)
中国大数据生态图谱&大数据交易市场专题研究报告
R语言实战(中文完整版)

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: