大数据专家：如何从数据中发掘自己?

发表评论
5,007 阅读

A+

文 | 安德雷斯•韦思岸

最近支付宝圈子和芝麻信用分成功地营销刷屏，有些人可能会觉得奇怪，自己并未使用芝麻信用的服务，其芝麻信用分是如何得来的呢?显而易见，大数据会说话。由于芝麻信用关联了支付宝的购物平台，会通过消费者平时的购买记录、好友的社交图谱以及信用历史等来评估其信用值;同时，如果消费者完善更多的个人资料，这些数据也能更好地判断其身份特质、行为偏好、履约能力以及人脉关系中的好友信用值。这些数据也许比消费者会更懂他们自己。

过去，传统银行或签证中心判断一个消费者的消费行为时，参考的是其银行存款数和打印的流水单;而现在，线上的数据能更准确地评估个人信用等级，比如消费行为将不仅参照消费数额，还取决于消费者用这笔钱做了什么?如果是用来买电子游戏，这对信用值是不利的;但如果是用来买尿布，则对其信用积分有利——为什么买尿布会比玩游戏好呢?因为买尿布的消费行为显示出该消费者是一个具有责任感和关心他人的人。

在数据带来便利的同时，也涉及大量个人隐私的泄露，相信很大一部分人都会有着这样的担忧。也许软件比我们自己更了解自己，但同时，如果这些数据被泄露或者被数据持有者倒卖，会是一件很危险和麻烦的事情。那么，面对数据，消费者只是被动的吗?

作为普通的消费者，大数据如何服务于我们?

在美国和英国，庞大的消费者信贷资料中心负责收集和分析有关个人负债与信用卡还款行为方面的数据，每年都会向客户提供一份个人信用报告复印件。他们鼓励客户检查这些数据，并在发现任何错误时通知该中心。如果消费者没有申请贷款，却发现许多以其姓名与住址提交的贷款申请，这就是其身份被盗用的迹象。

该中心根据消费者是否按期偿还贷款的记录，比如，是迅速偿清短期债务还是累积了高额或循环债务、信用卡账户的开通时间、申请新贷款的次数，以及消费者名下的信用卡、贷款与抵押的整体情况等，将消费者的金融行为与财务状况表示为信用评分。他们会告知消费者，其在去年有哪些行为获得了加分或减分，还会通过描述性分析具体说明他们为各种行为赋予的权重。

消费者从中可以了解到，信用评分中有30% 来自及时还款，有10% 取决于自己的信用卡欠款与其它长期性贷款的情况。

如果消费者收到的信用报告表明，由于经常逾期还款导致自己的信用风险高于平均水平，就需要通过提前或按时还款来努力提高自己的信用评分。消费者可能会认为自己的信用评分是一个数字，即金融信用评分(FICO)。但其实每一个中心给消费者的信用评分是不同的，他们会独立计算其评分。

据《纽约时报》统计，至少有49 个不同版本的信用评分体系，其依据的不仅是各中心收集的数据和收集数据的方式，还包括消费者申请的贷款种类。此外，据《财富》杂志称，即便同一家中心对同一个人也不只给出“一个”信用得分，因为“每一家机构”(即考虑是否为消费者办理新的信用卡、贷款或抵押的银行)都会调整各种参数。这种类似于单向镜的做法，导致消费者无法像审核数据的银行工作人员那样查看这些数据。

真正的透明性可以让消费者看到不同金融机构对不同范畴的信贷数据所分配的权重，换言之，消费者可以了解到金融机构是如何看待其信用记录的。通过这种方式访问自己的数据，就能知道申请贷款时应该优先考虑联系哪几家银行。

有些数据服务商注重为个人提供产品与服务，有些数据服务商注重为公司和组织提供产品与服务。这些数据产品和服务将为消费者带来更大的透明性与主动性。消费者需要做的就是选择合适的数据服务商，由其提供工具帮助自己提高数据的透明性与用户的主动性，评估数据服务商回馈给自己的好处是否合理。

我们近期才认识到社交数据可能对自己不利。我认为需要制定一整套标准，作为我们对数据挖掘进行评价的标准。以下6 项权利为此提供了框架。

查看和获取数据的权利。比如，消费者可以在电商网站上查看所有的交易记录和购物趋势，以便做出更好的决策。
查看数据加工过程的权利。像百度和Google 这样的公司会将很多数据汇总起来进行加工，这样消费者就能查看其加工的过程。
修改数据的权利。也就是所有的数据消费者都有权增添删改。
将数据模糊处理的权利。消费者有权决定是否想让别人知道自己确切的位置。
能够用数据做实验的权利。
导入和导出数据的权利。消费者可以要求数据加工公司将自己的数据发送给其他人。

大数据要从消费者的视角来书写每个人的等式，然后消费者要拥抱透明度而不是抵抗它。过去，公司赚钱是通过建起高高的墙，筑起信息壁垒，而未来公司要赚钱就必须消除这种壁垒。

通过各种方式，社交数据的革命使之前从未量化或无法量化的一切事物都能被量化。过去，我们有理由说，我们无法利用数据或工具对全社会所面临的选择进行归纳和分析。但这种情况现在已一去不复返了，我们可以让自己的选择更加个性化，并观察由此产生的影响。当然，这并不容易实现。

透明性与主动性将推动我们向具体目标迈进，但其并没有为我们确定目标。此外，没有一种“放之四海皆准的设置”能为所有人优化数据所用;即便我们能够完美地进行一切测算，每个人对各项权重的分配也不一样。

未来，我们可能会通过分析一系列数据，极为精确地预测人们的健康与幸福情况，并据此对各项选择排序，这些数据包括人们的搜索条件、社交图片、基因和脸部表情。如果一个人根据自己在大学所学的知识及之后打算选择的职业道路了解到自己患心脏病的风险很大，他会做出不同的选择吗?

他会更换工作、医疗保险或居住的城市吗?在访问数据、检查数据、修正数据、模糊处理数据、对数据开展实验，以及导入和导出个人数据时，每个人就能更好地了解自己的目标和关注点，并对自己个人健康函数中的各个变量设定权重。通过体验自己在考虑不同假设情况时的感受，人们将会坚持自己的价值观，在必要时还会调整自己的公式。

我们现在有能力对艰难决定中的取舍进行量化，突出我们的价值观，并测算由此产生的结果，这促使我们在公平与不公平之间做出选择，我们再也不能选择视之不见，也不能选择碰运气。当我们有能力对世界上一切事物的数据进行挖掘，在透明性与主动性方面行使自己的权利时，我们的数据将服务于我们。