数据科学家在公司的日常工作

  • A+
所属分类:行业资讯

最近机器学习很火,前面我们也介绍了很多机器学习的相关知识。那么平时数据科学家们上班的时候都在做些什么事情呢?今天就让我们一起来探究一下。

数据科学家在公司的日常工作

首先让我们先来通过两篇文章来了解下数据科学家平日里都在做什么。第一篇是《Airbnb支付平台如何进行异常检测》。英文原名叫做Anomaly Detection for Airbnb’s Payment Platform。讲的是Airbnb的数据科学家们如何根据他们的的知识来建立了一个实时的异常检测系统来监控他们的支付系统,从而可以帮助其他团队的人员把精力花在刀刃上。另外一片文章是Twitter的Breakout detection in the wild。因为Twitter的很多数据都是时序数据,文章讲的是如何检测某一时段的突发热点来确保用户体验。从这两篇文章我们大概可以看出数据科学家的工作很多就是在维护产品的流畅性和用户体验度上。下面让我们来仔细看看他们的日常吧。

数据科学家的日常

数据科学家在公司的日常工作

仪表盘

仪表盘工作顾名思义就是让人一眼就能看到所有想要的数据。找出关键指标,简化复杂联系,让领导们能一目了然地了解公司地相关事宜。想象一下公司CEO每天早上需要五分钟来了解一下公司的运营情况,这里要呈现的东西就是CEO仪表盘的事情。这里以酷我音乐为例。如果要传一份具有仪表盘作用的数据给CEO,数据科学家可能就需要整理出每天的用户量, 用户登陆数量,付费用户比例,人均消费,以及流量转化率和流量价值等等数据报告,这样CEO就能在段时间内对公司走向有个大概了解。

采清算

在有了整体规划后,数据科学家需要开始采集整理数据了。第一步当然就是埋点采集。比如我们要收集某个东西的流量状况,就需要去各个端口埋点收集数据。有了生数据后地工作就是清洗噪音。一般收到的数据里面会有些干扰数据。比如做音乐推荐的时候, 需要手机不同用户喜爱的歌曲,但可能有些用户一天点赞上千首歌曲,几乎把听的音乐都点了一遍,这样的数据很难找到有用的特征的,对于机器学习帮助不大,所以我们就要把这种数据去掉。最后就是统计整理啦。这不仅仅是要求计算出数字,还应该从结果里面选出最具代表性的数据出来。

调模型

拿到可用的数据后就可用开始找模型。第一步当然就是搭建模型。现在开源模型很多,选取合适的模型。选取模型并不难,但是选取合适的模型可要费一番功夫,所以接下来数据科学家就要分析结果来做判断。 中间可能需要准备一些高质量的训练集,测试集来测试模型效果。如果我们选取了模型后,就可以开始给模型调整参数了。调整参数分两部分一部分对准,另一部分是一部分调整性能。调整性能可是个体力活。有时候还要考虑到用多样性的数据来调整。

A/B 测试

AB测试顾名思义就是将用户分组,然后对他们进行分别测试收集,最后再进行分析决策。比如我们在测试一些新广告时,可以随即抽取一些用户,对用户播放一系列广告,可以根据用户的活动范围来推测哪些广告效果好。这样可以极大优化测试的效率。一个好的AB测试可以极大地缩短评估时间,在短时间内给出更好地反馈。

以上四个方向是大多数数据科学家的基本工作。他们可能做其中一个方面,也可能做多个方向。现在的趋势是团队合作比较多。

数据科学家来自哪里?

从专业上看数据科学家来自各种不同地专业涵盖统计,统计,机械,金融,数学等专业。这些专业都有一个共同点,就是对数学知识的要求比较高。从文凭上看,硕博比例明显比较大,很多人都把这个行业当成门槛高的行业来看待,但其实不然,从下图中看数据科学家有很多方向。有的对数学要求比较高,有的对编程要求比较高,有的则需要你是个全才。只要你能把其中的一个方向做好,你就具备一名数据科学家了的品质了。

数据科学家在公司的日常工作
优秀的数据科学家

那一个优秀的数据科学家长啥样的呢?这里我们分为一下四点:

敏感性 对数据足够敏感

沟通性 把理念沟通给别人

可视性 把数据可视化表达给别人。

分析性 分析出正确的结果

小伙伴们可能到这里会发现,上述的特点也都很符合一个好的产品经理的特点。其实还真是这样,很多时候数据科学家要去寻找问题来源,自己收集数据然后对产品提出优化方案改进产品,如此往复。反过来,很多时候一个好的产品经理也是一个好的数据科学家。

需要提醒的是,虽然现在人们都喜欢用大数据去解读很多东西,但是如果过分的依靠量化分析的话也很容易走入歪路。曾经火爆一时的公司Zynga的衰败也多多少少和过分依赖数据分析有点关系。所以说一个好的数据科学家除了能找出好的数据以外还需要具备靠谱的解读技能。

总结:

仪表盘、采清算、调模型、A/B测试

敏感沟通,可视分析

人人都是数据科学家

本文整理作者: Xinxin Huang

MySQL必知必会
误差分位数的默示有效估计与\ 自回归时间序列的预测区间
深入浅出数据分析(中文版)
机器学习电子书

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: