分享 :潘多拉首位数据科学家的经验谈

  • A+

分享 :潘多拉首位数据科学家的经验谈导读:

各公司做法不尽相同。有些公司让所有数据科学家全都坐在一起——不管他们从事哪些工作,以便他们保持紧密沟通。有些公司甚至让数据科学家完全独立于公司其他部门,闭门解决问题,然后将方案移交给团队外的工程师。还有的则采用一种顾问模式,数据科学家临时性地空降到某个项目中去,分析问题,或是解答一次性的问题。

不能把眼光局限于博士和科研人员,你需要的是那些多面手,相对于钻研理论,他们更喜欢解决实际应用问题。如果你雇佣的人爱钻牛角尖,一心扑在实验上,却看不到它们对产品的直接影响,那么,结果将会事倍功半。

要成为一名卓有成效的数据科学家,你必须认识到,你的工作不只是研究。你必须对自己的工作进行定量和定性,使全公司都能理解。

原文翻译:

五年前,戈登·里奥斯(Gordon Rios)成为音乐服务商潘多拉(Pandora)首位正式的数据科学家。他目睹着团队壮大到原先的十几倍,且开始在公司的每一个决策中起到举足轻重的作用。考虑到潘多拉的多项服务都与数据息息相关——从著名的音乐基因组计划的维护,到创造更多的途径,帮助人们发现喜爱的音乐——这成为了数据科学团队快速成长、学会发挥作用的最佳例证之一。

在潘多拉,里奥斯敏锐地观察着科学家的招聘以及数据科学团队的组建方式。对于哪些做法可行,哪些不可行,他能提供难得的洞见。眼下,不论是在大型科技公司还是小型初创企业,数据科学的重要性都日益凸显,所以,知道如何在这方面最大限度地提高生产效率,就变得愈加重要。

在此次专访中,里奥斯谈论了潘多拉公司数据科学工作的演变,以及如何分配资源、确保高效的管理并保持灵活的沟通,以促成数据科学工作的顺畅开展,在这方面,有三大重要经验可供大家借鉴。

一:“全面集成”的数据科学家

如果你问里奥斯,最让他激情澎湃的是什么,他首先想到的就是科学和音乐。人们怎么决定自己听什么,为什么做出这样的决定,以及他们的口味和习惯如何变化,这些都让他着迷。因此不难想见,在潘多拉播放列表的创建中,他就是核心贡献者之一。他和工程师以及其他科学家一道,利用机器学习方法,测试并改进着播放列表的算法。

值得一提的是,他是潘多拉“播放列表团队”的全职成员。他首先是这个团队的成员,其次才是数据科学团队的成员——因为他全心全意地投身于播放列表的建设,力图使之尽善尽美。播放列表团队不仅有工程师,还有产品经理、设计师等等,共同朝这一方向努力。

并不是所有的数据科学工作都是这样展开的。因为这个领域相对较新,各公司做法不尽相同。有些公司让所有数据科学家全都坐在一起——不管他们从事哪些工作,以便他们保持紧密沟通。有些公司甚至让数据科学家完全独立于公司其他部门,闭门解决问题,然后将方案移交给团队外的工程师。还有的则采用一种顾问模式,数据科学家临时性地空降到某个项目中去,分析问题,或是解答一次性的问题。

潘多拉发现,效果最好的还是以功能为中心组建团队,让数据科学家充当其中的一员——根据经验,里奥斯赞成这种做法。

“分配到一个小组以后,数据科学家得以了解这个小组,并成为它的一分子,这才是理想状态。”他说,“被分配到播放列表团队后,你还是会和其他数据科学家保持沟通,但要向播放列表团队的管理者报告工作。你全职服务于这个项目。”

潘多拉擅长以相对零散的人手做到了不起的事情。方方面面都做到事半功倍,已经成为潘多拉的核心价值之一。

“播放列表团队的使命,就是确保音乐找到它们的‘知音’。我们希望艺术家收获听众,希望听众收获最好的体验。这取决于你能否让人们尝试新的音乐。”而这又全靠做实验、收集数据,以及设计算法,促使人们循序渐进地迈出自己的音乐舒适区。

因此,里奥斯和他的团队所面临的数据挑战令人咋舌:就以用户行为方面的数字为例,他们得确定人们听得是否满意,用户跳过歌曲是因为不熟悉,还是根本就不合胃口,还是听厌了。他们如何解答这些问题,关系到每一个听众在最细微处的体验。

“对于这一类型的项目,你需要运营、工程、产品人员和科学家同时参与,从不同侧面出击,但他们要对该服务怀有共同的愿景。”里奥斯说,“顾问模式永远不会奏效。在我职业生涯早期,当我第一次接触数据挖掘的时候,就经常担任顾问。而对于涉及面较广的问题,这种模式很难取得进展。你必须成为团队一员,才能了解到问题的方方面面。”正是出于这个原因,他建议让数据科学家成为团队的永久成员,除非项目取消,或是有其他具有说服力的变动理由。数据科学家需要全身心投入到项目中。

“如果你把数据科学团队分割开来,他们就拿不出最好的表现。他们会觉得无聊,或者效率低下。”

里奥斯说,最理想的情况,就是招募具备扎实工程技能的数据科学家。如果数据科学家就能出产品,那你不但节省了人手,还能靠他们把数据转化为有意义的产品。一旦认定数据科学是你初创企业成功的核心,你就要开始物色这样的通才。日后,你可以发展各个方向的专业人才,这也是非常重要的。

理想情况下,公司最初要有一名里奥斯那样的数据科学家。里奥斯就是把“瑞士军刀”,既能测试假设、编写代码,也能创建并部署算法。凭借先前在雅虎的工作经历,以及在搜索初创企业Zvents担任首席技术官的经验,里奥斯带来的是全栈编程能力、大数据领域的经验,以及机器学习技术。他还掌握着其他一些关键技能:能够自主工作、自我激励,还能负起责任,这些都是你的第一位数据科学家需要具备的能力。该领域的第一批员工很少受到严格管理,但如果找到合适的人选,即便如此也没有关系。

开始建立数据科学团队的时候,你应该保持一种灵活的态度,里奥斯说。不能把眼光局限于博士和科研人员,你需要的是那些多面手,相对于钻研理论,他们更喜欢解决实际应用问题。如果你雇佣的人爱钻牛角尖,一心扑在实验上,却看不到它们对产品的直接影响,那么,结果将会事倍功半。与此同时,雇佣博士人才也至关重要:他们训练有素,会主动钻研一些难题,而这些难题的解决将有助于提升你的竞争力。

这里,最举足轻重的变量是恰当的管理,里奥斯说。“多数情况下,良好的管理就是将员工技能和公司需求统一起来,但在数据科学方面,很多问题都需要相关人员既具备过硬的技能,又对问题感兴趣。”

“如果你找到的项目人员既具备娴熟的技能,又对解决问题怀有极高的兴趣,你就相当于找到了金矿。”

二:数据科学的管理之道

“当然有些时候,你不得不紧咬牙关,扛起那些索然无味但对公司至关重要的项目,但如果你手头不缺人才,那么,把项目分配给最适合它们的人才,这基本就是数据科学管理的精髓了。”里奥斯说,“能否始终如一地做到这一点,是优秀管理者与平庸管理者的最大区别。”

如今,潘多拉有一名负责播放列表增长与保留的研究主管,名叫奥斯卡·塞尔玛(Oscar Celma),任何公司都应该寻找像他这样的数据科学家作为团队领袖。他是一个名副其实的计算机高手、一名著作等身的博士,同时也是音乐推荐技术领域的领军人物。潘多拉计划把这种管理模式运用到其他领域,其中包括广告科学。

要让数据科学家团队的工作效率迈上新的台阶,管理者应该自问以下几个问题:

  • 怎样才能让公司最快地朝着预期的方向前进?
  • 以之前一个问题的答案为基础,将数据科学家分配给功能导向型团队时,怎样才能确保该团队的挑战对他来说不大不小刚刚好?
  • 大家分别想向哪个方向发展,想培养出怎样的技能组合?

“要专注于让有才干的人协同工作;一旦做到这一点,你将看到创造力非凡的结果。”

好的数据科学管理与亦师亦友的协作关系息息相关,他说。虽然他建议将数据科学家编入跨职能团队,但科学家之间也需要合作——在融洽的工作氛围中分享最佳做法、思路以及解决方案。这是让优秀人才投身工作并不断成长的关键。

随着数据科学家的阵容不断壮大,潘多拉以协作精神为指引,建立了多个常规的沟通渠道,包括像Slack这样的通讯工具,其中的频道可以联络到所有的数据科学家,以及任何相关人士。人们用它来提出疑问,提供建议,甚至在内部传阅与正在解决的问题相关的学术论文。

虽然大部分时间,他们都不在一块儿工作,但数据科学团队会定期举行会议,并经常聚在一起吃午餐,讨论大家正在做些什么,展开一些非正式的思路探讨。很多解决方案都源于这样的讨论。稍微正式一点的话,他们会安排时间,向同事展示项目和研究结果,借机提问或回答问题,同时分享可能有助于其他实验的做法。关键是让基础设施的发展和团队步调一致,携手共进,不要沦落到积重难返的地步,同时保持交流,一来是鼓励相互学习,二来也能避免重复劳动。

里奥斯说,这些交流中,相当一部分应该围绕团队成员都善于哪些技能组合,虽然大多数人都算得上是多面手。“其中有的是传统的数据科学家,有的更擅长统计学,还有的更擅长软件开发。”他说。知道谁擅长什么,有助于你挑选合适的人才,从而更快地解决问题。

“在一个成功的数据科学团队里,人们快乐、充实,感受到一定的挑战性,并且能拿出重要的成果。这时,他们的表现处于最佳状态,提供的价值也是最多的。”里奥斯说,“出于种种原因,我们也会雇佣资历较浅、经验不足的数据科学家——因为他们适应快,学得也快——但要配备相应的管理和指导。”

他说,在考虑一个人能否胜任某项工作时,聪明与否从来不是问题的关键。据里奥斯观察,无论在什么地方,数据科学家的招聘流程都异常严格,聪明的头脑几乎是板上钉钉的事。到了数据科学领导者这一级,就更不用说了。真正的问题在于,他们与所需解决的问题是否合拍,与文化是否契合,以及能否帮助团队现有的科学家实现自我发展。

“判断一个数据科学管理者的好坏,可以看他管理的数据科学家工作效率如何。”里奥斯说。为此,在面试数据科学管理者时,要高标准、严要求,并且双管齐下:

对于受聘数据科学家必须了解并掌握的东西,他们必须有一定程度的了解,其中包括创建复杂的模型,指出特定产品中技术性最强的功能。他们的头脑必须和他们要管理的数据科学家一样灵活,要和数据科学家一样,快速地学会新事物。

“他们来面试的时候,一定要人见人爱。”里奥斯说,“先看文化是否契合,再谈技能组合是否合适。他们必须真心喜爱公司的产品,了解公司,以及公司想要解决的数据难题。要通过应聘获得这些职位是很难的,但难就对了。”

“一名优秀经理或合作者的标志,就是大家都希望你参与他们的项目。”

三:在交流中使效率最大化

“要成为一名卓有成效的数据科学家,你必须认识到,你的工作不只是研究。你必须对自己的工作进行定量和定性,使全公司都能理解。”里奥斯说,“如果人们不互相交流,要取得全局性的良好结果,那是相当难的。”

所幸,在交流问题上,数据科学家都自带超能力。利用自己的量化能力,他们可以把自身的成绩衡量出来,并以具体而形象的方式,将自己的工作传达给公司其他部门。在这个方面,明确而持续不断的交流尤其重要,因为数据科学进展迅速。你一次又一次地做着实验,获得结果,进而修改软件,如此周而复始。在潘多拉,里奥斯和他的同事们都在不断地提出假设:怎样才能吸引更多听众,让更多的艺术家得到聆听。“我们提出修改意见,优先进行某些实验,然后面向少数听众迅速推出,看看有没有效果。”

歌曲推荐功能看似快如闪电、无缝衔接,但它却涉及许多‘活动部件’,由很多不同的人在负责。“我们其实有一个推荐策略大集合。”里奥斯解释说,“举个例子,我们可以多放80年代的音乐,比如辛迪·劳帕(Cindy Lauper)或雪儿(Cher)。根据用户行为,我们可以看出他们想听80年代流行乐还是Lady Gaga或蕾哈娜(Rihanna)这些较新的音乐。幕后涉及很多不同的工作。”

可以想见,当不同的团队在同一时间,就同一体验展开多项实验的时候,事情会变得相当复杂。因此,打造并维护一个先进的A/B测试平台就变得不可或缺。知道其他团队在做什么固然重要,但要支持多个工作小组的话,还是得靠平台。

“我们想尝试的东西千千万万,但必须遵循我们对该服务的愿景,不能超出这个范围。”

里奥斯说,潘多拉的数据方略之所以如此富有成效,原因之一就是重视特殊技能及其应用。哪些人擅长推荐项目,哪些人擅长机器学习,哪些人擅长发展用户,这些都不是秘密。每次有新人加入,都要培养这种透明度,使之成为常规做法。

“所以我们才这么重视数据科学家的招聘,要求他们既要有好奇心,又要有创业精神。”里奥斯说,“要在这样一个团队里取得成功,你就得全身心投入你专门负责的领域,在团队需要你的才干时,毫无保留地提供帮助。”

via:微信公众号品觉

南霁月
机器学习电子书
深入浅出数据分析(中文版)
R语言实战(中文完整版)
MySQL必知必会

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: