数据科学:综述(一)—— 工作内容

本文转载自 One Data Science Job Doesn’t Fit All

在一家高速增长的公司里,当一名领导者的乐趣之一就是你不仅有机会去改变一些事情 —— 你还必须主动驱动变革以跟上步伐。而在数据科学(DS)这个新的、快速发展的领域工作,我们将同时置身于公司和行业的快速变化之中。

在 Airbnb,我们把数据看作是用户的声音,我们的目标是让数据科学家最大程度地发挥他们的影响,并对自己的工作充满期待。我们正在朝着这个方向努力,也一直在寻找改进的方法。作为这一演变的一部分,我们最近建立了一个角色定义框架,我希望我们在此过程中学到的知识可以对其他公司在定义数据科学角色方面具有参考意义。

我要分享的主要结论是:为了满足业务的需求,公司会考虑数据科学工作的三个通道 —— 分析、推断、算法。下面我将描述我们是如何发展到这三条工作通道上的,以及它是如何帮助我们的。

数据科学家的其他名称

我们从“分析团队”开始,最初雇用的是“分析专家”。 2012年,我被聘为“数据科学家”。后来,我们聘请了“数据架构师”来处理数据质量,然后聘请了“数据分析专家”来帮助解决数据访问和工具方面的空白。然后,我们看到了机器学习方面的其他需求,因此我们聘请了“机器学习数据科学家”。这些头衔的演变既是对团队需求的反应,也是对竞争格局的反应。我们在2015年成为了“数据科学”部门,尽管我们仍然使用“ A-team”,因为它很有趣并且拥有我们重视的历史。

当我在2017年中担任数据科学职能部门的负责人时,我们大约有80位数据科学家分布在各个团队中。一些正在构建报表,一些正在构建NLP(自然语言处理)模型,另一些正在构建用于决策和设计实验的模型。

新兴学科快速发展

这种变化并不完全出乎意料,数据科学相对较新,而且发展迅速。我们在数据中看到了这一点。首先,从内部来看,我们发现 Airbnb 数据科学角色在2015-2018年间增长了4倍:

而且,根据谷歌趋势数据,对数据科学的查询也在增长:

数据科学不仅是一个新的领域,人们所说的“数据科学”的含义也千差万别,有时候,这纯粹是机器学习。有时是科技公司的商业智能。它是新的,而且在进化。

认识到科学技能的多样性

我们发现人们对数据科学的预期并不明确。在一个给定的公司中,这种多样性的缺点是,它可能导致组织混乱和人员流失,因为合作伙伴团队不知道从数据科学家那里得到什么,而数据科学家自己可能也不清楚他们的角色。那些来自 DS 只做建模的地方的人可能不认为数据科学技能能很好地用于更简单的分析。其他来自 DS 只做分析的地方的人可能会觉得最好让工程师做建模。

我们还有一个额外的挑战:从事分析工作的团队成员觉得他们的工作没有机器学习工作那么重要,但他们的工作对业务至关重要。业务合作伙伴渴望更具可操作性的见解,以推动决策,并扩展工具以了解数据本身。我们通过我们非常受欢迎的数据大学对数据教育进行了投资,但我们仍然需要专家。我们确定的一个原因是,虽然团队成员是“数据科学”职能的一部分,但我们使用的是“数据分析专家”的头衔,而且我们谈论“数据科学工作”的方式中有一些暗示,给人的印象是,分析工作并不同等重要。

我与同行公司的领导进行了交谈,以了解其他团队是如何处理这一问题的——有一次,我甚至创建了一个与不同组织结构共享的电子表格。我听说过新的分析团队从零开始创建,团队从机器学习中分离出来,工具团队被整合到数据科学中,等等。

很明显,没有一刀切的方法,但在定义我们是谁以及如何增加价值方面,具有战略性和有意识的态度将是至关重要的。我们知道我们的目标是“捍卫使命”,即完成公司最需要的工作。因此,我们需要符合当前业务需求的角色,同时也允许个性化和明确的期望。

解决办法:数据科学工作的三种风味

我们决定沿着三个方向来重构数据科学,这三个方向描述了我们正在追寻的东西,也是我们想要吸引人才的领域:
The Algorithms track would be the home for those with expertise in machine learning, passionate about creating business value by infusing data in our product and processes. And the Inference track would be perfect for our statisticians, economists, and social scientists using statistics to improve our decision making and measure the impact of our work.

  1. 对于那些善于提出好的问题、善于以揭示性的方式探索数据、善于通过报表和可视化工具进行自动分析、善于通过建议来驱动业务变化的人来说,Analytics 通道是理想的选择;
  2. 对于那些在机器学习方面具有专业知识,热衷于通过在我们的产品和流程中注入数据来创造业务价值的人来说,Algorithms 通道将成为他们的家;
  3. 对于我们的统计学家,经济学家和社会科学家来说,Inference 通道将是完美的选择,他们可以使用统计信息来改善我们的决策制定并衡量工作的影响;

团队中的每一位数据科学家都应具备这些领域的专业知识,并根据业务需求和自身兴趣获得这些领域的技能。在每一个通道中都可以有进一步的专业化,但是每个人都有“数据科学家”的头衔,然后下面的描述提供了更清晰的描述。

如果我们看另一门学科,比如工程学,这里有“前端”和“后端”工程学的简写,它可以帮助你了解某人的技能或关注的领域。我意识到这是一个不完美的区别,但它比简单的“工程”更能让人感觉到某人的专业知识。数据科学离这一点还很远;这是我们正在朝着的方向发展。

明确预期

我们还修改了我们的绩效评估标准,以反映我们的新结构。我们有多层次的数据科学家和管理者,我们通过观察对业务的影响来定义成功。对于那些在技术通道上的人,我们修改了我们的评估框架,使之与这些主要领域保持一致。

技术方面:

  1. 分析:定义并监控指标,创建数据描述,并构建工具来推动决策;
  2. 算法:构建并解释驱动数据产品的算法;
  3. 推理:利用统计数据建立因果关系;
  4. 基础:展示数据质量和代码的所有权和责任(所有通道都需要);

业务方面(适用于所有通道):

  1. Ownership:能够推动项目取得成功,帮助他人,拥有影响力;
  2. 影响力:清晰沟通,展示团队合作精神,建立人际关系;
  3. Enrichment:通过指导、文化、招聘和多元化努力促进团队建设;

我们可以在这里写很多东西,但主要的收获是,我们也明确改变了我们评估绩效的方式,以反映工作的三个方面,并明确了期望。

何时专业化

Airbnb 足够大,拥有所有这些区别和细微差别是有意义的。当与那些想知道是否应该用专家组建团队的小公司交谈时,我建议他们从通用性开始。在早期,我们能够处理任何最紧迫的项目,而不是坐在一个僵硬的专业里,这真的很有帮助。随着时间的推移,专业化是有意义的,但最好是从通用开始,除非你能更早地看到它的商业案例。我们直到 2015 年左右才开始专攻,那时我们的团队只有 30 人。

我们还希望随着业务需求的变化,继续改变职能部门的角色。

从中获益

即使是在我们的专业领域,每个领域的数据科学家也会从事其他类型的工作,我们鼓励团队成员也成为多面手(有时这是一个混乱的问题)。总体而言,进行此更改后,我们所听到的混乱少了很多。我也开始听到合作伙伴说诸如“我们需要具有推理和算法专业知识的人”之类的东西。因此,该语言对于传达业务需求非常有用。

这有助于我们找出差距。我最近联系了一位产品经理,她表示担心团队没有想出创新的方法来在她富有挑战性的产品领域进行实验。我立刻诊断出了这个问题:在那个特定的数据科学团队中,没有一个具备推理专业知识的人。这是我们下一次招聘时可以解决的问题,或者鼓励团队成员向其他推理专家学习。

我们很高兴听到从事分析工作的团队成员不再感到疏远或自卑。分析专家了解,如果他们尝试将机器学习应用于他们正在处理的业务问题,那么它们的影响将较小。

Where we go from here

我希望与大家分享我们的故事,希望其他公司也能采用这个框架!当应聘者带着一个模糊的“数据科学”的名字,这可能意味着很多不同的东西,招聘就变得复杂起来。如果所有公司都使用类似的框架,这将使数据科学作为一个整体更容易传达我们的价值观。

如果您喜欢这个概念,请告诉您的数据科学领导者,或者如果您是数据科学的领导者,请自己进行更改。或者,如果你有一个更好的模型,我也很乐意听到这个-请伸出援手(data-science-org-ideas@airbnb.com). 考虑到数据科学领域是多么的新和快速发展,最好的命名约定将随着时间的推移而演变。在数据科学领域,我们越能联合起来制定规范,我们的行业就越快成熟,我们作为个人就越有能力驾驭它。

参考

坚持原创技术分享,您的支持将鼓励我继续创作!