@sambodhi 2018-04-25T05:53:52.000000Z 字数 3058 阅读 3052

数据科学家这个职位到底是干啥的？

作者|Clint Chegin
翻译|Sambodhi
编辑|Natalie

AI前线导读：数据科学家是当下科技行业最火爆的职位，数据科学家这个职业的定义有点广泛。同样叫数据科学家，在不同行业不同公司干的活可能是很不一样的。有的偏机器学习、建模，有的偏数据分析。有的叫数据科学家，干的很多事情跟软件工程师（SWE）很类似。有的偏产品，风格短平快。有的偏长期研究，看的是一两年甚至更久的效果。Indeed公司产品科学家Clint Chegin撰写了博文There’s No Such Thing as a Data Scientist，为我们阐述了目前“数据科学家”这一职位的现状。Indeed是全球第一大招聘求职网站，Indeed 每个月拥有来自60多个国家和地区的超过两亿独立访问用户。Indeed已成为全球招聘求职行业的领导者——既为公司寻找最佳人才，也为求职者提供最具潜力的职场机会。

你到底是干啥的？

在办公室里有一幕令人难忘：顾问在决定员工的生产率时，首先会询问：“你会怎么形容你在这里所做的工作？”

这一幕和上面那张图片很有趣，因为我们对描述我们工作的努力感同身受。然而，在求职过程中发生同样的误解时，这可并不好笑。了解招聘信息的准确含义很重要。对未来的雇主来说，最重要的是了解我们的技能和能力。我们都看过相同职位的招聘信息，但实际上它们的描述完全不同。

相同的职位，怎么会在每个公司都有如此截然不同的意思呢？

这种现象在数据科学领域越来越普遍。在过去的几年里，这门学科的知名度急剧上升。尽管数据科学工作的数量有所增加，但有关这一角色的清晰度却有所下降。本文引用了Indeed的大量行为数据来描述该领域的趋势，以及对数据科学这一角色进行更为具体的定义。

数据科学日益流行

叫“数据科学家”的工作岗位，在过去四年从0.03%上升到0.15%，这四年时间涨了400%。

甚至在2012年早些时候，就有篇文章大肆宣扬数据科学家是“21世纪最性感的工作”（Harvard Business Review：Data Scientist: The Sexiest Job of the 21st Century）。如果单靠这个头街还不够，也许人们对金钱的原因更感兴趣。根据Indeed的薪酬数据（https://www.indeed.com/salaries/Data-Scientist-Salaries），一位数据科学家平均每年赚13万美元。

OK，明白了。数据科学家就像欧洲超市中打折销售的能多益（Nutella）榛果巧克力酱那样被抢购一空。随着这一增长，我们也目睹了该学科领域内更具体角色的细化。我同事Trey Causey在《数据产品经理的崛起》（https://medium.com/@treycausey/rise-of-the-data-product-manager-2fb9961b21d1）一文中提到了产品经理和数据科学家之间的融合。

在Indeed中，我们许多人也感觉到，“数据科学家”这个头街最近越来越多地涵盖了许多不同的职责。我们想深入挖掘并验证这一直觉：我们能否找到就业市场内角色的自然划分？我们是否可以用数据来理解这些职位中的差异，并将它们分类得更清晰、更一致？

数据科学中重叠的职业

为了对职位名称进行分析，我们查看了2018年1月在Indeed上搜索查询“data scientist”的所有访客，接下来，我们查看了这些用户的其他搜索。我们根为每个用户创建了搜索行为的矩阵，并为每个搜索行为创建了用户矩阵。我们计算这些矩阵的笛卡尔积来表示任意两个搜索项之间的频率：

AI前线注：关于笛卡尔积（cartesian product），在数学中，两个集合X和Y的笛卡儿积，又称直积，在集合论中表示为X × Y，是所有可能的有序对组成的集合，其中有序对的第一个对象是X的成员，第二个对象是Y的成员。

接下来，我们从数据中删除了“data scientist”，因为这个搜索是针对所有用户的。我们使用一个名为“igraph”的R包进行聚类分析和可视化。根据igraph文档（http://igraph.org/r/doc/cluster_fast_greedy.html），“该函数实现了用于查找社区结构的快速贪婪模块优化算法（fast greedy modularity optimization algorithm）。”在研究这个算法的过程中，我们了解到，它的设计是为了快速地从具有稀疏区域的大型数据集创建社区。嗯，这听起来和我们正在使用的数据完全一样！

AI前线注：相关算法研究可参阅论文：Finding community structure in very large networks（https://arxiv.org/abs/cond-mat/0408187）

这是一个非常重要的方程式，我们在论文中对它的工作原理进行了详细的解读。你必须阅读那篇论文才能理解它的含义。

接下来，我们编写了一个函数，使用了剪枝参数（pruning parameter）来选择每个簇中最小的顶点数。这个参数最好通过“猜测和检查”来测试，因为更高的数字并不一定意味着更多的总数，反之亦然。我们尝试了3~20的不同数字，并检查这些组是否有意义。我们并不关心真正的小簇，而是希望将这些查询整合在一起。后面将详细讨论这个问题。

通过选择五个剪枝阈值，形成四个簇。我们随后将这些簇标为“商业智能”、“统计学家”、“机器学习工程师”和“自然科学家”。

以下是组成每个群的查询：

这就是聚类分析的结果:

从以上图表中，我们看到了一些有趣的东西。

首先，统计学家和机器学习工程师之间有明确的界限。我们在分析结果中没有看到这两个角色之间存在太多的交叉搜索，这表明这两种是截然不同的职业道路。

其次，商业智能似乎没有一个清晰的分组。它广泛地分散在其他角色中。这与自然科学家的搜索结果形成了鲜明的对比，后者似乎与统计学家的搜索结果重叠了。这告诉我们，寻找商业智能的求职者可能正在关注数据科学领域内的各种其他工作。这也意味着商业智能的职位现在更多地被称为数据科学。此外，寻找机器学习工程师或者统计学家的求职者似乎并没有搜索这两个类别的工作。

最后，我们看到一些自然科学家可能通过数据科学的统计数据来进入数据科学领域。

如何更直观地描述数据科学家这个角色？

根据这些发现，我们可以推断，所谓的数据科学家不只有一个类型！相反，数据科学家有很多类型。并没有一个数据科学家的单一描述，因此这个头街本身并没有给我们足够的信息。数据科学家作为一个头街，可以在实践中转化为各种不同的角色。

综上所述，收集更多信息来理解成为某家公司的数据科学家意味着什么是很重要的。我们认为，这将有助于雇主考虑我们的聚类分析中所确定的角色。这将帮助他们找到需要的候选人，并使求职者能够申请到想要的工作。

在Indeed，我们有一些“数据”角色：数据工程师、BI开发人员、BI分析师、产品科学家和数据科学家。这些职位的关系看起来像这样的：

很容易看出，这是多么令人困惑。从我们观察到的搜索模式中，如果有人说，“我想成为一名数据科学家”，那他可能不清楚哪个团队或哪个职位是最合适的。每个团队都有不同的面试流程，并以不同的方式作出贡献，因此申请正确的面试流程非常重要。

原文链接：
https://medium.com/indeed-data-science/theres-no-such-thing-as-a-data-scientist-8dae923c14e3

数据科学家这个职位到底是干啥的？

数据科学日益流行

数据科学中重叠的职业

如何更直观地描述数据科学家这个角色？

内容目录

选择主题