是的,我是一名数据科学家,是的,你没看错,但总得有人说。我们读了很多关于数据科学是21世纪最性感的工作的故事,作为数据科学家可以赚到诱人的钱,这似乎是一个绝对梦想的工作。原因是该领域有大量高技能人才渴望解决复杂的问题(是的,“追求”是一件非常积极的事情)并致力于任何事情。但事实是,正如《金融时报》在这篇文章中所说,数据科学家通常“每周花1-2个小时寻找新工作”。此外,该文章指出:“机器学习专家在表示正在寻找新工作的开发人员名单中名列前茅,占14.3%。数据科学家紧随其后,占13.2%。”该数据由StackOverflow在其对64,000名开发人员的调查中收集而成。我也担任过这个角色,最近自己也换了数据科学工作。那么,为什么有这么多数据科学家要找新工作呢?在回答这个问题之前,我需要澄清一下,我仍然是一名数据科学家。总的来说,我喜欢这份工作,我不想让其他有抱负的数据科学家灰心,因为它很有趣、能激励人,而且回报丰厚。这篇文章的目的是唱反调,揭露这部作品的一些消极方面。从我的角度来看,我认为许多数据科学家对自己的工作不满意有四个原因。期望与现实不匹配理想与现实大数据就像青少年的性行为:每个人都在谈论它,但没有人真正知道该怎么做,每个人都认为其他人都在做,所以每个人都声称自己在做……–DanAriely那句话是易于。我认识的许多初级数据科学家(包括我自己)都想进入数据科学领域,因为这一切都是关于使用可以对业务产生巨大影响的很酷的新机器学习算法来解决复杂问题。这是一个让我们感觉我们所做的工作比以往任何时候都更重要的机会。然而,通常情况并非如此。在我看来,期望与现实不符是许多数据科学家离开的最终原因。造成这种情况的原因有很多,我可能无法提供详尽的清单,但这篇文章基本上列出了我遇到的一些原因。每家公司都不一样,所以我不能一一列举,但许多公司聘请数据科学家时并没有合适的基础设施来开始从AI中获取价值。这导致了人工智能中的冷启动问题。再加上这些公司未能在雇用初级数据从业者之前雇用高级/有经验的数据从业者,您现在正在为双方的幻灭和不愉快的关系做好准备。数据科学家可能能够编写智能机器学习算法来驱动洞察力,但他们无法这样做,因为他们的首要工作是组织数据基础设施和/或创建分析报告。相比之下,该公司只想要一张他们可以每天在董事会会议上展示的图表。然后,公司会感到沮丧,因为他们没有看到价值并且没有足够快地推动它,而这一切都会导致数据科学家对他们的角色不满意。RobertChang在他的博客文章中提供了一个非常有见地的引用,并为初级数据科学家提供了建议:评估我们的理想与我们环境的关键路径的一致性非常重要。查找关键路径最适合您的项目、团队和公司。这突出了雇主和数据科学家之间的双向关系。如果公司不在正确的位置或其目标与数据科学家的目标一致,那么数据科学家找到其他东西只是时间问题。对于那些感兴趣的人,SamsonHu写了一个关于Wish的分析团队是如何建立的优秀系列,我也发现他非常有见地。数据科学家失望的另一个原因与我对学术界失望的原因相似:我相信我将能够对世界各地的人们产生巨大影响,而不仅仅是在公司内部。事实上,如果公司的核心业务不是机器学习(我以前的雇主是一家媒体出版公司),那么你从事数据科学可能只是为了获得小的增量收益。这些加起来可能很多,或者您可能很幸运,偶然发现了一个黄金项目,但这并不常见。PursuingPoliticalCorrectnessPolitics已经有一篇优秀的文章专门介绍它:数据科学中最难的事情:政治,我强烈建议您阅读它。那篇文章的前几句话几乎总结了我想说的:当我早上6点起床学习SVM时,我想,“这真的很难!但是,嘿,至少我会更尊重给我未来的雇主。”非常有价值!”。如果我能得到DeLorean,我会回到过去并称自己为“Bulls**t!”如果你真的认为了解大量机器学习算法将使你成为最有价值的数据科学家,然后回到我上面的第一点:期望与现实不符。事实是,商界最有影响力的人需要非常了解你。这可能意味着你必须不断地做临时工作,比如从数据库中获取数字在正确的时间找到正确的人,简单的项目让正确的人对你有正确的想法。我必须在以前的职位上做很多事情。令人沮丧的是,这是工作的必要部分。您可以自己处理任何数据。在竭尽全力取悦合适的人之后,那些有影响力的人往往不理解“数据科学家”的含义。这意味着您将成为一名分析专家和报告专家,并且不要忘记您还将成为一名数据库专家。对你的技能做出太多假设的不仅仅是非技术主管。其他技术同事假设您了解所有关于数据的知识。你知道如何绕过Spark、Hadoop、Hive、Pig、SQL、Neo4J、MySQL、Python、R、Scala、Tensorflow、A/B测试、NLP、任何机器学习(以及你能想到的任何其他相关数据)——顺便说一句如果您看到一份工作描述,上面写有所有这些内容,请说清楚。这是一家不知道他们的数据战略是什么的公司的工作声明,他们会雇用任何人,因为他们认为雇用任何数据人员都会解决他们所有的数据问题)。但它并不止于此。因为您知道所有这些信息,并且显然可以访问所有数据,所以您希望之前所有的问题都能得到解答……好吧,它应该在5分钟前到达某人的收件箱。试图告诉每个人您真正了解和控制的内容可能很困难。不是因为任何人真的看得起你,而是因为作为一名缺乏行业经验的初级数据科学家,你担心人们会看不起你。这可能是一个非常困难的情况。在孤立的团队中工作当我们查看成功的数据产品时,我们经常看到经过专业设计的用户界面具有智能功能,最重要的是,有用的输出至少可以被用户感知以解决相关问题。现在,如果数据科学家只花时间学习如何编写和执行机器学习算法,那么他们只能成为团队中的一小部分(尽管是必要的),从而导致产生有价值产品的项目取得成功。这意味着孤立工作的数据科学团队将难以交付价值!尽管如此,许多公司仍然拥有数据科学团队,他们提出自己的项目并编写代码来尝试解决问题。在某些情况下,这就足够了。例如,如果您只需要一个每季度生成一次的静态电子表格,它可以提供一些价值。另一方面,如果目标是在自定义网站建设产品中提供最佳智能推荐,那么这将涉及许多不同的技能,绝大多数数据科学家不应该使用这些技能(只有真正的数据科学独奏者Beast才能解决这个问题)a).因此,如果该项目由一个孤立的数据科学团队执行,则很可能会失败(或需要很长时间,因为在大型企业中组织孤立的团队来开展协作项目并不容易)。因此,要成为工业界有效的数据科学家,仅仅在Kaggle比赛中脱颖而出并完成一些在线课程是不够的。不幸的是(取决于你如何看待它)取决于理解等级制度和政治在企业中的表现。在寻找满足您需求的数据科学工作时,寻找符合您关键路径的公司应该是一个主要目标。但是,您可能仍需要重新调整对数据科学角色的期望。如果有人有任何其他意见、问题或异议,请随时发表评论,因为建设性的讨论对于帮助有抱负的数据科学家就其职业道路做出明智的决定是必要的。希望我没有让你失业。
