今年,Kaggle首次对人工智能领域进行深度调查,旨在全面了解通用语言数据科学和机器学习的情况。调查收到超过16000份回复,庞大的调查数据为我们提供了从业者、行业趋势、如何进入行业的数据支持。下面的报告包括调查的几个主要发现,包括:虽然Python可能是机器学习最常用的编程语言,但R是统计学家使用最多的语言。数据科学家的平均年龄在30岁左右,但这个数字在不同国家有所不同。例如,印度受访者的平均年龄比澳大利亚年轻9岁。受访者受教育程度最多的是硕士,但在薪水最高(超过15万美元)的人群中,拥有博士学位的人更多。Kaggle已将调查的匿名数据集公开供研究使用,可在此处下载:https://www.kaggle.com/kaggle/kaggle-survey-2017。谁在工作中处理数据?分析数据从业者的方法有很多种,本文将从数据科学从业者的工作、背景等人口统计信息入手。多大?从下图可以看出,本次调查的受访者平均年龄在30岁左右,但这个数值因国家而异。例如,印度受访者的平均年龄比澳大利亚小九岁。目前的就业状况如何?在受访者中,65.7%的人表示他们有一份全职工作。职位名称是什么?虽然我们将数据科学家定义为使用代码分析数据的人,但我们发现数据科学领域涵盖的工作范围很广。例如,在伊朗和马来西亚,数据科学从业者的最佳职位是“科学家或研究员”。全职工作的年薪是多少?中位数为55,441美元,尽管这并不准确,因为许多人并非全职工作(收入为0)。尽管在我们的调查中“薪酬和福利”的重要性略低于“职业发展机会”,但了解什么是合理的薪酬仍然是件好事。在美国,普通机器学习工程师带回家的培根最多。有131个响应因超出最大值而未显示,但已包含在中位数中。最好的学位是什么?你需要攻读另一个学位吗?一般来说,数据科学从业者中最常见的学位是硕士学位,但薪资最高(15万至20万美元,超过2000亿美元)的人大多拥有博士学位。大多数受访者年龄在30岁左右,拥有硕士学位,年薪在55,000美元左右,职位是数据科学家。但现实并非如此平均。这些前几个人口统计问题仅显示了复杂的Kaggle数据科学社区在年龄、性别、国籍、职位、薪水、经验和教育方面的表面差异。数据科学家做什么的?我们将数据科学家定义为编写代码来分析数据的人。他们每天做什么?这是我们的发现。工作中使用了哪些数据科学方法?逻辑回归是工作中最常用的数据科学方法,但国家安全除外,神经网络的使用频率更高。通常,在数据科学中使用经典的机器学习算法更为常见。简单的线性和非线性分类器是数据科学中最常见的算法,强大的集成方法也很受欢迎。工作中最常用的编程语言是什么?Python是数据科学家最常用的语言,也是最常用的数据分析工具。然而,许多数据科学家仍然忠于R语言。工作中常用的数据类型有哪些?关系数据是开发人员工作中最常用的数据类型,因为大多数工业工程师都非常关注这种关系数据。学术研究人员和国防与安全行业更关注文本和图像。如何在工作中共享代码?尽管许多受访者(58.4%)在工作中使用Git共享代码,但大公司的开发人员更倾向于将代码保存在本地,并使用Email等文件共享软件共享代码。初创公司可能需要在云中共享以保持更快的响应速度。工作中遇到的主要障碍是什么?脏数据(dirtydata)显然是排在第一位的,也就是说数据科学家最常遇到的问题就是需要对数据做大量的预处理工作。除了数据预处理,还有很多问题困扰着数据科学家。例如,很多机器学习算法都有自己擅长的领域,因此很难理解它们的性能。新手数据科学家如何进入该领域?开始新的职业时,参考其他人的成功案例会很有帮助。我们调查了在数据科学行业工作的人,询问他们是如何开始的。以下是我们最喜欢的一些建议:您会推荐新数据科学家学习哪种语言?每个数据科学家对选择第一语言都有自己的看法。事实证明,那些只使用Python或R的人做出了正确的选择。但如果你问用过R和Python的人,他们向你推荐Python的可能性是其他人的两倍。您使用哪些数据科学学习资源?数据科学是一个快速发展的领域,有很多宝贵的资源可以帮助你学习并保持行业领先地位,从而不断提高你的竞争力。已经从事数据科学工作的人更多地使用StackOverflow问答、会议和播客。如果您想发布内容或开源软件,请始终记住,刚接触该领域的人通常使用官方文档并更多地观看Youtube视频。您从哪里获得开源数据?没有数据,就没有数据科学。在学习数据科学技能时,重要的是要知道如何为实践和开发项目找到干净的开源数据集。我们很高兴我们的数据集聚合器正在成长为数据科学社区成员中最常用的工具。如何找工作,你是怎么找到的?找工作时,人们可能会去公司网站,或者在招聘信息中寻找机会,指定一个技术方向,但根据在数据科学领域工作的人的经验,这些方式无疑是最差的选择。直接联系招聘人员或建立自己的网络以进入该领域是他们最好的选择。注:受访者少于50人的组被合并到“其他”类别中。为美观起见,对一些直方图进行了缩放。
