当前位置: 首页 > 科技观察

2020Kaggle年度报告:90%的数据科学家坚持终身学习

时间:2023-03-12 11:47:05 科技观察

Kaggle是数据建模和数据分析竞赛的重要平台。近日,Kaggle发布了第四份年度报告,试图一窥社区趋势。该调查涉及20,036名Kaggle成员。本次报告主要关注现职位为“数据科学家”的受访者,占比约13%(2675人)。值得注意的是,为了有资格参与调查并获得奖励,您必须满足以下条件:至少年满18岁(或达到您居住地的成年年龄);不是克里米亚、古巴、伊朗、叙利亚、朝鲜或苏丹居民;不是受美国出口管制条例约束的个人/实体的代表。因此,这份报告可能漏掉了相当一部分来自中国的Kaggle数据科学家。在众多的回答中,Kaggle总结了以下几点:大多数数据科学家都在35岁以下;超过一半的数据科学家拥有硕士学位。教育和就业大多数数据科学家在正规教育之外继续他们的学业;大多数数据科学家编码不到十年;超过一半的数据科学家拥有不到三年的机器学习经验;美国的数据科学家比其他国家的同行挣得更多。与2019年调查结果相比,2020年更多数据科学家使用云计算;scikit-learn是2020年最受欢迎的机器学习工具,超过五分之四的数据科学家使用scikit-learn;Tableau和PowerBI是最流行的商业智能工具。接下来,让我们看看每个级别的具体细节。数据科学家人口性别数据科学领域仍然存在很大的性别差距,男性占82%,略低于去年的84%。年龄与去年的调查结果相近。大多数数据科学家年龄在30岁左右,约60%的受访者年龄在22-34岁之间,只有1/5的专业数据科学家年龄在40岁及以上。国家在这份报告中,印度占开发者的比例最大(21.8%),其次是美国(14.5%),其次是巴西和英国。教育高等教育数据科学家大多拥有硕士学位,68%获得硕士或博士文凭,只有不到5%的人拥有高中及以下学历。终身学习数据科学和机器学习是瞬息万变的领域,超过90%的Kaggle数据科学家保持着终身学习的习惯。其中约30%是传统高等教育课程,更多的是通过在线材料学习。在线学习渠道中最常用的媒介是Coursera、Udemy和KaggleLearn。受访者中有不少数据科学家选择了不止一种学习渠道,平均为2.8种。数据科学和机器学习经验编程经验大多数Kaggle数据科学家都有编程经验。只有大约8%的数据科学家拥有超过20年的编程经验,大约9%的数据科学家是在去年开始编程的。不到2%的人表示他们从未编写过代码。与全球受访者相比,美国数据科学家的编程经验要多得多。在美国,27%的人拥有超过10年的编程经验,而全球这一比例为22%。机器学习经验大多数Kaggle数据科学家都是机器学习领域的新手。大约55%的数据科学家拥有不到三年的机器学习经验,不到6%的数据科学家拥有十年或更长时间的机器学习经验。根据薪资水平调查结果,在按国家/地区划分的最常见薪资中,美国公司可能会支付更高的薪资,其次是德国和日本。存在地区差异,90%的印度受访者报告年收入低于50,000美元,而美国公司最有可能支付六位数的薪水。基于Jupyter的IDE仍然是数据科学家的首选工具,大约75%的Kaggle数据科学家使用它,但低于去年的83%。VSCode排在第二位,只有大约33%。这是它与VisualStudio分离的第一年,今年两者合计占比超过43%,而2019年不到30%。方法和算法数据科学家最常用的算法是线性回归和逻辑回归,其次是决策树和随机森林。在更复杂的方法中,梯度提升和卷积神经网络是最受欢迎的。基于Python的工具仍然在机器学习框架中占据主导地位,从统计结果可以看出,scikit-learn适用于大多数项目,82.8%的数据科学家都在使用它。大约50%的数据科学家都使用过TensorFlow和Keras,尤其是在深度学习项目中。梯度提升库xgboost排名第四,使用量与2019年相似。排名第五的PyTorch从2019年的26%左右上升到30%以上。在今年的调查中,最受欢迎的工具是基于R的Tidymodels,占比超过7%。企业云计算领域主要有3个成员(不难猜到),分别是AWS、GoogleCloudPlatform和MicrosoftAzure。值得注意的是,越来越多的数据科学家正在采用全云方法。在2019年的调查中,大约25%的人没有使用云计算,但到2020年,这一比例下降到17%。在云服务用户中,当被问及他们使用哪些具体产品时,最常见的答案是计算云服务器,其次是无服务器技术,大约五分之一的人没有提到云产品。在使用AWS等云服务的用户中,超过一半表示他们不使用云上的机器学习工具,而在使用这些工具的用户中,AmazonSageMaker是最受欢迎的选择,其次是GoogleCloudAI/ML。企业大数据说到数据库,数据科学家并没有明确的偏好。提到频率最高的是MySQL(35.6%),其次是PostgreSQL(28.86%)和SQLServer(24.93%)。报告链接:https://www.kaggle.com/c/kaggle-survey-2020