当前位置: 首页 > 科技观察

2021年进入AI和ML领域前要知道的10件事

时间:2023-03-12 03:16:03 科技观察

用新颖的人工智能算法解决复杂问题,再加上丰厚的薪水,听起来很诱人。许多公司都大肆宣传,现在提供新手训练营,以在不到一年的时间内学习数据科学/人工智能/机器学习。在加入这样的训练营或转向机器学习之前,需要考虑以下10件事。现在是2021年,但职位名称尚未明确定义,所需技能也大相径庭。在初创公司注意到人工智能现在是一个强大的流行语之后,他们开始将现有的工作机会从数据分析师/统计转移到数据分析师/统计。科学家更名为数据科学家或其他名称。工作听起来更性感,所以他们会收到更多的工作申请。但是,如果您阅读招聘信息,您会发现有些角色是完全不同的。有的要求业务分析师用SAS、SPSS回答问题。有些人希望数据工程师构建大数据Hadoop系统,有些人希望深度学习研究人员使用TensorFlow和神经网络,但他们可能都称他们为数据科学家。所有这些类型都非常不同,需要不同的技能。近年来,出现了这些类型:数据科学家(高级分析)、机器学习工程师、数据工程师和应用科学家/研究员。毕业生并不短缺。如前所述,许多人想成为数据魔术师。不仅仅是计算机科学家、物理学家和数学家,还有经济学家、心理学家和其他具有定量背景的自然科学家。问题是,大多数公司并不在寻找应届毕业生,有些甚至不知道他们在寻找什么。有些人可能希望聘请数据科学家来解决他们所有的问题。因为他们并不真正了解这些要求,所以他们会聘请刚毕业的大学毕业生或新兵训练营的毕业生,并在他们的简历上写上所有的流行语。85%的工作计划可能会失败,其中一个原因可能就是因为这个。此外,据techrepublic称,2019年对数据科学家的需求已经开始减少。你可以从今天的年轻数据科学家那里听到很多失望、问题、找工作困难等等。(COVID也是一个原因)可能会缺乏技能,但不会缺乏申请人。数据科学的入门级或实习职位收到数百名申请者的情况并不少见。当雇主谈论人才短缺时,他们通常指的是缺乏经验丰富的专业人员。没有学位很难。没有接受过任何学历教育就得到一份数据工作的想法是大胆的。如果您是天才或幸运儿,那是有可能的,但一般来说,您几乎不会接到面试电话。人工智能涉及统计和数学,这通常是研究中最难的部分。你可能不需要所有的人,但通常你不是唯一的申请人,而且你要面对拥有博士学位的人。所有这些moocs和训练营都不可能在几个月内教给你基础知识,你需要更多时间。阅读招聘广告,您会注意到大多数硕士甚至博士都是加分项,具体取决于职位。考虑到这一点,这很难,但并非不可能。88%至少拥有硕士学位,46%拥有博士学位。应用机器学习来构建数据集Kaggle挑战赛和大学课程有一个共同点,而这个共同点在行业中基本上是不存在的:数据集可用并且可以使用。学习探索、数据预处理和建模绝对是有意义的,而且很大一部分实际工作都在做这些。如果机器学习能带来价值,它就是值得的,但它需要你做大量的观察和实验,直到得到好的结果,甚至更长的时间,直到你得到干净的数据。如果你是一个完美主义者并且你的挫折容忍度很低,不要应用机器学习,它会把你逼疯的。深度学习还没有被广泛采用。神经网络让人工智能在过去几年大受欢迎,但它们也有一些缺点。它们很难训练和构建,需要花费大量时间进行调整,容易过度拟合,而且计算量非常大。基础设施正在改善,但仍未达到应有的水平。如果你想和神经网络一起工作,不要选择成为那个行业的数据科学家。很少有公司使用神经网络,因为它太神奇了,而且在很多情况下,传统方法已经足够好了。如果你想使用深度学习,专注于学术和研究,或者扩大专注于ANN的初创公司。人工智能的认知是错误的。人工神经网络的灵感来自大脑,但它们离大脑还很远。我认为人工智能无法与人类竞争。公众和科学界对人工智能的看法截然不同。问题在于,很难解释为什么AI会播放《dota2》、deepfakes或作曲,但仍然不“聪明”。似乎被遗忘的是,人工智能仍然是模式识别,如果某些模式发生变化,它很快就会失败。它不明白,它不思考,它不做梦。你可能会被问到为什么你的人工智能系统不能做XYZ,而你可能无法修复它。现在解释为什么人工智能可以击败围棋世界冠军,却无法学会如何预测一些“简单”的商业问题。很多AI实际上并不是人工智能2019年有一项针对欧洲AI初创公司的研究。他们基本上发现40%的AI初创公司根本没有使用AI。有些甚至雇用人类来伪造人工智能。原因很简单。人工智能系统需要数据、时间和人力来构建,而且成本高昂。有时请人来做更容易也更便宜。不要成为那种“给某事贴上标签”的人,你如何证明你的初创公司在AI方面具有专业知识?对招聘数据科学职位持怀疑态度,并在加入他们之前询问他们的数据。需要终身学习Spark、TensorFlow、PyTorch、keras、scikit-learn、pandas都是让你的生活更轻松的工具。这些工具会改变,它们会被更好的工具取代,或者它们会永远存在,谁知道呢。但它们只是工具。你不应该过分关注工具,而应该关注技术和解决问题。如果你喜欢keras,但是PyTorch能更好的解决一些问题,那就学PyTorch吧。您会注意到这些工具和框架背后的想法通常非常接近,而且它们的工作原理也相似。编程语言也是如此。不要成为不想学习Python的人,因为他对使用C++来制作ML模型原型太自豪了。学习领域知识机器学习是关于数据的。数据是关于字段的。理解域是理解数据所必需的。数据团队可以在没有领域专业知识的情况下解决任何数据问题的想法是危险的,而且行不通。数据中有很多提示,只有了解域如何工作以及过程如何工作才能理解它们。不仅是业务视图,还有技术视图。仅仅摆弄技术是不够的。为了了解这些领域,您需要具备良好的沟通技巧,至少作为高级分析的数据科学家。批判性思维批判性思维是最重要的技能之一。许多项目的成功仅仅是因为有人质疑当前的方法或目标。目标变量真的是我们想要预测的吗?我们真的需要机器学习吗?我们会多花一周时间来获得1%的收益吗?我们真的可以相信这些数据吗?一个自我实现的预言?很难问这些问题,因为通常我们不喜欢答案,但这是必要的!如果你真的对机器学习和数据科学感兴趣,不要相信咨询和培训公司的承诺,他们提供新手训练营。不要仅仅因为炒作就这样做,记住,所有的炒作都会结束。