当前位置: 首页 > 科技观察

未来3-5年,机器学习人才会在哪些方向短缺?

时间:2023-03-17 10:45:23 科技观察

基本介绍撇开学术界的需求不谈,因为大多数人最终不会从事算法研究,而是在一线应用领域奋斗。相比之下,行业对人才的需求更为保守。这个受很多客观因素的限制,比如硬件计算能力、数据安全、算法稳定性、人工成本等。这个回答可能更适合两类人:1.在校学生2.想转机的朋友下班后马上学习。特别厉害的技术专家建议探索适合自己的路线,我只能说一般来说适合大多数人的路线。但在回答之前,还是忍不住吐槽一下那种简单回答“深度学习”、“大数据”、“NLP”、“机器视觉”的人。这些领域中的每个领域都有很多小方向。以自然语言处理(NLP)为例,其细分领域包括自然语言生成、自然语言理解以及针对不同语言的语言模型。任何一个方向花费几十年都不算多。只给出几个字的答案和买彩票有什么区别……因此,大多数机器学习从业者应该脚踏实地。很容易陷入盲目追热点的陷阱,但是夯实基础,找到自己擅长的领域和机器学习的交集,可以帮助你在未来的就业市场上炙手可热,成为行业紧缺的人才。行业。0.背景未来行业需要什么样的机器学习人才?能把模型应用到专业领域的人,也就是能跨领域实现机器学习的人,这已经是老生常谈了。也许有人会问,我们现在不需要这样的人吗?答案是肯定的,我们需要而且将长期需要这样的人才,现阶段机器学习的落地还存在各种困难。这种需求不会是昙花一现。这与网络开发相同。也经历了从火热到降温的十年轮回。一个领域的发展有一个特定的周期。机器学习门槛高于web开发,处于朝阳期。因此,大家努力成为“专攻某一领域”的机器学习专家,并不过时。什么是特定领域的机器学习专家?比如我之前在回答“人工智能会不会取代财务人员”的时候,提到我曾经研究过如何用机器学习来自动化公司的部分审计工作,但是遇到的最大的困难是我自己的审计知识能力有限,其他审核员对我的工作不是很支持,导致进展缓慢。所以如果你对机器学习有足够的了解,并且对特定领域有很好的了解,你绝对可以在工作供求方面处于优势地位。以我的另一个回答为例“FraudDetection中使用的机器学习模型有哪些?”,特定领域的知识有助于我们更好地解释机器学习模型的结果并获得老板和客户的认可。这就是算法的用武之地。有成千上万的人可以编写代码和构建模型,但很少有人了解他们在做什么并结合他们的领域知识提供商业价值。所以开个玩笑,机器学习人才最紧缺的方向是哪个?答:每个领域都需要专门的机器学习人才,你对特定领域的理解就是你的武器。当然,没有勺子给鸡汤是不厚道的,所以我也会给出一些具体的建议。同样,我的建议仅适用于正在找工作的人。对于走研究路线我有不同的建议,本文不再赘述。1.基本技能机器学习说到底还是需要一定的专业知识,可以通过学校学习或者自学来完成。但是一定要精通数学,善于优化吗?在我看来,这是没有必要的。主要前提是你需要了解基本的数理统计。更多讨论请看我的回答《阿萨姆:如何对待“机器”》学习不需要数学,很多算法都是封装的,调整封装就行了。这种说法?。我建议至少掌握五个小方向,对于现在和未来几年的行业来说已经足够了。再一次,我对算法的看法是,大多数人不造轮子,不造轮子,不造轮子!只要明白你的意思正在做的,知道选择哪个模型,直接调用API和现成的工具包就可以了。比如产品定价或者预测产品销量就需要回归模型,现阶段比较流行的回归方法是xgboost,它以数字为模型,预测效果很好,可以自动排序变量的重要性。而传统的线性回归(单变量和多变量)将继续流行,因为它具有良好的可解释性和低计算成本。如何掌握回归模型?推荐阅读《统计学习导论》第2-7章,看看R中xgboost的包介绍,分类模型(Classification)。这是陈词滥调,但应该对现在和将继续存在的模型有深刻的理解。例如,随机森林(RandomForests)和支持向量机(SupportVectorMachines,SVM)仍然是当今工业界常用的算法。可能很多人想不到的是,逻辑回归(LogisticRegression)这种大街小巷的每本教科书上都常见的经典老算法,至今仍占据着行业的绝大部分。这部分推荐看李航《统计学习方法》,挑对应的章节就可以了。神经网络。我没有把神经网络归结到分类算法上,因为现在太火了,需要学习和理解。随着硬件能力的不断增长和数据集的日益丰富,神经网络在中小企业中必将有一席之地。三五年后,这可能会发生。但是可能有人会问,神经网络包含了这么多内容,比如结构,比如正则化,比如权重初始化技巧和激活函数的选择,我们应该学多少呢?我的建议是抓经典,掌握基本的三套网络:a.普通人工神经网络b.用于图像处理的CNNc.用于文本和语音处理(LSTM)的RNN。对于每个基础网络,你只需要了解经典的处理方法即可。详情可以参考《深度学习》的第6-10章和吴恩达的深度学习在线课程(已上线网易云课堂)。数据压缩和可视化。首先将数据可视化在行业中很常见。比如近两年很火的流形学习,跟可视化有很大关系。业内认为,做可视化是磨刀不误砍柴工。将高维数据压缩成2D或者3D可以快速看到一些有趣的东西,可能会节省很多时间。学习可视化可以使用现成的工具比如QlikSense和Tableau,或者使用Python的Sklearn和Matplotlib。无监督学习和半监督学习(Unsupervised&Semi-supervisedLearning)。工业世界的另一个特点是大量缺失数据,其中大部分都没有标注。以最常见的反欺诈为例,标注数据非常少。所以我们一般需要大量使用无监督或半监督学习来使用有限的标签进行学习。还有一点,强化学习在大部分企业的使用率基本等于0,估计未来很长一段时间内可能不会有特别广泛的应用。2.有基本技能的秘密武器只代表你能输出。怎么能让自己的基本功不是屠龙技呢?一定要结合领域知识,这也是我一直劝很多朋友不要盲目转机器学习,从头开始的原因。同学朋友们可以多关注自己感兴趣的领域,思考如何将机器学习应用到这个领域。例如,我对历史和哲学很感兴趣。我经常思考机器学习与其他文科领域之间的联系。我也写过一些脑洞大开的文章《带你看懂机器学习(一):《机器学习中的哲学》。还有已经有工作/研究经验的朋友要尽量利用自己的工作经验。比如,don做最擅长机器学习投资的人,而是做金融领域最擅长机器学习的专家。这就是你的价值主张。最重要的是机器学习的基本技能是没有大家想的那么高不可攀,没必要放弃专业转行全职,沉没成本太高,跨领域,曲线救国,变劣势为优势比只懂机器学习的人有更大的行业价值,举几个我身边的例子,我有个朋友是做传统软件工程研究的,前年和我讨论如何用机器学习来识别bug基于GitHub上的提交历史。这是领域知识的良好结合。如果你有金融背景,可以在完成上述基本技能的同时,将机器学习应用到自己的专业领域,做策略研究。我听过无数“声称”使用机器学习来实现交易策略的案例。虽然令人难以置信,但对特定领域的深刻理解往往是最后一层破窗纸。只了解模型而不了解数据和数据背后的意义,导致很多机器学习模型只停留在好看而不实用。阶段。换个角度思考,不同领域的人纷纷传言,他们对机器学习的理解可以更好地推动这项技术的落地,打破泡沫。对于每个人来说,大可不必担心失业,在这个全民深度学习的时代,都可以找到自己的视角,找到一份“黄金工作”。因此,我建议各行各业的从业者不要盲目转向计算机或机器学习,而应该加深对本专业的理解和自学,以补充上面提到的基本技能,从而成为这方面的机器学习专家。场地。3.弹药供应没有什么是不会变的。这个时代的技术迭代速度非常快。深度学习开始发力才十年,谁也不知道接下来会流行什么?以深度学习为例,近两年非常流行的对抗生成网络(GAN)、多目标学习(Multi-lablelearning)和迁移学习仍在快速发展。深度学习为什么有很好的泛化能力,有理论猜想的文章,听说最新的NIPS记录了好几篇。这都说明,没有哪个行业可以长期吃老本,还需要追赶新的热点。但是机器学习的范围和领域真的很广。上面提到的仍然是有监督的深度学习。无监督神经网络和深度强化学习也是热门研究领域。所以我的建议是尽量去关注、学习和了解成熟的、有实例的新热点,不要每一个热点都去追。如果具备了这些基本功,并且很好的结合了领域,三五年绝不是职业瓶颈,十年也太早了。科技时代虽然给了我们巨大的变革压力,但也给我们带来了无限的可能。技术总会过时,热点总会过去,但不会过去的是我们对新技术不断追求的热情和对自身的挑战。