当前位置: 首页 > 科技观察

学习机器学习时需要尽早知道的三件事

时间:2023-03-16 20:55:43 科技观察

学习机器学习需要尽早知道的三件事ML之后,我开始想总结一些我希望在学习机器学习时尽早了解的东西。视频来自MikioBraun,介绍了Scala和Spark的相关知识。我希望在学习机器学习时尽早了解三件事:将模型应用于产品并非易事;我们很难在课本上学到真正的特征选择和特征提取技术;重要的。让我一一介绍。1.将模型应用于产品并非易事。我在Data-Product上做了一个关于如何将常微分方程应用于产品的演讲。一段时间后,我才意识到自己处理模型衰减、产品中的模型评估、开发和运维之间的沟通是多么困难。Yhat的ScienceOps就是解决这个问题的方法。起初我没有意识到它有多棒,现在我发现很难在市场上找到该产品的直接竞争对手,我真的觉得他们正在解决这个非常重要的问题。渐渐地,我意识到我不够聪明,无法处理ops成员负责的事情——所以我很乐意将这项工作外包。2、我们很难在课本上学到真正的特征选择和特征提取技术。特征选择和提取的方法和技巧往往不是从课本上学来的。这些技能只能从Kaggle比赛或真实世界的项目中学习,有时甚至需要实际应用这些技能和方法来学习它们。而这些任务在整个数据科学项目流程中占据了相当大的比例。3.模型评估阶段很重要只有将模型应用到测试集数据上,才能说进入了预测分析阶段。交叉验证、评估指标等评估技巧非常宝贵,因为它们只是将您的数据分成测试集和训练集。但是现实生活通常不会给你定义了测试集和训练集的数据,所以把现实世界中的数据分成测试数据和训练数据是一个创造性的工作,其中可能包含很多情感因素。Dato上有很多优秀的文章讨论模型评估。我认为MikioBraun对训练集和测试集的解释值得一读。我也喜欢他绘制的图表,并将它们包含在文本中,供不熟悉训练和测试集概念的读者使用。我们经常在论文、会议甚至讨论我们用来解决问题的方法时忽略模型评估。“weusedSVMinit”这句话没有告诉我任何东西,它没有告诉我你的数据来自哪里,你选择了什么特征,你如何评估你的模型,你如何将它应用到你的产品中,以及你做了什么在如何使用交叉验证或模型错误检查中做了。我认为我们需要更多地讨论机器学习的这些“肮脏”方面。我的朋友Ian在DataScienceDelivered上写了一篇很棒的笔记,对于需要为现实世界情况构建机器学习模型的任何级别的任何人来说都是一本很好的读物。对于希望聘请数据科学家或与数据科学团队打交道的经理的招聘人员来说,这也是一本很好的读物——如果你正在寻找可以问“你如何处理所有这些脏数据”的人。