GoogleRoboticsResearchScientist:记住5个问题,快速理解ML论文要点在学习过程中,你会需要阅读一些论文,跟踪某个领域的最新进展。但是,在看论文的时候,往往有两种不舒服的感觉。一是容易忘记,二是无法勾勒。遗忘通常是指看完就忘了前面,或者几天后回头看自己看过的论文不知道发生了什么。不会提纲,体现在喜欢逐字逐句地看,从大局出发研究论文,不着重重点。那么,我们应该如何阅读机器学习领域的论文呢?GoogleRobotics的研究科学家EricJang在他的博客上写了一篇名为“如何快速理解ML论文”的文章,并提到他的学生经常问他一些类似的问题。诸如“ArXiv每天被论文淹没,我们如何选择性阅读?”等问题。他建议阅读机器学习领域大多数论文的美妙之处在于你只需要问五个简单的问题。问题,你可以弄清楚论文的逻辑,避免很多麻烦,比如术语难懂,数学推导不好……这五个问题是:1.函数逼近器的输入是什么?例如,只有一个对象居中224x224x3RGB视图。2.函数逼近器的输出是什么?例如,一个图像对应一个长度为1000的输入向量。以这种“椭圆”的方式思考机器学习系统的输入和输出,可以让你跳过算法术语,考虑其他领域是否以其他方式达到同样的目的.我发现这种方法在阅读“元学习”领域的论文时非常有用。通过将机器学习问题视为一组输入和预期输出,您可以推断输入是否足以预测输出。如果你不做这个练习,你可以设置一个随机的机器学习问题,输出可能不由输入决定。因此可以创建一个引入“错误”的机器学习系统。3.监督输出的预测成本是多少?这个特定目标对世界做了哪些假设?机器学习模型是通过结合偏差和数据形成的。有时偏见很强,有时很弱。为了使模型泛化得更好,您需要添加更多偏差或添加更多无偏差数据。正如“天下没有免费的午餐”理论所指出的,优秀的模型是不可能轻易做出来的。举个例子:许多最优控制算法假设有一个稳定且连续的数据生成过程,称为马尔可夫决策过程(MDP)。在MDP中,“状态”和“动作”是通过环境的转移动态确定的,并映射到“下一个状态、反馈、是否结束”。虽然这种结构很常见,但可以制定损失,使学习Q值遵循贝尔曼方程。4.训练后,模型可以从以前闻所未闻的输入/输出中概括出什么?由于从数据或模型架构中捕获的信息,机器学习系统可以很好地概括。近年来,我们看到了泛化水平的提高,因此在阅读论文时,我会寻找令人惊讶的泛化特征以及它们的来源(数据、偏差或两者)。该领域有很多噪声用于更好的归纳偏差,例如因果推理、符号方法或以对象为中心的表示。这些是构建健壮可靠的机器学习系统的重要工具,而且我知道将结构化数据与模型分开的偏差线可能很模糊。话虽如此,令作者感到困惑的是,为什么这么多研究人员认为推动机器学习向前发展的方法是减少学习量并增加硬编码行为的数量。我们研究“机器学习”正是因为有些东西我们不知道如何硬编码。作为机器学习研究人员,我们应该把精力放在改进学习方法上,把硬编码和符号方法留给机器硬编码研究人员。5.结论是否可证伪?声称不可证伪的论文不属于科学领域。原文链接:https://blog.evjang.com/2021/01/understanding-ml.html【本文为专栏组织大数据文摘原创翻译,微信公众号》大数据文摘(id:BigDataDigest)》】戳这里,阅读更多本作者的好文
