数学在机器学习中非常重要,但我们通常只是用它来理解具体算法的理论和实际运行过程。加州大学圣巴巴拉分校的PaulJ.Atzberger最近回顾了机器学习中的经验风险和泛化误差边界。他认为,在科学和工程领域,我们需要从基础理论和数学出发,高效地使用现有方法,或者开发新的方法来整合特定领域和任务所需的先验知识。最近,研究人员越来越关注将机器学习方法应用于科学和工程应用。这在很大程度上受到了自然语言处理(NLP)和图像分类(IC)领域近期发展的影响。然而,科学和工程问题具有独特的特征和要求,这对机器学习方法的有效设计和部署提出了新的挑战。这对机器学习方法及其进一步发展的数学基础产生了强烈的需求,以提高所用方法的严谨性并保证更可靠、可解释的结果。将某种形式的归纳偏差与领域知识相结合是成功的必要因素,正如最近的最新成果和统计学习理论中的“天下没有免费的午餐”定理所述。因此,即使使用现有的广泛使用的方法,也非常需要进一步的数学研究,以促进将科学知识和相关的归纳偏差整合到学习框架和算法中。本文简要讨论了这些主题,以及这方面的一些想法。在构建机器学习方法的理论之前,重要的是简要描述开发和部署机器学习方法的各种模式。监督学习的兴趣在于寻找输入数据x的标签与输出数据在不利条件下的函数关系f,即y=f(x)+ξ,不利条件包括有限数据,噪声ξ不等于0、维度空间过大或其他不确定因素。其他模式包括无监督学习(旨在发现数据的内在结构并找到紧凑的表示)、半监督学习(使用部分标记的数据)和强化学习。本文侧重于监督学习,但其他模式也存在类似的挑战。应该强调的是,许多最近的机器学习算法(例如NLP、IC)的成功取决于对有关数据信号属性的先验知识的明智使用。例如,NLP中的Word2Vec用于预训练步骤以获得词标识符的词嵌入表示,其编码语义相似性。在IC中,卷积神经网络(CNN)的使用非常普遍。CNN通过共享不同位置的卷积核权值来整合自然图像的先验知识,从而获得平移不变性这一重要性质。先验知识的整合甚至包括对这些问题中数据信号固有的层次性和结构性的感知,这推动了可以使用分布式表示有效捕获相关信息的深层架构浪潮的兴起。在科学和工程领域,需要类似的思维才能深入了解该领域。同时,我们需要调整机器学习算法并利用社区的最新发展,以便有效地使用这些算法。为了准确起见,本文对监督学习进行了简要描述。与传统的逼近理论相反,监督学习的目的不仅是在已知数据的基础上逼近最优解f,还要与不确定因素作斗争,使模型在未见数据上也能获得良好的性能。泛化性能。这可以通过最小化损失函数L来获得,其中L的期望值定义了真实风险。L有很多种不同的度量方法,比如最小二乘法中的?(x,y,f)=(f(x)?y)^2,或者***似然法中的?(x,y,f)=?log(p(y|x,f))。然而,R(f)在实践中不可计算,因为模型对数据中的分布D的信息有限,这促使我们在实践中使用经验风险等替代误差。从统计学上讲,使用经验风险也有很大的成本,因为在数据量不够大的情况下,Rhat可能不会一致收敛到真实风险R(f)。然而,由于f来自离散假设空间H,并且H可能是任何选定复杂度c(f)下的最佳空间,如果c(f)满足界限,则可以推断m个样本的泛化误差:其中概率1?δ适用于随机数据集。类似的边界也可以从具有其他复杂性(例如VC维度或Rademacher复杂性)的连续假设空间中导出。这在数学上捕获了许多当前用于RHS优化的训练方法和学习算法。一个常见的选择是有限空间的经验风险最小化,使用c(f)=log(|H|),其中c在正则化中不再起作用。我们可以学习如何通过仔细选择假设空间H和c(f)来实现更好的泛化和更好的性能。对于科学和工程应用,这可能包括通过设计c(f)或限制空间H来合并先验信息。示例包括限制H以仅保留遵循物理对称性、满足不可压缩性等约束、满足守恒定律或限制H以满足更常见的线性或非线性PDE类别的函数。这更好地对齐了优秀的c(f)和R帽子,并确保了更小的真实风险R(f)。虽然这一直是机器学习的重点,但它并不是唯一的策略。正如最近的深度学习方法所证明的那样,您可以使用复杂的假设空间,而不是依赖于随机梯度下降等训练方法,您支持较低复杂度的模型,这些模型只保留与预测Y相关的输入信号X。类似的机会存在于科学和工程应用中,在这些应用中可以获得关于输入信号相关部分的大量先验知识。例如,作为限制假设空间的替代方法,您可以在训练期间对输入数据执行随机旋转,以确保所选模型在对称性下保持其预测。将这些方法与对输入数据和最终目标的洞察相结合也有很多可能性。我们看到,即使在本文提到的泛化边界类型上,也可以捕获大量新见解。关于改进边界和训练方法的进一步数学研究可能对有效使用现有方法或开发新方法以纳入先验知识大有裨益。我们希望本文可以作为一般理论和当前训练算法的数学研究的开端,从而开发出更多更适合科学和工程应用的框架和方法。原文地址:https://arxiv.org/pdf/1808.02213.pdf【本文为栏目组织《机器之心》原创文章,微信公众号《机器之心(id:almosthuman2014)》】点此查看作者更多好文
