当前位置: 首页 > 科技观察

“假设”家庭有了一个大开始!如何正确区分科学假设、统计假设和机器学习假设?

时间:2023-03-12 17:49:34 科技观察

大数据文摘来源:machinelearningmastery编译:StatsXiong、不眠鸢尾、钱天培什么是科学假设?什么是统计假设?什么是机器学习假设?虽然都是假设,但这三件事,其实真的是天壤之别!今天,文摘菌就带大家辨别“假想”三兄弟。了解了它们之间的区别之后,你就会对不同领域的假设这个词有更深的理解,也会对更好地使用假设有更深的理解。同时。对于机器学习初学者来说,这样的文章对于个人以后在该领域的发展更是如虎添翼。一般来说,我们理解的有监督机器学习是一个类似于研究目标函数从输入映射到输出的问题。这个过程可以分为如何选择假设空间和评估候选假设空间。作为机器学习领域的初学者,假设这个词的概念可能会让他们感到困惑,有时会产生歧义。比如在统计领域,我们有假设检验,在科学领域,我们有科学假设。这些定义是相关的,但并不完全相同。那么什么是假说呢?假设是对某事的解释。它是一种基于经验和知识的思辨,需要一定的评价依据。一个好的假设是可检验的,验证的结果可能是真也可能是假。在科学界,一个假设必须是可证伪的,即可以通过观察和检验结果证明该假设是错误的。同时,在验证结果出来之前,必须确定假设的框架结构。……任何一个或一系列假说要想成为科学定理或科学理论,都必须满足这样一个基本条件——即可以证伪。摘自《What is This Thing Called Science?》1999,第三版,pp.61-62一个好的假设既能满足已有的证据,又能用来预测新的观察结果或新的情况。如果说一个假设完全满足已有的证据,同时可以被检验,那么它就会成为一种理论,或者成为一种理论的一部分。总而言之,科学假设是一种与证据相符的推测性解释,可以被证实或反驳。如何定义统计学中的假设?大多数统计问题是研究观察样本之间的潜在关系。统计学中的假设检验通常是计算“影响力”的临界值,通过计算临界值,可以判断观察样本之间是否存在某种关系。如果可能性很小,效果可能是真实的,如果可能性很大,我们可能会观察到统计波动,效果可能不是真实的。例如,通过推断两组样本的均值之间的关系,您可以判断它们是否具有相同的统计分布,或者它们有何不同。例如,我们可以假设两组样本的均值相同。这个假设对我们没有影响,也叫原假设。通过假设检验,我们可以拒绝假设或保留假设。即使我们不能拒绝原假设,也不代表我们接受原假设是对的,因为结果只是一个概率。..在社会科学研究中,我们建立假设,制定标准来衡量是否保留或拒绝我们的假设,通常是零假设。《Statistics in plain English》ThirdEdition2010,pp.64-65在我们的示例中,如果原假设被拒绝,则其对立的替代假设表明均值之间存在差异。原假设(H0):没有影响备选假设(H1):有影响统计学中的假设检验通常不判断影响的大小,而只是近似观察样本之间是否存在差异。总而言之,统计学中的假设是指用概率来解释样本观察值之间是否存在关系。***,机器学习中的假设是什么?机器学习,尤其是监督学习,是利用已有的数据学习一个***函数来表示输入和输出之间的映射关系。说得专业点,这叫函数逼近。也就是说,我们要找到一个接近于我们的目标函数的方程(我们假设它存在),它可以满足问题域中所有可以从输入映射到输出的观测值。在机器学习中,近似目标函数并将输入映射到输出的模型称为假设。算法选择(如神经网络)和算法配置(如网络拓扑和超参数)决定了模型可能表示的假设空间。机器学习算法的学习就是寻找最接近目标函数的假设,即将选定的假设空间转化为最好的或最好的假设。“学习”就是在可能的假设空间中找到一个表现良好的假设空间,即使是在训练集之外的新样本上。出自《Artificial Intelligence: A Modern Approach》SecondEdition2009,page695。这个机器学习框架很常见,经常可以帮助我们选择算法,理解学习和泛化问题,甚至是“偏差-方差”的权衡。例如,训练集通常用于学习假设,而测试数据集用于评估假设。我们通常使用小写字母(h)表示给定的特定假设,使用大写字母(H)表示正在探索的假设空间。假设(h):单个假设,例如一个实例或一个特定的候选模型,可以将输入映射到输出,也可以对模型进行评估和预测。假设集(H):包含所有可能的输入到输出关系的假设空间,通常受所选问题框架、模型和模型调整的约束。在算法的选择和配置过程中,我们需要选择一个对目标函数最优的逼近函数作为假设空间。这是非常具有挑战性的,并且抽查一系列不同的假设空间通常更有效。如果假设空间包含真函数,则学习问题是可实现的。不幸的是,我们不能总是判断给定的学习问题是否可以实现,因为真正的功能是未知的。摘自?2009年第二版,第697页。这是一道难题。通常,我们通过限制假设空间的大小和评估假设的复杂性来简化搜索过程。在假设空间的表达能力和假设搜索的复杂性之间存在权衡。摘自?2009年第二版,第697页。概括地说,机器学习中的一个假设是一种逼近目标函数的候选模型,用来表示输入样本和输出样本之间的映射关系。总结让我们重新审视一下假说的三个定义:科学假说是对观察到的可以证伪的现象的推测性解释。统计学中的假设用于以概率的方式解释数据样本之间的关系。机器学习中的假设是一种逼近目标函数的候选模型,用于表示输入样本和输出样本之间的映射关系。机器学习中假设的定义比科学中的更广泛。与科学假设一样,机器学习基于现有证据,可以被证伪,并对新情况做出预测。机器学习中的假设:覆盖现有证据:训练数据集可证伪:有一个测试集来评估模型性能,并与基础模型进行比较,以确定训练过程是否有效。适用于新情况:可用于对新数据集进行预测。相关报道:https://machinelearningmastery.com/what-is-a-hypothesis-in-machine-learning/》】点此阅读作者更多好文