当前位置: 首页 > 科技观察

6个你应该知道的机器学习的革命性的教训

时间:2023-03-17 00:15:18 科技观察

您应该知道的机器学习的6个革命性教训机器学习处于所有这些新时代技术进步的最前沿。在不久的将来,自动化机器的发展将使机器达到或超过人类智能。机器学习无疑是下一个“大”事物。而且,据信,大多数未来的技术都将与它联系在一起。为什么机器学习如此重要?机器学习非常重要,因为它有助于预测人类无法预测的行为和模式。机器学习有无数非常有用的实际应用。通过机器学习,可以管理以前令人困惑的场景。一旦了解了可以有效泛化的机器学习模型,就可以使用它做出相应的重要决策。机器学习使个人能够根据大量场景做出决策。显然,目前还不可能编写适用于所有新场景的代码。人工智能能够执行各种需要学习和判断的活动。从自动驾驶汽车、投资银行、许多与医疗保健相关的功能到招聘,人工智能已经被用于不同领域的各种任务。关于机器学习的6个革命性教训机器学习算法能够简单地从场景中进行概括,以获取执行必要任务的方法。这更实用且更具成本效益,但是,手动编程并不是那么具有成本效益和可行性。“可用数据”量的增加肯定会导致更多与获取数据相关的问题。因此,机器学习是未来,因为它将广泛应用于计算机和其他领域。尽管如此,开发有效的机器学习应用程序仍需要大量的“黑魔法”,而这在手册中是很难找到的。以下是关于机器学习的6条最有价值的经验教训:1.泛化是机器学习的核心机器学习最基本的特征之一是算法必须从训练数据泛化到所有未见场景的整个领域在域中,以便在使用模型时可以做出正确的推理。此泛化过程要求我们用于训练模型的数据具有我们希望算法学习的体面且可靠的映射。数据的质量和表现力越好,模型就越容易理解从输入到输出的未知和基本“真实”映射。泛化是从精确到广泛。机器学习算法是从历史场景中自动简化的技术。他们有能力更快速地概括更大量的数据。所有机器学习初学者最常犯的错误是在训练数据上进行测试,然后看起来像是成功了。如果在新数据上尝试生成的分类器,它通常不会比随机猜测更好。所以,如果你要开发一个分类器,一定要留下一些数据用于测试。另外,在测试数据上测试你的分类器。2.学习=表示+评价+优化机器学习算法分为3个部分,表示、评价和优化。表示:数据需要以合适的算法形式输入。对于文本分类,可以从全文输入中提取特征并将其转换为词袋表示。相反,选择表示等同于选择它可能学习的分类器集。这个集合称为学习者的假设空间。评估:这是一个帮助我们理解我们在做什么的指标。需要一个评估过程来区分好分类器和坏分类器。如果您可以预测测试集的一个数字,比如测试集大小n,在这里,您可以计算平均绝对误差,甚至可以选择使用均方根误差。优化:它是指寻找方法选择不同的技术来优化它的过程。例如,我们可以简单地尝试假设空间中的每个假设。我们也可以选择使用更智能的技术来尝试最有利的假设。同时,当我们优化时,我们可以使用评估函数来了解这个特定假设是否成立。如果评价函数有多个最优值,优化技术允许用户更多地了解正在创建的分类器。首先,初学者应该从现成的优化器开始,然后再转向定制设计的优化器。3.仅有数据是不够的!泛化是主要目的,但主要关注的是,无论数据有多少,光靠数据是不够的。但是,幸运的是,我们想要掌握的函数并不是从所有可计算函数中统一导出的!即使是最一般的假设(包括平滑度、具有相似类别的相似样本、不充分的依赖性或有界复杂性)也足以正常运行,这是使机器学习如此强大的主要原因之一。基本上都是初学者联合起来理解大数据来做应用。4.谨防过度拟合如果没有足够的数据来完全训练一个分类器,我们最终可能会得到一个只对训练集有用的分类器。这个问题被称为过度拟合,它被认为是ML的一个麻烦。发现你的模型过度拟合是有用的,但它并不能解决问题。你必须想办法摆脱它。幸运的是,您有很多选择可以尝试。交叉验证有助于防止过度拟合。在更多数据上进行训练、正则化、丢弃特征、提前停止、集成是防止过度拟合的其他一些方法。5.特征工程是成功的关键特征工程是利用数据的核心领域知识来开发使机器学习算法更好地工作的特征的技术。如果做得好,它可以通过从原始数据中开发特征来增强算法的预测能力。这些功能简化了整个机器学习过程。利用几个独立的特征,与类相关性好,然后使学习变得容易。6.准确性和简单性是不一样的奥卡姆剃刀精辟地指出,实体的数量不应超过所需数量。这意味着两个分类器具有相似的训练误差,并且两个分类器中较简单的一个可能具有最低的测试误差。每个机器学习项目都应该针对您希望回答的业务问题。您应该首先制定分析的主要成功原则。应用奥卡姆剃刀并选择最容易解释、阐明、部署和管理的模型是构建强大的机器学习程序的关键步骤。建议选择足够准确的最简单模型,但是,请务必深入研究问题以了解“足够准确”在实践中的含义。