如果有一天，您的孩子问：“爸爸，什么是机器学习？”

时间：2023-03-16 01:28:43 科技观察

爸爸，什么是机器学习？很难回答！挠着开始掉头发的头，老爸还是被这个问题KO了。如何回答孩子这个有点学术性的问题？最近，DanielTunkelang博士计算机科学博士，在Quora上回答了这个问题——我们如何从机器学习中的分类问题开始，教计算机哪些食物好吃，哪些食物难吃。与人类不同，计算机没有嘴巴，无法品尝食物。因此，我们需要用许多食物示例（标记的训练数据）来教计算机。在这个例子中，有美味的食物（正例）和恶心的食物（反例）。对于每个带标签的示例，我们为计算机提供了一种描述（特征）食物的方法。正例被标记为“美味”，如巧克力冰淇淋、披萨、草莓等。负例被标记为“恶心”，如凤尾鱼、花椰菜和球芽甘蓝。在真实的机器学习系统中，你可能需要更多的训练数据，但3个正例和3个负例足以让我们理解这个概念。现在，我们需要一些功能。让我们将这些示例设置为甜、咸和蔬菜的三个特征。因为是二元特征，所以每种食物的每个特征都被赋予了“是”或“否”的值。有了这些训练数据，计算机的工作就是从这些数据中总结出一个公式（模型）。这样，当它遇到新的食物时，它可以使用模型来判断食物是美味还是恶心。一种模型是点系统（线性模型）。如果每个特征都具备，就会得到一定的分数（权重），如果不具备，就得不到分数。然后模型将食物的分数相加以获得最终分数。模型中有一个截止点。如果得分高于分界点，则模型判断食物美味；如果分数低于分界点，则判定为难吃。根据训练数据，模型中的特征得分可能设置为甜度3分，咸度1分，松脆度1分，蔬菜度-1分。然后巧克力冰淇淋、比萨饼、草莓、凤尾鱼、花椰菜和球芽甘蓝在模型中的得分如下：权重使得选择截止点变得更容易，因为所有积极的得分≥2而消极的得分≤1。它是始终正确找到权重和截止值并不容易。即使找到了，您最终可能会得到一个仅适用于此训练数据的模型，但是当我们使用新示例时，该模型将不会表现良好（过度拟合）。一个理想的模型不仅在训练数据上是准确的，而且在新的例子中也是有效的（泛化）。一般来说，简单模型比复杂模型更容易泛化（奥卡姆剃刀）。构建决策树而不是使用线性模型是一个好主意。在决策树中，只问可以用“是”和“否”回答的问题。不难让决策树用训练数据做出正确的回答，在这个例子中是这样使用的：这是一种蔬菜吗？如果是这样，那就糟糕了。如果不是，它是甜的吗？如果是这样，很好吃。如果不是，它是松脆的吗？如果是这样，很好吃。如果没有，那是难吃的。与线性模型一样，我们需要担心过度拟合，不要让决策树太深。所以这意味着你可能最终得到一个模型，虽然在我们的训练数据上犯了错误，但可以更好地泛化到新数据。希望小朋友们能看懂这篇机器学习的讲解~

上一篇：技巧：如何阻止设备执行Windows 11更新

下一篇：别再说你不懂指数了

如果有一天，您的孩子问：“爸爸，什么是机器学习？”相关文章