当前位置: 首页 > 科技观察

如果有一天,您的孩子问:“爸爸,什么是机器学习?”

时间:2023-03-16 01:28:43 科技观察

爸爸,什么是机器学习?很难回答!挠着开始掉头发的头,老爸还是被这个问题KO了。如何回答孩子这个有点学术性的问题?最近,DanielTunkelang博士计算机科学博士,在Quora上回答了这个问题——我们如何从机器学习中的分类问题开始,教计算机哪些食物好吃,哪些食物难吃。与人类不同,计算机没有嘴巴,无法品尝食物。因此,我们需要用许多食物示例(标记的训练数据)来教计算机。在这个例子中,有美味的食物(正例)和恶心的食物(反例)。对于每个带标签的示例,我们为计算机提供了一种描述(特征)食物的方法。正例被标记为“美味”,如巧克力冰淇淋、披萨、草莓等。负例被标记为“恶心”,如凤尾鱼、花椰菜和球芽甘蓝。在真实的机器学习系统中,你可能需要更多的训练数据,但3个正例和3个负例足以让我们理解这个概念。现在,我们需要一些功能。让我们将这些示例设置为甜、咸和蔬菜的三个特征。因为是二元特征,所以每种食物的每个特征都被赋予了“是”或“否”的值。有了这些训练数据,计算机的工作就是从这些数据中总结出一个公式(模型)。这样,当它遇到新的食物时,它可以使用模型来判断食物是美味还是恶心。一种模型是点系统(线性模型)。如果每个特征都具备,就会得到一定的分数(权重),如果不具备,就得不到分数。然后模型将食物的分数相加以获得最终分数。模型中有一个截止点。如果得分高于分界点,则模型判断食物美味;如果分数低于分界点,则判定为难吃。根据训练数据,模型中的特征得分可能设置为甜度3分,咸度1分,松脆度1分,蔬菜度-1分。然后巧克力冰淇淋、比萨饼、草莓、凤尾鱼、花椰菜和球芽甘蓝在模型中的得分如下:权重使得选择截止点变得更容易,因为所有积极的得分≥2而消极的得分≤1。它是始终正确找到权重和截止值并不容易。即使找到了,您最终可能会得到一个仅适用于此训练数据的模型,但是当我们使用新示例时,该模型将不会表现良好(过度拟合)。一个理想的模型不仅在训练数据上是准确的,而且在新的例子中也是有效的(泛化)。一般来说,简单模型比复杂模型更容易泛化(奥卡姆剃刀)。构建决策树而不是使用线性模型是一个好主意。在决策树中,只问可以用“是”和“否”回答的问题。不难让决策树用训练数据做出正确的回答,在这个例子中是这样使用的:这是一种蔬菜吗?如果是这样,那就糟糕了。如果不是,它是甜的吗?如果是这样,很好吃。如果不是,它是松脆的吗?如果是这样,很好吃。如果没有,那是难吃的。与线性模型一样,我们需要担心过度拟合,不要让决策树太深。所以这意味着你可能最终得到一个模型,虽然在我们的训练数据上犯了错误,但可以更好地泛化到新数据。希望小朋友们能看懂这篇机器学习的讲解~

猜你喜欢