当前位置: 首页 > 科技观察

有趣的文章:如何向外行解释机器学习和数据挖掘

时间:2023-03-19 13:27:20 科技观察

一位网友在Quora上提问:对于非计算机行业的人,你会如何向他们解释机器学习和数据挖掘?2012年12月22日斯坦福大学印度学生、机器学习爱好者PararthShah的回复非常经典,点赞3700+。买些芒果去假设有一天你要买些芒果。有一个推着手推车的小贩。你一个一个地采摘,供应商根据你采摘的芒果的重量向你付款(印度的典型做法)。显然,您想正确挑选最甜、最熟的芒果(因为小贩按芒果的重量而不是芒果的质量付款)。但是你要如何选择呢?你还记得奶奶告诉你,明黄色的芒果比深黄色的芒果甜。所以你有一个简单的标准:只挑亮黄色的芒果。你检查每个芒果的颜色,挑一些亮黄色的,结账就走,是不是很棒?但这不是那么简单。生活很复杂。你回家开始品尝你的芒果。你发现有些芒果并没有你想象的那么甜。你很着急。显然,奶奶不够聪明。摘芒果可不是光看颜色那么简单。想来想去(也尝过不同种类的芒果),你发现大的亮黄色的绝对是甜的,而小的亮黄色的只有一半的时间是甜的(比如说你买了100个如果有50个亮黄色的芒果,50个比较大,50个比较小,那么你会发现50个大的芒果是甜的,而50个小的芒果,平均只有25个是甜的)。您对自己的发现感到非常高兴,以至于在下次购买芒果时牢记这些规则。但是下次你来到市场时,你发现你最喜欢的芒果摊已经搬出城了。因此,您决定从其他芒果供应商处购买芒果,但该供应商的芒果产地与前一个不同。现在,你突然发现你学的摘芒果的方法(又大又亮的黄色芒果最甜)又不管用了。你必须重新学习它。你在那个小贩那里尝过各种芒果,你发现小的、暗黄色的芒果其实是最甜的。不久之后,你在另一个城市的远房表亲来看望你。你准备请她吃一顿芒果大餐。但她说芒果甜不甜无所谓,她要的芒果一定是最多汁的。所以,你用你的方法品尝了各种芒果,发现越软的芒果越多汁。在那之后,你搬到了其他国家。在那里,芒果的味道与他们在家乡的味道完全不同。你发现绿芒果实际上比黄芒果更美味。接下来,你娶了一个讨厌芒果的妻子。她喜欢吃苹果。你必须每天买苹果。如此一来,你积累的摘芒果的经验顿时变得一文不值。你必须用同样的方法来了解苹果的物理特性和它的味道之间的关系。你这样做是因为你爱她。让计算机程序进来。现在假设您正在编写一个计算机程序来帮助您摘芒果(或苹果)。你会这样写下规则:如果(颜色是亮黄色,尺寸大,从最喜欢的供应商那里购买):芒果是甜的如果(软):芒果多汁等等等等。您将使用这些规则来采摘芒果。你甚至让你的小弟弟按照这份清单规则去买芒果,你肯定他会买到你满意的芒果。但是一旦你在你的芒果实验中有了新发现,你将不得不手动修改这个规则列表。您必须找出影响芒果质量的所有因素的复杂细节。如果问题变得越来越复杂,手动制定所有芒果类型的选择规则就变得非常困难。你的研究将使你获得芒果科学博士学位(如果有这样的学位)。但是谁有时间这样做呢?机器学习算法机器学习算法是由普通算法演化而来的。它通过自动从提供的数据中学习,使您的程序“更聪明”。你从市场上的芒果中随机抽取一定的样本(训练数据),做一个表格,记录每个芒果的物理属性,比如颜色、大小、形状、产地、卖家等等。(这些称为特征)。它还记录了芒果是否甜、是否多汁、是否成熟(输出变量)。您将此数据提供给机器学习算法(分类算法/回归算法),它会学习芒果物理特性与其质量之间关系的模型。下次去市场时,只需测试这些芒果的特性(测试数据)并将其输入机器学习算法即可。该算法将根据先前计算的模型预测芒果是否甜、熟和/或多汁。算法内部使用的规则与您手写在纸上的规则(例如,决策树)或更复杂的东西非常相似,但基本上您不需要担心这一点。瞧,您现在可以放心地购买芒果,而无需考虑采摘芒果的细节。更重要的是,你可以让你的算法随着时间的推移变得更好(强化学习),因为它被提供更多的训练数据,它会变得更准确,并在做出错误预测后自我纠正。但最好的部分是,您可以使用相同的算法来训练不同的模型,例如预测苹果、橙子、香蕉、葡萄、樱桃、西瓜的质量,让您所有的亲人开心:)这是您自己的机器学习,是不是很酷?机器学习:让你的算法更聪明,让你可以偷懒原文链接:http://www.quora.com/How-do-you-explain-Machine-Learning-and-Data-Mining-to-non-Computer-科普人翻译链接:http://blog.jobbole.com/50338/