当前位置: 首页 > 科技观察

如何向普通人解释机器学习和数据挖掘

时间:2023-03-20 00:38:07 科技观察

随着数据科学在人工智能发展中大放异彩,数据挖掘和机器学习进入了越来越多人的视野。对于很多人来说,机器学习等排名听起来很神奇,但其真正的内涵并不为普通人所知。尤其是对于从事数据科学领域工作的人来说,如何向外行解释他们所做的几乎是一个超级难题。那么机器学习到底是什么,又该如何用通俗易懂的语言来解释呢?我们通过以下几个境界进行讲解。1、专业的理论百科定义+专业术语,听上去让人听不懂,实际上是一头雾水。机器学习(MachineLearning,ML)是一门多领域的交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度论等学科。专门研究计算机如何模拟或实现人类的学习行为以获得新的知识或技能,并重组现有的知识结构以不断提高其性能。它是人工智能的核心,是计算机实现智能化的根本途径。其应用遍及人工智能的各个领域。它主要使用归纳和综合而不是演绎。机器学习已被广??泛应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医疗诊断、信用卡欺诈检测、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人技术。机器学习本质上是一种学习结构,整个结构包括环境、知识库和执行三个部分。在整个过程中,环境向系统提供信息,系统利用这些信息修改知识库,提高系统执行部分的性能,完成任务。知识库。在具体的应用中,环境、知识和执行部分决定了具体的工作内容,而学习部分要解决的问题则完全由以上三部分决定。简单来说,机器学习就是计算机利用已有的数据推导出一定的模型,并利用这个模型来预测未来的方法,这与人脑的思维方式非常相似。2、用某机器学习的具体案例来说明,从小到大,让人恍然大悟。一开始,我们来看一个人为设计的场景。想象一下,无数个小球神奇地漂浮在一个房间里。我们想知道球是否停留在特定结构中。例如,球是否更有可能集中在某个区域?是否有意回避某些点?它们是否均匀分布在整个空间中?但是房间里一片漆黑,我们什么也看不见。所以我们买了一个带闪光灯的相机,试图捕捉漂浮在房间各处的球。照片如下图:即使球的位置之间确实存在某种关系,但我们从这张照片中看不出原因。看起来球分布均匀。所以我们试着换个位置,从新的角度拍了第二张照片。照片中的球看起来仍然是随机的,没有任何图案。让我们从更高的角度来尝试一下。呃,还是看不出有什么规律。那我们换个角度再试一次。啊哈,这次有点意思:好像球都集中在靠近屋顶和地面的两个区域,中段没有小球。因此,要想发现这个规律,我们就必须在拍照时找一个“好”的角度。如果角度不对,我们将永远找不到任何规律。在上面的例子中,我们要说的其实是三维数据点。每个球的位置可以用3个数字表示,每个数字代表它在XYZ三个轴上的位置。在实际的计算机计算中,数据点的位置会用更多的数字组合来表示。例如,一个医院病人的病历可能包含500组数字,包括他的生日、身高、体重、血压、最后的病历、胆固醇指标等等。我们会想找出不同患者的数据点之间是否存在一定的模式,比如心脏病患者的数据点是否会集中?如果数据点确实聚集在一起,当我们看到新入院患者的数据点有相同趋势时,我们可以推断该患者很可能心脏病发作。当然实际操作起来不会这么简单。人类不可能用肉眼看到这些数据点。人们如何区分500个维度?就像上面例子中“黑屋子”里谁也看不到球一样,我们也看不到500维的数据点。我们可以用二维图片来表示三维空间中的数据点。同理,我们也可以用低维的“照片”来展示500维的数据点。只有从合适的“角度”拍“照片”,才能找出不同数据点之间的规律,否则很难找出来。这就是人们所说的从“大数据”中“发现洞察力”。3、以情知之,以理动之这样,你的宠物应该能听懂。买点芒果。假设有一天你要买一些芒果。有一个推着手推车的小贩。你一个一个地采摘,供应商根据你采摘的芒果的重量向你付款(印度的典型做法)。显然,您想正确挑选最甜、最熟的芒果(因为小贩按芒果的重量而不是芒果的质量付款)。但是你要如何选择呢?你还记得奶奶告诉你,明黄色的芒果比深黄色的芒果甜。所以你有一个简单的标准:只挑亮黄色的芒果。你检查每个芒果的颜色,挑一些亮黄色的,结账就走,是不是很棒?但事实并非如此简单。生活很复杂。你回家开始品尝你的芒果。你发现有些芒果并没有你想象的那么甜。你很着急。显然,奶奶不够聪明。摘芒果可不是光看颜色那么简单。经过深思熟虑(并品尝了不同类型的芒果),你发现大的、亮黄色的肯定是甜的,而小的、亮黄色的只有一半的时间是甜的(比如你买100个,如果有50个亮黄色芒果,50个比较大,50个比较小,那么你会发现50个大的芒果是甜的,而50个小的芒果,平均只有25个是甜的)。您对自己的发现感到非常高兴,以至于在下次购买芒果时牢记这些规则。但是下次你来到市场时,你发现你最喜欢的芒果摊已经搬出城了。因此,您决定从其他芒果供应商处购买芒果,但该供应商的芒果产地与前一个不同。现在,你突然发现你学的摘芒果的方法(又大又亮的黄色芒果最甜)又不管用了。你必须重新学习它。你在那个小贩那里尝过各种芒果,你发现小的、暗黄色的芒果其实是最甜的。不久之后,你在另一个城市的远房表亲来看望你。你准备请她吃一顿芒果大餐。但她说芒果甜不甜无所谓,她要的芒果一定是最多汁的。所以,你用你的方法品尝了各种芒果,发现越软的芒果越多汁。在那之后,你搬到了其他国家。在那里,芒果的味道与他们在家乡的味道完全不同。你发现绿芒果实际上比黄芒果更美味。接下来,你娶了一个讨厌芒果的妻子。她喜欢吃苹果。你必须每天买苹果。如此一来,你积累的摘芒果的经验顿时变得一文不值。你必须用同样的方法来了解苹果的物理特性和它的味道之间的关系。你这样做是因为你爱她。让计算机程序进来。现在假设您正在编写一个计算机程序来帮助您摘芒果(或苹果)。您将编写以下规则:如果(颜色是嫩黄色和大的和最喜欢的小贩的大小):芒果是甜的如果(软):芒果多汁...............................你会你会使用这些规则来采摘芒果。你甚至让你的小弟弟按照这份清单规则去买芒果,你肯定他会买到你满意的芒果。但是一旦你在你的芒果实验中有了新发现,你将不得不手动修改这个规则列表。您必须找出影响芒果质量的所有因素的复杂细节。如果问题变得越来越复杂,手动制定所有芒果类型的选择规则就变得非常困难。你的研究将使你获得芒果科学博士学位(如果有这样的学位)。但是谁有时间这样做呢?机器学习算法机器学习算法是由普通算法演化而来的。它通过自动从提供的数据中学习,使您的程序“更聪明”。你从市场上的芒果中随机抽取一定的样本(训练数据),做一个表格,记录每个芒果的物理属性,比如颜色、大小、形状、产地、卖家等等。(这些称为特征)。它还记录了芒果是否甜、是否多汁、是否成熟(输出变量)。您将此数据提供给机器学习算法(分类算法/回归算法),它会学习芒果物理特性与其质量之间关系的模型。下次去市场时,只需测试这些芒果的特性(测试数据)并将其输入机器学习算法即可。该算法将根据先前计算的模型预测芒果是否甜、熟和/或多汁。算法内部使用的规则与您手写在纸上的规则(例如,决策树)或更复杂的东西非常相似,但基本上您不需要担心这一点。瞧,您现在可以放心地购买芒果,而无需考虑采摘芒果的细节。更重要的是,你可以让你的算法随着时间的推移变得更好(强化学习),因为它被提供更多的训练数据,它会变得更准确,并在做出错误预测后自我纠正。但最好的部分是,您可以使用相同的算法来训练不同的模型,例如预测苹果、橙子、香蕉、葡萄、樱桃、西瓜的质量,让您所有的亲人开心:)这是您自己的机器学习,很酷。