机器学习使用数据中的模式来标记事物。听起来很神奇,但核心概念实际上非常简单。比如给东西贴标签,把酒分好坏就是一个例子。这种标注不需要太复杂,记得享受好酒就好~当然,如果你不喜欢喝酒,可以了解一下非酒精饮料→_→1.MLHowMachinelearningisnot魔法。没有数据就无法学习,所以我必须尝一尝。我尝过之后,给它贴上了“N”的标签,N代表“nope”,意思是“我们不要再尝试了”。这是我们对科学的贡献。1、数据学习需要素材。想象一下,我品尝了50种葡萄酒(为了科学!)并将它们形象化。每种酒都有年龄、评级和我们要学习的正确答案:Y代表“美味”,N代表“不那么美味”。我品尝了葡萄酒并将其数据记录在电子表格(左)中,但我认为向您展示右侧的信息可能更友好。2.算法要使用的机器学习算法是选择我们要使用的“食谱”。你所要做的就是把红色和蓝色的东西分开,好吧,没问题吗?如果你想画一条线,恭喜你!您发明了一种称为“感知器”的ML算法。好吧,这么简单的东西竟然有这么大的名字!不要被机器学习中的术语吓倒,其实很多东西并不像它们的名字那么复杂和强大。你怎么把红色和蓝色的东西分开?你会如何画线?您还应该能够看到水平线不是明智的解决方案。我们的目标是将N与Y分开,而不是装饰地平线。机器学习算法的目的是根据数据点的位置,选择数据中最合理的位置来放置栅栏。又怎样?答案是:优化目标函数。3.优化我打算写一篇专门讨论优化问题的博客,但是现在,让我们这样想:目标函数就像棋盘游戏的计分规则。优化的目标函数是找出游戏是怎么玩的,然后得到尽可能多的分数。目标函数(损失函数)就像棋盘游戏的计分系统。这张图表明我在大学里没有学过优化问题......通常在ML中我们更喜欢大棒而不是胡萝卜-分数是对错误的惩罚,游戏规则是你为这些错误获得的分数越少越好.这就是为什么机器学习中的目标函数被称为“损失函数”,目标是最小化损失。想试试吗?回到上面的类别图,在屏幕上水平旋转手指,直到错误分数为零。希望你找到的解决方案是这样的:走,先看图片的最左边;简单地画一条水平线……中间的会更好,但并不完美。我喜欢极右翼的做法。4.生活的调味剂如果你喜欢多样性,那么你就会喜欢算法。世界上有太多的算法,它们在分割边界时尝试的位置各不相同。《优化狂人》会告诉你,小范围旋转fence(栅栏)是绝对不可能的。有许多更好的方法可以更快地到达最佳位置。一些研究人员不遗余力地尝试组合方法以在最短距离内到达最大位置,无论地形(由输入决定)变得多么不自然。多样性的另一个来源是边界的形状。围栏不一定是直线,不同的算法使用不同的围栏。当我们选择这些复杂的术语时,我们实际上只是在选择划分标签的边界的形状。我们是想用一条对角线,还是许多水平/垂直线或灵活的曲线来划分样本?可供选择的算法太多,分类边界的形状也各不相同。5.潮人青睐的算法如今,机器学习潮人不喜欢直线。灵活的曲线在机器学习热潮中风靡一时(即“神经网络”,虽然没有什么真正神经的东西,这个名字是半个多世纪前创造的,野心勃勃,似乎没有人喜欢我的建议-Rename它们是“瑜伽网络”或“多层数学运算”)。与其接受与线性算法和大脑神经网络的炒作性质的比较,不如从柔术表演能力的角度来考虑神经网络。其他方法略逊于数学瑜伽。但是没有什么是免费的,神经网络是要付出代价的,所以不要相信任何声称神经网络是最佳解决方案的人。神经网络也可以称为“瑜伽网络”,它的特殊能力是可以提供非常灵活的边界。这些专门的算法名称告诉您它们将使用什么形状的栅栏来划分输入数据。如果你是应用型机器学习爱好者,不死记硬背也没关系,但在实践中你需要将数据输入尽可能多的算法,然后迭代那些看起来更有希望的算法。布丁的意思就是吃,那就吃吧~就算你看了课本,你也很难一次找到答案。不用担心。这不是一个只有一个正确答案的游戏,没有人能一口气找到答案。您需要修补、尝试和玩耍。这给设计新算法的研究人员留下了一个问题:“它是如何工作的”。(你可能最终会熟悉这些名字,就像你认识任何困扰你的糟糕肥皂剧中的角色一样。)6.模型一旦围栏就位,算法就完成了,你从中得到了什么就是你要的:模型,说白了就是“菜谱”。现在有了指令,计算机可以在下次看到一瓶新酒时使用这些指令将数据转化为决策。如果数据落在蓝色区域,就称它为蓝色。如果落在红色部分,就称它为红色。7.标注新铸造的模型投入生产后,将年龄和评分输入计算机即可使用,系统会找到相应的区域并输出标签。当我有四个新瓶子时,我只需将它们的输入数据与配方中的红色和蓝色区域相匹配,并相应地标记它们。看?这很容易!我们如何判断它是否有效?检查输出!通过运行一系列新数据来测试您的系统,并确保它运行良好。不管这个主意是谁想出来的,照着做就行了。2.总结如下,我的另一篇文章为大家提供了一个简单直观的总结:1.诗人般的机器学习如果你对机器学习还一头雾水,可以试试这个类比:诗人选择了一种方法(或算法))结合了纸上的所有词汇。这种方法决定了诗歌体裁(或决策边界的形状),可能是俳句或十四行诗。一旦诗人完成了他的工作,即找到了将句子塞进十四行诗的最佳方法,完成的诗现在就相当于机器学习中的模型。2.ML模型与传统代码我想指出的是,机器学习模型与程序员评估问题以编写代码和手工规则之间没有不可逾越的鸿沟。描述机器学习的一种非拟人化方式是模型在概念上与常规代码相同。说“在输入新样本时重复运行算法以调整决策边界”可能很难将机器学习与程序员的标准工作联系起来。人类还可以在获取新信息时调整代码。3.这就是机器学习的意义所在吗?是的,机器学习工程真正难的部分是安装软件包并对原始数据集执行一系列很酷的操作,这相当于运行一个非常复杂的算法。接下来是代码设置的最新修改,请注意不要让“超参数调优”这个高贵的名字给你弄糊涂了。当你在新数据上评估模型的性能时,如果它的性能非常可观,那么你可能需要重新设计和训练。这个修正过程需要一直持续到得到可以接受的结果,这就是为什么机器学习工程师需要有很好的耐心。机器学习不是魔法。机器学习让您可以编写您不完全理解的代码,但它会自动运行良好。不要觉得它太简单了,杠杆也很简单,但是却可以撬动整个地球。原文链接:https://hackernoon.com/machine-learning-is-the-emperor-wearing-clothes-59933d12a3cc:almosthuman2014)》]点此阅读更多本作者好文
