成为Level2新手我在工作中第一次接触实用的机器学习应用程序。我们将准备一个应用程序来识别Zooplus商店中的欺诈活动。经过数月尝试不同的解决方案:外部供应商、代码中的额外if语句、消防脚本等,我们最终得出结论,机器学习是这项工作的最佳选择。从那以后,我们试图说服我们周围的人投资于我们的教育并继续机器学习之旅,但没有取得惊人的成功。然而,一次偶然的机会,我迈出了尝试亚马逊机器学习能力的第一步,所以我认为自己是2级新手。在本文中,我将尝试向您(1级新手)展示如何迈出第一步并真正了解什么是机器学习。什么是机器学习?在互联网上,机器学习的定义可能有数百种。但是,我是一个初学者,我们希望得到一些简单的东西——一些愚蠢的东西!让我们一起解决这个问题。术语中的“机器”可能是指计算机。我们可以想到电脑、无人机等东西,但它们都是由电脑控制的,对吧?所以,机器学习是关于“计算机学习”的。学习究竟意味着什么?电脑没有大脑!没有神经元被激发,没有通路被创建。它所能做的就是存储一些数据并执行一些操作。但我们知道它与数据和大数据有关(至少DZone是这么说的)。所以我们有了“大数据的计算机处理”。那么,“处理”指的是什么呢?作为一个level2的新手,我可以大概解释一下(虽然我敢打赌真正的从业者会认为我说的一点都不正经)。我说的是1级2级新手不想知道的高级算法的统计分析。我认为,这足以形成我们在本文中对机器学习的最终定义:“计算机对大数据的统计分析”。够酷吗?机器学习有什么好处?我明白了,我明白了。看了这么多,你还是不知道这些关于机器学习的知识是干什么用的。作为level2的新手,我再说一遍,我有机会学习机器学习。有两种机器学习:有监督的和无监督的。监督学习我很想举个监督孩子的类比,但我做不到。谁发明了这个名字?!监督学习是指当您向计算机提供您希望找到的信息时,-还记得我识别欺诈的例子吗?这就是监督学习。-我告诉电脑:我想知道这个客户是不是骗子!计算机施展它的高级魔法并给出答案:是的,主人!或者,不,主人!他是个傻子,也是个普通人。通常,监督学习用于所谓的分类问题。你向计算机输入大量数据,然后它会进行排序:美国人会再次投票给先生吗?这个人有癌症吗?您会继续阅读这篇又长又有趣的文章吗?UnsupervisedLearningUnsupervisedLearning是当你不知道自己在找什么,你没主意了,你告诉计算机:这里有一堆数据!找到一些有趣的东西。相反,它实现了比监督学习中使用的算法更高级的算法。由于我们并非毫无头绪——我们确切地知道我们需要什么(而且我们对更高级的算法不感兴趣),因此在下一部分中我们将重点关注有监督的ML。AmazonML简介不久之前,机器学习对于像你我这样的新手来说还是非常困难的。这是一款适合整天思考数字并认为Scala和Python是很好的编程语言的书呆子的游戏。感谢亚马逊,这些精通销售的人开始销售他们自己的基础设施,并为我们提供了一个很棒的工具:亚马逊机器学习。创建数据源我们有超过600个单词的文本,因此我们最好开始工作。打开您的AmazonWebDashboard并找到“机器学习”按钮。点击!您会看到一些为您提供教程等的屏幕。忽略它!您不需要教程,因为您已经在教程的中间。您应该看到以下内容:因此,对大数据执行计算统计分析的第一步是提供真正的大数据。使用以下链接下载文件并将其放入S3存储桶中:https://s3.amazonaws.com/aml-sample-data/banking.csv(是的,我们使用的是AWS文档教程提供的数据。只是这个教程比较好!)完成后,您可以返回机器学习屏幕并选择“新建...”,然后选择“数据源”。您应该看到类似这样的内容:插入S3位置并选择数据源名称。名字没关系。(最终我们会删除它),所以你可以给它任何你想要的名字。完成后点击“验证”并选择“继续”。您应该会看到类似于以下内容的屏幕:如您所见,Amazon正试图通过将数据拆分为不同的数据类型来理解数据。由于这是他们的教程数据,所以一切都应该更顺利。您只需要在列名相关问题上单击“是”,如果一切顺利,最后一个名为“y”的页面应该是“二进制”类型。如果是这样,请单击“继续”;否则,我不知道-我只是一个2级新手。在第三页,亚马逊终于问我们真正想要什么样的神奇结果。那就是“目标”。选择以下屏幕中的最后一列:正如您所看到的,亚马逊将此识别为二元分类问题,这意味着我们现在是主管!单击“继续”。我们的数据不包含标识符,因此单击“查看”并选择“创建数据源”。创建它需要一段时间。完成后,您应该会看到类似这样的内容:我们的数据源已完成!我们在系统中有我们的大数据!千言万语,我们已经为最重要的部分做好了准备。我们将创建实际的统计分析部分。ML模型是我们出色的机器学习解决方案的大脑。它是亚马逊根据我们的大数据和设置创造的一个神奇的生物,可以为提供的数据预测“y”列的值。让我们开始吧!返回机器学习面板,再次选择“创建新...”,然后选择“ML模型”。选择我们新创建的数据源。我们应该看到类似于以下内容的内容:单击“继续”,然后选择“审查”和“创建ML模型”。我们不想修改任何高级设置。请记住,我们是Level1和Level2的新手;我们只想看到一切正常。稍后按F5刷新,我们应该会看到成功屏幕(如下所示)。我们的ML模型已成功创建!创建预测如果我们创建了解决方案的魔法大脑但没有预测任何东西,我们会很遗憾。从ML模型成功界面的左侧选择“尝试实时预测”。单击“粘贴记录”按钮并粘贴以下内容:32,services,divorced,basic.9y,no,unknown,yes,cellular,dec,mon,110,1,11,0,nonexistent,-1.8,94.465,-36.1,0.883,5228.1此行与我们的大数据文件具有相同的格式,但最后一列-“y”缺失。这正是我们神奇的ML模型所预测的。如果您准备好大吃一惊,请单击“创建预测”。对对对!有用!它预测!如果你做对了我告诉你的每件事,你的预测屏幕的右侧应该是这样的:“预测标签”就是我们预测的——惊人的0!到底是什么!清理可确保从S3存储桶中删除数据,因此您无需为存储付费。您可以从您的帐户中删除机器学习,这完全取决于您,因为它不需要任何费用。总结我们首先给出机器学习的错误定义。然后,我们了解有监督和无监督机器学习之间的区别。最后,我们通过亚马逊机器学习界面创建了一个简单的预测。现在您可能想知道:我们预测了什么?我们在那里放了什么数据?如果它不起作用怎么办?现在,没关系。这只是一个例子。现在重要的是,我的2级新手,你希望预知什么?您有哪些可用的数据?祝你在通往Level3的道路上好运!
