不写代码，用图形界面做机器学习：麻省理工学院发布“世界上最快的AutoML”

时间：2023-03-13 21:46:12 科技观察

本文经AI新媒体量子位授权转载（公众号ID：QbitAI），转载请联系出处转载。△出自《铁男》科幻剧，没见过哪个大佬用Python写代码。眼前有一张蓝色的全息图，用手指拖几下，再点几下，就算出了结果。“我晚上看星星，算算你看P站的工作时间。”(错误)回到现实，虽然没有全息图，但是不用写代码，不用拖拽，也可以做机器学习。这件美好的事情已经实现了：麻省理工学院和布朗大学联合开发了一个名为Northstar的交互式数据科学系统。该团队称这是“世界上最快的交互式AutoML工具”；除了速度，其生成模型的成绩也在DARPAD3MAutoML竞赛中超越了所有对手。作为用户，你只需要加载数据集，然后将你想要预测的目标拖到一个预测器中。在几（十）秒内，系统将帮助您找到最合适的机器学习模型。一位不愿透露姓名的评论员说：比用TNT方便。即使你不是数据科学家，你也可以充分利用手头的数据来分析各个行业的现实问题。而且，该系统支持多人协作，无论是使用同一设备还是多台设备。电脑、平板、交互式白板……支持各种设备。现在，Northstar在工业界和学术界都有用户，Adobe就是其中之一。可以做什么？以医学研究人员为例。MIT在波士顿，所以波士顿所有ICU病人的健康信息都会反馈给Northstar。加载后，性别、年龄、BMI、是否有消化系统疾病、心力衰竭等各种参数都会进入“属性”栏。△滑动部分是在各种属性的机器学习发挥作用之前观察不同属性之间的关系。例如，一般认为男性比女性更容易患心力衰竭，那么我们来验证一下这个规则是否适用。把“心衰”和“性别”两个属性拖出来，再连接起来，发现女性的发生率略低。但是将两个属性拉近一点，会发现按照比例，女性的发病率高于男性：△拖动到比较近的位置，可以计算出比例。此外，您还可以轻松观察多种疾病并存的概率。例如传染病、血液病和代谢性疾病。除了连接三者，Northstar还有一个更简洁的工具，叫做频繁项集：它可以计算出三类疾病的所有可能组合和概率：最有可能并发的疾病是代谢性疾病和血液病，以及代谢性疾病的概率仅疾病的可能性是所有可能性中最高的。这时候利用“年龄”属性过滤掉50岁以上的患者，代谢性疾病比例飙升至73%。注：发现数据中，年龄填零的患者较多，也可以一键清除，只留下有效部分。数据在这里观察。机器学习就在这里。如果你想预测一个病人是否有心力衰竭，从算法栏中拉出一个预测器（Predictor）。然后将要预测的“心力衰竭”拖到预测器的“Target”上。这样，预测器右侧会产生一系列模型，并显示每个模型的预测准确率。模型生成后，可以选择性能最好的一个模型打开仔细看看：这个准确率为92.25%的方案一共有8步。现在这个模型可以导出为Python脚本，以后可以手动优化，也可以直接投入使用。此外，还可以看到各种参数的权重：其中，对预测心力衰竭最有帮助的特征是一个叫做“heart_ischemic”的特征。指心肌缺血，常伴有心力衰竭。所以下一步就是把这个特征丢进预测器的目标中。这样，重新生成的模型就不会依赖这个症状来进行预测。此外，您还可以将所选模型的预测结果与GroundTruth进行比较和观察。如上图直接拖动，就会出现虚阴虚阳的情况。选择这两个部分，将它们与“年龄”放在一起，就可以知道哪个年龄段的AI更容易预测出错。该模型的错误率几乎随时间线性增长。这个时候一颗栗子就够了。但问题是，AutoML找到的模型一定要有效吗？不，如果预测成绩看起来很混乱，可能是因为属性列中的数据集不是有用的预测工具。不过没关系，系统有自己的数据集搜索工具datamart，可以输入关键词查找相关的数据集。例如，输入“Poverty”可查看美国各县的人口数据。有了这些数据，系统识别的贫困预测指标的表现也会得到改善。你是怎么做到的？Northstar的豪迈体现在三个方面，一是速度，二是生成模型的质量，三是交互能力。该团队表示，这由系统的四个部分决定（第三部分是高能量）。第一部分叫Vizdom，也就是前端，是人类最直观的部分，就像一块无边界的画板，可以在上面自由发挥。之所以舒服，是因为背后有一个强大的数据引擎：第二部分叫IDEA，就是这个引擎。全称是“InteractiveDataExplorationAccelerator”，可以理解为样本管理器。它将内存分为三部分，一是结果缓存（ResultCache），二是样本存储（SampleStore），三是索引（Indexes）。当用户开始操作时，IDEA会从各种数据源中吸取数据，推测性地进行计算，然后将结果缓存起来，以支持用户之后可能发出的指令。同时，IDEA也会将所有传入的数据缓存到“样本存储”位置。如果没有空间，IDEA开始更新缓存：使用池塘采样（ReservoirSampling）为数据集生成代表样本（RepresentativeSample），即使数据流有偏差，后面也会处理：避免数据流偏差（Bias），IDEA利用了很多数据库都有的采样算子，以及这些数据的随机偏移量（RandomOffsets）。IDEA也可能将池塘样本分成几个分层（Stratified）的子样本，用于过度代表（Overrepresent）一个分布的尾端，或创建专门的索引。它的所有决策都必须根据用户过去和当前的操作不断优化：例如，当用户将一个新属性拖入画布时，系统会为这个新属性分配更多的资源，并提前为可能的请求做准备。用户。准备。另外，随着计算的进行，IDEA会不断地向前端传输越来越准确的结果，包括对这些结果的完整性和错误分析。这样，即使用户任意播放，无论数据大小或数据类型如何，系统都可以快速待机。第三部分叫高山草甸，是最重要的。IDEA准备好数据后，负责选择最合适的算法和最合适的超参数。2013年，团队开发了MLbase：使用简单的声明方式（DeclarativeWay）来解释ML任务是什么（但不下达具体指令）；它还提供了一个新的优化器来选择学习算法，并且可以动态适应当前任务。只是MLbase并不是为与人类交互而设计的，而且经常需要花费数小时来调整参数。因此，在此基础上，团队获得了快速有效的AlpineMeadow：首先，证明了将基于规则的优化（Rule-BasedOptimization）方法与多臂老虎机、贝叶斯优化和元学习相结合是巧妙地结合在一个系统中，可以有效地找到最佳的ML模型。并设计了一种自适应选择算法，通过比较训练集和验证集的误差，可以在前期剪掉一些不可靠的pipeline（Prune）。当训练实例的样本越来越大时，这有助于实现更高的效率。结果是，AlpineMeadow支持广泛的任务，其多功能性远远超过其他AutoML系统：并且它在80%的情况下在以前未见过的数据集上超过了基准专家系统：见下文速度。绿色是AlpineMeadow找到第一个解所需的时间。在成功数据集数量相同的情况下，时间远低于其他算法：该方案在数据集上的相对排名仍然明显高于其他算法（越低越好）：那么，得分DARPA竞赛（Normalized）：截至目前，在DARPAD3MAutoML竞赛中已经超越所有对手。虽然，高山草甸单干没有问题。但在这个由四部分组成的系统中，还有最后一部分：第四部分是QUDE，它监控每一次用户交互并警告常见的错误和问题。这些模块一起构成了完整的Northstar。美中不足的是个人用户好像没有入口。“麻省理工学院最聪明的人”麻省理工学院和布朗大学的团队在北极星上花费了四年时间。团队负责人是麻省理工学院著名的CSAIL实验室的TimKraska副教授。该项目已发表多篇论文，核心MeadowAlpine论文，登上SIGMOD'19。第一篇论文是商泽源，同样来自CSAIL，Kraska博士生。少年校园的主页，域名让人眼前一亮：http://smartest.mit.edu/下面还有一行嚣张的指令：想知道谁是麻省理工学院最聪明的人，请去到https://www.shangzeyuan.com/高山草甸论文传送门：http://sci-hub.tw/https://dl.acm.org/citation.cfm?id=3319863NorthStar论文传送门：http://www.vldb.org/pvldb/vol11/p2150-kraska.pdf

上一篇：全球RPA领导者UiPath宣布全面进军中国市场

下一篇：Rsnapshot-ARemoteFilesystemBackupToolforLinux_0

不写代码，用图形界面做机器学习：麻省理工学院发布“世界上最快的AutoML”相关文章