当前位置: 首页 > 科技观察

借助 autoML 技术更容易地开发AI

时间:2023-03-13 01:20:31 科技观察

德国弗莱堡大学机器学习实验室负责人弗兰克·哈特(FrankHutter)表示,所有这些人为决策的结果是复杂模型最终被“凭直觉设计”,而不是系统地设计。设计。一个名为自动机器学习(autoML)的新兴领域旨在消除这种猜测。这个想法是让算法接管研究人员目前在设计模型时必须做出的决定。最终,这些技术可以使机器学习更容易获得。尽管自动化机器学习已经存在了将近十年,但研究人员仍在努力改进它。今天在巴尔的摩举行的新会议展示了提高准确性和简化autoML性能的努力。人们对autoML简化机器学习的潜力产生了浓厚的兴趣。亚马逊和谷歌等公司已经提供了利用autoML技术的低代码机器学习工具。如果这些技术变得更加有效,它可以加快研究速度并让更多人可以使用机器学习。这个想法是人们可以选择他们想问的问题,将autoML工具指向它,然后得到他们想要的结果。这一愿景是“计算机科学的圣杯”,怀俄明大学计算机科学助理教授和会议组织者LarsKotthoff说。“你指定问题,计算机知道如何解决它。这就是你所要做的。”但首先,研究人员必须弄清楚如何使这些技术更省时、更节能。自动化机器学习能解决什么问题?乍一看,autoML的概念似乎是多余的——毕竟,机器学习已经在自动化从数据中获取洞察力的过程。但由于autoML算法在底层机器学习模型之上的抽象级别运行,仅依赖于这些模型的输出作为指导,因此它们节省了时间和计算量。研究人员可以将autoML技术应用于预训练模型以获得新见解,而不会浪费计算能力来重复现有研究。例如,美国富士通研究所的研究科学家MehdiBahrami和他的合著者介绍了最近关于如何将BERT排序算法与不同的预训练模型一起用于新目的的工作。BERT-sort是一种算法,可以在对数据集进行训练时找到所谓的“语义顺序”。例如,给定电影评论数据,它知道“好”电影的排名高于“好”和“坏”电影。借助autoML技术,学习到的语义顺序还可以推广到对癌症诊断甚至外语文本进行分类,从而减少时间和计算量。“BERT需要数月的计算,而且非常昂贵,大约需要100万美元才能生成模型并重复该过程。“因此,如果每个人都想做同样的事情,那就太昂贵了——既不节能,也不利于世界的可持续发展,”巴赫拉米说。“尽管该领域显示出希望,但研究人员仍在寻找提高autoML技术计算效率的方法。例如,通过神经架构搜索(NAS)等方法,构建并测试了许多不同的模型以找到最合适的模型。”模型,完成所有这些迭代所需的能量可能很大。自动化机器学习也可以应用于不涉及神经网络的机器学习算法,例如创建随机决策森林或支持向量机来对数据进行分类。这些领域的研究工作正在进行中,并且已经有许多编码库可供希望将autoML技术纳入其项目的人们使用。Hutter表示下一步是使用autoML来量化不确定性并解决算法中的可信度和公平性问题。在这个愿景中,可信度和公平性的标准将类似于任何其他机器学习约束,例如准确性。autoML可以在这些算法发布之前捕获并自动纠正这些算法中发现的偏差。神经架构搜索的持续进步但对于深度学习等应用,autoML仍有很长的路要走。用于训练深度学习模型的数据,例如图像、文档和录制的语音,通常是密集而复杂的。它需要巨大的计算能力来处理。除了在财力雄厚的大公司工作的研究人员以外,任何人都可能无法接受训练这些模型的成本和时间。会议上的一项竞赛要求参与者开发一种用于神经架构搜索的节能替代算法。由于这项技术臭名昭著的计算需求,这是一个相当大的挑战。它会自动循环无数深度学习模型,帮助研究人员选择合适的模型,但这个过程可能需要数月时间,耗资超过一百万美元。这些被称为零成本神经架构搜索代理的替代算法的目标是使神经架构搜索更易于访问和更环保。结果在几秒钟内运行,而不是几个月。目前,这些技术仍处于发展的早期阶段,而且往往不可靠,但机器学习研究人员预测,它们有可能使模型选择过程更加高效。