当前位置: 首页 > 科技观察

谷歌将击败99%程序员的AutoML集成到Kaggle平台中!

时间:2023-03-21 15:35:25 科技观察

以后要参加Kaggle比赛,可以直接发送AutoML自动训练AI怪兽参加。谷歌今天宣布,将把CloudAutoML服务深度集成到Kaggle平台中。虽然它是一项付费服务??,但它提供了一套免费试用和补贴计划。谷歌宣布将用于训练机器学习算法的CloudAutoML服务整合到数据科学平台Kaggle中。CloudAutoML是一个基于云的工具包,提供拖放式界面来训练AI模型。使用AutoML,任何人都可以用最少的努力和机器学习专业知识创建自定义机器学习模型。Kaggle是一个供数据科学家和其他机器学习爱好者探索、分析和分享工作成果的在线社区,于2017年被谷歌收购。Kaggle也是全球最大的机器学习和数据科学竞赛平台。就在今天,谷歌宣布Kaggle社区最近达到了一个新的里程碑,用户数量超过350万。通过将CloudAutoML与Kaggle集成,谷歌表示它正在推进其使命,即“通过为我们的数据科学家社区提供他们在该领域领导所需的技能和工具来增强他们的能力。”CloudAutoML允许用户从软件开发工具包或基于Web的用户界面获取数据,设置一些参数,然后在该数据上训练模型;然后可以将经过训练的模型直接部署到谷歌的云基础设施中。新的集成将使Kaggle用户能够直接在JupyterNotebooks中使用CloudAutoMLSDK,JupyterNotebooks是数据科学家用来创建和共享实时代码、公式、可视化和叙述文本的开源Web应用程序。“今天发布的重点是让我们的社区能够直接在Kaggle笔记本上使用SDK,”Kaggle产品经理DevvretRishi说。CloudAutoML是一项付费服务??,但它为初学者提供免费试用计划。谷歌还在全年向用户提供谷歌云平台(GCP)积分,以帮助补贴在Kaggle上使用AutoML的费用,所有注册GCP的新谷歌账户都将获得300美元的补贴。6月,Google还将其BigQuery数据仓库服务与Kaggle集成。该集成允许BigQuery用户使用快速SQL查询,在SQL中训练机器学习模型,并在Kaggle的Jupyter笔记本环境(称为KaggleKernels)中执行分析。根据谷歌的说法,这种方法的好处是用户不需要物理移动或下载数据来查询它或对其应用机器学习。一旦用户的GoogleCloud帐户链接到内核笔记本或脚本,他们就可以使用BigQueryAPI客户端库直接在笔记本中编写查询,针对BigQuery运行查询,并将数据用于几乎任何类型的分析。AutoML有多强:Kaggle竞赛击败了99%的人类程序员一组数据科学家以微弱优势被淘汰。今年4月,在8.5小时的KaggleDays数据处理挑战赛上,有一支非常特别的队伍:这组3名谷歌研究人员并不打算自己上场,而是使用一款名为AutoML的AI软件进入比赛。来自Kaggle平台高层的200多名其他参与者组成了小组,其任务是“从一家匿名汽车零部件制造商那里获取数据,并使用这些数据来预测工厂产量中的不良批次。”.谷歌研究员QuocLe与同事MingChen和LuYifengLu领导了AutoML项目。现场挂着一块大屏幕,上面是比赛的即时排行榜,参赛的程序员们在这块大屏幕的映衬下努力拼搏。程序员通过向网站提交代码进行测试来衡量他们在比赛中的成功,分数实时显示在屏幕上。Kaggle.com上的No.1“大师”VladimirIglovikov对AI取代顶级程序员的可能性表示怀疑,在场的大多数人也认为AI软件不可能比得上世界顶级数据科学家的创造力。然而,比赛开始几个小时后,结果令人震惊,AutoML提交了第一个自动生成的代码,并在排行榜上名列第二,领先于大多数团队。但这对谷歌团队来说并不奇怪。该软件是三年前斥巨资开发的,最初的目的是为了替代自己的一部分工作。领导谷歌AutoML开发的人工智能研究员QuocLe很兴奋。他和团队在过去几次Kaggle比赛中测试了AutoML,通常需要几个月而不是几个小时。如果AutoML在现场比赛中取得前10%的成绩,他们认为这是成功的。到下午3点30分,AutoML的胜利似乎已成定局,最接近的人类团队远远落后。当球员们在下午5点30分集合时。查看最终得分,欢呼声响起:AutoML获得第二名。AutoML击败了99%的顶级人类程序员。在比赛中,使用AutoML的团队在没有领域专业知识或监督的情况下,以更少的努力迅速取得了优异的成绩。在数据准备上花费的时间很少,在特征工程、模型选择和超参数调整上花费的时间也很少。此外,在另一场IEEE竞赛中,AutoML的时间效率优势更加突出,数千支队伍用了数周时间才在排行榜上大幅超越AutoML的基准水平。上图显示了比赛前四个星期提交的分数(个人分数),以及比赛开始时公布的AutoMLTables基准分数(绿线)。蓝色虚线表示每日提交分数的第90个百分位水平。AutoMLTables基准测试在比赛的前两周就超过了这个水平。AutoML的简单性和有效性为有数据科学问题的人(不一定具有深厚的数据科学背景)提供了创建强大模型的机会。可能的。大奖励:Kaggle用户使用AutoML,每个关联账号补贴300。CloudAutoML可以帮助用户为各种任务集(视觉、语言到结构化数据)构建自定义机器学习模型。每个应用程序的实际使用情况各不相同,但所有方法都遵循从SDK或WebUI提取数据的一般模式,用户可以调整设置并输出经过训练的模型。今天的重点是,我们的社区已经可以直接在KaggleNotebooks中使用SDK。轻松入门:如何在Kaggle平台上使用AutoMLKaggle与AutoML的集成紧随我们之前将BigQuery引入KaggleNotebook的脚步。要开始使用,只需链接用户的GCP帐户并授权访问要使用的云服务,同时启用云存储将允许AutoML轻松访问您的数据。关联您的Google帐户后,您需要仔细检查您的云帐户是否已准备就绪。为此,请确保您已为GCP项目启用机器学习API和计费设置。AutoML是一项付费服务??。为了让更多的Kagglers可以使用AutoML,我们计划全年提供GCP积分来补贴使用该服务的费用。所有注册GGoogleCloudPlatform的新帐户都将获得300美元的赠金。用户可以使用KaggleNotebook中内置的客户端SDK,或者使用云控制台中的Web界面轻松运行AutoML。要在Notebook中使用AutoML,请查看帮助文档或教程。要了解有关自动化机器学习主题及其如何改进数据科学工作流程的更多信息,请观看我们的讲解视频。现在,AutoML已经深度融入Kaggle竞赛平台。相信在未来的Kaggle比赛中,会有越来越多的程序员派出AutoML来参赛。