当前位置: 首页 > 科技观察

2022年ML研究出圈:爆发式的StableDiffusion,通才AgentGato,LeCun转推

时间:2023-03-11 20:11:17 科技观察

2022年即将结束。年内,机器学习领域涌现出一大批有价值的论文,对机器学习界产生了深远的影响。今天,ML&NLP研究员、MetaAI技术产品营销经理、DAIR.AI创始人ElvisS.总结了2022年将要火的12篇机器学习论文。该帖子迅速走红,并被图灵奖获得者YannLeCun转发.接下来,让我们一一来看。论文1:面向2020年代的ConvNet视觉识别的快速发展始于ViT的引入,它很快取代了传统的ConvNet作为SOTA图像分类模型。ViT模型在包括对象检测和语义分割在内的一系列计算机视觉任务中面临着许多挑战。因此,一些研究人员提出了分层的SwinTransformer,并重新引入了ConvNetprior,使得Transformer作为通用视觉骨干具有实际可行性,并在各种视觉任务上表现出优异的性能。然而,这种混合方法的有效性在很大程度上仍然是由于Transformers的固有优势,而不是卷积固有的归纳偏差。在这篇论文中,加州大学伯克利分校FAIR的研究人员重新审视了设计空间并测试了纯ConvNets可以达到的极限。研究人员逐渐将标准ResNet“升级”为视觉Transformer设计,并在此过程中发现了导致性能差异的几个关键组件。论文地址:https://arxiv.org/abs/2201.03545v2论文2:LanguageModelsasZero-ShotPlanners:ExtractingActionableKnowledgeforEmbodiedAgents通过大型语言模型(LLM)学习到的世界知识可以在交互环境中实际使用?在这篇论文中,加州大学伯克利分校、卡内基梅隆大学和谷歌的研究人员探索了将自然语言表达为一组选定的可操作步骤的可能性。之前的工作重点是从显式分布的例子中学习如何行动,但他们惊讶地发现,如果预训练的语言模型足够大并给予适当的提示,它可以有效地将高级任务分解为中级规划,而无需进一步训练.然而,LLM制定的计划通常不会精确映射到可接受的行动。研究人员根据现有演示提出的程序条件,并在语义上将计划转化为可接受的行动。在VirtualHome环境中的评估表明,他们提出的方法显着提高了LLM基线的可执行性。人类评估揭示了可执行性和正确性之间的权衡,但显示了从语言模型中提取可操作知识的可能性的迹象。论文地址:https://arxiv.org/abs/2201.07207v2论文3:OFA:UnifyingArchitectures,Tasks,andModalitiesThroughaSimpleSequence-to-SequenceLearningFramework这是阿里达摩院推出的统一多模态多任务模型框架OFA总结了现阶段通用模型最符合的三个特征,即模式独立性、任务独立性和任务多样性。论文被ICML2022录用。在图文领域,OFA通过统一的seq2seq框架表达visualgrounding、VQA、imagecaptioning、imageclassification、text2imagegeneration、languagemodeling等经典任务,共享输入输出任务之间的不同模态,并允许Finetune和预训练一致,并且没有添加额外的参数结构。论文地址:https://arxiv.org/abs/2202.03052v2论文4:TensorProgramsV:TuningLargeNeuralNetworksviaZero-ShotHyperparameterTransfer深度学习中的超参数(HP)调整是一个代价高昂的过程。对于具有数十亿个参数的神经网络尤其如此。在本文中,Microsoft和OpenAI的研究人员表明,在最近发现的最大更新参数化(muP)中,即使模型大小发生变化,许多最优HP仍保持稳定。这导致了他们称为muTransfer的新HP调整范例,它在muP中参数化目标模型,不直接对较小模型进行HP调整,并将它们零样本转移到全尺寸模型中,这也意味着后一个模型确实根本不需要直接调整。研究人员在Transformer和ResNet上验证了muTransfer。例如,通过从具有40M参数的模型迁移,它仅占预训练总成本的7%,就优于已发布的6.7BGPT-3模型。论文地址:https://arxiv.org/abs/2203.03466v2论文5:OPT:OpenPre-trainedTransformerLanguageModels大型模型往往经过数万计算日的训练,并在零样本和少样本学习中展现出来非凡的能力。但考虑到它们的计算成本,如果没有足够的资金,这些大型模型很难复制。对于通过API可用的少数模型,如果无法访问其完整模型权重,则很难进行研究。在这篇论文中,MetaAI的研究人员提出了OpenPre-trainedTransformers(OPT),它是一组仅用于解码器的预训练transformers模型,参数范围从125M到175B。他们表明OPT-175B的性能与GPT-3相当,但开发所需的碳足迹仅为其1/7。论文地址:https://arxiv.org/abs/2205.01068v4论文6:AGeneralistAgent受到大规模语言建模的启发,Deepmind构建了一个单一的“通才”agentGato,它具有多模态、多Task、多-embodiment(体现)特征。Gato可以玩Atari游戏、为图片输出字幕、与他人聊天、用机械臂堆叠积木等等。此外,Gato还可以根据上下文决定是否输出文本、关节力矩??、按钮按下或其他标记。与大多数玩游戏的代理不同,Gato可以使用相同的训练模型玩很多游戏,而不是单独训练每个游戏。论文地址:https://arxiv.org/abs/2205.06175v3论文7:SolvingQuantitativeReasoningProblemswithLanguageModels来自谷歌的研究人员提出了一种名为Minerva的深度学习语言模型,可以通过逐步推理解决数学量化问题问题。它的解决方案包括数值计算和符号操作,而不依赖于计算器等外部工具。此外,Minerva结合了多种技术,包括少量提示、思维链、草稿提示和多数投票原则,以在STEM推理任务上实现SOTA性能。Minerva基于PaLM(PathwaysLanguageModel),在118GB数据集上完成进一步训练。数据集来自arXiv上的技术论文和使用LaTeX、MathJax或其他数学表达式进行进一步训练的网页数据。下图展示了Minerva如何解决问题的示例:论文地址:https://arxiv.org/abs/2206.14858论文8:NoLanguageLeftBehind:ScalingHuman-CenteredMachineTranslationResearchersfromMetaAI发布了翻译模型NLLB(NoLanguageLeftBehind:ScalingHuman-CenteredMachineTranslation)LanguageLeftbehind),直译为“一种语言不能少”,可以支持200+种语言之间的任意翻译。包括大都市语在内的许多少数民族语言都有翻译。Meta声称这是世界上第一个使用单一模型翻译多种语言的设计。他们希望这能帮助更多人在社交平台上进行跨语言互动,同时在未来的元界中提升用户的交互体验。论文地址:https://arxiv.org/abs/2207.04672v3Paper9:High-ResolutionImageSynthesiswithLatentDiffusionModels最近,StableDiffusion开始流行起来,对这项技术的研究不胜枚举。该研究基于慕尼黑大学和Runway的研究人员与EleutherAI、LAION等团队合作的CVPR2022论文《High-Resolution Image Synthesis with Latent Diffusion Models》。StableDiffusion可以在具有10GBVRAM的消费级GPU上运行,并在几秒钟内生成512x512像素的图像,无需预处理和后处理。在短短四个月的时间里,这个开源项目已经获得了38,000颗星。项目地址:https://github.com/CompVis/stable-diffusionStableDiffusionGeneratedimageexampledisplay:Paper10:RobustSpeechRecognitionviaLarge-ScaleWeakSupervisionOpenAI发布了开源模型Whisper,其英语水平接近人类水平语音识别,准确率更高。Whisper是一个自动语音识别(ASR,AutomaticSpeechRecognition)系统。OpenAI通过从互联网上收集98种语言和多任务监督数据68万小时来训练Whisper。除了用于语音识别,Whisper还可以转录多种语言并将这些语言翻译成英语。论文地址:https://arxiv.org/abs/2212.04356论文11:Make-A-Video:Text-to-VideoGenerationwithoutText-VideoDataResearchersfromMetaAIproposedastate-of-the-arttext-to-video模型:Make-A-Video,可以根据文本提示生成视频。Make-A-Video具有三个优点:(1)它加速了T2V(文本到视频)模型的训练,而无需从头开始学习视觉和多模式表示,(2)它不需要成对的文本到视频数据,(3)生成的视频继承了当今图像生成模型的几个优点。该技术旨在实现文本到视频的生成,只需几个单词或几行文本即可生成独特的视频。下图是一只穿着超级英雄衣服披着红色斗篷的狗,在天空中飞翔:论文地址:https://arxiv.org/abs/2209.14792论文12:Galactica:ALargeLanguageModelforScienceinrecentyears,随着随着各个学科领域研究的进步,科学文献和数据的爆炸式增长使得学术研究人员越来越难以从大量信息中发现有用的见解。通常,人们使用搜索引擎来获取科学知识,但搜索引擎不能自主组织科学知识。近日,MetaAI的研究团队提出了一种新的大规模语言模型Galactica,可以对科学知识进行存储、组合和推理。Galactica可以自己总结一篇评论文章,生成术语的百科全书查询,并对提出的问题做出信息丰富的回答。论文地址:https://arxiv.org/abs/2211.09085