当前位置: 首页 > 科技观察

李飞飞年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜

时间:2023-03-21 14:45:38 科技观察

人工智能的爆发正在扭曲我们的时间感。你能相信StableDiffusion只有4个月大而ChatGPT不到一个月大吗?用一个形象的比喻,只要眨一下眼睛,你就会错过一个全新的行业。2022年的AI领域,大规模生成模型将如雨后春笋般涌现,改变整个AI行业的格局。而且,这些模型正迅速走出实验室并在现实中得到应用。例如,LLM技术启发了两个新兴领域——决策代理(游戏、机器人等)和AI4Science。李飞飞的高材生JimFan为我们总结了2022年的十大AI高光时刻。让我们把时光倒流,看看2022年人工智能的一些惊人突破。1.文本图像生成DALLE-2是第一个可以从任意字幕生成逼真的高分辨率图像的大规模扩散模型。它开启了人工智能艺术的一场革命,催生了许多新的应用程序、初创公司和思维方式。但是DALLE-2受到OpenAI墙的保护,并且不是开源的。在OpenAI之后,LMU的StabilityAI和runwayml迈出了勇敢的一步,基于“潜在扩散”算法训练了自己的互联网规模的text2image模型。他们称该模型为“稳定扩散”,并开源了代码和权重。事实证明,稳定扩散的开放性给游戏带来了巨大的改变。现在,许多初创公司和研究实验室都在基于StableDiffusion创建新的应用程序,而StableDiffusion本身也在不断得到开源社区的改进。最近,StableDiffusion已经达到v2.1版本,可以在单个GPU上运行。此外,今年有两个来自GoogleAI的image2text模型。GoogleAI既没有发布模型也没有发布API,但是从论文中,我们还是可以看到很多有趣的见解。Imagenhttps://imagen.research.googlePartihttps://parti.research.google。它是一个没有扩散的Transformer模型。2.Text-TextGeneration大家都知道,我说的是ChatGPT!这是历史上唯一一款在5天内获得100万用户的应用程序。ChatGPT也极大地激发了我们人类的创造力。在这个列表中,您可以看到所有有用和富有想象力的ChatGPT想法:https://github.com/f/awesome-chatChatGPT和GPT-3.5都使用了一种称为RLHF(“来自人类反馈的强化学习”)的新技术。这也意味着提示项目可能很快就会消失。ChatGPT的流行催生了新一波的创业公司和竞争对手,例如JasperChat、YouChat、Replit的Ghostwriterchat和perplexity_ai。这些竞争对手提供了如此直观的搜索方式,甚至连Google的高管都为之大汗淋漓!3.文本机器人模型如何为GPT提供手脚来清理你凌乱的厨房?与NLP不同,机器人模型需要与物理世界进行交互。今年,大型预训练Transformer终于开始解决机器人领域最难的问题了!VIMA十月份,我和我的同事们创造了一个“机器人GPT”——一个叫做VIMA的变压器。它可以接收文本、图像和视频的任意组合作为提示,并输出机械臂的控制。我们的模型称为VIMA(“VisuoMotorAttention”)并且是完全开源的。现在,单个agent已经可以解决视觉目标、一次性模仿视频、新概念库、视觉约束等问题,模型容量和数据的可扩展性很强。RT-1遵循与VIMA类似的路径,GoogleAI的研究人员发布了RT-1,这是一种经过700项任务和130K人类演示训练的机器人转换器。这些数据是由13个机器人在17个月内收集的,简直就是IronForce!4.文本-视频从本质上讲,视频是一系列随着时间的推移连接在一起的图像,给我们带来运动的错觉。如果我们可以做text2image,为什么不给它添加一个时间轴来获得额外的乐趣呢?目前,在文本到视频领域有3个重要作品,但没有一个是开源的。Make-A-Video首先是MetaAI的Make-A-Video:无需成对的文本-视频数据,就可以得到文本-视频生成。您可以在此处注册试用访问:https://makeavevideo.studio论文链接:https://arxiv.org/abs/2209.14792ImagenVideoGoogleAI的ImagenVideo:它使用基于Imagen静态图像的扩散模型生成高清视频发电机。演示:http://imagen.research.google/video/论文链接:https://arxiv.org/abs/2210.02303GoogleAI的PhenakiPhenaki:从开放域文本描述生成可变长度视频。演讲:https://phenaki.video论文链接:https://arxiv.org/abs/2210.02399五、正文-3D建模从设计创新产品到在电影和游戏中创造梦幻般的视觉效果,3D建模正在成为下一个蓝光文本海洋-X生成模型。令人惊讶的是,2022年充满了充满希望的3D生成模型。在这里,Fan列出了3个模型。第一个登场的DreamFusion是由谷歌AI研究团队和加州大学伯克利分校联合开发的DreamFusion。论文链接:https://arxiv.org/pdf/2209.14988.pdf该模型使用2D文本到图像扩散模型来执行文本到3D合成。基于NeRF算法,DreamFusion可以从给定的文本生成3D模型。可以从任何角度查看模型,在任何灯光下重新点亮,并合成到任何3D环境中。Magic3D的第二个成果是NVIDIAAI团队的两个项目,GET3D和Magic3D。GET3D论文链接:https://nv-tlabs.github.io/GET3D/assets/paper.pdfMagic3D论文链接:https://arxiv.org/pdf/2211.10440.pdfGET3D只使用二维图像进行训练,可以生成具有高保真纹理和复杂几何细节的3D图形。该模型允许用户立即将他们的形状导入3D渲染器和游戏引擎以进行后续编辑。Magic3D类似于DreamFusion,使用文本到图像模型生成2D图像,然后将其优化为体积NeRF(神经辐射场)数据,将低分辨率生成的粗模型优化为高分辨率精细模型。根据NvidiaAI团队的说法,由此产生的Magic3D方法可以比DreamFusion更快地生成3D对象。继Point-E在年初推出DALL-E2用天才画笔给大家惊喜之后,OpenAI在周二发布了最新的图像生成模型“POINT-E”,可以直接通过文字生成3D模型。论文链接:https://arxiv.org/pdf/2212.08751.pdf与竞争对手(如谷歌的DreamFusion)需要多个GPU工作几个小时相比,POINT-E仅用一个GPU就可以在几分钟内生成3D图像.据测试,POINT-E在Prompt输入后基本可以秒级生成3D图像,输出的图像还支持自定义编辑、保存等功能。6.会玩《我的世界》《我的世界》的AI是一款考验AI综合智力的优秀游戏。首先,它是一款无限开放的沙盒游戏,极度体现了玩家的创造力。其次,这款游戏拥有1.4亿玩家基数,是英国人口的两倍。拥有如此庞大的用户群,有源源不断的游戏数据供AI学习。那么,人工智能能否像人类一样发挥想象力呢?JimFan和他的同事合作开发了第一个玩《我的世界》的AI,MineDojo,它可以在给定自然语言提示的情况下解决许多任务。论文链接:https://arxiv.org/pdf/2206.08853.pdfFan的最终目标是构建一个“embodiedChatGPT”。目前,MineDojo平台已完全开源。与此同时,JeffClune的团队公布了一个名为VideoPre-Training(VPT)的模型,可以直接输出键盘鼠标动作。论文链接:https://arxiv.org/pdf/2206.11795.pdfVPT视野更开阔,但不受语言条件限制。在这一点上,MineDojo和VPT恰好相辅相成。7.MetaAI推出的AI外交官CICERO是第一个在《外交》游戏中达到人类水平表现的人工智能代理。论文链接:https://www.science.org/doi/10.1126/science.ade9097《外交》是一款经典的七人战略游戏,可以说是集桌游Risk、纸牌游戏和电视节目幸存者。该游戏需要广泛的自然语言协商才能与人类合作和竞争。然而,CICERO的出现表明,人工智能现在已经具备了说服他人和唬人的能力。目前,DeepMind还宣布开发自己的外交官AI代理。那么如果CICERO使用这个AI模型会怎么样呢?8.音频文本模型Whisper是OpenAI发布的一个大规模开源语音识别模型。它在英语语音识别方面具有接近人类水平的鲁棒性和准确性。论文链接:https://arxiv.org/pdf/2212.04356.pdfWhisper接受了来自网络的680,000小时音频数据的培训。OpenAI强调Whisper的语音识别能力已经达到人类水平。OpenAI使Whisper开源。是为了解锁更多的文本代币来训练万众期待的GPT-4吗?9、核聚变DeepMind与瑞士洛桑联邦理工学院(EPFL)联合开发了第一个与核聚变相关的深度强化学习系统,可以使聚变等离子体在托卡马克中保持稳定。论文链接:https://www.nature.com/articles/s41586-021-04301-9同样在本月,美国能源部宣布了一项巨大突破:人类已经实现了核聚变反应的净能量增益第一次!这是人类首次达到这一里程碑。这辈子,我们可能成为融合文明!10.Transformer应用于生物学2021年,AlphaFold拉开了蛋白质3D结构语言模型预测的序幕。7月,DeepMind宣布了“蛋白质宇宙”——将AlphaFold的蛋白质数据库扩展到2亿个结构!此外,NVIDIAAI研究团队扩展了用于大规模语言模型的BioNeMo框架,以帮助生物技术公司和研究人员生成、预测和理解生物分子数据。视频解说:https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s以上是JimFan盘点的2022年十大AI亮点,当然范主也说了无数精彩的作品贡献了为人工智能的进步。每篇论文都是人工智能大厦中的一块砖,所有的努力都值得庆祝。不过,范在最后也强调,随着人工智能系统变得越来越强大,我们必须意识到潜在的危险和风险,并采取措施来缓解它们。无论是通过精心的培训设计、适当的监督,还是全新的保障方法,人工智能安全和伦理越来越多地出现在人工智能专家的议程上。毫无疑问,2022年是充满奇迹的一年,也是惊艳的一年。来年会有哪些震撼世界的突破?我们跟着你。参考:https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw