当前位置: 首页 > 科技观察

从AI@'22大会上,我们可以看到谷歌的生成AI战略和进展

时间:2023-03-13 17:46:12 科技观察

2022年是生成AI发展的重要一年。大型语言模型在生成文本和软件代码方面继续取得进展。同时,随着DALL-E2、Imagen和StableDiffusion等模型的引入,我们看到了文本到图像生成器的巨大改进。2022年也标志着生成式AI模型产品化的加速。生成模型的科学技术现在已经成熟到可以解决实际问题的地步。像微软和谷歌这样的公司正在想方设法在一个可能改变创造力未来的新市场中占据领先地位。在最近的AI@'22会议上,谷歌展示了在其产品中使用生成模型的路线图。其战略可能是该领域和未来竞争可能发生变化的前奏。Google的生成模型进展GoogleParti使用Transformers从文本token创建图像在AI@'22大会上,GoogleResearch首席科学家DouglasEck列出了公司目前在生成模型方面的研究,分为文本、源代码、音频、图像和视频四个方面.谷歌目前正在所有这些领域运行测试程序,着眼于在未来创造产品。WordcraftWritersWorkshop致力于帮助作家在写作中受益于大型语言模型。这是一个使用语言模型LaMDA根据用户提供的提示生成文本的工具。该工具旨在在迭代过程中使用该模型,在该过程中作者与大型语言模型(LLM)交互以共同创作故事。Eck说:“使用LaMDA编写整个故事将是死胡同。当它被用来为事情增添趣味、为特定角色或增强故事的某个方面时,它可能是一种更有效的工具。用户界面必须也是正确的。Wordcraft工具是从头开始设计的,允许作者与生成模型进行交互。”LearntoCode是一个使用大型语言模型(LLM)为开发者生成代码建议的项目。谷歌目前正在内部测试该工具,它包括单行和多行代码完成建议。AudioLM使用语言模型生成音频。该模型以音频样本作为输入。它可用于生成音乐和语音。也许Eck在AI@'22会议上展示的最先进的模型是文本到图像模型Imagen和Parti。Imagen的工作方式类似到OpenAI的DALL-E2,它使用扩散模型将语言嵌入转换为图像。Parti使用Transformers架构从文本标记生成图像。DreamBooth是一个可以调整文本到图像生成器(例如Imagen)以在不同场景中显示主题的模型。DreamFusion将扩散模型的强大功能与神经辐射场(NeRF)相结合,NeRF是一种从2D图像创建3D模型的深度学习架构。Google的DreamBooth微调生成模型以显示不同上下文中的特定主题。Eck还展示了Google与ImagenVideo和Phenaki在视频生成方面的研究预览。ImagenVideo使用扩散模型创建一系列高分辨率图像,这些图像可以拼接在一起以创建视频。Phenaki基于Transformers架构,它将一系列文本提示转换为一系列图像。ImagenVideo和Phenaki一起用于从提示序列创建高分辨率视频。谷歌的生成模型策略Eck在大会的演讲中明确表示,生成模型并不意味着自动化或取代人类的创造力。“它不再是关于创造现实图景的生成模型,而是创造自身的东西。技术应该满足我们的需求,并赋予我们对自己工作的自主权和创造性控制权。”在讨论谷歌的“负责任”时,他在概述自己的AI战略时进一步强调了这一点,并在结束演讲时说:“创造力是使我们成为人类的重要组成部分。我认为在构建这些AI系统时牢记这一点很重要”Eck一些言论旨在减轻人们对生成式人工智能模型取代人类创造力(这在很大程度上被夸大了)的恐惧,强调了将该领域转向以人为中心的人工智能的积极影响。人工智能系统的设计方式应提供透明度和控制力,以增强人类的能力。如果没有人为控制和监督,生成模型等人工智能系统将表现不佳,因为它们无法像人类一样掌握基本概念。谷歌能否在生成人工智能领域获得竞争优势?人工智能研究与产品化之间的鸿沟难以弥合。当然,Google的大型语言模型(LLM)和文本转图像模型的质量不会低于OpenAI的GPT-3和DALL-E2。但问题是,谷歌能否基于这些模型推出成功的产品?在考虑产品化技术时,需要考虑一些问题:这项技术是否会成为新产品的基础技术?如果没有,是否会集成到现有产品中?它在产品中吗?它解决了什么问题,目前存在哪些替代解决方案?该产品是否提供足够的附加值以说服用户转换?它是否有助于加强企业在现有市场中的地位?企业经常将技术带到他们擅长的领域或市场。在写作方面,微软远远领先于谷歌。Office365的市场份额已经超过了GSuite,微软在将大型语言模型(LLM)集成到其产品方面领先一步。微软还在GitHubCopilot和Codex的编码方面处于领先地位,它们已经处于生产模式,而不是谷歌的内部代码生成工具。谷歌最受欢迎的开发工具是Colab和AndroidStudio,这将为其提供测试和推出代码AI的场所。但这些集成开发环境(IDE)无法与Microsoft的VisualStudioCode和GitHubCodespaces(也为Microsoft所有)的市场份额相提并论。在图像、视频和音频领域,Adobe将成为生成AI的赢家。Adobe已经拥有最大的市场份额和完善的工具,并定期更新AI功能。Adobe已经在其工具套件中试验生成式AI工具。然而,这并不意味着这些现有公司就一定会主导生成式人工智能领域。目前,生成模型是从当前使用的工具(如文字处理器、集成开发环境和图像编辑应用程序)的角度来看的。基本上,行业参与者正在研究生成模型如何自动化或改进已经完成的任务(完整的句子、编写代码块、编辑或生成照片等)。当他们创建新的工具系统和工作流程时,人工智能的真正潜力将得以实现,这些工具系统和工作流程利用生成模型和人工智能的其他进步,以截然不同的方式实现目标。就像谷歌重塑信息发现模式、亚马逊重塑购物模式一样,随着互联网的普及,发现并拥抱人工智能新机遇的企业也必然会改变市场现状或塑造新市场。