当前位置: 首页 > 科技观察

一点钱!Meta为Metaverse创造了AI模型

时间:2023-03-13 01:41:48 科技观察

人工智能将成为虚拟世界的中坚力量。人工智能可以与元宇宙中的各种相关技术相结合,例如计算机视觉、自然语言处理、区块链和数字孪生。2月,扎克伯格在公司的首个虚拟活动InsideTheLab中展示了元宇宙的样子。他表示,该公司正在开发一系列新的生成式AI模型,让用户只需通过描述就可以生成自己的虚拟现实化身。扎克伯格宣布了一系列即将开展的项目,例如CAIRaoke项目,这是一个完全端到端的神经模型,用于构建设备上的语音助手,帮助用户更自然地与语音助手交流。与此同时,Meta正在努力构建一个通用的语音翻译器,为所有语言提供直接的语音到语音翻译。几个月后,Meta兑现了他们的承诺。然而,Meta并不是唯一一家在游戏中拥有皮肤的科技公司。英伟达等公司也发布了自主研发的AI模型,提供更丰富的元界体验。开源预训练Transformer(OPT-1750亿参数)GANverse3DGANverse3D由NVIDIAAIResearch开发。它是一种使用深度学习将2D图像处理成3D动画版本的模型。去年在ICLR和CVPR上发表的一篇研究论文中描述的这个工具可以更快地生成模拟,并且成本更低。该模型使用StyleGAN从单个图像自动生成多个视图。该应用程序可以作为NVIDIAOmniverse的扩展导入,以准确渲染虚拟世界中的3D对象。Nvidia的Omniverse帮助用户在虚拟环境中模拟他们的最终想法。3D模型的制作成为构建元界的关键因素。耐克和Forever21等零售商已在Metaverse中建立虚拟商店以推动电子商务销售。视觉-听觉匹配模型(AViTAR)Meta的RealityLab团队与德克萨斯大学合作,构建了一个人工智能模型来改善Metaspace的音质。该模型有助于匹配场景中的音频和视频。它转换音频剪辑,使它们听起来像是在特定环境中录制的。该模型在从随机在线视频中提取数据后使用自我监督学习。理想情况下,用户应该能够在他们的AR眼镜上观看他们最喜欢的回忆,并听到实际体验中产生的确切声音。MetaAI发布了AViTAR的开源代码,以及另外两个声学模型,考虑到声音是metaverse体验中经常被忽视的部分,这是非常罕见的。受视觉效果影响的振动(VIDA)MetaAI发布的第二个声学模型用于消除声学中的混响。该模型在大型数据集上进行训练,其中包含来自3D房屋模型的各种逼真音频渲染。混响不仅会降低音频质量,使其难以理解,还会提高自动语音识别的准确性。VIDA的独特之处在于它使用音频和视觉提示进行观察。VIDA改进了典型的纯音频方法,可以增强语音并识别语音和说话人。视觉语音(VisualVoice)MetaAI发布的第三个声学模型VisualVoice可以从视频中提取语音。与VIDA一样,VisualVoice是根据未标记视频中的视听线索进行训练的。该模型已自动分离语音。该模型具有重要的应用场景,例如为听障人士制作技术、增强可穿戴AR设备的声音以及在嘈杂环境中从在线视频中转录语音。Audio2Face去年,Nvidia发布了OmniverseAudio2Face的公开测试版,以生成AI驱动的面部动画以匹配任何画外音。这个工具简化了动画游戏和视觉效果的漫长而乏味的过程。该应用程序还允许用户以多种语言发出命令。今年早些时候,Nvidia发布了该工具的更新,添加了BlendShapeGeneration等功能,可帮助用户从中性化身创建一组混合变形。此外,还添加了流式音频播放器的功能,允许使用文本到语音应用程序流式传输音频数据。Audio2Face设置了一个3D角色模型,可以用音轨制作动画。然后,音频被送入深度神经网络。用户还可以在后期处理中编辑角色,改变角色的行为。