一点钱！Meta为Metaverse创造了AI模型

时间：2023-03-13 01:41:48 科技观察

人工智能将成为虚拟世界的中坚力量。人工智能可以与元宇宙中的各种相关技术相结合，例如计算机视觉、自然语言处理、区块链和数字孪生。2月，扎克伯格在公司的首个虚拟活动InsideTheLab中展示了元宇宙的样子。他表示，该公司正在开发一系列新的生成式AI模型，让用户只需通过描述就可以生成自己的虚拟现实化身。扎克伯格宣布了一系列即将开展的项目，例如CAIRaoke项目，这是一个完全端到端的神经模型，用于构建设备上的语音助手，帮助用户更自然地与语音助手交流。与此同时，Meta正在努力构建一个通用的语音翻译器，为所有语言提供直接的语音到语音翻译。几个月后，Meta兑现了他们的承诺。然而，Meta并不是唯一一家在游戏中拥有皮肤的科技公司。英伟达等公司也发布了自主研发的AI模型，提供更丰富的元界体验。开源预训练Transformer（OPT-1750亿参数）GANverse3DGANverse3D由NVIDIAAIResearch开发。它是一种使用深度学习将2D图像处理成3D动画版本的模型。去年在ICLR和CVPR上发表的一篇研究论文中描述的这个工具可以更快地生成模拟，并且成本更低。该模型使用StyleGAN从单个图像自动生成多个视图。该应用程序可以作为NVIDIAOmniverse的扩展导入，以准确渲染虚拟世界中的3D对象。Nvidia的Omniverse帮助用户在虚拟环境中模拟他们的最终想法。3D模型的制作成为构建元界的关键因素。耐克和Forever21等零售商已在Metaverse中建立虚拟商店以推动电子商务销售。视觉-听觉匹配模型(AViTAR)Meta的RealityLab团队与德克萨斯大学合作，构建了一个人工智能模型来改善Metaspace的音质。该模型有助于匹配场景中的音频和视频。它转换音频剪辑，使它们听起来像是在特定环境中录制的。该模型在从随机在线视频中提取数据后使用自我监督学习。理想情况下，用户应该能够在他们的AR眼镜上观看他们最喜欢的回忆，并听到实际体验中产生的确切声音。MetaAI发布了AViTAR的开源代码，以及另外两个声学模型，考虑到声音是metaverse体验中经常被忽视的部分，这是非常罕见的。受视觉效果影响的振动(VIDA)MetaAI发布的第二个声学模型用于消除声学中的混响。该模型在大型数据集上进行训练，其中包含来自3D房屋模型的各种逼真音频渲染。混响不仅会降低音频质量，使其难以理解，还会提高自动语音识别的准确性。VIDA的独特之处在于它使用音频和视觉提示进行观察。VIDA改进了典型的纯音频方法，可以增强语音并识别语音和说话人。视觉语音（VisualVoice）MetaAI发布的第三个声学模型VisualVoice可以从视频中提取语音。与VIDA一样，VisualVoice是根据未标记视频中的视听线索进行训练的。该模型已自动分离语音。该模型具有重要的应用场景，例如为听障人士制作技术、增强可穿戴AR设备的声音以及在嘈杂环境中从在线视频中转录语音。Audio2Face去年，Nvidia发布了OmniverseAudio2Face的公开测试版，以生成AI驱动的面部动画以匹配任何画外音。这个工具简化了动画游戏和视觉效果的漫长而乏味的过程。该应用程序还允许用户以多种语言发出命令。今年早些时候，Nvidia发布了该工具的更新，添加了BlendShapeGeneration等功能，可帮助用户从中性化身创建一组混合变形。此外，还添加了流式音频播放器的功能，允许使用文本到语音应用程序流式传输音频数据。Audio2Face设置了一个3D角色模型，可以用音轨制作动画。然后，音频被送入深度神经网络。用户还可以在后期处理中编辑角色，改变角色的行为。

上一篇：从Session认证到Token认证的演进过程中理解Session、Cookie和Token

下一篇：OpenHarmony啃论文成长计划---浅谈连载规范

一点钱！Meta为Metaverse创造了AI模型相关文章