当前位置: 首页 > 科技观察

声学中的机器学习研究可以打开一个多模态元宇宙

时间:2023-03-14 17:51:29 科技观察

麻省理工学院和IBMWatsonAI实验室的研究人员创建了一个机器学习模型,可以预测听众在3D空间的不同位置会听到什么。研究人员首先使用这种机器学习模型来了解房间内的任何声音如何在空间中传播,构建房间的3D图片,就像人们通过声音了解周围环境一样。在麻省理工学院电气工程与计算机科学系(EECS)研究生YilunDu与人合着的一篇论文中,研究人员展示了一种类似于视觉3D建模的技术如何应用??于声学领域。但是他们必须处理声音和光的传播之间的差异。例如,由于障碍物导致听者在房间中的位置、房间的形状和声音的特性,听者可能对声音有非常不同的印象,从而使结果更难预测。为了解决这个问题,研究人员在他们的模型中加入了声学特征。首先,在所有其他条件相同的情况下,交换声源和听者的位置不会改变听者听到的内容。声音还特别受当地条件的影响,例如位于听众和声源之间的障碍物。“到目前为止,大多数研究人员只关注建模视觉,”杜说。但作为人类,我们有多种感知模式。不仅视觉重要,声音也很重要。我认为这项工作打开了一个令人兴奋的新世界。令人兴奋的研究方向是更好地利用声音来模拟世界。”使用这种方法,生成的神经声场(NAF)模型能够随机采样网格上的点以了解特定位置的特征。例如,接近门口可以极大地影响听者从房间另一边听到的声音。该模型能够根据听者在房间中的相对位置,预测听者可能从特定的声学刺激中听到什么。“通过模拟声传播在作为线性时不变系统的场景中,NAF学习将发射器和听众的位置连续映射到神经脉冲响应函数,这可以应用于任意声音,”该论文指出。我们证明了NAF的连续性允许我们向任意位置的听众呈现空间声音,并预测声音将如何在新位置传播。”麻省理工学院-IBM沃森人工智能实验室的首席研究员庄干也参与了该项目,他说:“这项新技术可能会为在Metaverse应用程序中创建多模态沉浸式体验开辟新的机会。”我们知道并非所有Reg读者都会对这个用例感到兴奋。