本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。一张图片的焦距可以在鼠标玩具和日历尺之间自由切换:它甚至可以完成图片上任何物体的对焦,显示不同物体在不同深度的照片:这个神奇的图片集成了一张全息图“完整的对象信息”。生成这样的全息图往往需要大量的计算才能完成。然而,麻省理工学院的一个团队开发了一种新算法,可以在智能手机上用不到一秒的时间生成这样的全息图,无需复杂的设备或数小时的等待。要知道,就在去年11月,三星科学家用来生成3D全息视频的处理器体积还是太大,无法集成到手机中:那么,这种快速生成3D全息图的方法是如何工作的呢?到达的?用神经网络快速“切蛋糕”首先,什么是全息图?比如visa信用卡上的鸽子就用了全息图作为防伪标识。全息图是“全息图”,这张图包含了物体的振幅和相位信息。对于普通相机来说,拍摄的照片只包含物体的幅度信息(明暗),而不能直接保存相位信息(远近)。这就是为什么我们平时看到的二维照片“没有立体感”。以前,计算机要想生成各个方向的全息图,通常需要从多个角度进行干涉和衍射,然后将相位信息拼凑起来,再与振幅信息叠加生成图片。从多个角度生成相位信息,就像在一个球形蛋糕上精确地切了8把刀,把它分成8块,然后再现每块的相位:但是,这种方法往往计算量巨大,耗时长,不在智能手机上工作。因此,麻省理工团队想到,能否利用深度学习的方法,仅从3个角度将“蛋糕”分成8块,生成全息图呢?他们精心挑选了4000张包含振幅和相位信息的图像,以及这些图像对应的3D全息图,来训练神经网络。整体思路大致如下:获取物体的相位信息后,生成点云,再结合残差神经网络生成整体全息图。那么,这个全息图的效果如何?它可以关注任何对象,内存占用小于1MB。事实证明,使用神经网络预测生成全息图只需要不到640KB的内存。在消费级GPU上,该神经网络模型可以生成分辨率为每秒1080p的60色3D全息图。在iPhone11Pro等智能手机上,每秒可生成1.1张全息图;至于GoogleEdgeTPU,每秒可以生成2个全息图。以动画角色BigBuckBunny为例,它的深度图在右下角。从图中可以看出,神经网络生成的全息图像(右)与原始方法生成的全息图像(左)几乎完全相同。而且,无论是远处的一朵小黄花,还是近处的兔子眼睛,都能完美对焦。如果表面上看起来一样,那么振幅和相位信息呢?从图中可以看出,神经网络预测的幅度和相位信息也非常接近真实值。甚至现实中的照片也非常接近实际生成目标。当然,在细节上,还是略有差距。与现有的VR和AR解决方案相比,3D全息图是3D可视化的另一种实现。但在使用VR时,用户实际上是在盯着2D显示器,产生3D幻觉,因此可能会出现视觉疲劳、头晕等症状。3D全息图让眼睛可以调整焦距,即交替聚焦前景和背景,可以有效缓解这种症状。下一步,该团队计划添加眼动追踪技术,以在用户眼睛注视的任何地方生成部分高清全息图。在这种方案下,计算机只需要生成部分全息图,在实时应用下效果会更快更好。并且,索尼赞助了这项研究,所以……作者介绍,该论文的第一作者史亮,2014年毕业于北航,硕士毕业于斯坦福大学,目前正在攻读博士学位。在麻省理工学院。他的研究兴趣包括VR/AR,以及机器学习和计算机图形学。.论文第二作者李北辰,2018年毕业于清华大学,目前在读博士。在麻省理工学院。研究方向为机器学习在计算机图形学中的应用。论文地址:https://www.nature.com/articles/s41586-020-03152-0.pdf
