最近,我看到Magic Leap的话题突然在国内网络上火了起来,很多人没有任何理由和根据地喜欢或批评Magic Leap。
当我在斯坦福大学计算机科学系学习时,我对 Magic Leap 非常好奇。
我在学校正好接触到了Magic Leap相关的各种专家,所以就做了这方面的一些研究。
我想我可以分享一些技术信息并解释一些原理。
,给每个人一些喜欢或不喜欢的材料。
目前,Magic Leap 只有一段实际拍摄的公开视频:(机器人和桌腿后面的太阳系)。
本文仅以该视频为例进行说明。
先说一下我关于Magic Leap的信息来源: 1、2019年11月10日,Magic Leap在2019年9月融资5亿后,来到斯坦福招人,举办了一场题为《世界是你的》的Info Session “新桌面”(The world is your newdesktop)太霸气了!当时Magic Leap感知研究高级副总裁(VP of Perception)Gary Bradski和计算视觉技术负责人(Lead of Computer Vision)Jean-Yves Bouguet Gary 是计算机视觉领域的领军人物,他在 Willow Garage 创建了 OpenCV(计算视觉工具库),同时也是斯坦福大学的顾问教授 Jean-Yves 最初负责 Google 街景汽车的制造。
在Google工作,是计算视觉技术的大师,他们加入Magic Leap,让我很震惊,当时Gary在感知部分介绍了Magic Leap的技术,并简单介绍了传说中的原理。
数字光场电影现实。
他还拍摄了允许录像的部分的照片。
本文中的大部分有用信息都来自于这次演讲。
2.今年年初,第四周选修了斯坦福计算摄影和数字光场显示教授Gordon Wetzstein的课程:EEComputational Imaging and Display: Computational lighting, Wearable Displays and Displays Blocks(光场显示)这三门所有章节都讨论 Magic Leap 的原理。
顺便介绍一下 Gordon 所在的斯坦福计算图形小组。
马克·莱沃伊(Marc Levoy,一位伟大的教授,后来创建了谷歌眼镜)一直致力于光场的研究。
从Marc Levoy提出光场相机到他的学生Ren Ng创立了Lytro公司。
制造光场相机,现在Gordon教授制造光场显示器(裸光场3D显示器),这个小组在光场研究方面一直处于世界领先地位。
而Magic Leap可能正在成为光场显示器最大的应用。
(相关内容请参阅:计算成像研究概述) 3.今年我参加了光场成像研讨会。
现场还有多场光场技术演示。
我与很多光场显示技术的专家进行了交流。
我对 Magic Leap 的看法。
特别是,我体验了接近 Magic Leap 的光场技术演示,即来自 Nvidia 的 Douglas Lanman 的近眼光场显示器。
(相关内容请参考:近眼光场显示器) 4、今年年中,我参观了微软雷蒙德研究院。
该研究所首席研究员Richard Szeliski(计算机视觉大师、计算机视觉教材《计算机视觉:算法与应用》作者)让我们试用Hololens。
体验 Hololens 令人难以置信的定位传感技术。
有保密协议,所以本文不提供细节,但提供与Magic Leap的原理比较。
干货就到这里了:首先我们先来科普一下Magic Leap、Hololens等AR眼镜设备。
它们的设计目的都是为了让您看到将现实中不存在的物体与现实世界融合在一起的图像并与之互动。
从技术上来说,可以简单地看成两部分:对现实世界的感知(Perception);以及用于呈现虚拟图像的头戴式显示器(Display)。
我将在传感部分和显示部分分别讲解Magic Leap的相关技术。
1。
在显示部分,我们简单回答一下这个问题:Q1。
Hololens 和 Magic Leap 有什么区别? Magic Leap的基本原理是什么?从感知上来说,其实Hololens和Magic Leap在技术方向上并没有太大的区别。
它们都是空间感知定位技术。
本文稍后将重点讨论这一点。
Magic Leap和Hololens最大的区别应该来自于显示部分。
Magic Leap利用光纤将整个数字光场(Digital Lightfield)直接投射到视网膜上,产生所谓的Cinematic Reality(电影级现实)。
Hololens 使用半透明玻璃从侧面显示 DLP 投影。
虚拟的物体永远是真实的。
它类似于市场上的 Espon 眼镜显示屏或 Google Glass 解决方案。
它是一个二维显示器。
可视角度不大,大约40度,提供了一种沉浸感。
会有折扣。
其本质物理原理是光在自由空间中的传播可以用4维光场唯一地表示。
成像平面的每个像素都包含有关该像素所有方向上的光的信息。
对于成像平面来说,方向是二维的,因此光场是四维的。
通常的成像过程只是对四维光场进行二维积分(将每个像素上各个方向的光的信息叠加到一个像素上)。
传统显示器将这个二维图像与另一个二维方向信息一起显示。
损失。
Magic Leap直接将整个4维光场投射到你的视网膜上,因此人们通过Magic Leap看到的物体与真实物体不存在数学上的差异,也没有信息丢失。
理论上,使用Magic Leap的设备,你无法区分虚拟物体和真实物体。
使用Magic Leap的设备,与其他技术最明显的区别是人眼可以直接选择焦点(主动选择性对焦)。
例如,如果我想看附近的物体,附近的物体将显得真实,而远处的物体将显得虚拟。
注意:这不需要任何人眼跟踪技术,因为投射的光场恢复了所有信息,因此用户可以直接看到人眼看到的东西,就像真实的物体一样。
例如:在虚拟太阳系视频(如下面的 gif)中大约 27 秒时,相机失去焦点,然后再次聚焦。
这个过程只发生在相机中,与Magic Leap的设备无关。
换句话说,虚拟物体就在那里,取决于观察者如何看待它。
这就是 Magic Leap 的厉害之处,因此 Magic Leap 将其效果称为电影现实。
Q2。
主动选择性聚焦有什么好处?为什么传统的虚拟显示技术会让人感到头晕? Magic Leap是如何解决这个问题的呢?众所周知,人眼的深度感知主要依靠两眼与被观察物体之间的三角测量线索来感知被观察物体与观察者之间的距离。
但三角测量并不是人类感知深度的唯一线索。
人脑还整合了深度感知的另一个重要线索:人眼焦点引起的物体清晰度(清晰度或焦点提示)的变化。
然而,传统双目虚拟显示技术(例如Oculus Rift或Hololens)中的物体并不是虚拟的或真实的。
例如,如下图,当你看到远处的城堡时,附近的虚拟猫应该是虚拟的。
然而,在传统的显示技术中,猫仍然是真实的,所以你的大脑会感到困惑,并认为猫是一个很远的很大的物体。
但这与你双目定位的结果不一致。
经过几百万年的进化,大脑程序会认为猫在附近,然后又认为猫在很远的地方。
如果来来回回,你的大脑就会被烧伤,你就会呕吐。
。
Magic Leap 投射整个光场,因此您可以主动选择性地聚焦。
虚拟猫被放置在附近。
当你看到它时,它是真实的。
当你看城堡时,它是虚拟的,也是真实的。
情况都是一样的,所以不会晕倒。
演讲中,Gary 开玩笑说,像 Jean-Yves 这样佩戴 Oculus 10 分钟就会呕吐的人,现在可以每天佩戴 Magic Leap 16 个小时而不会头晕。
补充:有人问为什么网上有人说虚拟现实头晕是帧率不够造成的?虽然帧率和延迟是目前主要问题,但并不是太大的问题,也不是导致头晕的决定性因素。
这些问题可以通过更快的显卡、良好的 IMU 和良好的屏幕以及头部运动预测算法轻松解决。
我们必须担心一些基本的头晕问题。
这里我们谈谈虚拟现实和增强现实的区别。
在虚拟现实中,用户看不到现实世界,头晕往往是由于感知重力和加速度的内耳半规管感受到的运动与视觉看到的运动不匹配而引起的。
因此,在虚拟现实游戏中,你经常会感到晕车,想吐。
这个问题无法通过单一设备来解决。
如果用户确实坐着不动,而图像在高速移动,那么什么设备可以欺骗你的内耳半规管呢?市场上的一些解决方案,例如 Omni VR 或带有跟踪功能的 VR 系统(例如 HTC Vive),可以让您实际步行来解决这种不匹配问题,但这些系统受到场地的限制。
然而THE VOID的应用很好地利用了VR的局限性。
它不一定需要跑和跳。
它可以用小空间营造大场景,让你以为自己置身于大场景中。
如今,大多数虚拟现实体验或全景电影都会以相对较慢的速度移动视角,否则你会呕吐。
但 Magic Leap 是 AR 增强现实。
因为它能看到现实世界,所以不存在内耳半规管感知不匹配的问题。
对于AR来说,主要的挑战是解决投影在你面前的物体与真实物体之间的清晰度变化问题。
所以Magic Leap给出的方案很好的解决了这个问题。
但这都是理论上的。
至于实际的工程能力,时间会证明。
Q3。
为什么我们需要头戴式显示器?为什么不采用裸眼全息技术? Magic Leap 是如何实现的?数百年来,人类一直希望能够凭空看到虚拟物体。
空气中的许多全息图像也出现在各种科幻电影中。
但事实上,如果你思考本质,你就会知道,这在物理上是很难实现的:纯净空气中不存在可以反射或折射光的介质。
展示东西最重要的是媒介。
微信上有很多疯狂的谣言,认为Magic Leap不需要眼镜。
我猜这是由翻译错误引起的。
该视频称“Shot direct through Magic Leap tech.”,很多文章错误地将其翻译为“直接看到”或“肉眼全息”,事实上,该视频是通过Magic Leap技术由摄像头拍摄的。
目前全息基本上还停留在全息胶片时代(如下图,我在光场研讨会上看到的全息胶片小佛像),还是初音未来演唱会用的那种投影阵列投射到特殊的玻璃(仅显示特定角度的特定图像,而忽略其他角度的光线)以创建伪全息图。
Magic Leap想要实现的是将整个世界变成你的桌面。
因此,与其像初音未来那样在世界各地建造3D全息透明屏幕作为媒体或获取全息胶片,不如从人眼入手,将整个光场直接扔到你的眼前。
事实上,Nvidia也在制作这种光场眼镜。
Nvidia采用的方法是在二维显示器前面添加一个Microlens阵列来生成4维光场。
相当于将2D像素映射到4D。
自然分辨率不会高,因此这类光场显示器或相机(Lytro)的分辨率也不会高。
我亲自测试了一下,效果基本上就像看马赛克风格的图案一样。
Magic Leap采用了完全不同的方法来实现光场显示,利用光纤投影。
不过,Magic Leap 使用的光纤投影方式并不新鲜。
Magic Leap 的光纤投影仪工作人员是 Brian Schowengerdt。
他的导师是华盛顿大学教授埃里克·塞贝尔(Eric Seibel),他在超高分辨率光纤内窥镜领域工作了8年。
简单的原理就是光纤束在1mm直径的管道中高速旋转,改变旋转方向,然后扫描更大的范围。
Magic Leap 创始人的聪明之处在于找到这些来制造高分辨率光纤扫描仪。
由于光的可逆性,它们可以颠倒过来制成高分辨率投影仪。
如图所示,从他们6年前的论文来看,一根1毫米宽、9毫米长的光纤可以投射出几英寸大小的高清蝴蝶图像。
现在的技术恐怕已经远远超越那个时代了。
然而,此类光纤高分辨率投影仪无法还原光场。
需要在光纤的另一端放置一个微透镜阵列来产生 4 维光场。
你可能会想,这不是和Nvidia的方法一样吗?不需要,因为光纤束以扫描方式旋转,所以微透镜阵列不需要非常密集和大,只需要显示扫描区域即可。
相当于在时间轴上分布了大量的数据,就像通信中的分时一样,因为人眼很难区分帧的变化。
只要扫描帧率足够高,人眼就无法辨别显示器是否旋转。
。
因此Magic Leap 的设备可以非常小并且具有非常高的分辨率。
他本人还来到斯坦福大学发表了关于使用扫描光的近眼立体 3D 显示的演讲。
这次讲的应该是Magic Leap的早期原型。
(相关内容请参考:光纤扫描显示器) 2.感知部分 Q4。
首先,为什么增强现实需要感知部分?这是因为设备需要知道其在现实世界中的位置(定位)和现实世界的三维结构(地图构建),然后才能将虚拟对象放置在显示器上的正确位置。
以最近的 Magic Leap 演示视频为例。
例如,桌子上有一个虚拟的太阳系。
当设备佩戴者的头部移动时,太阳系保持在原位。
这就需要设备实时了解观看者视角的精确位置和方向。
,以便反算图像应显示的位置。
同时,你可以看到阳光在桌子上的反射。
这就需要设备知道桌子的三维结构和表面信息,以便能够正确地将叠加图像投影到桌子的图像层上。
难点在于如何实现整个传感部分的实时计算,让设备佩戴者不会感受到延迟。
如果定位出现延迟,佩戴者会感到头晕,而且屏幕上漂移的虚拟物体会显得很不自然。
Magic Leap所宣称的所谓电影现实将毫无意义。
三维感知部分并不是什么新鲜事。
计算机视觉或机器人领域的SLAM(Simultaneous Localization And Mapping,即时定位和地图构建)就是干这个的,已经有30年的历史了。
通过各种传感器(激光雷达、光学相机、深度相机、惯性传感器)的融合,设备将获得设备在三维空间中的精确位置,同时可以重建周围的三维空间实时。
SLAM技术最近特别流行。
去年到今年这两年,巨头和风险投资收购并布局了很多从事空间定位技术的公司。
因为目前最强大的三大技术趋势:无人驾驶汽车、虚拟现实、无人机,它们都离不开空间定位。
SLAM 是完成这些伟大项目的基础。
我也研究SLAM技术,所以对它的接触也比较多。
为了方便大家对这个领域的了解,这里列举几个近期SLAM界的重大事件和人物: 1.(无人机)Sebastian Thrun,斯坦福大学机器人学教授,现代SLAM技术的创始人。
谷歌创始人在赢得 DARPA Grand Challenge 自动驾驶汽车竞赛后,前往谷歌打造自动驾驶汽车。
SLAM学术界的大部分研究派系都是Sebastian的后裔。
2、(无人驾驶)Uber今年获得卡内基梅隆大学CMU NREC(国家机器人工程研究开发中心),并联合成立先进技术研发中心ATC。
这些原本从事火星车定位技术的研究人员,现在都到了 Uber ATC 从事无人车方面的工作。
3.(虚拟现实)Surreal Vision最近被Oculus Rift收购。
其创始人Richard Newcombe是著名的DTAM和KinectFusion(HoloLens的核心技术)的发明者。
Oculus Rift 去年还收购了 13th Labs(一家在手机上做 SLAM 的公司)。
4.(虚拟现实)谷歌Project Tango今年发布了全球首款具有商用SLAM功能的平板电脑,触手可及。
苹果于 5 月收购了 Metaio AR。
Metaio AR 的 SLAM 已经在 AR 应用程序中使用了很长时间。
Intel发布了可以做SLAM的深度相机Real Sense,并在CES上演示了无人机的自动屏障功能和自动巡线功能。
5.(无人机)Skydio由Adam Bry创立,他是MIT机器人学大师Nicholas Roy的学生,Google创始人、SLAM专家Frank Dellaert教授是他们的首席科学家。
SLAM是一项基础技术。
事实上,世界上擅长SLAM或传感器融合的专家可能并不多,而且大多数都互相认识。
这么多大公司争夺这么多人,可想而知竞争有多么激烈。
因此,作为一家初创公司,Magic Leap必须筹集大量资金才能与大公司争夺人才资源。
Q5. Magic Leap 的传感技术是什么样的?这张照片是Gary教授在Magic Leap斯坦福招聘会上展示Magic Leap在传感部分的技术架构和技术路线图。
可以看到,以Calibration为中心,拓展成了4个不同的计算机视觉技术栈。
1.从图中来看,整个Magic Leap传感部分的核心步骤是Calibration(图像或传感器校准),因为像Magic Leap或Hololens这样的主动定位设备在设备上都有各种摄像头和传感器用于定位。
,相机参数和相机之间关系参数的标定是开始一切工作的第一步。
如果这一步相机和传感器参数不准确,后续的定位就毫无意义。
从事过计算机视觉技术的人都知道,传统的验证部分是相当耗时的。
它需要用相机拍摄棋盘并反复收集验证数据。
但Magic Leap的Gary发明了一种新的校准方法,直接使用一个奇怪形状的结构作为校正器。
相机只需一看就可以完成校正,速度极快。
此部分现场禁止拍照。
2、有了Calibration部分之后,开始最重要的三维感知定位部分(左下角的技术栈),分为4步。
2.1 第一个是平面跟踪。
在虚拟太阳系的演示中可以看到,虚拟太阳在桌面上有反射,这种反射会随着设备佩戴者的移动而改变位置,就像太阳真的挂在天空中并发出光源一样,这反映在桌子的表面上。
的。
这就需要设备实时知道桌子表面在哪里,并计算虚拟太阳与平面的关系,从而计算出太阳反射的位置并叠加在设备佩戴者眼镜的对应位置上,深度信息也是正确的。
难点在于平面的实时检测以及平面位置的平滑度(否则反射会跳变)。
从demo中可以看出Magic Leap在这一步做得很好。
2.2 然后是Sparse SLAM(稀疏SLAM); Gary 在信息会议上展示了他们的实时 3D 重建和定位算法。
为了保证算法的实时性,他们首先实现了高速稀疏或半稀疏三维定位算法。
从效果来看,与目前开源的LSD算法没有太大区别。
2.3 接下来是传感器;视觉和IMU(视觉和惯性传感器融合)。
导弹一般采用纯惯性传感器进行主动定位,但同样的方法不能用于民用级低精度惯性传感器,二次集成后肯定会产生漂移。
但单纯依靠视觉进行主动定位时,视觉部分的处理速度不高,容易被遮挡,定位鲁棒性不高。
视觉和惯性传感器的融合是近年来非常流行的方法。
例如:Google Tango 在这方面集成 IMU 和深度相机就做得非常好;大疆的无人机 Phantom 3 或 Inspire 1 将光流单目摄像头与无人机内的惯性传感器融合,实现了无缝 GPS 的情况下,可以实现惊人的稳定悬停; Hololens在SLAM方面可以说做得相当不错。
它专门为SLAM定制了一款芯片。
该算法据说与KinectFusion的核心相同。
经过个人测试,定位效果非常好。
(我可以面对没有特征的白色墙壁站立和跳跃,但是回到场地中心后,定位仍然非常准确,完全不漂移。
) 2.4 最后是 3D Mapping 和 Dense SLAM(3D 地图重建) 。
下图是Magic Leap山景办公室的3D地图重建:只要拿着设备走一圈,整个办公室的3D地图就被还原了,纹理非常精致。
书架上的书籍可以重构而不变形。
由于AR交互是一个新的领域,为了让人们能够顺利地与虚拟世界进行交互,基于机器视觉的识别和跟踪算法成为了重中之重。
全新的人机交互体验需要大量的技术储备来支撑。
Gary没有详细介绍接下来的三个分支,但他们的布局可以看出。
我只是添加一些注释以帮助大家理解。
3.1 众包众包。
它用于收集数据并将其用于后续的机器学习工作。
需要构建合理的反馈学习机制,动态增量地收集数据。
3.2 机器学习和深度学习 机器学习和深度学习。
需要构建机器学习算法架构,用于后续生产识别算法。
3.3 场景物体识别 场景物体识别。
识别场景中的物体,区分物体的类型和特征,并利用它们进行更好的交互。
比如,当你看到小狗的时候,它就会认出来,然后系统就可以把狗变成狗形的怪物,你就可以直接和怪物战斗了。
3.4 行为识别 行为识别。
识别场景中人或物体的行为,例如跑或跳、走或坐,可用于更动态的游戏交互。
对了,国内有一家斯坦福校友开的叫Green Deep Eyes的公司也在做这方面的研究。
追踪方面 4.1 Gesture Recognition 手势识别。
对于交互,其实每个AR/VR公司都在做这方面的技术储备。
4.2 对象跟踪 对象跟踪。
这个技术非常重要,比如Magic Leap的抱大象的demo。
至少你需要知道你手的三维位置信息并进行实时跟踪才能将大象放在正确的位置。
4.3 3D扫描三维扫描。
能够虚拟化真实物体。
例如,如果您拿起一件艺术品并对其进行三维扫描,远处的用户就可以在虚拟世界中共享和玩弄同一对象。
4.4 人体跟踪 人体跟踪。
例如:可以为现实中的每个角色添加生命条、能力点等。
5.1 眼动追踪 眼动追踪。
Gary解释说,虽然Magic Leap的渲染不需要眼动追踪,但Magic Leap的渲染计算量巨大,因为它需要计算4维光场。
如果做了眼动追踪,可以减轻3D引擎的物体渲染和场景渲染的压力,这是一个很好的优化策略。
5.2 情绪识别情绪识别。
如果Magic Leap打造一个像《她》电影中描绘的那样的人工智能操作系统,它可以识别主人的情绪,并提供贴心的情感护理。
5.3 生物识别。
例如,要识别真实场景中的人,请在每个人的头上显示一个名字。
人脸识别就是其中之一。
清华大学姚班兄弟在中国经营的Face++公司在这方面做得最好。
总结:简单来说,Magic Leap 在认知上与很多其他公司非常相似。
虽然有了Gary的加盟,野心非常广阔,但是这部分的竞争也非常激烈。
Q6:即使Magic Leap解决了感知和显示,接下来的困难是什么? 1。
计算设备和计算量。
Magic Leap需要计算4维光场,计算量惊人。
不知道Magic Leap现在是怎么解决这个问题的。
如果 Nvidia 不生产出色的移动显卡怎么办?您想制作自己的专用电路吗?携带四块 Titan X 上路可不是闹着玩的。
下图是我今年在 SIGGraph 参加的 VR 演示之一。
大家都背着大电脑包玩VR。
10年后的人类看到今天的人类追求VR会不会觉得好笑,哈哈。
2.电池!电池!电池!所有电子设备的痛点 3. 一个操作系统 说实话,如果“世界是你的新桌面”是他们的愿景,那么在 Magic Leap 的愿景下,确实没有一个操作系统能够支持交互。
他们必须自己发明轮子。
4、在虚拟物体的交互体验中加入物理感觉。
为了拥有触觉,交互式手套和交互式手柄现在是VR行业的热门话题。
从目前的专利来看,Magic Leap似乎不会有更高的见解。
也许某个 Kickstarter 最终会占据主导地位,而 Magic Leap 将接手。