当前位置：首页 > 科技赋能

为什么 Magic Leap 和微软要制造 AR 眼镜！关于原理和挑战

时间：2024-05-22 19:34:55 科技赋能

Magic Leap 和 HoloLens 是什么？ Magic Leap和HoloLens都是增强现实（AR）眼镜的代表。

AR和VR眼镜有什么区别？ AR眼镜是透明的，可以让你同时看到现实世界和叠加在其上的虚拟成像。

应用示例：无法参加 Lady Gaga 的演唱会？没关系，戴上眼镜，她会在你家里打开一副。

代表产品原型：Magic Leap 和微软的 HoloLens。

VR眼镜是不透明的，只显示虚拟世界，完全遮挡物理世界。

应用实例：你坐在家里就可以去塔希提岛“潜水”。

代表产品：三星Gear VR、Google Cardboard、Oculus Rift。

Magic Leap 和微软为何要打造 AR 眼镜？总的来说，这是计算机发展的必然趋势。

自2008年苹果推出iPhone以来，手机发展迅速，用户随时随地随身携带，所有使用数据毫无疑问超越了PC。

因此，人机交互界面的未来主要在于移动端。

但目前手机的局限性是：（1）由于屏幕需要方便携带，所以屏幕必须做得很小。

如果屏幕小，某些功能肯定会受到限制； (2)显示屏幕是平面的，即二维的，而现实世界是三维的。

。

未来AR眼镜有望实现重大突破，即不仅可以由用户携带，在眼前显示大屏幕，还可以将逼真的3D内容渲染到现实世界中。

看到（想象你坐在教室里听讲座），你的老师看起来很真实，但实际上是你眼镜上的虚拟代表）。

这样的眼镜可能不会完全取代手机，但毫无疑问潜力是巨大的。

与VR相比，AR的应用场景更广泛（你不能只戴着VR头盔走在街上）。

本质上，AR 是 VR 的超集。

镜头前一站就变成VR（前提是视角可以差不多大）。

戴眼镜这么麻烦，不如像《星球大战》那样在空中展示全息图呢？全息术是人类的美好愿景。

也许有一天会实现，但在不久的将来实现还为时过早。

现在有一些大学实验室在研究裸光场显示，但它们需要复杂、笨重且昂贵的设备，而且只能在安装的地方使用。

相对来说，眼镜可行得多。

如果能够做出轻薄的AR眼镜，那将是移动人机交互界面和计算机发展的重大创新。

在 VR 头盔上添加前置摄像头难道不会使其成为 AR 吗？为什么它必须是透明的？好问题。

说到这里，AR 有两种类型。

一是上面提到的透明AR（光学透视）——通过镜头直接看到现实世界。

另一种是“视频透视或视频叠加”——通过相机捕获现实世界，然后将其作为视频呈现给用户（在顶部渲染一些内容）。

事实上，手机和平板电脑上已经出现了很多视频叠加应用，比如看星空、要求翻译、选择家具等。

那么为什么不使用VR头盔和摄像头来实现这种AR呢？当然可以，许多 VR 耳机现在都在尝试这种方法。

与透明AR相比，它有自己的优点和缺点。

例如，优点是利用视频进行虚拟与现实的叠加，比透明AR简单得多，这也是它开始在移动端商用的原因。

但弊端可想而知。

毕竟用户看到的只是2D视频，质量与眼睛直接看到的世界还是有很大区别的。

而且，从视频采集到显示总是存在延迟。

如果与体感信号不一致，就会引起身体不适。

所以不管怎么样，还是会有公司陆续在做透明AR。

Magic Leap 和 Microsoft HoloLens 就是例子。

Magic Leap为何如此牛逼，能融资5.42亿？（最新C轮融资8亿）前面提到的无穷无尽的应用潜力绝对是一个助力，还有技术、创始人、团队。

Magic Leap的核心技术来自华盛顿大学前研究员Brian Schowengerdt。

他的导师埃里克·塞贝尔（Eric Seibel）是光纤扫描内窥镜方面的专家。

大家都知道，医生在手术过程中使用内窥镜对身体进行成像。

它本质上是一个微型相机。

Brian巧妙地反转了光路，并将这项技术应用到显示器上，使得激光可以通过极细的光纤产生彩色图像（如图所示）。

这项技术已于十多年前发表，此后不断改进，取得了多项专利。

Magic Leap 很大程度上基于 Brian 的这些专利。

那么为什么这项技术很重要呢？稍后我们将把它作为一个特殊问题。

然而，仅仅精通技术是不够的。

想要做好AR眼镜这样的事情，可想而知必须投入巨大的人力物力，而且必须在软件和硬件上都有重大突破。

苹果、微软和谷歌等公司可能有财力做到这一点，那么为什么他们会相信一家小型初创企业可以做到这一点呢？我认为犹太创始人罗尼·阿伯维茨（Rony Abovitz）发挥了重要作用。

Rony 曾是 MAKO Surgical 的联合创始人。

知道这家公司的人不多，但他们做的事情至少可以说是可怕的——他们做机器人手术，主要是骨科手术中的精确定位。

这听起来很科幻、很未来，但它成立于2010年，2017年上市，2008年以16.5亿美元的价格卖给史赛克医疗。

如果他不能因为这样的业绩获得投资，谁能呢？除了创始人和CEO之外，团队也不在涵盖之列。

计算机视觉部分吸引了加里·布拉德斯基（Gary Bradski）和让-伊夫·布盖（Jean-Yves Bouguet）等大牌人物。

我们合作的维塔工作室是好莱坞的一家电影特效公司，《指环王》就是他们做的。

所以Magic Leap用来吸引投资的概念视频就像一部迷你电影。

现在回到之前的问题，为什么Magic Leap的光场显示技术很重要？首先，它基于极细的光纤，这使得眼镜可以做得又薄又轻。

但更重要的是，Brian证明了这项技术不仅可以投影2D图像，还可以显示光场。

现代近视眼镜实现3D的主要技术有两种：Stereooscopy（中文译为“立体”，但不够精确）和Light Field。

立体眼镜早已商业化（例如所有 3D 影院中使用的眼镜，以及市场上几乎所有 AR 和 VR 眼镜/原型 - 包括 Microsoft HoloLens、Epson Moverio、Lumus DK-40、Facebook Oculus - 都是立体的）。

而 Light Field 在实验室中仍处于原型状态（Magic Leap 可能是最好的）。

什么是立体 3D？当光场不够好时，为什么还要使用光场呢？什么是光场？　　立体 3D 是假 3D。

3D 图像比 2D 图像多一维。

这个维度就是深度。

看过3D电影和2D电影的同学都知道，感官上有明显的区别（只有少数双盲的人看不到）。

我们都知道，人眼感知景深的机制有很多种，包括单目和双眼。

单眼可以感知的景深信号有很多，例如：一个物体遮挡另一个物体（遮挡）、熟悉物体的大小（相对大小/高度）、物体运动的变化（远距离）物体变化缓慢，近距离物体变化快，即运动视差）。

在此基础上，双眼的景深信号也很强（所以在古代我们可以更好地判断对面的老虎或鹿有多远）。

两只眼睛看到的同一场景会略有不同，这使得大脑可以通过三角测量来获得物体的深度。

立体3D就是利用这个原理向双眼显示不同的画面（如下图）。

它们非常相似，仅在水平方向上略有不同。

这两张照片拍摄时是用两台相机并排拍摄的，以模拟人眼的位置。

现在的3D电影都是基于这个原理。

但这样的立体 3D 有什么问题吗？简单来说，它会给使用者带来身体不适，例如头晕、恶心等，为什么呢？这涉及到人眼的一个有趣的机制。

当我们看现实世界中的物体时，我们的眼睛实际上有两种自然反应：（1）调节/聚焦。

眼睛的晶状体就像凸透镜。

它调整凸度以使物体在我们的视网膜上清晰地成像。

(2)“趋同”。

当每只眼睛聚焦时，两只眼球也会旋转运动以共同指向物体。

当然，这两种反射运动是神经耦合的，这意味着其中一个运动会自动触发另一个运动。

这也意味着，当人眼观看真实物体时，焦点和会聚之间的距离始终相等（会聚距离=调节距离，见下图A）。

那么立体 3D 的问题就来了。

因为立体的投影距离总是固定的（即调节距离不变），而图像的视差会导致眼睛在不同的距离（聚散距离）处会聚，产生3D景深效果（参见下图B）。

因此，这两个距离往往不一致（聚散距离≠调节距离），这会导致这两个神经连接的运动被强行分开（神经解耦）。

从另一个角度来看，在自然世界中，当人眼聚焦并会聚于某个物体时，其他距离的物体应该是模糊的（下图C）。

在立体 3D 中，无论人眼聚焦在何处，其他距离的物体都可以清晰成像（下图 D）。

这些都不符合人眼自然界的规律，因此大脑会出现混乱，长时间可能会出现恶心、头晕等症状。

所以Stereooscopy其实是用了一个小技巧，让人们看到3D的效果，但它并不是真正的3D。

Light Field（光场）是真正的3D光场显示。

与立体3D相比，一个很大的区别是它能够将人眼聚焦到不同的距离，从而与会聚距离保持一致。

这是最符合人眼对自然世界观察的方式，因此被称为true-3D。

可以想象，要实现这样的光场显示并不是那么简单。

目前主要有两种方法：空间复用和时间复用。

“空间复用”简单来说就是将一个像素视为多个块，以实现不同的对焦距离。

Nvidia 在 SIGGRAPH 上展示的原型机就属于这一类。

这种方法最大的问题是分辨率大大降低。

我试过一次，基本上是雾里看花。

“时间复用”就是利用高速原片快速产生不同的对焦距离，让人以为它们是同时产生的。

这样做的好处是分辨率不会丢失。

众所周知，人眼的速度感知是有限的。

很多显示器都是60Hz，因为人眼所能辨别的分辨率极限一般是60Hz（在一些游戏等高速内容中可能会达到90Hz）。

这意味着，如果利用高速显示Hz，您可以实现6种不同的对焦距离。

研究表明，采用6个焦距加上线性混合渲染算法，基本上可以实现人眼从30厘米左右到无限远的自然对焦。

Magic Leap 使用什么样的技术？其最近演示中使用的技术尚未公开，但很可能是基于 Brian 的高速激光光纤扫描（扫描光纤）技术，这也是一种时间复用方法。

Brian首先尝试仅使用一根光纤来扫描不同的聚焦距离。

这显然需要太高的速度。

后来，他使用了光纤束/阵列，例如16根光纤。

每根光纤都有轻微的位置差异，然后在不同焦距下同时扫描结果。

由于真实系统的限制，这样的光场不能是连续的，并且都是下采样的。

然而，即使这样的光场投射到眼睛中，理论上它与从现实世界物体进入眼睛的光是一样的，因此可以实现true-3D。

回到最初的问题，这就是为什么 Magic Leap 的技术很重要。

现在你明白为什么 Rony 说“HoloLens 让人生病了”吧？透明AR眼镜面临哪些挑战？ 1、首先，很难实现近眼场显示。

除了Magic Leap之外，现在的公司还使用古老的Stereooscopy 3D方法。

如果用户长时间佩戴，会感到困倦、头晕、恶心。

Magic Leap使用的近眼显示技术理论上是健全的，但现实中仍然存在很多问题需要解决。

例如：系统尺寸：Magic Leap 尚未发布其原型机的照片。

据报道，它仍然有冰箱那么大，距离可穿戴还有很长的路要走。

光场采样：既然是采样，就一定会有损失，比如对比度、清晰度等。

我们如何才能最佳地采样？聚焦与会聚（调节-聚散匹配）：即使焦距正确，也要确保会聚距离始终与之一致。

Magic Leap目前的演示视频只是用一只眼睛拍摄的，没有证据表明他们很好地解决了双眼问题。

室外展示：现在大家的演示都在室内。

当用户在户外时，阳光的强度比显示光的强度高几个数量级。

至少镜头需要有自动调光技术。

捕捉内容：虽然现在可以使用计算机图形进行演示，但未来的应用肯定需要相机捕捉内容，而且光场拍摄本身还有很多问题需要解决。

散热：这是一个很容易被忽视的问题。

当谷歌眼镜问世时，有人说用它在脸上感觉就像要烧伤一样。

目前还没有证据表明 HoloLens 和 Magic Leap 的眼镜可以长时间保持凉爽。

　　2。

镜头近眼显示器有两个关键部件：显示屏和镜头。

目前的AR眼镜镜片大多基于分光棱镜，例如Google Glass、HoloLens、Epson Moverio等。

如左图所示，简单的分束器具有 45 度角，将显示器产生的光线从眼镜框反射到人眼中，同时也允许来自现实世界的光线通过。

这样做既简单又便宜，但镜片很厚。

以色列公司 Lumus 开发了一种波导技术，可以使镜片变得非常薄。

不幸的是，工艺复杂，成本太高。

后来出现了一些更便宜的光导产品，但质量远不如Lumus。

因此，镜头还有很长的路要走。

它们不仅要具有大视场角，而且要薄、轻、透光性好。

他们还必须在折射/反射显示光时尽量保持光透明度。

特性并最大限度地减少光损失。

3、可视角度（FoV）和分辨率（Resolution）可视角度直接决定用户体验。

目前很多AR眼镜的可视角度都在20°到40°之间，不少试用过HoloLens的记者都对其可视角度表示失望。

人眼的水平视角约为°，垂直视角约为°。

大视角意味着总分辨率必须很大才能覆盖它，8K*8K是最理想的。

4.遮挡（Occlusion）前面提到，单眼深度感知的一个非常重要的信号就是物体之间的遮挡。

使用透明AR眼镜时，一个关键问题是如何实现虚拟物体与真实物体之间的遮挡。

如果真实物体在前，虚拟物体在后，则比较好办。

即自动检测真实物体的距离，然后计算虚拟物体的哪些部分需要被遮挡，使其不被渲染。

但如果另一方面，虚拟物体需要遮挡真实物体，那就没那么简单了，因为从理论上讲，真实物体的光线需要有选择地从眼镜中过滤掉。

从Magic Leap最近的演示来看，当虚拟物体明亮时，其自身的亮度自然会遮挡其后面的真实物体。

但当虚拟物体较暗时，仍然存在所谓的“重影效应”，这种现象并不一致。

自然法则可能会导致大脑混乱。

如果想要达到完全正确的遮挡效果，只能在镜头上实现实时像素级滤波机制（逐像素快门），但目前技术尚未成熟。

　　5。

渲染黑色透明AR眼镜目前无法渲染黑色。

因为它最终是虚拟光和自然光的叠加。

如果你把它画成黑色，用户将看不到它，只能看到背景后面真实物体的光。

类似的深色也有这个问题。

6.延迟透明AR眼镜的另一个大挑战是延迟。

将虚拟物体叠加到真实物体上（例如将虚拟水杯放在真实桌子上）涉及一系列计算：检测真实物体→计算其空间位置和方向→计算叠加位置→渲染虚拟物体等这一切都必须在眨眼之间发生，这样用户才不会感到任何延迟。

例如，在水杯的例子中，我们的头部可能一直在移动。

当我们的头部移动时，我们看到的水杯应该保持在桌子上的原始位置。

而如果系统延迟过大，我们看到的水杯的位置可能永远都是错误的，大脑就会再次混乱。

这对于透明 AR 来说尤其具有挑战性，因为我们几乎没有延迟地直接看到现实世界，而虚拟物体的渲染必须能够跟上这个速度才能显得自然。

在视频叠加中，不存在这样的问题，因为我们看到的现实世界视频已经是延迟的，因此叠加在其上的对象更容易与其保持同步。

7.激光Magic Leap之前的技术专利是利用激光直接击中人的眼睛。

虽然说是安全的，但并没有确切的科学证据。

所以用户接受度是一个问题，很多人一听到这个可能就望而却步了。

说了这么多，下一代移动人机交互界面什么时候才能完成呢？我个人觉得至少需要5年，甚至更长的时间才能做出一个人们喜欢的版本。

因为上面列出的每一个挑战仍然需要大量的努力来解决。

目前很多还没有达到量变的阶段（只是需要优化），而是需要有一个大的质的飞跃。

因此，路还很长很长。

但既然这是计算机发展的必然方向，我们拭目以待吧。

上一篇：调查发现，近30%的可穿戴设备在使用后被用户抛弃

下一篇：前置镜头可拍摄出色的自拍照，华为nova3比vivo X21更懂消费者

为什么 Magic Leap 和微软要制造 AR 眼镜！关于原理和挑战相关文章