当前位置: 首页 > 科技赋能

为什么 Magic Leap 和微软要制造 AR 眼镜!关于原理和挑战

时间:2024-05-22 19:34:55 科技赋能

Magic Leap 和 HoloLens 是什么? Magic Leap和HoloLens都是增强现实(AR)眼镜的代表。

AR和VR眼镜有什么区别? AR眼镜是透明的,可以让你同时看到现实世界和叠加在其上的虚拟成像。

应用示例:无法参加 Lady Gaga 的演唱会?没关系,戴上眼镜,她会在你家里打开一副。

代表产品原型:Magic Leap 和微软的 HoloLens。

VR眼镜是不透明的,只显示虚拟世界,完全遮挡物理世界。

应用实例:你坐在家里就可以去塔希提岛“潜水”。

代表产品:三星Gear VR、Google Cardboard、Oculus Rift。

Magic Leap 和微软为何要打造 AR 眼镜?总的来说,这是计算机发展的必然趋势。

自2008年苹果推出iPhone以来,手机发展迅速,用户随时随地随身携带,所有使用数据毫无疑问超越了PC。

因此,人机交互界面的未来主要在于移动端。

但目前手机的局限性是:(1)由于屏幕需要方便携带,所以屏幕必须做得很小。

如果屏幕小,某些功能肯定会受到限制; (2)显示屏幕是平面的,即二维的,而现实世界是三维的。

未来AR眼镜有望实现重大突破,即不仅可以由用户携带,在眼前显示大屏幕,还可以将逼真的3D内容渲染到现实世界中。

看到(想象你坐在教室里听讲座),你的老师看起来很真实,但实际上是你眼镜上的虚拟代表)。

这样的眼镜可能不会完全取代手机,但毫无疑问潜力是巨大的。

与VR相比,AR的应用场景更广泛(你不能只戴着VR头盔走在街上)。

本质上,AR 是 VR 的超集。

镜头前一站就变成VR(前提是视角可以差不多大)。

戴眼镜这么麻烦,不如像《星球大战》那样在空中展示全息图呢?全息术是人类的美好愿景。

也许有一天会实现,但在不久的将来实现还为时过早。

现在有一些大学实验室在研究裸光场显示,但它们需要复杂、笨重且昂贵的设备,而且只能在安装的地方使用。

相对来说,眼镜可行得多。

如果能够做出轻薄的AR眼镜,那将是移动人机交互界面和计算机发展的重大创新。

在 VR 头盔上添加前置摄像头难道不会使其成为 AR 吗?为什么它必须是透明的?好问题。

说到这里,AR 有两种类型。

一是上面提到的透明AR(光学透视)——通过镜头直接看到现实世界。

另一种是“视频透视或视频叠加”——通过相机捕获现实世界,然后将其作为视频呈现给用户(在顶部渲染一些内容)。

事实上,手机和平板电脑上已经出现了很多视频叠加应用,比如看星空、要求翻译、选择家具等。

那么为什么不使用VR头盔和摄像头来实现这种AR呢?当然可以,许多 VR 耳机现在都在尝试这种方法。

与透明AR相比,它有自己的优点和缺点。

例如,优点是利用视频进行虚拟与现实的叠加,比透明AR简单得多,这也是它开始在移动端商用的原因。

但弊端可想而知。

毕竟用户看到的只是2D视频,质量与眼睛直接看到的世界还是有很大区别的。

而且,从视频采集到显示总是存在延迟。

如果与体感信号不一致,就会引起身体不适。

所以不管怎么样,还是会有公司陆续在做透明AR。

Magic Leap 和 Microsoft HoloLens 就是例子。

Magic Leap为何如此牛逼,能融资5.42亿? (最新C轮融资8亿)前面提到的无穷无尽的应用潜力绝对是一个助力,还有技术、创始人、团队。

Magic Leap的核心技术来自华盛顿大学前研究员Brian Schowengerdt。

他的导师埃里克·塞贝尔(Eric Seibel)是光纤扫描内窥镜方面的专家。

大家都知道,医生在手术过程中使用内窥镜对身体进行成像。

它本质上是一个微型相机。

Brian巧妙地反转了光路,并将这项技术应用到显示器上,使得激光可以通过极细的光纤产生彩色图像(如图所示)。

这项技术已于十多年前发表,此后不断改进,取得了多项专利。

Magic Leap 很大程度上基于 Brian 的这些专利。

那么为什么这项技术很重要呢?稍后我们将把它作为一个特殊问题。

然而,仅仅精通技术是不够的。

想要做好AR眼镜这样的事情,可想而知必须投入巨大的人力物力,而且必须在软件和硬件上都有重大突破。

苹果、微软和谷歌等公司可能有财力做到这一点,那么为什么他们会相信一家小型初创企业可以做到这一点呢?我认为犹太创始人罗尼·阿伯维茨(Rony Abovitz)发挥了重要作用。

Rony 曾是 MAKO Surgical 的联合创始人。

知道这家公司的人不多,但他们做的事情至少可以说是可怕的——他们做机器人手术,主要是骨科手术中的精确定位。

这听起来很科幻、很未来,但它成立于2010年,2017年上市,2008年以16.5亿美元的价格卖给史赛克医疗。

如果他不能因为这样的业绩获得投资,谁能呢?除了创始人和CEO之外,团队也不在涵盖之列。

计算机视觉部分吸引了加里·布拉德斯基(Gary Bradski)和让-伊夫·布盖(Jean-Yves Bouguet)等大牌人物。

我们合作的维塔工作室是好莱坞的一家电影特效公司,《指环王》就是他们做的。

所以Magic Leap用来吸引投资的概念视频就像一部迷你电影。

现在回到之前的问题,为什么Magic Leap的光场显示技术很重要?首先,它基于极细的光纤,这使得眼镜可以做得又薄又轻。

但更重要的是,Brian证明了这项技术不仅可以投影2D图像,还可以显示光场。

现代近视眼镜实现3D的主要技术有两种:Stereooscopy(中文译为“立体”,但不够精确)和Light Field。

立体眼镜早已商业化(例如所有 3D 影院中使用的眼镜,以及市场上几乎所有 AR 和 VR 眼镜/原型 - 包括 Microsoft HoloLens、Epson Moverio、Lumus DK-40、Facebook Oculus - 都是立体的)。

而 Light Field 在实验室中仍处于原型状态(Magic Leap 可能是最好的)。

什么是立体 3D?当光场不够好时,为什么还要使用光场呢?什么是光场?   立体 3D 是假 3D。

3D 图像比 2D 图像多一维。

这个维度就是深度。

看过3D电影和2D电影的同学都知道,感官上有明显的区别(只有少数双盲的人看不到)。

我们都知道,人眼感知景深的机制有很多种,包括单目和双眼。

单眼可以感知的景深信号有很多,例如:一个物体遮挡另一个物体(遮挡)、熟悉物体的大小(相对大小/高度)、物体运动的变化(远距离)物体变化缓慢,近距离物体变化快,即运动视差)。

在此基础上,双眼的景深信号也很强(所以在古代我们可以更好地判断对面的老虎或鹿有多远)。

两只眼睛看到的同一场景会略有不同,这使得大脑可以通过三角测量来获得物体的深度。

立体3D就是利用这个原理向双眼显示不同的画面(如下图)。

它们非常相似,仅在水平方向上略有不同。

这两张照片拍摄时是用两台相机并排拍摄的,以模拟人眼的位置。

现在的3D电影都是基于这个原理。

但这样的立体 3D 有什么问题吗?简单来说,它会给使用者带来身体不适,例如头晕、恶心等,为什么呢?这涉及到人眼的一个有趣的机制。

当我们看现实世界中的物体时,我们的眼睛实际上有两种自然反应:(1)调节/聚焦。

眼睛的晶状体就像凸透镜。

它调整凸度以使物体在我们的视网膜上清晰地成像。

(2)“趋同”。

当每只眼睛聚焦时,两只眼球也会旋转运动以共同指向物体。

当然,这两种反射运动是神经耦合的,这意味着其中一个运动会自动触发另一个运动。

这也意味着,当人眼观看真实物体时,焦点和会聚之间的距离始终相等(会聚距离=调节距离,见下图A)。

那么立体 3D 的问题就来了。

因为立体的投影距离总是固定的(即调节距离不变),而图像的视差会导致眼睛在不同的距离(聚散距离)处会聚,产生3D景深效果(参见下图B)。

因此,这两个距离往往不一致(聚散距离≠调节距离),这会导致这两个神经连接的运动被强行分开(神经解耦)。

从另一个角度来看,在自然世界中,当人眼聚焦并会聚于某个物体时,其他距离的物体应该是模糊的(下图C)。

在立体 3D 中,无论人眼聚焦在何处,其他距离的物体都可以清晰成像(下图 D)。

这些都不符合人眼自然界的规律,因此大脑会出现混乱,长时间可能会出现恶心、头晕等症状。

所以Stereooscopy其实是用了一个小技巧,让人们看到3D的效果,但它并不是真正的3D。

Light Field(光场)是真正的3D光场显示。

与立体3D相比,一个很大的区别是它能够将人眼聚焦到不同的距离,从而与会聚距离保持一致。

这是最符合人眼对自然世界观察的方式,因此被称为true-3D。

可以想象,要实现这样的光场显示并不是那么简单。

目前主要有两种方法:空间复用和时间复用。

“空间复用”简单来说就是将一个像素视为多个块,以实现不同的对焦距离。

Nvidia 在 SIGGRAPH 上展示的原型机就属于这一类。

这种方法最大的问题是分辨率大大降低。

我试过一次,基本上是雾里看花。

“时间复用”就是利用高速原片快速产生不同的对焦距离,让人以为它们是同时产生的。

这样做的好处是分辨率不会丢失。

众所周知,人眼的速度感知是有限的。

很多显示器都是60Hz,因为人眼所能辨别的分辨率极限一般是60Hz(在一些游戏等高速内容中可能会达到90Hz)。

这意味着,如果利用高速显示Hz,您可以实现6种不同的对焦距离。

研究表明,采用6个焦距加上线性混合渲染算法,基本上可以实现人眼从30厘米左右到无限远的自然对焦。

Magic Leap 使用什么样的技术?其最近演示中使用的技术尚未公开,但很可能是基于 Brian 的高速激光光纤扫描(扫描光纤)技术,这也是一种时间复用方法。

Brian首先尝试仅使用一根光纤来扫描不同的聚焦距离。

这显然需要太高的速度。

后来,他使用了光纤束/阵列,例如16根光纤。

每根光纤都有轻微的位置差异,然后在不同焦距下同时扫描结果。

由于真实系统的限制,这样的光场不能是连续的,并且都是下采样的。

然而,即使这样的光场投射到眼睛中,理论上它与从现实世界物体进入眼睛的光是一样的,因此可以实现true-3D。

回到最初的问题,这就是为什么 Magic Leap 的技术很重要。

现在你明白为什么 Rony 说“HoloLens 让人生病了”吧?透明AR眼镜面临哪些挑战? 1、首先,很难实现近眼场显示。

除了Magic Leap之外,现在的公司还使用古老的Stereooscopy 3D方法。

如果用户长时间佩戴,会感到困倦、头晕、恶心。

Magic Leap使用的近眼显示技术理论上是健全的,但现实中仍然存在很多问题需要解决。

例如: 系统尺寸:Magic Leap 尚未发布其原型机的照片。

据报道,它仍然有冰箱那么大,距离可穿戴还有很长的路要走。

光场采样:既然是采样,就一定会有损失,比如对比度、清晰度等。

我们如何才能最佳地采样?聚焦与会聚(调节-聚散匹配):即使焦距正确,也要确保会聚距离始终与之一致。

Magic Leap目前的演示视频只是用一只眼睛拍摄的,没有证据表明他们很好地解决了双眼问题。

室外展示:现在大家的演示都在室内。

当用户在户外时,阳光的强度比显示光的强度高几个数量级。

至少镜头需要有自动调光技术。

捕捉内容:虽然现在可以使用计算机图形进行演示,但未来的应用肯定需要相机捕捉内容,而且光场拍摄本身还有很多问题需要解决。

散热:这是一个很容易被忽视的问题。

当谷歌眼镜问世时,有人说用它在脸上感觉就像要烧伤一样。

目前还没有证据表明 HoloLens 和 Magic Leap 的眼镜可以长时间保持凉爽。

  2。

镜头近眼显示器有两个关键部件:显示屏和镜头。

目前的AR眼镜镜片大多基于分光棱镜,例如Google Glass、HoloLens、Epson Moverio等。

如左图所示,简单的分束器具有 45 度角,将显示器产生的光线从眼镜框反射到人眼中,同时也允许来自现实世界的光线通过。

这样做既简单又便宜,但镜片很厚。

以色列公司 Lumus 开发了一种波导技术,可以使镜片变得非常薄。

不幸的是,工艺复杂,成本太高。

后来出现了一些更便宜的光导产品,但质量远不如Lumus。

因此,镜头还有很长的路要走。

它们不仅要具有大视场角,而且要薄、轻、透光性好。

他们还必须在折射/反射显示光时尽量保持光透明度。

特性并最大限度地减少光损失。

3、可视角度(FoV)和分辨率(Resolution) 可视角度直接决定用户体验。

目前很多AR眼镜的可视角度都在20°到40°之间,不少试用过HoloLens的记者都对其可视角度表示失望。

人眼的水平视角约为°,垂直视角约为°。

大视角意味着总分辨率必须很大才能覆盖它,8K*8K是最理想的。

4.遮挡(Occlusion) 前面提到,单眼深度感知的一个非常重要的信号就是物体之间的遮挡。

使用透明AR眼镜时,一个关键问题是如何实现虚拟物体与真实物体之间的遮挡。

如果真实物体在前,虚拟物体在后,则比较好办。

即自动检测真实物体的距离,然后计算虚拟物体的哪些部分需要被遮挡,使其不被渲染。

但如果另一方面,虚拟物体需要遮挡真实物体,那就没那么简单了,因为从理论上讲,真实物体的光线需要有选择地从眼镜中过滤掉。

从Magic Leap最近的演示来看,当虚拟物体明亮时,其自身的亮度自然会遮挡其后面的真实物体。

但当虚拟物体较暗时,仍然存在所谓的“重影效应”,这种现象并不一致。

自然法则可能会导致大脑混乱。

如果想要达到完全正确的遮挡效果,只能在镜头上实现实时像素级滤波机制(逐像素快门),但目前技术尚未成熟。

  5。

渲染黑色透明AR眼镜目前无法渲染黑色。

因为它最终是虚拟光和自然光的叠加。

如果你把它画成黑色,用户将看不到它,只能看到背景后面真实物体的光。

类似的深色也有这个问题。

6.延迟透明AR眼镜的另一个大挑战是延迟。

将虚拟物体叠加到真实物体上(例如将虚拟水杯放在真实桌子上)涉及一系列计算:检测真实物体→计算其空间位置和方向→计算叠加位置→渲染虚拟物体等这一切都必须在眨眼之间发生,这样用户才不会感到任何延迟。

例如,在水杯的例子中,我们的头部可能一直在移动。

当我们的头部移动时,我们看到的水杯应该保持在桌子上的原始位置。

而如果系统延迟过大,我们看到的水杯的位置可能永远都是错误的,大脑就会再次混乱。

这对于透明 AR 来说尤其具有挑战性,因为我们几乎没有延迟地直接看到现实世界,而虚拟物体的渲染必须能够跟上这个速度才能显得自然。

在视频叠加中,不存在这样的问题,因为我们看到的现实世界视频已经是延迟的,因此叠加在其上的对象更容易与其保持同步。

7.激光Magic Leap之前的技术专利是利用激光直接击中人的眼睛。

虽然说是安全的,但并没有确切的科学证据。

所以用户接受度是一个问题,很多人一听到这个可能就望而却步了。

说了这么多,下一代移动人机交互界面什么时候才能完成呢?我个人觉得至少需要5年,甚至更长的时间才能做出一个人们喜欢的版本。

因为上面列出的每一个挑战仍然需要大量的努力来解决。

目前很多还没有达到量变的阶段(只是需要优化),而是需要有一个大的质的飞跃。

因此,路还很长很长。

但既然这是计算机发展的必然方向,我们拭目以待吧。