Magic Leap 和 HoloLens 是什么? Magic Leap和HoloLens都是增强现实(AR)眼镜的代表。
AR和VR眼镜有什么区别? AR眼镜是透明的,可以让你同时看到现实世界和叠加在其上的虚拟成像。
应用示例:无法参加 Lady Gaga 的演唱会?没关系,戴上眼镜,她会在你家里打开一副。
代表产品原型:Magic Leap 和微软的 HoloLens。
VR眼镜是不透明的,只显示虚拟世界,完全遮挡物理世界。
应用实例:你坐在家里就可以去塔希提岛“潜水”。
代表产品:三星Gear VR、Google Cardboard、Oculus Rift。
Magic Leap 和微软为何要打造 AR 眼镜?总的来说,这是计算机发展的必然趋势。
自2008年苹果推出iPhone以来,手机发展迅速,用户随时随地随身携带,所有使用数据毫无疑问超越了PC。
因此,人机交互界面的未来主要在于移动端。
但目前手机的局限性是:(1)由于屏幕需要方便携带,所以屏幕必须做得很小。
如果屏幕小,某些功能肯定会受到限制; (2)显示屏幕是平面的,即二维的,而现实世界是三维的。
。
未来AR眼镜有望实现重大突破,即不仅可以由用户携带,在眼前显示大屏幕,还可以将逼真的3D内容渲染到现实世界中。
看到(想象你坐在教室里听讲座),你的老师看起来很真实,但实际上是你眼镜上的虚拟代表)。
这样的眼镜可能不会完全取代手机,但毫无疑问潜力是巨大的。
与VR相比,AR的应用场景更广泛(你不能只戴着VR头盔走在街上)。
本质上,AR 是 VR 的超集。
镜头前一站就变成VR(前提是视角可以差不多大)。
戴眼镜这么麻烦,不如像《星球大战》那样在空中展示全息图呢?全息术是人类的美好愿景。
也许有一天会实现,但在不久的将来实现还为时过早。
现在有一些大学实验室在研究裸光场显示,但它们需要复杂、笨重且昂贵的设备,而且只能在安装的地方使用。
相对来说,眼镜可行得多。
如果能够做出轻薄的AR眼镜,那将是移动人机交互界面和计算机发展的重大创新。
在 VR 头盔上添加前置摄像头难道不会使其成为 AR 吗?为什么它必须是透明的?好问题。
说到这里,AR 有两种类型。
一是上面提到的透明AR(光学透视)——通过镜头直接看到现实世界。
另一种是“视频透视或视频叠加”——通过相机捕获现实世界,然后将其作为视频呈现给用户(在顶部渲染一些内容)。
事实上,手机和平板电脑上已经出现了很多视频叠加应用,比如看星空、要求翻译、选择家具等。
那么为什么不使用VR头盔和摄像头来实现这种AR呢?当然可以,许多 VR 耳机现在都在尝试这种方法。
与透明AR相比,它有自己的优点和缺点。
例如,优点是利用视频进行虚拟与现实的叠加,比透明AR简单得多,这也是它开始在移动端商用的原因。
但弊端可想而知。
毕竟用户看到的只是2D视频,质量与眼睛直接看到的世界还是有很大区别的。
而且,从视频采集到显示总是存在延迟。
如果与体感信号不一致,就会引起身体不适。
所以不管怎么样,还是会有公司陆续在做透明AR。
Magic Leap 和 Microsoft HoloLens 就是例子。
Magic Leap为何如此牛逼,能融资5.42亿? (最新C轮融资8亿)前面提到的无穷无尽的应用潜力绝对是一个助力,还有技术、创始人、团队。
Magic Leap的核心技术来自华盛顿大学前研究员Brian Schowengerdt。
他的导师埃里克·塞贝尔(Eric Seibel)是光纤扫描内窥镜方面的专家。
大家都知道,医生在手术过程中使用内窥镜对身体进行成像。
它本质上是一个微型相机。
Brian巧妙地反转了光路,并将这项技术应用到显示器上,使得激光可以通过极细的光纤产生彩色图像(如图所示)。
这项技术已于十多年前发表,此后不断改进,取得了多项专利。
Magic Leap 很大程度上基于 Brian 的这些专利。
那么为什么这项技术很重要呢?稍后我们将把它作为一个特殊问题。
然而,仅仅精通技术是不够的。
想要做好AR眼镜这样的事情,可想而知必须投入巨大的人力物力,而且必须在软件和硬件上都有重大突破。
苹果、微软和谷歌等公司可能有财力做到这一点,那么为什么他们会相信一家小型初创企业可以做到这一点呢?我认为犹太创始人罗尼·阿伯维茨(Rony Abovitz)发挥了重要作用。
Rony 曾是 MAKO Surgical 的联合创始人。
知道这家公司的人不多,但他们做的事情至少可以说是可怕的——他们做机器人手术,主要是骨科手术中的精确定位。
这听起来很科幻、很未来,但它成立于2010年,2017年上市,2008年以16.5亿美元的价格卖给史赛克医疗。
如果他不能因为这样的业绩获得投资,谁能呢?除了创始人和CEO之外,团队也不在涵盖之列。
计算机视觉部分吸引了加里·布拉德斯基(Gary Bradski)和让-伊夫·布盖(Jean-Yves Bouguet)等大牌人物。
我们合作的维塔工作室是好莱坞的一家电影特效公司,《指环王》就是他们做的。
所以Magic Leap用来吸引投资的概念视频就像一部迷你电影。
现在回到之前的问题,为什么Magic Leap的光场显示技术很重要?首先,它基于极细的光纤,这使得眼镜可以做得又薄又轻。
但更重要的是,Brian证明了这项技术不仅可以投影2D图像,还可以显示光场。
现代近视眼镜实现3D的主要技术有两种:Stereooscopy(中文译为“立体”,但不够精确)和Light Field。
立体眼镜早已商业化(例如所有 3D 影院中使用的眼镜,以及市场上几乎所有 AR 和 VR 眼镜/原型 - 包括 Microsoft HoloLens、Epson Moverio、Lumus DK-40、Facebook Oculus - 都是立体的)。
而 Light Field 在实验室中仍处于原型状态(Magic Leap 可能是最好的)。
什么是立体 3D?当光场不够好时,为什么还要使用光场呢?什么是光场? 立体 3D 是假 3D。
3D 图像比 2D 图像多一维。
这个维度就是深度。
看过3D电影和2D电影的同学都知道,感官上有明显的区别(只有少数双盲的人看不到)。
我们都知道,人眼感知景深的机制有很多种,包括单目和双眼。
单眼可以感知的景深信号有很多,例如:一个物体遮挡另一个物体(遮挡)、熟悉物体的大小(相对大小/高度)、物体运动的变化(远距离)物体变化缓慢,近距离物体变化快,即运动视差)。
在此基础上,双眼的景深信号也很强(所以在古代我们可以更好地判断对面的老虎或鹿有多远)。
两只眼睛看到的同一场景会略有不同,这使得大脑可以通过三角测量来获得物体的深度。
立体3D就是利用这个原理向双眼显示不同的画面(如下图)。
它们非常相似,仅在水平方向上略有不同。
这两张照片拍摄时是用两台相机并排拍摄的,以模拟人眼的位置。
现在的3D电影都是基于这个原理。
但这样的立体 3D 有什么问题吗?简单来说,它会给使用者带来身体不适,例如头晕、恶心等,为什么呢?这涉及到人眼的一个有趣的机制。
当我们看现实世界中的物体时,我们的眼睛实际上有两种自然反应:(1)调节/聚焦。
眼睛的晶状体就像凸透镜。
它调整凸度以使物体在我们的视网膜上清晰地成像。
(2)“趋同”。
当每只眼睛聚焦时,两只眼球也会旋转运动以共同指向物体。
当然,这两种反射运动是神经耦合的,这意味着其中一个运动会自动触发另一个运动。
这也意味着,当人眼观看真实物体时,焦点和会聚之间的距离始终相等(会聚距离=调节距离,见下图A)。
那么立体 3D 的问题就来了。
因为立体的投影距离总是固定的(即调节距离不变),而图像的视差会导致眼睛在不同的距离(聚散距离)处会聚,产生3D景深效果(参见下图B)。
因此,这两个距离往往不一致(聚散距离≠调节距离),这会导致这两个神经连接的运动被强行分开(神经解耦)。
从另一个角度来看,在自然世界中,当人眼聚焦并会聚于某个物体时,其他距离的物体应该是模糊的(下图C)。
在立体 3D 中,无论人眼聚焦在何处,其他距离的物体都可以清晰成像(下图 D)。
这些都不符合人眼自然界的规律,因此大脑会出现混乱,长时间可能会出现恶心、头晕等症状。
所以Stereooscopy其实是用了一个小技巧,让人们看到3D的效果,但它并不是真正的3D。
Light Field(光场)是真正的3D光场显示。
与立体3D相比,一个很大的区别是它能够将人眼聚焦到不同的距离,从而与会聚距离保持一致。
这是最符合人眼对自然世界观察的方式,因此被称为true-3D。
可以想象,要实现这样的光场显示并不是那么简单。
目前主要有两种方法:空间复用和时间复用。
“空间复用”简单来说就是将一个像素视为多个块,以实现不同的对焦距离。
Nvidia 在 SIGGRAPH 上展示的原型机就属于这一类。
这种方法最大的问题是分辨率大大降低。
我试过一次,基本上是雾里看花。
“时间复用”就是利用高速原片快速产生不同的对焦距离,让人以为它们是同时产生的。
这样做的好处是分辨率不会丢失。
众所周知,人眼的速度感知是有限的。
很多显示器都是60Hz,因为人眼所能辨别的分辨率极限一般是60Hz(在一些游戏等高速内容中可能会达到90Hz)。
这意味着,如果利用高速显示Hz,您可以实现6种不同的对焦距离。
研究表明,采用6个焦距加上线性混合渲染算法,基本上可以实现人眼从30厘米左右到无限远的自然对焦。
Magic Leap 使用什么样的技术?其最近演示中使用的技术尚未公开,但很可能是基于 Brian 的高速激光光纤扫描(扫描光纤)技术,这也是一种时间复用方法。
Brian首先尝试仅使用一根光纤来扫描不同的聚焦距离。
这显然需要太高的速度。
后来,他使用了光纤束/阵列,例如16根光纤。
每根光纤都有轻微的位置差异,然后在不同焦距下同时扫描结果。
由于真实系统的限制,这样的光场不能是连续的,并且都是下采样的。
然而,即使这样的光场投射到眼睛中,理论上它与从现实世界物体进入眼睛的光是一样的,因此可以实现true-3D。
回到最初的问题,这就是为什么 Magic Leap 的技术很重要。
现在你明白为什么 Rony 说“HoloLens 让人生病了”吧?透明AR眼镜面临哪些挑战? 1、首先,很难实现近眼场显示。
除了Magic Leap之外,现在的公司还使用古老的Stereooscopy 3D方法。
如果用户长时间佩戴,会感到困倦、头晕、恶心。
Magic Leap使用的近眼显示技术理论上是健全的,但现实中仍然存在很多问题需要解决。
例如: 系统尺寸:Magic Leap 尚未发布其原型机的照片。
据报道,它仍然有冰箱那么大,距离可穿戴还有很长的路要走。
光场采样:既然是采样,就一定会有损失,比如对比度、清晰度等。
我们如何才能最佳地采样?聚焦与会聚(调节-聚散匹配):即使焦距正确,也要确保会聚距离始终与之一致。
Magic Leap目前的演示视频只是用一只眼睛拍摄的,没有证据表明他们很好地解决了双眼问题。
室外展示:现在大家的演示都在室内。
当用户在户外时,阳光的强度比显示光的强度高几个数量级。
至少镜头需要有自动调光技术。
捕捉内容:虽然现在可以使用计算机图形进行演示,但未来的应用肯定需要相机捕捉内容,而且光场拍摄本身还有很多问题需要解决。
散热:这是一个很容易被忽视的问题。
当谷歌眼镜问世时,有人说用它在脸上感觉就像要烧伤一样。
目前还没有证据表明 HoloLens 和 Magic Leap 的眼镜可以长时间保持凉爽。
2。
镜头近眼显示器有两个关键部件:显示屏和镜头。
目前的AR眼镜镜片大多基于分光棱镜,例如Google Glass、HoloLens、Epson Moverio等。
如左图所示,简单的分束器具有 45 度角,将显示器产生的光线从眼镜框反射到人眼中,同时也允许来自现实世界的光线通过。
这样做既简单又便宜,但镜片很厚。
以色列公司 Lumus 开发了一种波导技术,可以使镜片变得非常薄。
不幸的是,工艺复杂,成本太高。
后来出现了一些更便宜的光导产品,但质量远不如Lumus。
因此,镜头还有很长的路要走。
它们不仅要具有大视场角,而且要薄、轻、透光性好。
他们还必须在折射/反射显示光时尽量保持光透明度。
特性并最大限度地减少光损失。
3、可视角度(FoV)和分辨率(Resolution) 可视角度直接决定用户体验。
目前很多AR眼镜的可视角度都在20°到40°之间,不少试用过HoloLens的记者都对其可视角度表示失望。
人眼的水平视角约为°,垂直视角约为°。
大视角意味着总分辨率必须很大才能覆盖它,8K*8K是最理想的。
4.遮挡(Occlusion) 前面提到,单眼深度感知的一个非常重要的信号就是物体之间的遮挡。
使用透明AR眼镜时,一个关键问题是如何实现虚拟物体与真实物体之间的遮挡。
如果真实物体在前,虚拟物体在后,则比较好办。
即自动检测真实物体的距离,然后计算虚拟物体的哪些部分需要被遮挡,使其不被渲染。
但如果另一方面,虚拟物体需要遮挡真实物体,那就没那么简单了,因为从理论上讲,真实物体的光线需要有选择地从眼镜中过滤掉。
从Magic Leap最近的演示来看,当虚拟物体明亮时,其自身的亮度自然会遮挡其后面的真实物体。
但当虚拟物体较暗时,仍然存在所谓的“重影效应”,这种现象并不一致。
自然法则可能会导致大脑混乱。
如果想要达到完全正确的遮挡效果,只能在镜头上实现实时像素级滤波机制(逐像素快门),但目前技术尚未成熟。
5。
渲染黑色透明AR眼镜目前无法渲染黑色。
因为它最终是虚拟光和自然光的叠加。
如果你把它画成黑色,用户将看不到它,只能看到背景后面真实物体的光。
类似的深色也有这个问题。
6.延迟透明AR眼镜的另一个大挑战是延迟。
将虚拟物体叠加到真实物体上(例如将虚拟水杯放在真实桌子上)涉及一系列计算:检测真实物体→计算其空间位置和方向→计算叠加位置→渲染虚拟物体等这一切都必须在眨眼之间发生,这样用户才不会感到任何延迟。
例如,在水杯的例子中,我们的头部可能一直在移动。
当我们的头部移动时,我们看到的水杯应该保持在桌子上的原始位置。
而如果系统延迟过大,我们看到的水杯的位置可能永远都是错误的,大脑就会再次混乱。
这对于透明 AR 来说尤其具有挑战性,因为我们几乎没有延迟地直接看到现实世界,而虚拟物体的渲染必须能够跟上这个速度才能显得自然。
在视频叠加中,不存在这样的问题,因为我们看到的现实世界视频已经是延迟的,因此叠加在其上的对象更容易与其保持同步。
7.激光Magic Leap之前的技术专利是利用激光直接击中人的眼睛。
虽然说是安全的,但并没有确切的科学证据。
所以用户接受度是一个问题,很多人一听到这个可能就望而却步了。
说了这么多,下一代移动人机交互界面什么时候才能完成呢?我个人觉得至少需要5年,甚至更长的时间才能做出一个人们喜欢的版本。
因为上面列出的每一个挑战仍然需要大量的努力来解决。
目前很多还没有达到量变的阶段(只是需要优化),而是需要有一个大的质的飞跃。
因此,路还很长很长。
但既然这是计算机发展的必然方向,我们拭目以待吧。