2月2日,Magic Leap正式表示获得阿里巴巴集团领投的约7.94亿美元融资。
算上上一轮由谷歌领投的5.42亿美元,该公司自年底以来已累计完成投资13.4亿美元,总估值约45亿美元。
作者:顾险峰,纽约州立大学石溪分校终身教授,清华大学丘成桐数学科学中心客座教授,计算共形几何创始人。
这家位于佛罗里达州的初创公司已经营业了几十年,阵容豪华,规模宏大。
但其核心技术却始终保密,极其神秘。
偶尔有几段演示视频被泄露,震惊世界,立即引起轩然大波。
那么,Magic Leap到底有哪些惊人的技术秘密呢?试图在其扑朔迷离的外表下探索科技的本质。
图1、一条巨大的鲸鱼从篮球场中央跃出!图 2. 将办公室变成游戏战场!在计算机图形学领域,三维场景渲染与演示技术的演变大致可以分为以下几个历史阶段:针孔相机、双目立体视觉、光场、数字全息。
总之,针孔相机演示技术的代表作是早期动画电影《最终幻想》,双目立体视觉的代表作是3D版《阿凡达》,光场的代表作是Magic Leap,数字全息技术是来自的场景。
图3.最终幻想:光线追踪法渲染,针孔摄像头显示技术。
图 4. 3D 版本的 《阿凡达》,双眼立体视觉。
图 5.Magic Leap、增强现实、光场技术。
图 6.星球大战,数字全息技术。
Magic Leap实现并普及了光场显示技术,这是三维场景显示技术真正的革命,获得空前的投资也是当之无愧的。
那么,什么是光场呢?这项技术是全新的吗?这项技术发展的历史背景是怎样的?还有其他以光场技术起家的公司吗?我们将在下面的讨论中逐一解释。
针孔相机 传统光学相机的理想模型是针孔相机。
在计算机图形学中,传统的渲染方法是基于这种相机模型的。
如图7所示,从相机的光学中心开始,通过成像屏幕的每个像素发射光线。
光学追踪利用几何光学的物理定律来计算该光线的颜色,即对应像素的颜色。
图 8 显示了使用光学跟踪计算的渲染图像。
在这里,我们需要观念的转变。
每个像素不是一个点,而是一条射线。
这是理解光场的关键!换句话说,照片是穿过光学中心的光线簇。
《最终幻想》 使用光学跟踪方法渲染。
图 7. 光线追踪方法中的针孔相机模型。
图 8.使用光线追踪渲染的场景。
传统的显示方式,如屏幕、LCD/LED等,都是基于传统的理念,即每个像素被视为一个点,从不同角度观看时,同一像素的颜色保持不变。
换句话说,这种显示方法丢失了光线方向的信息。
双目立体视觉 人类有两只眼睛。
当观看物体时,两只眼睛互相成像。
大脑根据两眼图像的细微差别计算出每个点的深度信息,从而获得三维感觉。
模仿人眼,我们可以使用双镜头相机来获得双目立体照片。
图 9. 双目立体相机。
图 10. 阿波罗登月计划期间拍摄的双目立体照片。
本质上,双目立体照片是来自两个光学中心的两簇光线。
3D版《阿凡达》就是根据这个原理制作的。
与单目相机相比,双目立体视觉的时间复杂度和空间复杂度加倍。
光场 - 魔盒说明 图 11. 光场魔盒说明。
我们假设一只兔子被盖在一个玻璃盒子里,然后通过玻璃盒子观察兔子。
从盒子表面的任意一点,向三维空间中的任意方向发射光线。
该光线的颜色由兔子和照明条件决定。
我们用 来表示玻璃盒,表示单位向量,并将一条射线表示为所有射线的集合。
每条光线对应一种颜色,我们将其表示为三维空间中的一个点。
因此,光场是光线空间到色彩空间的映射。
换句话说,光场是定义在光线空间上的向量值函数: 。
假设我们把玻璃盒子里的兔子移走,但是这个玻璃盒子是一个魔法盒子,光场信息被完美的保存了下来。
当我们观察这个魔盒时,所有穿过眼睛的光线都会结合起来在视网膜上形成图像。
我们可以自由改变距离和视角,兔子在视网膜上的图像也随之自然变化,甚至没有注意到兔子的消失。
所以,有了魔法盒,我们就不再需要真正的兔子了。
这个魔法盒就是兔子的光场。
在光学领域,光场是一个古老的概念。
它于2000年由微软和斯坦福学者引入计算机图形学领域,至今已经发展了20年。
尽管在学术界,人们一直在孜孜不倦地深化研究,但直到近几年才真正在工业界产生影响。
Magic Leap应该算是光场理论实际应用的巅峰之作。
光场渲染我们可以用兔子的光场来代替兔子,渲染生成各个角度的照片,这样我们就不需要建立兔子的几何模型、纹理模型和光照模型。
对于大场景、复杂光照条件、或者复杂的几何模型(如毛绒玩具)等,光场比物理数字模型更简单,或者光场比光线得到的渲染结果更真实或者更高效追踪。
我们使用光场来渲染。
这就是所谓的基于图像的渲染方法。
历史上,微软曾经发布过一款基于光场的游戏版本,类似于岛屿寻宝游戏。
所有场景均取自真实自然,非常真实,但最终却没有引起任何反响,无任何问题地结束。
光场集合 光场是光线空间中定义的函数。
光线空间是 4 维的。
传统的针孔相机只能采集二维光线簇,光场采集本来就困难。
早期的光场采集方法简单粗暴,就是采用大型相机阵列,如图12所示的二维相机阵列。
这种光场相机体积庞大、价格昂贵,无法广泛使用。
图 12. 斯坦福大学的光场相机:16x8 多相机阵列。
随着数码相机技术的成熟,针孔相机越来越小,并且可以密集集成,从而缩小了光场相机的尺寸。
然而,镜头的尺寸无法减小,如图13所示。
图13.斯坦福大学的光场相机:相机阵列。
真正的突破来自仿生学。
许多昆虫都有复眼,可以获取光场信息。
图 14.昆虫复眼:光场相机。
人类模仿昆虫,制造出类似于复眼的晶状体。
如图15所示,几十个小透镜集成在一个大透镜上。
随着光学技术的进步,人们已经制造出集成在塑料薄膜上的数千个微小透镜。
基于这个想法,斯坦福大学博士生吴仁创立了光场相机公司Lytro。
图 15. Adob??e 制作的人工复眼原型。
传统相机需要先对焦,然后拍照。
Lytro相机提出的口号是“先拍照,后对焦”。
由于Lytro相机获得的光场信息,用户可以从4D光场合成不同角度和深度的2D照片。
图 16.Lytro 相机。
婚纱摄影如图17:在同一光场照片中,我们可以将焦点集中在靠近镜头的新郎身上;我们还可以将焦点放在远离镜头的新娘身上。
图 17. Lytro 婚纱照:同一张光场照片可以聚焦到不同的区域。
左框聚焦于新郎;右框聚焦于新娘。
光场显示传统的显示方式,屏幕,LCD/LED,只保留了穿过屏幕的光线交点的几何信息和颜色信息,但不保留光线的方向信息。
屏幕是漫反射的,从屏幕上某一点发出的所有光线都具有相同的颜色,而光场显示则需要从同一点出发的不同光线具有不同的颜色,如图18所示。
光场显示很神奇Leap的核心技术。
图18.显示模式对比:左图是传统屏幕,通过一个点的所有光线颜色相同;右图是光场显示,通过一个点的不同光线有不同的颜色。
USC的光场显示南加州大学提出并生产了一种光场显示装置,如图19和图20所示。
它有一个四面透光玻璃柜。
柜子中间有一面镜子,与水平面成45度角。
机柜顶部安装有高速投影仪。
投影仪垂直向下投射,光线经镜子反射后水平射出。
与此同时,镜子高速旋转。
一个幽灵般的透明头颅悬浮在空中。
当我们绕着柜子走动时,我们可以看到头部的各个侧面,并且头部向你眨眼。
图 19.USC 光场显示,一个漂浮的人头。
图 20.USC 光场显示用于远程会议系统。
图 21.南加州大学光场显示专利图。
图21所示为该光场显示仪的原理图。
45度倾斜镜()由电机()驱动旋转。
图形处理器()生成图像并将其传输到高速投影仪()。
投影仪将图像投射到镜子上,并将其水平反射到周围环境。
这样,经过严格的同步控制,我们就显示出了三维光场。
该设备体积庞大、价格昂贵,而且高速旋转的镜子使系统稳定性较差。
任何机械振动都会影响光场显示效果。
Magic Leap 光场显示 - 手电筒讲解 Magic Leap 的核心技术是一种特殊的光场显示设备:光纤投影仪。
激光在光纤中传播并在光纤端口发射。
输出方向与光纤相切。
通过改变光纤在三维空间中的形状,特别是改变光纤端口处的切线方向,我们可以控制激光发射的方向。
这就像拿着手电筒,通过改变手电筒的位置和方向来改变输出光束的方向。
如果我们快速晃动手腕,手电筒的光束会在空中画出一个圆锥体,这个圆锥体撞击墙壁形成一个圆圈。
通过快速改变手腕抖动的幅度,我们可以控制这个圆半径的大小,从而获得覆盖一个磁盘的一系列同心圆。
如果手电筒光束的颜色发生变化,我们就会在墙上画一个彩色圆盘。
因此,通过快速摇动手电筒,我们可以获得图像或光线簇的叠加。
假设有很多人站在不同的空间位置,每个人都摇动手电筒,那么我们就得到了一个光场。
这就是Magic Leap的光场显示设备——光纤投影仪的原理。
图 22.Magic Leap 的手电筒。
图 22 显示了 Magic Leap 的手电筒。
执行器()相当于人的手腕,光纤()相当于手电筒。
致动器使纤维顶部周期性振动,纤维顶部螺旋状画出一系列同心圆。
,激光通过透镜系统输出,在空气中画出一束光线。
投影到平坦表面上会照亮圆盘。
通过同时改变颜色和强度,一根光纤利用分时技术获取图像,如图23所示。
图23.一根光纤利用分时技术获取图像。
在Magic Leap的光纤光投影仪中,有许多光纤组装成二维阵列。
每根光纤相当于一个针孔相机,二维相机阵列产生光场。
光场显示的优点与双目立体视觉相比,光场显示有很多优点。
人类获取三维深度信息有两种方式,“立体形状”和“焦点形状”。
当我们用两只眼睛看同一个物体时,同一三维空间中的点会反射到左右视网膜上的不同像素上。
我们人脑可以通过视网膜上的像素反算对应空间的光线,从而得到两条光线的交集,从而获得深度信息。
这个过程就是“立体塑造”。
当我们用每只眼睛看一个物体时,大脑会自动调整眼睛晶状体的曲率,使物体在视网膜上清晰地成像。
调整晶状体的肌肉张力可以让大脑计算出物体的深度信息,即所谓的“焦点形状”。
在观看 3D 版本的 《阿凡达》 时,我们只使用了“shape from Stereo”。
眼睛的焦距始终是固定的,因为眼睛到屏幕的距离保持不变,因此不存在“从焦点开始形状”的过程。
然而,人类经过漫长的进化过程,这两个过程自然是紧密相连的。
人为地划分它们会让人头晕。
相反,如果我们使用光场显示技术,我们既需要“立体形”又需要“焦点形”,这样观看时就不会感到头晕,光场显示技术更加自然健康。
光场显示的挑战作为一场革命的开端,Magic Leap的技术面临着诸多挑战。
最直接的就是传统显示技术只需要计算四维光场中的一个二维切片,而光场显示需要计算整个四维光场,其计算复杂度增加了几个数量级量级,这是技术瓶颈之一。
同时,机械部件的精确控制使得每根光纤能够稳定、自然地振动,并且振动模式必须与数据传输同步,并且这种振动必须不受外部噪声的影响。
这也需要令人难以置信的技术。
从数字全息光场概念提出到Magic Leap的投资狂潮已经过去了二十年,数字全息技术的发展历史更为悠久。
光场本质上是几何光学,而数字全息术是波动光学。
目前,数字全息技术日趋成熟。
随着蓝色激光的发明,彩色数字全息技术成为可能。
目前发展的瓶颈在于,首先,计算量巨大,远远超过光场计算。
其次,数字全息显示需要一种特殊的晶体,每个像素的折射率可以通过电压控制。
目前,这种光学器件仍然昂贵且尺寸较小。
我们相信,随着光场技术的广泛接受,数字全息技术也将快速发展。
光场技术的启示光场技术的历史发展让我们看到,颠覆性的技术革命往往源于基础科学和非商业功利的学术界。
一个想法通常需要几十年的时间才能在学术界成熟并成为商业界的推动力。
Magic Leap的技术突破来自于内窥镜技术的转让,由此可见跨界科研的重要性。
我期待有一天电视和电影都用光场摄像机拍摄,观众可以随意动态选择观看角度。
也许这一天还要再等二十年,也许只需要三五年。
相信在不久的将来,淘宝上的照片将被光场照片所取代,Magic Leap头盔将成为每个网购者的标配。