当前位置: 首页 > 科技观察

康奈尔计算机学院院长KavitaBala:什么是“Metaverse”?上帝之眼可能是通过人工智能诞生的

时间:2023-03-16 20:27:46 科技观察

我这些年的研究主要集中在视觉外观和理解上,从微米分辨率到世界级。在我开始演讲之前,让我给你们看一个非常有趣的例子。这部电影中主角与世界互动的视觉界面非常有趣。你可以看到当这个人在现实世界中行走时,他的可视化界面上出现了一系列的文字。主角是个车迷,所以可视化界面向他展示了丰富的汽车信息:只需一张照片,可视化界面就可以告诉你关于汽车的所有信息。我们需要在计算机视觉和视觉理解领域进行研究,以推进这项技术。主角继续走着,当你走近这些模型时,你会发现他们并不是真人,尽管他们看起来很逼真。要实现这样的技术,我们需要研究逼真外观(RealisticAppearance)。然后主角走到一个购物橱窗前,他看到了橱窗里所有的商品。这一次,他的可视化界面向他展示了里面产品的所有信息,甚至还模拟了产品佩戴的效果。主角可以在不实际接触产品的情况下体验产品。要达到我给大家看的视频效果,我们需要一种叫做“逆向图形”的技术,将产品的所有属性数字化,并与之交互。我展示这些示例是为了向您展示我们正在开发的各种技术,您已经听说过很多关于增强现实/混合现实的信息,而我刚才提到的是现在正在推动增强现实的技术。今天重点说一下里面的视觉技术。一个模型看起来真得让人分不清是真是假,那是计算机图形学领域的逼真外观;这个领域还有另外一个方向,就是给一个物体拍照,我们如何去了解这张照片中物体的所有属性;那么我们就可以在此基础上继续发展,了解世界的属性。这些是我今天要谈的三个主要话题:基于物理的视觉外观模型逆向图形World-ScaleVisualDiscovery1基于物理的视觉外观模型让我们从基于物理的图形开始。首先我想介绍一个著名的测试:Cornellboxtest,其目的是通过将渲染的场景与同一场景的实际照片进行比较来判断渲染软件的准确性。我给大家看的两张图,一张是人工渲染的,一张是真实的——其实左边是实景,右边是虚拟画面。多年的工作一直致力于创建测试无法检测为真或假的图像。但现实世界并不像康奈尔盒子里的图片那么简单。现实世界中的材质有很多种,比如这幅图中展示的布料、皮肤、树叶、食物等等。人们不断地与世界互动,判断自己所见是否真实。当我们要模拟下图左侧模型逼真的视觉效果时,如何表现这些复杂的材质是一个很大的挑战,这也是我研究多年的问题。所以我要谈谈如何正确地捕捉织物和布料的外观。先从一个问题开始,看这两张图,作为人,你一眼就能认出左边是天鹅绒,右边是一种闪闪发光的丝绸,为什么你会一眼认出呢?是什么让天鹅绒看起来像天鹅绒,又是什么让丝绸看起来不像天鹅绒而像丝绸?答案是:结构。这两种面料不仅在表面上有所不同,本质上是因为结构不同,视觉效果也不同。如果我们掌握了这种结构,我们就能捕捉到它们的视觉本质。所以我们在最初的项目中所做的是:查看这些材料的显微CT扫描。在天鹅绒的显微CT扫描中,我们可以看到天鹅绒是一种毛茸茸的材料。而蚕丝的结构则大不相同,蚕丝的交织非常紧密,经纬线形成特定的图案,正是由于蚕丝的结构,结构紧密,才赋予了蚕丝闪亮的效果。说到这里,我们会发现,只要掌握了材料的微观结构,就可以基本掌握材料的外观模型。即使材料很复杂,它仍然是一样的。一旦我们有了结构,我们就可以获得揭示光学特性的信息,比如颜色。这些信息足以让我们掌握一个完整的模型,让我们还原出这种材质逼真的视觉效果。如图所示,通过掌握两种面料的结构特性,我们成功还原了天鹅绒和真丝两种材质的视觉效果。我们做了很多关于实际推广这些模型的研究,思考这些模型在现实世界中可以有哪些应用。我们现在相信,这个工具将使工业设计师、纺织品设计师等的数字原型设计变得更容易,让设计师能够模拟真实机织织物的外观。在工业织机中,线轴上使用的是真正的纱线,加上编织图案后,工业织机会生产出右下图所示的织物,而我们要创建的现代视觉图灵测试本质上是一个完整的数字化管道,结合使用CT扫描和照片可以达到与工业织布机相同的效果。这种虚拟而逼真的视觉效果使设计师无需实际制造织物即可做出重要决定。我们实际上创建了一个低维模型和22个更直观地表示材料结构的参数。如果设计师可以使用这个工具,他们将获得更多的权力。而这22个参数会引出我要讲的第二个话题,逆图形。2InverseGraphics我们遇到的第二个问题是,有了这些模型之后,如何适配这些模型呢?这也是计算机图形学研究中的一个重要课题。让我们从光与物体表面的关系说起。当光线照射到金属表面时,光线会被反射。对于其他材质,如皮肤、食物、织物等,当光线遇到它们的表面时,光线会进入表面并与物体发生一定程度的相互作用,我们称之为次表面散射。如上图所示,判断寿司是否好吃的方法就是判断它的光泽和新鲜度。因此,如果要模拟某个物体的视觉效果,就需要了解光线照射到物体表面时会发生什么。图例:端到端管道理想情况下,我们有某种已学习的表示。拍完一张照片,我们就可以识别出照片上的物体有哪些材料属性和材料参数,我们还可以得到关于不同散射的三个已知参数:光在介质中传播的距离,它向外传播的程度,材料散射时的反照率是多少,等等。虽然我们现在有一个很好的基于物理的渲染器来模拟光如何撞击表面的整个物理过程,但我认为我们有能力创建这种管道。如果我们将基于物理的渲染器和学习到的表示结合起来得到这个端到端的管道,然后将输出图像与输入图像匹配并最小化损失,那么我们就可以得到材料属性(即最中间的材料π)。为了有效地做到这一点,我们需要有效地结合学习和物理,反转物理渲染世界的过程并试图获得逆参数。然而,形状和材料的恢复非常困难。上述过程需要渲染引擎R是可微的,最近很多研究都在研究这个问题。如果我们想要像电影中的场景一样恢复产品的视觉效果,我们需要有一个可微分的渲染管线,这意味着我们需要能够区分我们想要恢复的属性的损失。下面是一个恢复材质和几何体的例子,我们可以使用chain的方法简单的在表面的边缘进行采样,得到我们需要的信息。那么我们就可以得到一个如下图所示的还原对象视觉效果的过程。首先,我们可以用手机拍摄一系列我们想要还原的物体的图片,然后对图片进行初始化,优化材质和形状,然后通过可微渲染再次优化,最终物体可以呈现出逼真的模拟影响。可用于增强现实/虚拟现实等应用。在视觉模拟中,次表面散射是一个非常重要的现象。下图是几位艺术家的作品,叫做Cubes(方块)。这些实际上是由98种食物制成的2.5厘米正方形。98种食物中的每一种都有不同而复杂的表面,这激起了我们探索的兴趣。由于食物表面的复杂性,在恢复材料属性时必须考虑次表面散射。这方面的具体内容将在我们后面的文章中进行介绍。我们开发了一个全差分渲染管线。我们使用此管道来恢复以次表面散射为中心的材料特性。最后,我们还原了这两种水果的不同材质和形状,成功呈现了奇异果和火龙果立方体的视觉效果。图例:恢复奇异果和火龙果方块的过程在上面的研究中,我们采用了学习和物理相结合的方式,总结出以下3个要点。了解视觉现象;在还原物体的视觉效果之前,预测它们呈现的视觉效果;用户控制。3世界级的视觉发现还记得主角走在街上的电影,他看着橱窗里的商品,然后视觉界面告诉他他看到的一切吗?这就是细粒度对象识别(Fine-grainedobjectrecognition),这是计算机视觉中一个很大的研究领域。细粒度物体识别在产品识别、房地产等多个行业都有应用。图例:细粒度物体识别提供的精确信息。比如这张图,细粒度的物体识别可以看出这个人背着一个x,而这个x不是指手提包(大部分人都能分辨出来),这里的x指的是某个牌子的手提包,知识这超出了大多数普通人的能力范围。从本质上讲,我们可以通过视觉识别提供专家级的信息,甚至是多个领域的专家级信息,我认为这是一项非常令人兴奋的研究。这张照片是一个篝火炉。可能有些人仅凭视觉无法判断这个物体的用途,但是细粒度的物体识别不仅可以告诉我们这是一个篝火炉,还可以提供艺术品的名称、位置和位置。有关艺术家和设计艺术家的信息可以在这里购买。图例:宜家APP我们在宜家的增强现实APP中推出了这种使用方法。我们在增强现实应用程序中集成了视觉识别和虚拟渲染,从那时起,我们过去对视觉界面的设想逐渐变成了现实。图例:Meta的购物AIGrokNet界面以上研究其实是Meta的购物AI“GrokNet”的一部分。GrokNet的口号是让每张图片都可以购买,我和我的研究团队的目标是让每张图片都易于理解。我上面说的是一些比较基础的研究,而我们现在正在做的是前所未有的大规模收集视觉信息,包括照片、视频甚至卫星图像。这些年我们的卫星数量急剧增加,现在大约有1500颗卫星,这些卫星每天上传100TB的数据。如果我们能看懂卫星图像,那么我们就能了解整个世界的发展方向,知道世界上正在发生什么,是一个非常令人兴奋的研究方向。图例:我们能看懂世界尺度的图片吗?如果我们能从世界层面理解这幅画,那么我们就可以在这幅画上回答这些问题:我们应该如何生活?我们穿什么吃什么随着时间的推移,我们的行为发生了怎样的变化?随着时间的推移,地球发生了怎样的变化?因此,我们开始与对这些问题着迷但缺乏强大工具的人类学家和社会学家合作。与我们合作的一位人类学家对世界各地的服装如何变化的问题非常感兴趣,我们发现这个问题实际上与很多方面有关。为什么世界不同地区的人穿着不同?我们认为有几个原因:天气是一个很重要的原因,我们夏天穿得和加州人不一样,因为这里的天气比加州凉爽;参加聚会或参加体育赛事、各种活动或场合的人需要穿特定的衣服;文化差异会使世界不同地区的衣服有所不同;流行趋势也是一个影响因素。所以我们着手解决这个问题,并开始分析一组来自世界各地的大约800万张人物图像。我们发明了一个简单的识别算法来识别人们穿的是什么衣服,它包括12个属性。我们从这项研究中发现了什么?从我们的分析中,我们可以看出一些规律,比如右上角的人倾向于穿绿色的衣服,而左下角的人倾向于穿红色的衣服。通过对大数据的分析,我们发现有些数据是符合我们的假设的,比如天气确实会影响人们的着装,人们选择冬天穿厚衣服,夏天穿凉爽的衣服,这是合乎逻辑的;但在某些方面却出现了一些奇怪的数据现象,如下图所示,在芝加哥年代,有几个时间点人们选择穿绿色。这些时间点都是在每年的三月份。经过调查,原来这些时间点是芝加哥的圣帕特里克节:这是当地非常重要的节日,芝加哥人会选择在这一天穿绿色衣服。如果你不是当地人,你可能不知道这个文化活动。图注:世界各地重视的文化活动,人们会为这些活动穿上不同颜色的衣服通过识别大数据中人们的着装变化,我们可以了解当地的文化/政治活动,从而了解世界各地不同的地域文化。以上就是我们从世界的角度来理解图片信息的含义。原视频链接:https://www.youtube.com/watch?v=kaQSc4iFaxc

猜你喜欢