当前位置: 首页 > 科技赋能

让我们看看增强现实如何“自豪地微笑”

时间:2024-05-22 11:22:42 科技赋能

增强现实的发展与早期的互联网非常相似。

增强现实具有潜在的变革性,并且面临着与早期互联网相同的问题。

我们正处于技术发展的拐点:个人很难做出有影响力的决策。

我们都选择了一条为了私有产权而限制技术发展的道路,限制了技术改变生活的潜力。

本文最重要的基本假设是:无论所有权如何,在不久的将来,增强现实将无处不在、始终开放,并将像今天的智能手机一样被广泛采用。

从硬件角度来看,这可能意味着增强眼镜、隐形眼镜、汽车挡风玻璃、大脑植入物、栓剂或其他任何东西。

如果你不在这个前提下和我讨论,那么下面的内容对你没有多大帮助。

也许有一天这里会出现关于这个前提的讨论,但对我来说这个结论不再需要争论。

除了这个信念之外,我还套用尼克·博斯特罗姆的话:本文中的许多假设可能是错误的,但我不知道哪些是错误的。

无论是嵌入可穿戴设备,还是以“魔镜”或手机望远镜的形式,增强现实在部署和消费方面看起来很像早期的互联网。

主要是,消费级增强现实系统被设计为一次只能运行一个程序,而当时的互联网应用程序一次只能连接到一个系统或数据模型。

相应地,在内容创作方面,创作者必须为每个应用创建单独的内容。

如果我想为 LayarAR 平台创建内容,我必须基于他们的 UI 后端(这不是可扩展的方法),然后提供基于此目标的版本。

如果我想对 Aurasma、Wikitude 或 BrowsAR 或其他要跟踪的标记做同样的事情,我需要针对每个平台进行重新设计。

互联网的早期应用在一定程度上存在诸多局限性。

在20世纪90年代,如果你想向用户传输文件,你必须先打电话给他们,让他们准备好,启动接收程序,通过拨号连接联系对方,然后传输文件。

如果我想与他们聊天,我需要断开连接,打电话给他们,让他们启动聊天应用程序,关闭收发器,然后我就可以聊天了。

早期互联网的部分力量在于它允许任何内容在任何地方呈现。

此功能始于 HTML,TimBerners-Lee 采用了公认的标准 SGML。

不久之后,浏览器诞生了,从 2006 年基于文本的浏览器 Lynx 的出现开始。

正是这种内容和表示的分离使得创建现在称为互联网的生态系统成为可能。

正是在这样的背景下,创新的推动和标准化的出现给我们带来了现在的浏览器:它可以同时运行多个程序,拥有功能齐全的应用程序,并且被设计为独立于浏览器。

这并不是说围绕主要互联网平台进行专门设计的人们没有价值。

必须强调的是,目前的情况在某种程度上超出了对当前创作和增强现实内容的思考。

现在是一场定义最强大平台并希望它成为事实上的标准的竞赛。

通过这样做,这些早期进入者希望围绕封闭系统定义自己的市场。

但问题显然更大。

这些问题可以通过标准化网页和3D图形、建立灵活的标记语言、开放AR浏览器的SDK并使其独立于内容来解决。

达成共识将是一项挑战,但这并不是重新发明轮子,事实上他们已经在这里了。

标记语言的广泛采用是可以想象的,并且很可能会出现一个或多个与内容无关(更重要的是与硬件无关)的 AR 浏览器,就像我们现在基于屏幕的互联网内容一样。

更大的问题来自于真实增强现实应用的内容感知。

互联网上的用户输入仅限于键盘和鼠标,但 AR 应用程序有望响应我们的想法。

AR硬件必须中继AR软件的内容,并连接到系统中各种传感器的输入:视觉输入、音频输入、语音命令、地理信息等。

但是这样的系统会对信息流做什么呢?当然,您可以想象一个应用程序会处理您的位置和方向,并在耳机中进行地图标记,但我们现在有了这样的功能,而且非常无聊。

就互联网而言,通过超链接搜索可以通过文本输入来访问远程托管的内容。

用AR作为等价类比,它在“搜索”方面失败了。

就结果而言,我们在AR操作中没有鼠标。

搜索中的所有输入都是视觉和传感器数据,而不是仔细输入的文本信息。

所以超链接通常不起作用。

从最一般的意义上来说,AR 搜索是使我们的大脑思维与信息保持一致的第一步。

听起来很简单吗?并非如此。

教授机器语义 教授机器识别它所看到的内容涉及一百万个问题。

我不会将它们全部列出,部分是因为我没有资格,还因为本文不直接涉及机器学习和计算机视觉。

这是一个关于未来的重要难题。

当机器能够识别事物、特定实例、位置以及与用户关系密切的其他人时,这就是 AR 的未来。

当 AR 系统解决它看到的问题时,这可能会产生一系列对刺激的反应,导致系统实际上为您的周围环境添加新的场景。

例如,当指向我的AR隐形眼镜时,它会收集一些颜色信息,可能是一些深度信息(3D),一些尺度信息(上下文),地理信息,声音,温度,海拔等,然后根据这些识别物体的信息。

目前,小规模的作者驱动的AR系统需要内容创作者在创作时输入3D模型和2D文本。

此时,应用程序将搜索输入视频流以查看数据库中的哪些项目与这些对象的文本匹配。

当它能够识别出一个时,它会给出一个设计好的响应。

这些响应是有限的,在大多数情况下会覆盖或识别预定义空间关系中的视频或 3D 内容。

为了理解当前系统固有的问题,增强现实响应和输入之间的对应关系由个别作者决定。

让我们看看这个封闭系统中的这些案例,其中有很多利益相关者。

根据我们的假设,未来独立于内容的 AR 浏览器将在各种硬件上运行。

当我们看到可乐瓶时会发生什么?首先,这里会有很多光泽,下面会有更多光泽,系统就像我们的大脑一样,会识别出这个罐子并说:“这里有一些东西给你,在可乐罐的类别中,也许甚至更多的信息,比如凹陷的、开封的、亚特兰大生产的、11月过期等等。

更重要的是,这是一个比现在的文本检索更抽象、更强大的符号标识。

最近的例子是,Google发布了CloudVision API,它使用机器学习方法进行图像识别,这与 Google Goggles 过去所做的非常相似,为实际图像添加标签,为地图添加坐标,并执行人脸识别和 OCR 来叠加这些识别,并配对置信度分数,通过 RestAPI 的反馈,开发人员可以利用 Google 确定内容图像的能力,随着系统被赋予更具体的项目,甚至对世界上的名称链接进行分类,图像识别功能得到进一步扩展。

比如连接WordNet和ImageNet。

无论实施如何,我们都会做出一个关键决定:当系统识别出可口可乐的存在时,接下来会发生什么?显示什么?记住,这些系统以后都被广泛使用了,难道不应该发生什么事情吗?可口可乐广告突然显得生动起来。

也许是可乐瓶上显示的 AR 效果,或者是一群美丽的家庭成员以 3D 形式聚集在一起,用自己的可乐瓶向您致敬?或者百事可乐广告出现在前面,掩盖了可口可乐品牌?我可以运行 AR 广告拦截插件吗?或者购买一项服务来减少节目的赞助内容?当我参观时代广场并抬头看到三星广告牌时,我看到的是“真正的”广告牌吗?周围人的脸色又如何呢?您正在阅读屏幕上的文字吗?公寓里的墙壁?你可以获取图片。

问题的复杂性在于弹出屏幕可能不安全。

如果我开的是公交车,那么这些事情的解释就不是言语那么简单了。

这些复杂的因素可以极大地影响我们的行为。

问题在于语义,或者从更大的意义上说,在于我们所拥有的网络的符号学。

与涉及环境中物体的含义等更复杂的问题相比,让系统识别符号似乎有点微不足道,而且这背后还存在知识产权问题。

而当网络空间的所有权和知识产权结合起来时,所产生的问题远比其他方面要多。

这会逐渐变得丑陋。

声音问题 对于关注的人来说,这个问题可能听起来很熟悉。

DNS 的基础是由位于美国的非营利组织 ICANN 管理的广泛采用的协议。

它拥有URL语义的独家解释权,也对应于互联网协议空间。

它没有什么独特之处。

这成为互联网的基础,创建了通用文本的白皮书。

由于其与现实生活中商标、产权等案件的相似性,互联网协议可以基于它来解决问题。

不过,我并不认为这些涉及商标、知识产权领域、隐私纠纷的事情会轻易延伸到VR领域。

所有权问题的发言权和很多事情一样,背后都有一些共同利益,最终通过律师的主导和游说落入私人手中。

这不需要我过多解释,但这并不是最好的结果。

但要做到这一点,系统的设计需要依赖一个拥有发言权和背后有利润动机的中央权威。

DNS 并没有发生类似的情况,因为没人意识到担任 ICANN 席位会带来多大价值,直到为时已晚。

这并不意味着它不会发生,而且有人猜测微软对生产 AR 硬件的兴趣可能会超出设备本身的利润。

这不是他们玩的游戏。

他们和 MagicLeap 希望拥有自己的传输管道,从生产到内容再到分发的所有内容都可以通过该管道进行。

您可以对 Google 最新的简历服务做出类似的假设。

这给我们带来了技术背后的支持,一个不依赖文本、传感器驱动、上下文感知、始终运行的消费端AR系统。

解决这些问题非常重要。

第一个做到这一点的人或许就能获得圣杯。

没有键盘的操作系统就像谷歌的演示一样。

一个可以运行各种任意代码的浏览器与操作系统没有太大区别。

就像某些操作系统需要 Windows 管理来确保 GUI 运行良好一样,我们的 AR 系统也确保内容以良好的方式显示,同时考虑到我们的偏好和大脑传感器的带宽。

例如,您在开车时听《纽约时报》会非常舒服,即使您视野的角落里有一个小的视频聊天窗口。

但当你在高速公路上行驶时,你就不再想要任何东西了。

相反,当您在家时,您可能会愿意接受更身临其境的体验,但您也不希望弹出一个窗口,提示您该支付煤气费了。

在用户定义的上下文中,这有点像当今智能手机中的权限。

我们可以让特定的应用程序引起我们的注意,并且在某些情况下警报会弹出在我们的屏幕上。

这是一个开始,特别是因为某些浏览器本身可以提供通知和权限设置,这也是常见的操作系统功能。

无论输出问题如何,操作系统任务如何从传感器接收输入和上下文信息?别忘了我们没有键盘和鼠标。

我们都通过自己对世界的感知来驱动这个系统。

两种方法:正如我们长期以来期望电影CGI的智能能够超越实时系统所能提供的那样,它将继续超越用户端系统掌握视觉处理和任务搜索来感知我们周围世界的能力满足我们对速度和准确性的需求。

带宽预期持续增长。

这意味着我们的设备部署在低延迟、高带宽连接上。

它们将通过刺激和上下文理解来响应用户的状态、联系人、历史记录、偏好和习惯,就像今天的设备和互联网一样。

由于这些限制,迄今为止所有可能的方法都是相同的。

返回结果的性质可能会出现问题,而问题的核心在于所有权和利润的动机。

在AR生态系统中,识别服务由非营利或其他中立的实体组织提供,服务器会不断吸收这些信息流,并从提供的分散的连接刺激中进行推理。

这是一辆自行车。

那是鹰街。

那是你的朋友威利。

那是西方。

这是一辆卡车。

那是那条街。

这是石头。

这是一个交通灯,而且是绿色的。

这些离散的令牌集合作为世界的令牌通过管道返回到硬件,然后准备在用户的应用程序中进行解释。

这意味着刺激识别和增强现实解释可以通过用户端代码连续执行,就像现在的互联网一样。

在物理分布式网络中,同一组织将由一些广泛连接、商定的 DNS 控制。

至关重要的是,这意味着识别和解释的任务是分开的。

当然,这样的处理能力对供应商来说意味着巨大的成本,无论是开发费用还是运营费用。

因此,供应商必须能够以某种方式收回成本。

就 ICANN 而言,这项服务是通过非营利组织提供的,目前看来运作良好。

它收取象征性的注册费,并且最近拍卖了一些顶级域名。

我们正在讨论的系统类型并不是简单地基于 DNS 根名称服务器开发或维护的。

如上所述,作为非营利组织,仍然很难准确定义可以出售什么。

即使有非常大众化的深度学习工具,GPU 集群也不便宜,而且带宽也不是免费的。

我们不难想象,识别服务将几乎被少数谷歌规模的公司垄断。

这些提供识别服务的公司将寻求垂直整合,并与消费者的硬件和软件服务紧密连接,就像我们现在在智能手机、游戏机和阅读器中看到的那样。

一旦闭环闭合,就很难阻止供应商向价格最高的公司提供前所未有的用户访问权限。

这可能意味着任何金额,优先考虑有关产品、地点和人物的赞助商内容,甚至是特定的文本,例如当您查看汽车引擎盖下的内容时,如何维护它的手册或零售产品评论。

想象一下一家拥有惊人财力的公司,它完全控制着一个永远在线的视觉系统,嵌入了成千上万消费者的注意力范围内。

至少,你现在可以停止看电视广告了。

想象一下,当这些应用程序掌握在追求利润的公司手中或处于分布式生态系统中时,会有什么不同。

以微软为例,哈里斯确认,微软对于HoloLens平台的意图是通过服务器同步所有用户的体验。

这些多用户体验是一种共同的幻觉,这可以导致 AR 的广泛使用。

服务器端应用程序和预渲染内容将进一步加强垂直整合,避免到处对客户端进行逆向工程或“越狱”,并将客户端硬件变成简单的哑终端,并将其作为免费服务分发。

如果我们一起做,我们就会拒绝:国王、总统和投票。

我们相信:共识和运行代码。

除了最坚定的自由主义者之外,我们不得不承认,利润动机与垄断的结合可能会导致非常糟糕的事情。

除了最左翼分子之外,我们不得不承认,越是现代化、越复杂的制度,就越不适应政府提供的服务。

这些最近骄傲自夸的政客也表现出了对互联网知识的缺乏。

即使像ICANN这样的非政府、非营利组织来监管身份识别任务,我们也会遇到微妙的情况,审查制度、文化规范、禁忌、地缘政治冲突、政府、警察,远远超过谷歌在世界各地遇到的情况。

迎接无尽的挑战。

这是一场永无休止的战斗,没有更高的权威来仲裁争端。

有观点认为,识别问题的规模表明,唯一可行且可扩展的解决方案将依赖于用户输入的逐渐增加,类似于reCAPTCHA中的分布式OCR项目。

在深度学习技术出现之前,语音识别和计算机视觉问题过于复杂且难以操作。

这些早期的方法试图将复杂的识别问题分解为更小的、不相关的任务。

深度学习虽然更加自主,但仍然需要大量、正确标记的数据集,这需要培养现实世界的经验。

这意味着人类需要首先对此进行标记,这一努力甚至可能超越财力最雄厚的实体。

最近深度学习在各个领域取得的成功是一个提醒,但寻找合适的培训材料仍然是一个障碍。

即使有正确的组织,训练一个识别系统来响应各种任务,数据中心也不便宜,而且除了维基百科,我们还没有看到任何可以在年轻网络中实现的大规模自组织任务。

案件。

这不是找人买单的问题,而是要有人来驾驶这艘船。