当前位置: 首页 > 科技观察

AR属于人工智能吗?看完这篇文章,你就会明白_0

时间:2023-03-19 14:56:51 科技观察

AR/VR常被比作孪生兄弟,一般被视为应用层的新技术或“智能穿戴设备”。与人工智能的“算法”标签相比,AR与人工智能之间似乎有什么关系?AR是否属于我们目前认知中的人工智能?2018年3月,上海市经济和信息化委员会公布了2018年第一批全市人工智能创新发展专项支持项目。“共有19家创新企业入围,良丰泰作为AR公司,也入围了这个扶持项目。”良丰台工作人员告诉记者,这并不是AR公司第一次被归类为人工智能,但这种归类方式并不常见。据了解,本次专项由经信委和市财政局联合开展,拟支持金额超过1亿元。简单梳理一下AR的核心技术,AR(AugmentedReality),就是在现实世界中叠加虚拟信息,即“增强”现实。这种增强可以来自视觉、听觉甚至触觉。主要目的是增强感官。让现实世界和虚拟世界融合在一起。其中,对现实世界的认知主要体现在视觉上,需要摄像头以图像和视频的形式帮助获取信息和反馈。通过视频分析,实现对三维世界环境的感知和理解,比如场景的3D结构,里面有什么物体,在空间的什么位置。3D交互理解的目的是告知系统要“增强”什么。数字。典型的AR流程有几个关键点:首先是3D环境理解。要理解你所看到的,你主要依靠物体/场景识别和定位技术。识别主要用于触发AR响应,而定位是知道在哪里叠加AR内容。定位按精度还可分为粗定位和精定位。粗定位就是给一个大概的定位,比如面积,趋势。精细定位可能需要精确到点,比如3D坐标系中的XYZ坐标,物体的角度等。根据应用环境的不同,两个维度的定位在AR中都有应用需求。在AR领域,常见的检测识别任务包括人脸检测、行人检测、车辆检测、手势识别、生物特征识别、情感识别、自然场景识别等。在感知到真实的3D世界并将其与虚拟内容融合之后,需要将这种虚实融合的信息以一定的方式呈现出来,这就需要AR中的第二个关键技术:显示技术。目前AR系统大多采用透视式头盔显示器,分为视频透视和光学透视。其他代表还有光场技术(主要以MagicLeap闻名)、全息投影(经常出现在科幻影视剧中)等。AR中的第三个关键技术是人机交互,用来与叠加的虚拟进行交互信息。AR追求触摸按键以外的自然人机交互方式,如语音、手势、姿势、人脸等,更多地使用语音和手势。人工智能与AR的技术联系有几个人工智能领域经常提到的概念,比如深度学习(DL)和机器学习(ML),它们在包括人工智能(AI)在内的几大领域都有各自的含义)在学术领域。但广义上,我们常说的人工智能是广义的,涵盖了“让机器像人一样行动”的所有技术的应用方向。从这张图中,我们也可以简单的看出三者的关系。深度学习是实现机器学习的技术途径,机器学习就是让机器智能化,实现人工智能。可以说人工智能是终极目标,而机器学习则是为实现这一目标而延伸的技术方向。其中,还有一个重要的概念叫做计算机视觉(computervision,简称CV),主要研究如何让机器像人一样“看”。它是当前人工智能概念的一个重要分支。其中一种方法是视觉。目前,计算机视觉已经在商业市场发挥作用,如人脸识别;在自动驾驶中阅读交通信号并注意行人以进行导航;工业机器人用于检测控制过程中的问题;在3D环境中处理重建图像等。这些概念在一定程度上既有区别又有重叠。其中,从2006年开始,由Hinton引发的深度学习热潮开始蔓延,一定程度上导致了AI的再次崛起。近十年来,语音识别、计算机视觉、自然语言处理等诸多领域都取得了重大成就。向应用领域的突破和延伸,正在如火如荼地发展。在AR的核心技术中,3D环境理解、3D交互理解、计算机视觉、深度学习等都息息相关。3D环境理解主要对应学术界的计算机视觉领域,深度学习近年来在??计算机视觉领域得到广泛应用。在交互方面,得益于近几年深度学习在相关领域的突破,硬件终端使用手势、语音等更自然的交互方式。也可以说,深度学习在AR中的应用,主要是在视觉这一关键技术上。目前最常见的AR形式是二维图片扫描识别,在腾讯QQ-AR火炬计划、支付宝五福等大部分AR营销中,手机扫描识别图片时会出现叠加内容,但主要研究而发展方向还是在3D物体识别和3D场景建模上。真实物体以3D形式存在,具有不同的角度和空间方向。所以一个很自然的延伸就是从2D图像识别到3D物体识别,识别物体的类别和姿势,这里可以用到深度学习。以水果识别为例,它识别不同种类的水果,并给出定位区域,集物体识别和检测功能于一体。3D场景建模,从识别3D对象扩展到更大更复杂的3D区域。比如识别场景中有什么,它们的空间位置和相互关系等,这就是3D场景建模,这是AR的核心技术。这就涉及到现在流行的SLAM(实时定位与地图构建)。通过扫描某个场景,然后在其上叠加虚拟战场等三维虚拟内容。如果只是基于普通的二维图像识别,需要一张特定的图片,看不到图片就会识别失败。在SLAM技术中,即使不存在特定的平面,由于有周围3D环境的帮助,空间定位仍然非常准确。这里我想讨论一下深度学习和SLAM技术的融合。计算机视觉大致可以分为两种类型。一种是基于学习思路,如特征提取-特征分析-分类。目前,深度学习技术已经走在了这条路线的前列。性状态。另一条路线是基于几何视觉,从线、边、3D形状中推导出物体的空间结构信息。代表技术是SFM/SLAM。在基于学习的方向上,深度学习基本一统天下,但在几何视觉领域,仍然进展甚微。从学术界来看,深度学习技术的研究进展可以说是日新月异,而SLAM技术在最近十年的进展相对较小。在国际顶级视觉会议ICCV2015举办的SLAM技术研讨会上,基于近年来深度学习在其他视觉领域的快速发展,有与会专家提出了将深度学习应用于SLAM的可能性,但目前还没有成熟的想法呢。总体而言,深度学习与SLAM的融合在短期内是一个值得研究的方向,联合语义和几何信息在长期内是一个非常有价值的趋势。因此,SLAM+DL值得期待。在交互方式方面,主要有语音识别和手势识别。到目前为止,语音识别已经取得了很大的进步。国内的百度、科大讯飞、云知声等企业名列前茅。AR公司想要突破的是手势识别的成熟商业化。“良丰台展示的一套基于深度学习的手势识别系统,主要定义了上、下、左、右、顺时针、逆时针六种手势。”良丰台工作人员告诉记者。识别出相应的手势轨迹,实现对人体手势的识别。人脸识别等其他人工智能热门领域虽然也有AR应用,但并不是AR企业的重要研发方向。从上文不难看出,AR的底层技术或基础部分是计算机视觉与相关领域的融合,而目前流行的深度学习与AR的结合,也是算法的努力方向工程师。这也是AR作为计算机视觉和人机交互的交叉学科。AR的基础是人工智能、计算机视觉等说法的基础。图:计算机视觉和AR过程之间的关系。在头条去年发布的《人工智能影响力报告》中,也简单统计了人工智能科学家的分布,包括人脸识别、语音识别、机器人、AR、芯片等领域的公司和大型公司研发分布机构和高端研发人员也说明了AI领域的细分方向。那么AR是人工智能吗?对于AR从业者来说,最理想的状态是用更智能的AR终端代替智能手机。因此,对于用户来说,使用AR首先影响的是内容,其次才是终端。AR产业链大致可分为技术提供商业务、智能终端研发公司、AR内容提供商。其中,AR设备提供商不可避免地关注硬件技术,如底层芯片、电池、光学镜头等,以及硬件本身的性能优化,而内容提供商更倾向于在现有技术的基础上优化内容和性能.因此,我们可以说,AR技术的提供者,或者在底层算法的研发上取得一定成果的AR公司,就是人工智能公司。对于企业,尤其是初创企业,他们会将底层技术转化为成熟的产品或服务,可能是无人机、AR智能终端、机器人等,也可能是行业解决方案,以达到商业目的,而这已成为人们的期待和期待。沸腾后媒体、企业和公众对人工智能企业的诉求。近日,人工智能产业发展联盟(AIIA)出版的《人工智能浪潮:科技改变生活的100个前沿AI应用》一书即将面向公众发布,涵盖了当前巨头公司和创业公司的前沿商业化成果,直接反映了当前人工智能的主要商业化方向。作为一个技术驱动的商业领域,无论是AR还是人工智能的大部分其他方向,技术完全成熟还有很长的路要走。在整个产业链逐渐繁荣并着力实现商业化的同时,也需要更多的公司和组织不断拓展技术边界,建立核心竞争力,让产业爆发出更大的价值和潜力。如此一来,中国在AI时代弯道超车可期。