当前位置: 首页 > 科技赋能

人工智能与计算机视觉

时间:2024-05-22 18:18:11 科技赋能

不久前,vivo宣布成立AI全球研究院,将加大对知识图谱、自然语言、机器视觉等人工智能多个领域的投入,并开展深入研发创新技术。

过去几年,包括谷歌、微软、Facebook以及中国的百度、阿里巴巴在内的全球互联网公司加大了在人工智能领域的投入,建立了自己的人工智能研究院。

vivo是第一家设立专门研究人工智能的研究院的中国手机企业。

此举是vivo内部已制定的3-5年中长期发展战略规划。

未来人工智能发展的研究是必然趋势。

vivo创始人兼CEO沉巍曾表示,“人工智能与5G的结合将是5G时代手机的发展趋势”。

今年我们看到vivo的产品有很多创新,比如AI摄影、商用屏下指纹技术等等,这些都是基于生物识别的识别技术。

此外,还有面部、虹膜、指纹识别技术。

、声音等特征,其中大部分涉及视觉信息,体现了计算机视觉的应用。

那么什么是计算机视觉呢?计算机视觉技术的概念就像其他学科一样。

这是一个已经被很多人研究了很多年的课题,但很难给出严格的定义。

对于模式识别如此,对于当前火热的人工智能亦如此,对于计算机视觉亦如此。

与计算机视觉密切相关的概念包括视觉感知、视觉认知、图像和视频理解。

这些概念有一些共同点,但也有根本区别。

从广义上讲,计算机视觉是“赋予机器自然视觉能力”的学科。

自然视觉能力是指生物视觉系统所体现的视觉能力。

生物自然视觉无法严格定义。

此外,这种宽泛的视觉定义是“包罗万象”的,并不符合40多年来计算机视觉的研究现状。

因此,这个“计算机视觉的广义定义”是无可挑剔的。

但也缺乏实质性内容,无非是一个“循环游戏定义”。

事实上,计算机视觉本质上是对视觉感知问题的研究。

根据维基百科,视觉感知是指“在表征和理解环境时组织、识别和解释视觉信息的过程”。

根据这个定义,计算机视觉的目标是表达和理解环境。

核心问题是研究如何组织输入的图像信息,识别物体和场景,进而解释图像内容。

计算机视觉(CV)是一门研究如何让计算机像人类一样“看”的学科。

更准确地说,它是用摄像头和计算机代替人眼,让计算机能够像人类一样进行分割、分类、识别、跟踪和决策。

计算机视觉是利用计算机和相关设备模拟生物视觉。

它是人工智能领域的重要组成部分。

其研究目标是使计算机具备通过二维图像识别三维环境信息的能力。

计算机视觉以图像处理技术、信号处理技术、概率与统计分析、计算几何、神经网络、机器学习理论和计算机信息处理技术等为基础,通过计算机对视觉信息进行分析和处理。

一般来说,计算机视觉的定义应包括以下三个方面: 1. 对图像中的客观对象构建清晰且有意义的描述; 2、从一幅或多幅数字图像计算三维世界的特征; 3. 基于感知图像对物体和场景做出有用的决定。

作为一门新兴学科,计算机视觉试图通过相关理论和技术的研究,建立从图像或多维数据中获取“信息”的人工智能系统。

计算机视觉是一门综合性学科,包括计算机科学与工程、信号处理、物理学、应用数学与统计学、神经生理学和认知科学等,与图像处理、模式识别、投影几何、统计推断等密切相关。

,与统计学习等学科密切相关,近年来与计算机图形学、三维表示等学科也有很强的联系。

人工智能与计算机视觉 计算机视觉与人工智能密切相关,但也有本质的不同。

人工智能的目的是让计算机看、听、读。

图像、语音和文本理解,这三个部分基本构成了我们现在的人工智能。

在人工智能的这些领域中,视觉是核心。

众所周知,视觉占人类所有感官输入的80%,也是感知中最困难的部分。

如果人工智能是一场革命,那么它将始于计算机视觉,而不是其他领域。

人工智能更加强调推理和决策,但至少计算机视觉仍然主要处于图像信息表达和物体识别阶段。

“物体识别和场景理解”也涉及到从图像特征出发进行推理和决策,但它们与人工智能的推理和决策有本质的区别。

计算机视觉与人工智能的关系:首先,它是人工智能需要解决的一个非常重要的问题。

其次,是当前人工智能的强大驱动力。

因为它的应用领域很多,从计算机视觉诞生以来,就有很多技术被应用到了AI领域。

第三,计算机视觉对于量子人工智能有很大的应用基础。

计算机视觉技术原理:计算机视觉利用各种成像系统代替视觉器官作为输入敏感手段,计算机代替大脑完成处理和解释。

计算机视觉的最终研究目标是让计算机像人类一样通过视觉来观察和理解世界,并具有独立适应环境的能力。

在实现最终目标之前,人们努力的中期目标是建立一个基于视觉敏感度和反馈的、基于一定智能的、能够完成某些任务的视觉系统。

例如,计算机视觉的一个重要应用领域是自动驾驶车辆的视觉导航。

目前还没有条件实现像人类一样能够识别、理解任何环境并完成自主导航的系统。

因此,人们正在努力实现一种视觉辅助驾驶系统,在高速公路上具有道路跟踪能力,并且能够避免与前方车辆发生碰撞。

这里需要指出的一点是,在计算机视觉系统中,计算机代替了人脑,但并不意味着计算机必须像人类视觉一样完成对视觉信息的处理。

计算机视觉可以而且应该根据计算机系统的特点来处理视觉信息。

然而,人类视觉系统是迄今为止人们所知的最强大、最完整的视觉系统。

人类视觉处理机制的研究将为计算机视觉的研究提供启发和指导。

因此,利用计算机信息处理方法来研究人类视觉的机制,建立人类视觉的计算理论也是一个非常重要且有趣的研究领域。

这一领域的深入研究始于20世纪50年代,主要遵循三个方向——克隆人眼;克隆视觉皮层;并克隆大脑的其余部分。

复制人眼——让计算机“看见”目前取得成果最多的领域是“复制人眼”领域。

在过去的几十年里,科学家们已经制造出了可以匹配甚至超越人眼的传感器和图像处理器。

通过功能强大、光学更复杂的镜头和纳米级制造的半导体像素,现代相机已经达到了惊人的精度和敏锐度。

它们还可以每秒拍摄数千张图像并非常准确地测量距离。

但问题是,虽然我们已经能够在输出上实现极高的保真度,但在很多方面这些设备并不比 19 世纪的针孔相机更好:它们最多只能记录光子在相应方向上的分布。

,即使是最好的相机传感器也无法“识别”球,更不用说接住它了。

换句话说,没有软件,硬件就相当有限。

因此,这方面的软件是比较难解决的问题。

然而,先进的相机技术现在为该软件提供了丰富而灵活的平台。

复制视觉皮层——让计算机“描述”。

要知道,人脑根本上是通过意识来进行“看”的动作的。

与其他任何任务相比,大脑的相当大一部分专门用于视觉,而这种专业知识是由细胞本身执行的——数十亿个细胞一起工作,从嘈杂、不规则的视网膜中看到东西。

从信号中提取模式。

如果沿着一条线以特定角度存在差异,或者如果在某个方向上有快速运动,神经元组就会放电。

更先进的网络将这些模式组织成一个元模式:向上移动的圆圈。

与此同时,另一个网络也相应形成:这次是带有红线的白色圆圈。

还有一种尺寸不断增大的图案。

从这些粗略但互补的描述中,开始生成具体的图像。

使用类似于人脑视觉区域中使用的技术,定位物体的边缘和其他特征,从而产生“定向梯度直方图”。

因为这些网络曾经被认为“深不可测的复杂”,所以在计算机视觉研究的早期,还有另一种方式:即“自上而下的推理”模式——例如,如果一本书看起来像“这个”,那么你应该注意类似于“this”的模式。

汽车看起来像这样,行驶起来也像这样。

在某些受控情况下,这个过程确实可以对少数物体完成,但如果你想描述你周围的每一个物体,包括所有角度、光线变化、运动和数百个其他元素,甚至是牙牙学语的婴儿级识别学习语言还需要难以想象的大量数据。

而如果不采用“自上而下”,而是采用“自下而上”的方法,即模拟大脑中的过程,前景看起来会更好:计算机可以对一张图片进行一系列操作。

多张图片。

变换以找到物体的边缘并发现图片中的物体、角度和运动。

就像人脑一样,通过向计算机显示各种形状,计算机使用大量计算和统计数据来尝试将其“看到”的形状与之前在训练期间识别的形状相匹配。

科学家们正在致力于使智能手机和其他设备能够理解并快速识别相机视野中的物体。

如上图所示,街景中的物体都被贴上了描述该物体的文本标签,而完成这一过程的处理器的速度是传统手机处理器的两倍。

近年来,随着并行计算领域的进步,相关障碍已逐渐消除。

目前,模拟类似大脑功能的研究和应用呈爆炸式增长。

模式识别的进程正在加速几个数量级,我们每天都在取得更大的进步。

复制大脑的其余部分——让计算机“理解” 当然,仅仅“识别”和“描述”是不够的。

系统可以在任何情况、任何角度、任何运动状态下识别苹果,即使它被咬了等等。

但它仍然无法识别橙子。

而且它甚至无法告诉人们:苹果是什么?可以吃吗?尺寸是多少?或具体用途。

如前所述,如果没有软件,硬件的性能就非常有限。

但现在的问题是,即使有优秀的软硬件,如果没有优秀的操作系统,仍然是“一无所有”。

对于人来说,大脑的其余部分由长期和短期记忆、来自其他感官的输入、注意力和认知以及从世界上数万亿次互动中收集到的数十亿知识组成,这些知识通过互联网的神经传递以我们难以理解的方式写入其中。

复制它比我们遇到过的任何事情都要复杂。

计算机视觉的应用领域计算机视觉的应用领域主要包括航拍照片、卫星照片、视频片段等照片和视频数据的解读、精准制导、移动机器人视觉导航、医疗辅助诊断、工业机器人手持等。

眼睛系统和地图绘制。

、物体的3D形状分析和识别以及智能人机界面等。

早期数字图像处理的目的之一是通过数字技术的使用来提高照片的质量,并辅助阅读、辨别和分类航空照片和卫星照片。

由于需要解读的照片数量较多,因此希望能够利用自动视觉系统进行解读。

在此背景下,产生了许多航空照片和卫星照片解译系统和方法。

自动判读的进一步应用是直接判断目标的性质,进行实时自动分类,并与制导系统集成。

目前常用的制导方式有激光制导、电视制导和图像制导。

在导弹系统中,常常将惯性制导和图像制导结合起来,利用图像进行末端精确制导。

工业机器人手眼系统是计算机视觉应用最成功的领域之一。

由于工业现场的光照条件、成像方向等诸多因素都是可控的,因此问题大大简化,有利于实际系统的搭建。

与工业机器人不同,对于移动机器人来说,因为它具有行为能力,所以必须解决行为规划的问题,即理解环境。

随着移动机器人的发展,对视觉能力的要求越来越高,包括道路跟踪、避障、特定目标识别等。

目前,移动机器人视觉系统的研究还处于实验阶段,大多采用远程控制和远视方式。

医学中使用的图像处理技术一般包括压缩、存储、传输以及自动/辅助分类和解释。

此外,它们还可以作为医生的辅助培训手段。

与计算机视觉相关的工作包括分类、解释和快速三维结构重建。

长期以来,地图绘制一直是一项费力、费力、费时的工作。

过去采用的是手工测量,现在越来越多的地图采用航测以及立体视觉中恢复三维形状的方法来绘制,这大大提高了地图绘制的效率。

同时,一般物体的三维形状分析与识别一直是计算机视觉的重要研究目标,在场景的特征提取与表示、知识存储、检索、匹配识别等方面取得了一定的进展。

,形成三维场景分析系统的一些系统。

近年来,基于生物识别的识别技术受到广泛关注,主要集中在人脸、虹膜、指纹、声音等特征上,其中大部分与视觉信息相关。

与生物特征识别密切相关的另一个重要应用是其用于形成智能人机界面。

目前,计算机与人之间的交流仍然是机械的。

计算机无法识别用户的真实身份。

除键盘和鼠标外,其他输入方式尚未成熟。

利用计算机视觉技术,计算机可以检测用户的存在、识别用户的身份、识别用户的身体姿势(如点头、摇头)。

此外,这种人机交互方式还可以扩展到所有需要人机交互的场合,例如入口安检、过境人员的检查和放行等。