当前位置: 首页 > 科技观察

机器人如何深度学习?逻辑判断和情感选择依然是障碍

时间:2023-03-18 19:46:59 科技观察

一个人的时候,会觉得有些寂寞。你该怎么办?微软亚洲研究院推出的“微软小冰”或许可以像女朋友一样陪你聊天解闷。3.0版本的“小冰”不仅拥有“评价颜值”、“选择搭配”等功能,还拥有基于深度学习技术的强大视觉识别能力。看到图片后,可以根据情绪给出人性化回复,秒回复速度缩短至250毫秒。不仅是“微软小兵”,还有围棋高手“AlphaGo”,从互联网搜索到语言翻译,甚至识别自闭症风险基因……任何需要从大量数据中预测未知信息的领域,深度学习都可以弯曲你的肌肉。那么,什么是深度学习技术?它将如何改变人类的生活?2011年,Google实验室的研究人员从视频网站中提取了1000万张静态图片,并将它们放入“Feed”到GoogleBrain,目标是找到重复出现的模式。三天后,谷歌大脑在没有人工帮助的情况下从图像中识别出了“猫”。这个谷歌大脑是一个采用深度学习技术的大规模神经网络模型,由1000台电脑组成。这件事轰动了当时的科技界,被认为是深度学习复兴的里程碑。所谓深度学习就是由多层神经元组成的神经网络,以实现机器学习的功能。这些多层的计算机网络,就像人脑一样,可以收集信息,并根据收集到的信息产生相应的行为。传统的机器学习方法一般只能挖掘简单的线性关系,比如1+1等于2。然而,广阔的世界无法用这种简单的关系来描述,比如收入与年龄、性别、职业、教育的关系。深度学习的出现改变了这种情况,它的灵感来自于模仿人脑的神经网络。科学家发现,人类大脑皮层并不直接从视网膜传来的数据中提取特征,而是让接收到的刺激信号通过复杂的网络模型进行筛选。这种层次结构大大减少了视觉系统处理的数据量,最终保留了有用的信息。1960年代,生物学家在研究猫的大脑皮层时,发现其独特的网络结构可以有效降低反馈神经网络的复杂度,于是提出了“卷积神经网络”。使用这种网络结构编写的深度学习程序具有很强的适应性,成为人工智能的突破口。语音识别改变人机交互简单来说,深度学习技术是对人脑的模拟,因此可以完成人脑的很多功能。最著名的是视觉功能。我们的相机可以像眼睛一样看世界,但不能像大脑一样理解世界。深度学习正好弥补了这个缺点。借助深度学习,百度丽图可以准确识别照片中的物体类别,并自动对照片进行分类或搜索。通过深度学习,我们可以轻松刷脸支付。通过深度学习,专用机器可以探测到一定空间内所有人员和车辆的行踪,及时对可疑和危险事件发出警报。同时,深度学习技术也广泛应用于语音识别。在深度学习的帮助下,计算机拥有越来越强大的语音识别能力,这可能会改变目前仍以键盘为主的人机交互方式。深度学习与强化学习相结合,正在深刻地改变机器人领域。所谓增强学习,是指机器人通过与环境交互中获得的奖励和惩罚,自主学习更好的策略。前段时间备受关注的“阿尔法狗”就是增强学习的产物。它通过与棋手或与自己下棋来探索更好的下棋策略。然而,让深度学习超越的是需要更多的处理层来创建强大的神经网络。由于硬件限制,早期只能产生2到3个神经层。那么,是什么让深度学习超越了呢?显然,高性能计算能力的提升是一大助力。近年来GPU(图形处理单元)、超级计算机和云计算的快速发展,使得深度学习脱颖而出。2011年,GoogleBrain使用了1,000台机器和16,000个CPU来处理具有大约10亿个神经元的深度学习模型。现在,我们可以在多个GPU上进行相同的计算。“深度学习也由大数据提供动力,就像火箭有燃料一样。”歌灵神通计算机视觉工程师、博士潘政。关于世界的信息。此外,它“馈送”的数据越多,它就越聪明,不会“消化不良”。因为大数据的不可或缺,目前深度学习的佼佼者基本上都是拥有大量数据的IT巨头,比如谷歌、微软、百度等。现在,深度学习技术已经在语音领域打败了传统的机器学习方法识别、计算机视觉和语言翻译,甚至在人脸验证和图像分类方面超越了人类的识别能力。专家预测,几年之内,我们口袋里的手机将运行与人脑一样复杂的神经网络。但是,从目前的趋势来看,深度学习技术仍然无法取代“坐在后台监控室里的人”。比如你和你的朋友在餐厅吃完饭后赶着去结账,在这种推送过程中,智能摄像头还是很难判断是打架还是什么的。可见,逻辑判断和情感选择是深度学习难以逾越的障碍。一眼就能识别坏人的系统。深通是一家专注于计算机视觉和人工智能的科技公司,将基于深度学习技术开发的智能识别系统应用于银行安防监控领域。考虑到传统光学镜头在识别图像时会失去“深度”维度,绿深眼研发了一套专门针对银行安全监管的三维传感器。其背后,是经过一套奖惩机制训练出来的算法模型,能够主动识别异常。“我看到有人接近了一个有人的ATM,而不是旁边空着的ATM。这时候,要识别他的轨迹,判断他的行为是否正常,就涉及到深度学习。”歌灵申通CEO何博飞介绍,如果系统识别出异常,就会推送给后台主管。为了教会机器准确判断,背后需要提供数十万的图像数据。何博飞指出,如果给智能识别系统一张侧脸或者没有人脸的全身照,也能快速锁定目标,准确率达到99%以上。前提是要建一个6000到15000的样本库。“一旦样本达到最大值,准确率可能会下降20%或更多。”