当前位置: 首页 > 科技观察

美团云GPU云主机在图像识别领域的应用实践

时间:2023-03-21 11:35:20 科技观察

前言近年来人工智能迎来发展高峰,越来越多的人开始意识到机器可以通过学习获得智能,并且然后代替一部分人的工作。这促成了人工智能技术研究空前的热度。深度学习是当前的主流研究领域,被认为是最有研究前景和发展潜力的方向。深度学习的研究动机是建立一个可以模仿人脑进行学习的神经网络。它分为有监督学习和无监督学习。目前主流的深度学习框架包括:TensorFlow、Caffe、Theano、MXNet、Marvin、Torch等。下面选取TensorFlow、Caffe、Theano和MXNet四种框架进行对比,介绍基于深度学习的图像识别在美团酒旅业务中的应用实践以及美团云GPU云主机在其中的作用。不同深度学习框架的比较TensorFlow是谷歌开源的深度学习框架。它是目前使用最广泛的。支持图像、文字、语音识别、自然语言处理等功能。可以说是一个通用的学习框架;Theano支持手写。文字识别、图像分类、自然语言处理等功能,但比TensorFlow更快;Caffe在计算机视觉领域表现突出;MXNet是上述框架中扩展性最强的,支持CNN(卷积神经网络)、RNN(递归神经网络)、LSTM(长短期记忆网络),还可以支持多种功能,亚马逊选择MXNet作为它的深度学习框架。下面从语言、速度、灵活性、适用模型、上手难度等方面对四种框架进行比较。(表1)(图1)从表1的综合比较来看,这四种框架各有优缺点,MXNet的综合能力更为全面。从图1可以看出,在单卡GPU处理下,MXNet的损失是四个框架中最高的,耗时也是最短的。与其他框架相比,TensorFlow在性能上劣势明显,但具有高度的灵活性,支持各种复杂的网络模型,方便配置新的算法和环境,支持可视化;Caffe图像处理速度快,采用K40GPU处理图片速度可达2ms/sheet,在学术界和工业界有很多项目可以借鉴;Theano支持的语言少,其他方面表现不错。它是一个适合学术研究的学习框架。在美团酒旅业务场景中,美团云提供预装TensorFlow框架的GPU云主机,用于图像识别训练。基于深度学习的图像识别在酒店业务中的应用深度学习需要大规模的数据计算来训练模型。其性能主要受GPU的浮点运算能力影响。因此,选择合适的GPU是提高训练效率的关键。重的。选择GPU主要考虑三个因素:浮点运算能力、功耗和成本。一般来说,GPU的浮点计算能力与其功耗成正比。再加上GPU的更新速度比较快,大规模堆放高性能机器可能会造成一定程度的资源浪费。美团云提供的GPU云主机搭载NVIDIATeslaM60GPU,预装TensorFlow1.1-GPU框架和Keras2.0.4框架。M60可提供多达4096个并行处理核心、16GBGDDR5显存和9.7TFlops的单精度峰值性能。选择M60也是综合考虑性能、功耗和成本的结果。美团酒游图像识别的算法训练是预装TensorFlow1.1-GPU框架的M60GPU云主机。在酒旅业务场景中,身份信息验证、机票验证、网上值机、验证码验证等可以使用图像识别,尤其是OCR识别技术,支持系统自动识别用户信息,简化用户操作流程,并改进信息录入。速度和准确性。验证识别的主要过程包括:去噪、去色、切片、模板比对、输出。因此,在基于深度学习的OCR识别上,美团酒旅团队选择了CNN(卷积神经网络)+LSTM(长短期记忆)+CTC(Connectionisttemporalclassification)组合算法方案:-CNN是一种卷积神经网络,包括卷积层和池化层。它是一个前馈神经网络。CNN在大规模图像处理中表现出色,因此使用CNN来提取图像特征;-LSTM是一种递归神经网络(RNN),即时间递归神经网络,适用于处理和预测时间序列中间隔和延迟比较长的重要事件,因此用LSTM提取最合适时间序列关系;-CTC是一种基于神经网络的时间序列分类,可以实现一个输入序列和一个输出序列来完成训练。因为当输出长度固定时,我们选择引入CTC来预测输出。(图2:算法模型)基于该混合算法的模型训练,单次识别准确率可达90%以上,5次识别准确率可达99%以上。80%以上。随着模型和算法的优化,准确率会不断提高。结语除了图像识别在酒旅商务场景的应用,美团点评还在自然语言处理、人脸识别等多个领域进行了探索。美团云GPU云主机为以上领域的研究提供训练支持。帮助加快训练过程和改进算法。目前美团云主要提供单机单卡GPU云主机。未来将研究单机单卡、单机多卡、多机多卡等性能和成本差异,提供更符合用户需求的GPU计算服务。此外,美团云近期推出了深度学习平台,并开放了人脸识别、OCR识别等AI应用,提供一站式AI服务。