当前位置: 首页 > 科技观察

史上最全解读-FlyingPaddle模型库重大升级,主流算法模型全覆盖

时间:2023-03-15 13:29:26 科技观察

11月5日,WaveSummit+2019深度学习开发者峰会上,FlyingPaddle全新发布并重要升级了最新的21项开发成果,引发巨大反响深度学习开发者社区的回应。很多没有到场的开发者感到遗憾,希望能更多地了解飞桨大会背后的技术细节,所以我们特意策划了一系列手稿,内容涵盖核心框架、基础模型库、端到端开发包、工具组件和服务平台的五个层次详细讲解了飞桨的核心技术和最新进展,敬请期待。今天给大家带来的是系列文章中飞桨的基础模型库解读。Paddle模型库,包括智能视觉(PaddleCV)、智能文本处理(PaddleNLP)、智能语音(PaddleSpeech)和智能推荐(PaddleRec)四大领域,Paddle官方支持超过100个经过行业实践打磨的主流模型很久。其中包括在国际比赛中获得冠军的车型;同时开源了200多个预训练模型,方便快速工业应用。核心内容1562字,预计阅读时间3分钟。全文7659字,强烈建议保留以备日后查阅。飞桨全景图,本文主要针对基础模型库进行深度解读。第一部分,先看看最新版模型库的主要更新点。本次主要更新点为1.1。PaddleCV发布训练部署端到端图像分割库PaddleSeg,新增EfficientNet等43个图像分类预训练模型。PaddleDetection添加了2019Objects365FullTrack冠军模型、BlazeFace等小人脸检测模型,以及用于行人检测和车辆检测的预训练模型。PaddleVideo新增了ActivityNetChallenge2019的获胜模型,扩展包括视频字幕、视频接地等模型。1.2.PaddleNLP发布了新的seq2seq相关API和文本生成模型示例。语义表示库新增XLNet预训练模型;开源的EMNLP2019阅读理解竞赛冠军模型D-NET支持18个不同的提取阅读理解数据集进行排名。发布paddle多任务学习库PALM(PAddLeMulti-tasklearning),更方便的支持多任务机器学习研究。1.3.PaddleSpeech是新发布的,包括语音识别模型DeepSpeech和语音合成模型DeepVoice3。1.4.PaddleRec增加了PaddleRec的更多模型覆盖。从上图可以看出,在本次升级点上,FlyingPaddle提供了更多官方支持的模型和预训练模型,同时也开源了多个国际冠军模型。截至目前,FlyingPaddle已正式支持超过100款车型和200款机型。多个预训练模型极大地方便了开发者的快速应用实践。飞桨模型库发布全新完整解读本次发布,飞桨模型库新增8类任务下40余种算法模型,涵盖更全面的任务类别和更丰富的算法模型,基本可以满足各种业务应用在行业需求中,快速协助开发者进行实际项目落地。▲官方支持100多种算法,200多种预训练模型的模型库,全面支持自然语言处理、计算机视觉、推荐和语音四大领域。官方支持的模型从60种扩展到100多种,并增加了对语音算法的支持。截止目前,Paddle已经能够支持主流算法模型在人工智能领域的应用。开发者可以使用飞桨模型库快速实现行业应用项目。具体来说,在计算机视觉领域,Paddle在图像分类、生成、检测、视频理解、图像分割等领域都有新的模型。在自然语言处理领域,Paddle在语义表示、阅读理解、问答等方面进行了升级。同样,在推荐和语音方面,也得到了进一步的完善和升级。除了对经典模型的支持,Paddle还开源了百度在国际比赛中获得的多项算法模型,包括计算机视觉领域的视频理解和人像分割,以及自然语言领域的阅读理解等。加工。值得一提的是,在前不久举行的NLP领域顶级会议EMNLP上,飞桨的D-NET模型击败了众多重量级选手,斩获本次比赛的10个阅读理解冠军。这款模型飞桨也毫无保留地开放给开发者使用。下面,我们将向四大主流领域的开发者介绍螺旋桨模型库的一些核心内容。由于算法模型较多,篇幅有限,仅整理算法模型的分类及名称、介绍及应用场景,以及在不同数据集上的评价指标。一方面,对于刚入门的开发者来说,可以提供模型库的整体宏观视角。另一方面,本文也可以作为快速参考手册使用,强烈建议收藏,供开发者根据需要快速选择。如果你迫不及待想了解一个算法的细节,可以直接上传送门!https://github.com/PaddlePaddle/models智能视觉PaddleCV3.1。图像分类图像分类是根据图像的语义信息来区分不同类型的图像。是计算机视觉中一个重要的基础问题。它是目标检测、图像分割、目标跟踪、行为分析、人脸识别等高级视觉任务的基础,在许多领域有着广泛的应用。如:安防领域的人脸识别和智能视频分析、交通领域的交通场景识别、互联网领域的基于内容的图像检索和相册自动分类、医疗领域的图像识别等。更多图像分类模型,请参考图像分类:https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification3.2。目标检测目标检测任务的目标是给定一张图像或一段视频帧,让计算机找到其中所有物体的位置,并给出每个物体的具体类别。对于计算机来说,能“看到”的是图像编码后的数字,但很难理解图像或视频帧中出现的人物或物体等高级语义概念,更难理解定位目标出现在图像中的哪个区域。目标检测模型可参考PaddleDetection:https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleDetection3.3。ImageSegmentationImageSemanticSegmentation顾名思义,图像像素根据所表达的不同语义意义进行分组/分割,图像语义指的是对图像内容的理解,例如在什么地方可以描述什么物体,做了什么事情等.分割是指给图片中的每个像素点打上标签,标签属于哪个类别。近年来在无人驾驶技术中被用于街景分割,以避开行人和车辆,在医学图像分析中辅助诊断。3.4.关键点检测人体骨骼关键点检测(PoseEstimation)主要检测人体的一些关键点,如关节、五官等,通过关键点描述人体骨骼信息。人体骨骼关键点检测对于描述人体姿态和预测人体行为非常重要。它是许多计算机视觉任务的基础,例如动作分类、异常行为检测和自动驾驶。3.5.图像生成图像生成是指根据输入向量生成目标图像。这里的输入向量可以是随机噪声,也可以是用户指定的条件向量。具体应用场景包括:手写生成、人脸合成、风格迁移、图像修复等。PaddleGAN包含了几个与图像生成相关的模型。3.6.SceneTextRecognition场景文本识别是在图像背景复杂、分辨率低、字体多样、分布随机等情况下,将图像信息转化为文本序列的过程,可以看作是一种特殊的翻译过程:将图像输入翻译成自然语言输出。3.7.度量学习度量学习也称为距离度量学习和相似性学习。通过学习物体之间的距离,度量学习可以用来分析物体的时间关联和比较关系。它广泛应用于实际问题中,可以应用于辅助分类和聚类问题,也广泛应用于图像检索、人脸识别等领域。3.8.视频分类和动作定位视频分类和动作定位是视频理解任务的基础。视频数据包含语音和图像等多种信息,因此理解视频任务不仅需要处理语音和图像,还需要提取视频帧时间序列中的上下文信息。视频分类模型提供了一种提取全局时间特征的方法。主要方法有卷积神经网络(C3D、I3D、C2D等)、神经网络与传统图像算法的结合(VLAD等)、循环神经网络等。建模方法。视频动作定位模型需要同时识别视频动作的类别和起止时间点,通常采用类似于图像目标检测中的算法在时间维度上进行建模。智能文本处理PaddleNLPPaddleNLP是基于Paddle深度学习框架开发的自然语言处理(NLP)工具、算法、模型和数据的开源项目。百度在NLP领域十余年的深厚积累,为PaddleNLP提供了强大的核心驱动力。使用PaddleNLP,您可以获得:丰富全面的NLP任务支持:PaddleNLP为您提供多粒度、多场景的应用支持。涵盖分词、词性标注、命名实体识别等NLP基础技术,以及文本分类、文本相似度计算、语义表示、文本生成等NLP核心技术。同时,PaddleNLP还为常见的NLP大型应用系统(如阅读理解、对话系统、机器翻译系统等)提供了特定的核心技术和工具组件、模型和预训练参数,让你成为在NLP领域畅通无阻。稳定可靠的NLP模型和强大的预训练参数:PaddleNLP集成了百度内部广泛使用的NLP工具模型,为您提供稳定可靠的NLP算法解决方案。基于百亿级数据预训练参数和丰富的预训练模型,轻松提升模型效果,为您的NLP业务注入强劲动力。持续改进和技术支持,零基础构建NLP应用:PaddleNLP为您提供持续的技术支持和模型算法更新,为您的NLP业务保驾护航。4.1.NLP基础技术4.1.1.中文词法分析LAC(LexicalAnalysisofChinese)百度自主研发的中文特征模型词法分析任务,集中文分词、词性标注和命名实体识别任务于一体。输入是字符串,输出是句子中的词边界和词性、实体类别。4.1.2.词向量(Word2vec)提供了单机多卡、多机分布式训练中文词向量的能力,支持主流词向量模型(skip-gram、cbow等),可以快速使用自定义数据训练词向量模型。4.1.3.语言模型(Language_model)给定一个输入词序列(中文需要先切分,英文需要先分词),计算其生成概率。语言模型的评价指标PPL(perplexity)用来表示模型生成句子的流畅程度。4.2.NLP核心技术4.2.1.语义表示PaddleLARK(PaddleLANgaugeRepresentationToolKit)是对传统语言模型的进一步发展。在大规模语料库上训练的通用语义表示模型可以帮助其他自然语言处理任务。它是通用预训练+任务特定微调范式的体现。PaddleLARK集成了ELMO、BERT、ERNIE1.0、ERNIE2.0、XLNet等流行的中英文预训练模型。4.2.2.文本相似度计算SimNet(SimilarityNet)是一个计算短文本相似度的框架,主要包括BOW、CNN、RNN、MMDNN等核心网络结构。SimNet框架广泛应用于百度各产品中,提供语义相似度计算训练和预测框架,适用于信息检索、新闻推荐、智能客服等多个应用场景,帮助企业解决语义匹配问题。4.2.3.TextGenerationPaddleTextGEN(PaddleTextGeneration),一个基于paddle的文本生成框架,提供了一系列经典的文本生成模型案例,如vanillaseq2seq,seq2seqwithattention,variationalseq2seqmodels等。4.3.NLP系统应用4.3.1.情绪分析4.3.2。阅读理解PaddleMRC(PaddleMachineReadingComprehension),集合了百度在阅读理解领域的相关模型、工具和开源数据集。4.3.3.机器翻译PaddleMT,全称PaddleMachineTranslation,基于Transformer经典的机器翻译模型,基于论文《Attention Is All You Need》:https://arxiv.org/abs/1706.037624.3.4。对话系统PaddleDialogue包括对话系统方向模型、数据集和工具。百度最新前沿工作开源,请参考研究:https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research智能推荐PaddleRec个性化推荐在当前互联网服务中发挥着越来越重要的作用在目前,大多数电子商务系统、社交网络、广告推荐和搜索引擎都使用各种形式的个性化推荐技术来帮助用户快速找到他们想要的信息。PaddleRec中包含的模型如下。智能语音PaddleSpeechPaddleSpeech包含与语音识别和语音合成相关的模型。如果你想和更多的深度学习开发者交流,欢迎加入Paddle官方QQ群:796771754。如果你想了解更多关于PaddlePaddle的信息,请参考以下文档。官网地址:https://www.paddlepaddle.org.cn/项目地址:https://github.com/PaddlePaddle/modelsPaddle系列文章核心框架解读:Paddle新发布,核心框架为首次全面公开解读