本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。2019年整个AI行业将如何发展?NLP模型不断刷新结果,Google、Facebook等你唱完就现身;GAN不断进化,甚至可以生成真假难辨的高分辨率人脸;强化学习攻破了《星际2》等策略游戏。让人期待即将到来的2020。近日,AnalyticsVidhya发布了2019年AI技术回顾报告,总结了过去一年AI在不同技术领域的进展,并展望了2020年的新趋势。AnalyticsVidhya是一个很好的-知名的数据科学社区。其技术评审报告由多位机器学习行业专家撰写。报道称,过去一年,NLP发展最快,CV相对成熟,RL才刚刚起步,明年或将迎来大爆发。在报告的基础上,对量子比特进行了编译和补充。废话不多说,让我们一一盘点2019年的AI技术:自然语言处理(NLP):语言模型井喷,部署工具涌现。报告认为,2018年是NLP的分水岭,2019年本质上是在此基础上的进一步发展,让该领域实现跨越式发展。Transformer统治了NLP。自2017年AttentionisAllYouNeed论文发表以来,以BERT为代表的NLP模型就出现了。之后,Transformer一次又一次霸占NLP领域的SOTA成绩。Google的Transformer-XL是另一种基于Transformer的模型,在语言建模方面优于BERT。紧随其后的是OpenAI的GPT-2模型,该模型以生成非常像人类的语音脚本而闻名。2019年下半年,BERT本身也有很多创新,比如CMU的XLNet、FacebookAI的RoBERTa和mBERT(多语言BERT)。这些车型在RACE和SQuAD等测试榜单上不断刷新分数。GPT-2终于发布了完整版,一个开源的15亿参数模型。GPT-2模型地址:https://openai.com/blog/gpt-2-1-5b-release/延伸阅读BERT在多项测试中重夺第一。经过改进,性能赶上了XLNet。现在开源的预训练模型模仿的语气,真假难辨。康奈尔15亿参数模型盲测:从未如此逼真,最强讲故事AI彻底来了大规模的预训练语言模型已经成为常态。迁移学习是2019年NLP出现的另一个趋势。我们开始看到在大量未标记文本上进行预训练的多语言模型,使它们能够学习语言本身的潜在细微差别。GPT-2、Transformer-XL等模型几乎可以针对所有NLP任务进行微调,并且可以在相对较少的数据下表现良好。像百度的ERNIE2.0这样的模型引入了连续预训练的概念,预训练方法有了很大的进步。在这个框架中,可以随时逐步引入不同的自定义任务。新测试标准的引入随着一系列新的NLP模型带来巨大的性能提升,它们的测试成绩已经达到了上限,差距很小,甚至在GLUE测试中超过了人类的平均水平。因此,这些测试基准已经不足以反映NLP模型的发展水平,也不利于未来的进一步完善。DeepMind、纽约大学和华盛顿大学联合提出了新的测试标准SuperGLUE,增加了更难的因果推理任务,对NLP模型提出了新的挑战。开始考虑NLP工程和部署。2019年出现了大量实用的NLP资源:斯坦福大学开源的StanfordNLP库,HuggingFace的Transformer预训练模型库。spaCy利用这个库创建了spacy-transformers,这是一个用于文本处理的工业级库。“与我们在2019年训练的大型语言模型一样,我们也将专注于优化这些模型,”斯坦福NLP小组表示。像BERT、Transformer-XL、GPT-2这样的大型模型的问题在于它们的计算量很大,因此在现实中使用它们几乎是不切实际的。HuggingFace的DistilBERT表明,可以将BERT模型的大小减小40%,同时保留其97%的语言理解能力并将速度提高60%。谷歌和丰田开发了另一种方法来减小BERT模型的大小,即ALBERT,它在3个NLP基准测试(GLUE、SQuAD、RACE)上取得了SOTA的结果。延伸阅读GitHub万兴NLP资源升级:实现Pytorch与TF的深度互操作,集成32个最新的预训练模型对语音识别的兴趣增加2019年NLP领域重新燃起了使用NVIDIANeMo等框架开发音频数据的兴趣,该框架使端到端自动语音识别系统的训练模型非常容易。除了NeMo,NVIDIA还开源了QuartzNet,这是另一种基于Jasper的新型端到端语音识别模型架构,是一种小巧高效的语音识别模型。更关注多语言模型在能够使用多语言数据之前,NLP究竟是如何工作的?今年,人们对重新审视NLP库的多语言方法产生了新的兴趣,例如StanfordNLP,其模型经过预训练可以处理50多种人类语言的文本。可以想象,这对社区产生了巨大的影响。然后,通过FacebookAI的XLMmBERT(超过100种语言)和为法语微调的CamemBERT等项目成功尝试创建像BERT这样的大规模语言模型:2020年的趋势以上是2019年NLP领域进展的总结,2020年这个领域会有哪些趋势?NLP专家和Kaggle大师SudalaiRajkumar推测2020年的主要趋势:延续当前趋势,在更大的数据集上训练更大的深度学习模型;构建更多的生产应用程序,更小的NLP模型将有助于此;手动标注文本数据成本高昂,因此半监督标注方法可能变得重要;NLP模型的可解释性,理解模型在做出无偏见的决策时学到了什么。NLP领域的学者、ULMFiT的作者之一塞巴斯蒂安·鲁德(SebastianRuder)认为,他不仅会从庞大的数据集中学习,还会看到更多的模型在更少的样本上高效学习;模型越来越强调稀疏性和效率;关键点关注更多多语言数据集。计算机视觉(CV):图像分割越来越精细,AI造假越来越真实。在计算机视觉方面,今年CVPR、ICCV等国际顶级会议录用论文数量大幅增加。下面,我们来回顾一下2019年最受关注的几个重要算法和实现。何玉明MaskR-CNN正在被超越MaskScoringR-CNN在COCO图像实例分割任务中,MaskScoringR-CNN超越了何玉明的MaskR-CNN,并因此被选为计算机视觉顶级会议CVPR2019的口头报告。在MaskR-CNN等模型中,实例分类的置信度被用作mask的质量度量,但实际上mask的质量和分类的质量并没有很强的相关性。华中科技大学的这篇文章针对这个问题进行了研究,他们提出了一种新的评分方法:maskscore。MaskScoringR-CNN模型不仅直接依靠检测获得分类分数,还自主学习了一个mask的评分规则:MaskloUhead。同时考虑分类分数和mask分数,MaskScoringR-CNN可以更公平地评估算法质量,提高实例分割模型的性能。研究团队在COCO数据集上进行了实验,结果表明MaskScoringR-CNN的AP提升在不同骨干网络上始终在1.5%左右。该论文被OpenDataScience评选为2019年第一季度十大论文之一。论文第一作者是华中科技大学电信学院副教授王兴刚团队的地平线实习生黄兆进。王兴刚也是该论文的作者之一。SOLO字节跳动实习生王新龙提出了一种新的实例分割方法SOLO。作为单阶段实例分割方法,框架更简单,但性能也超过了MaskR-CNN。SOLO方法的核心思想是将实例分割问题重新定义为类别感知预测问题和实例感知掩码生成问题。在COCO数据集上的实验结果表明,SOLO的效果普遍超过了以往单阶段实例分割的主流方法,甚至在某些指标上超过了增强型MaskR-CNN。相关地址https://arxiv.org/abs/1903.00241v1https://arxiv.org/abs/1912.04488扩展阅读性能超越何玉明MaskR-CNN!CVPR19口头字节跳动实习生提出实例分割新方法:性能超越何玉明MaskR-CNNEfficientNetEfficientNet是谷歌基于AutoML开发的模型缩放方法,在ImageNet测试中取得了84.1%的准确率,刷新记录。虽然准确率仅比之前的SOTA模型Gpipe高出0.1%,但模型更小更快,参数数量和FLOPs大大减少,效率提升多达10倍。它的作者是谷歌大脑的工程师MingxingTan和首席科学家QuocV.Le。相关地址GitHub:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet论文:https://arxiv.org/abs/1905.11946延伸阅读谷歌开源缩放模型EfficientNets:ImageNet准确率recordRecord,效率提升10倍Detectron2这个超级强大的PyTorch对象检测库来自Facebook。与原来的Detectron相比,它训练速度比以前更快,功能比以前更多,支持的模型比以前更多。曾登上GitHub热榜。事实上,Detectron2是对原始Detectron的完全重写:第一代是在Caffe2中实现的,为了更快地迭代模型设计和实验,Detectron2在PyTorch中从头开始编写。此外,Detectron2实现了模块化,用户可以实现自己定制的模块,并将其添加到目标检测系统的任何部分。这意味着可以用几百行代码编写大量新研究,部分新实现可以完全脱离核心Detectron2库。在这一代所有可用模型(FasterR-CNN、MaskR-CNN、RetinaNet、DensePose)的基础上,Detectron2还增加了CascadeR-NN、PanopticFPN和TensorMask等新模型。相关地址GitHub:https://github.com/facebookresearch/detectron2延伸阅读GitHub趋势榜No.1:超强大的PyTorch目标检测库Detectron2,训练更快,任务更多,GANs更强2019年,GANs依然活跃。比如第二代的VQ-VAE,同样来自谷歌DeepMind,生成的图像比BigGAN更高清更真实,也更多样化:https://arxiv.org/abs/1906.00446BigBiGAN不仅可以生成高质量的图像,而且图像分类任务刷新了记录:https://arxiv.org/abs/1907.02544以色列理工学院和谷歌联合制作的SinGAN,获得了ICCV2019的最佳论文:https://arxiv.org/abs/1907.02544arxiv.org/abs/1905.01164NVIDIA的StyleGAN也进化成了高能的StyleGAN2,弥补了第一代的各种缺陷:https://arxiv.org/abs/1912.04958延伸阅读史上最好的GAN已经被超越!人脸、动物高清大图真假难辨。DeepMind发布第二代VQ-VAE打破ImageNet记录。GAN不仅可以造假!DeepMind用它做图像分类,秒杀专业分类AIICCV2019最佳论文SinGAN综合解读,看完这篇就明白了如果没有StyleGAN2,真觉得第一代就是巅峰:Nvidiafacegenerator高能进化,补上对于重大缺陷2020趋势展望2020年,AnalyticsVidhya认为,视野的焦点仍将集中在GAN上:styleGAN2等新方法正在生成越来越逼真的面部图像,检测DeepFake将变得越来越重要。无论是视觉还是(音频)都会有更多这方面的研究。元学习和半监督学习是2020年的另一个重点研究方向。强化学习(RL):星际DOTA既破又好用2019年,现有的强化方法扩展到更大的计算资源,并取得了一些进展。在过去的一年里,强化学习解决了一系列过去难以解决的复杂环境问题,例如在Dota2和星际争霸2等游戏中击败顶级人类职业玩家。报告指出,尽管这些发展吸引了尽管受到媒体行业的高度关注,但目前的方法还存在一些问题:需要大量的训练数据,并且只有在有足够准确和快速的仿真环境的情况下才能获得训练数据。许多视频游戏都是这种情况,但大多数现实世界的问题却并非如此。由于这种训练模式,大规模的强化学习算法感觉就像是简单地在问题空间中过度积累过度生成的策略,而不是让它学习环境中潜在的因果关系并进行智能泛化。同样,几乎所有现有的深度强化学习方法都容易受到对抗样本、域外泛化和一次性学习的影响,目前还没有好的解决方案。因此,深度强化学习的主要挑战是逐渐摆脱处理确定性环境,转而关注更基础的进步,例如泛化、迁移学习和从有限数据中学习等。我们从一些机构的研究动态中可以看出这一点。首先,OpenAI发布了一个新的类似健身房的环境,使用过程级生成来测试深度RL算法的泛化能力。许多研究人员开始质疑和重新评估我们对“智能”的实际定义。我们开始更好地理解神经网络未被发现的弱点,并利用这些知识来构建更好的模型。延伸阅读1-10惨败,5分钟崩盘!星际争霸2职业高手史上首次被AI打败,AlphaStar一战成名碾压99.8%人类对手,三个种族全部达到大师级别!星际AI上Nature,技术首次2:0全面公开!Dota2世界冠军OG被OpenAI碾压,全程人类只推倒了两座外塔。Dota2冠军OG如何被AI碾压?OpenAI历时三年的完整论文终于发布了2020年的趋势综上所述,2020年的预测趋势如下:从有限数据中学习和泛化将成为强化学习研究的中心主题;强化学习的突破与深度学习的进步密切相关;将会有越来越多的研究利用生成模型的力量来增强各种培训程序。跨学科研究:AI深入多学科研究随着人工智能技术的发展,跨学科研究也成为今年的热门话题。人工智能的身影频繁出现在医学、脑机接口乃至数学研究中。脑机接口在马斯克和Facebook押宝的脑机接口领域,深度学习正在帮助研究人员解码大脑所想。比如加州大学旧金山分校在Nature上的研究:利用深度学习直接读取大脑并将大脑信号转化为语音。以往的语音合成脑机接口每分钟只能生成8个单词,但本研究中的新设备每分钟可以生成150个单词,接近人类的自然语速。在医学领域,机器学习技术不仅仅发挥医学图像识别的作用。例如,德国组织工程与再生医学研究所的一项研究使用深度学习算法DeepMACT自动检测和分析小鼠全身的癌症转移。基于这项技术,科学家首次观察到单个癌细胞形成的微小转移部位,将工作效率提高了300多倍。“目前,肿瘤临床试验的成功率约为5%。我们相信DeepMACT技术可以大大改善临床前研究的药物开发过程。因此,这有助于为临床试验找到更强大的候选药物,并有望挽救许多生命。该研究的通讯作者AliErtürk说。数学虽然是自然科学的基础,但在人工智能的不断发展下,它也起到了“反馈”的作用。Facebook发布的一个新模型可以在1秒内准确求解微分方程和不定积分。不仅如此,性能也超越了常用的Mathematica和Matlab。积分方程和微分方程都可以看作是将一种表达式转换为另一种表达式。研究人员认为,这是机器翻译NLP的一个特例,可以用来解决方法。该方法主要分为四个步骤:将数学表达式用树的形式表示;介绍seq2seq模型;生成随机表达式;计算表达式的数量。研究人员在一个包含5000个方程的数据集中,对模型求解微积分方程的准确性进行了评估。结果表明,对于微分方程,束搜索解码可以大大提高模型的精度。在包含500个方程的测试集上,商业软件中表现最好的是Mathematica。当新方法进行大小为50的集束搜索时,模型准确率从81.2%提高到97%,远优于Mathematica(77.2%),并且,在一些Mathematica和Matlab新模型中给出了有效的解决方案无法解决的问题。展望2020,机器学习从NLP到计算机视觉,再到强化学习,2020年有很多值得期待的事情。以下是AnalyticsVidhyaKeyTrend对2020年的一些预测:机器学习的数量到2020年,职位名称将继续呈指数增长。很大程度上由于NLP的增长,许多公司将寻求扩大他们的团队,这是进入该领域的好时机。数据工程师的作用将更加重要。AutoML在2018年起飞,但并没有在2019年达到预期的高度。明年,随着来自AWS和GoogleCloud的现成解决方案更加突出,我们应该更加关注这一点。2020年将是我们终于看到强化学习取得突破的一年吗?它多年来一直处于低迷状态,因为将研究解决方案转移到现实世界已被证明是一个主要障碍。
