如今,人工智能技术突飞猛进,每年都会产生很多优秀论文。想知道2021年你不能错过哪些论文吗?这不,在GitHub上,有个小哥发布了这么一个项目。目前总结了今年必读的33篇论文,堪称“良心宝藏”。https://github.com/louisfb01/best_AI_papers_2021本项目名称为《2021年充满惊喜的人工智能论文总结》,作者为Louis-Fran?oisBouchard(GitHub名称为louisfb01),获得314星内它发布的一天(持续上升)。Louis-Fran?oisBouchard来自加拿大蒙特利尔。我目前正在écoledeTechnologieSupérieure攻读人工智能-计算机视觉硕士学位,并且正在designstripe兼职担任首席人工智能研究科学家。值得一提的是,Louis在YouTube上还有自己的频道“What'sAI”。什么是AI主页:https://www.louisbouchard.ai/Louis之所以在YouTube上创建“What'sAI”频道,就是为了用通俗易懂的语言分享和解释人工智能,与大家分享新的研究和应用。YouTubeWhat'sAI频道:https://www.youtube.com/c/WhatsAI/featuredLouis想为大家揭开人工智能“黑匣子”的神秘面纱,让人们意识到使用它的风险。Louis具有分享精神,他喜欢学习和分享他学到的东西。他写了很多文章,在他的频道上更新了视频,并且正在GitHub上从事一些有趣的项目。事实上,《2021年充满惊喜的AI论文汇总》已经是Louis更新“AI论文汇总”系列的第二个年头。在2020年,Louis还推出了“2020年充满惊喜的AI论文摘要”项目,这是一份按发布日期排列的AI最新突破的精选列表,带有清晰的视频解释、更深入的文章链接和来源代码。https://github.com/louisfb01/Best_AI_paper_2020下面,让我们一起来看看《2021年充满惊喜的AI论文汇总》中最新的令人惊喜的AI研究成果吧!2021年令人惊讶的AI论文综述虽然世界仍在缓慢复苏,但研究并没有放缓,尤其是在人工智能领域。此外,2021年还突出了许多重要方面,例如道德方面、估值偏见、治理、透明度等。人工智能以及我们对人脑及其与人工智能的联系的理解在不断发展,并且在不久的将来可能有望改善我们的生活质量。精彩论文摘录1.DALL-E:Zero-ShotText-to-ImageGeneration,来自OpenAI论文地址:https://arxiv.org/pdf/2102.12092.pdfAnEmojilittlepenguinwithabluehatandredgloves,WearingYellowPantsExamplePaper介绍:GPT-3展示了语言可以用来指导大型神经网络执行各种文本生成任务。而ImageGPT表明,同样类型的神经网络也可以用来生成高保真图像。这一突破意味着通过文字语言来操纵视觉概念现在已经触手可及。OpenAI成功地训练了一个能够从文本字幕生成图像的网络。它与GPT-3和ImageGPT非常相似,并产生惊人的结果。与GPT-3一样,DALL-E也是一种Transformer语言模型。它接收文本和图像作为最多1280个标记的单个流,并使用最大似然估计进行训练以一个接一个地生成所有标记。这个训练过程不仅允许DALL-E从头开始??生成图像,还可以重新生成与文本提示内容大致匹配的现有图像的任何矩形区域。使用DALLE生成企鹅枕头2、SwinTransformer:HierarchicalVisionTransformerUsingShiftedWindows论文地址:https://arxiv.org/pdf/2103.14030.pdf论文介绍:本文介绍了一种新的方法,可以应用于Transformer中计算机视觉,SwinTransformer。Transformer解决计算机视觉问题的挑战主要来自两个方面:图像的尺度差别很大,图像具有高分辨率。在一些视觉任务和语义分割中,像素级的稠密预测对于Transformer来说是比较困难的。Processing,因为其self-attention的计算复杂度与图像大小呈二次关系。为了克服这些问题,SwinTransformer构建了层次化的Transformer特征图,并使用了移位窗口计算。shiftedwindowscheme通过将self-attention计算限制在非重叠的本地窗口(以红色标记)来带来更高的效率,同时还允许跨窗口连接。SwinTransformer通过从小尺寸的补丁(以灰色勾勒出轮廓)开始并逐渐合并更深的Transformer层中的相邻补丁来构建分层表示。这种分层架构可以在各种尺度上灵活建模,并且在图像大小方面具有线性计算复杂度。线性计算复杂度是通过在分割图像的非重叠窗口(标记为红色)内局部计算自注意力来实现的。每个窗口中的补丁数是固定的,因此复杂度与图像大小成线性比例关系。SwinTransformer在图像分类、目标检测和语义分割等识别任务上取得了良好的性能。在三个任务中,SwinTransformer的时间延迟与ViT、DeiT和ResNeXt模型相似,但性能有了很大提升:COCOtest-dev58.7boxAP和51.1maskAP,超越了之前的state-of-2.7boxAP和2.6maskAP的艺术结果。在ADE20K语义分割任务上,SwinTransformer在验证集上达到了53.5mIoU,比之前的state-of-the-art(SETR)提高了3.2mIoU。在ImageNet-1K图像分类中,也取得了87.3%的最高准确率,充分展示了Transformer模型作为新视觉主干的潜力。论文第一作者为中科大学生、微软亚洲研究院实习生刘泽。2019年获得中国科学技术大学学士学位,并以最高荣誉获得郭沫若奖学金。个人主页介绍,2篇论文和1篇Oral被ICCV2021录用。个人主页:https://zeliu98.github.io/3,StyleCLIP:Text-drivenmanipulationofStyleGANimagery论文地址:https://arxiv.org/pdf/2103.17249.pdf论文介绍:这是一个来自以色列的项目研究人员的工作StyleCLIP可以使用基于人工智能的生成对抗网络对照片进行超逼真的修改,并且只需要让用户输入他们想要的内容的描述,而不需要输入具体的图像。这个模型也产生了一些非常有趣的结果。比如FacebookCEO马克扎克伯格的脸可以随意修改,比如让他看起来秃头、戴眼镜,或者在下巴上留山羊胡子。这位“火星人”的脸上,似乎也有些人情味。StyleCLIP模型主要由StyleGAN和CLIP模型组成。StyleGAN可以在不同领域生成高度逼真的图像,最近的很多工作都集中在了解如何使用StyleGAN的潜在空间来处理生成的图像和真实图像。但是发现语义上可能有意义的操作通常需要仔细检查多个自由度,这需要大量的手动工作,或者需要为每种所需样式创建带注释的图像集合。既然是基于标注,能否利用多模态模型CLIP(ContrastiveLanguage-ImagePre-training)的能力,开发出不需要人工操作的基于文本的StyleGAN图像处理。比如输入cutecat,会放大眯眼猫的眼睛,获得可爱小猫的所有特征,老虎可以变身狮子等。4.GitHubCopilot&Codex:EvaluatingLargeLanguageModelsTrainedonCode论文地址:https://arxiv.org/pdf/2107.03374.pdf论文介绍:2020年,OpenAI推出了GPT-3,拥有1750亿个参数,参数规模几乎等同于人类神经元的数量。GPT-3使用了2019年之前互联网上几乎所有的公开书面文本进行训练,因此具有一定的自然语言理解能力,可以作诗、聊天、生成文本等。今年夏天,OpenAI发布了Codex。Codex在GPT-3上进行了训练,在从GitHub提取的TB级公共代码以及英语示例上进行了训练。只要你给Codex命令,它就会把英文翻译成代码。然后,当你的手离开键盘时,Codex会自动编程,火箭会自行移动。而Copilot建立在OpenAI强大的Codex算法之上,获得了“普惠”的代码积累和前所未有的代码生产能力。Copilot不仅可以模仿它看到的代码,还可以分析函数名、方法名、类名和注释的上下文来生成和综合代码,并在编辑器中为开发者提供整行代码或函数的建议。它减少了工程师在API文档上花费的时间,还有助于编写测试代码。5.SkillfulPrecipitationNowcastingusingDeepGenerativeModelsofRadar论文地址:https://www.nature.com/articles/s41586-021-03854-z论文简介:今天的天气预报是由强大的数值天气预报(NWP)系统做出的驱动。通过求解物理方程,数值天气预报系统可以提前几天获得地球尺度的预报。然而,他们很难在两小时内做出高分辨率的预测。临近预报填补了这个关键时间间隔内的性能差距。天气传感的进步使高分辨率雷达能够以高频率(每5分钟一次,分辨率为1公里)提供测量的地表降水数据。过去20分钟的观测雷达用于提供接下来90分钟的概率预报。现有的短期预报方法,如STEPS和PySTEPS,遵循NWP方法来考虑不确定性,但遵循具有雷达信息的平流方程进行降水建模。基于深度学习的方法不需要依赖平流方程,但现有方法侧重于特定地点的预测,而不是整个降水场的概率预测,因此无法同时提供跨多个空间和时间集合的一致预测。预测结果,限制了实用性。为此,DeepMind开发了一种观察驱动的方法,使用深度生成模型(DGMR)进行概率预测。DGMR是一种统计模型,可以学习数据的概率分布,并可以轻松地从学习到的分布中生成样本。由于生成模型基本上是概率性的,因此可以从给定历史雷达的条件分布中模拟许多样本,从而生成预测集合。此外,DGMR既可以从观测数据中学习,也可以表示多个空间和时间尺度上的不确定性。结果表明,DeepMind的深度生成模型可以提供更好的预测质量、预测一致性和预测价值。该模型对1,536平方公里乘1,280公里的区域产生了现实且时空一致的预测,提前期为5-90分钟。DGMR更擅长预测更长时间内的空间覆盖和对流,而不会高估强度通过50多位气象专家的系统评估,DeepMind的生成模型以绝对89%的优势优于其他两种竞争方法,在准确性和实用性方面均排名第一。其他有趣的论文可以在Louis的GitHub主页上找到。目前这个项目还在更新中,收藏一波,持续跟进!
