当前位置: 首页 > 科技观察

Github盘点!2021年最惊人的38篇AI论文

时间:2023-03-13 16:25:01 科技观察

2021年是人工智能持续突飞猛进的一年。最近,Github上有人总结了今年AI和机器学习领域最有趣、最惊艳的38篇论文,值得收藏。1.零样本文本到图像生成https://arxiv.org/pdf/2102.12092.pdf文本到图像生成传统上侧重于为固定数据集的训练寻找更好的建模假设。本文描述了一种基于Transformer的简单方法来完成此任务,将文本和图像标记化自回归建模为单个数据流。有了足够的数据和规模,我们的方法在以零样本方式进行评估时与以前的特定领域模型相比具有竞争力。2.VOGUE:Try-OnbyStyleGANInterpolationOptimizationhttps://vogue-try-on.github.io/static_files/resources/VOGUE-virtual-try-on.pdf给定目标人物和另一个人穿着衣服的图像,我们会自动生成穿着给定服装的目标人物。我们方法的核心是姿势条件StyleGAN2潜在空间插值,它无缝地结合了每个图像的感兴趣区域,即目标人物的身体形状、头发和肤色,以及有皱纹的衣服、材料特性和从服装形象塑造。3.TamingTransformersforHigh-ResolutionImageSynthesishttps://compvis.github.io/taming-transformers/本文将GAN和卷积方法的效率与Transformer的表达能力相结合,提供了一种以语义为指导的高质量图像合成一种强大且省时的方法。4.ThinkingFastAndSlowinAIhttps://arxiv.org/abs/2010.06002这篇论文从人类的能力中汲取灵感,提出了10个问题,以走向更通用、更值得信赖的人工智能(AGI)和AI研究社区.5.航空影像中漂浮海洋大型垃圾的自动检测与量化https://doi.org/10.1016/j.envpol.2021.116490巴塞罗那大学的研究人员开发了一种基于深度学习的算法,可以从航空影像中提取检测并量化漂浮垃圾。他们还创建了一个面向网络的应用程序,允许用户识别海洋表面图像中的垃圾。6.ShaRF:来自单一视图的形状条件辐射场https://arxiv.org/abs/2102.08860想象一下,如果您只是拍摄对象的照片并将其以3D形式插入到您正在制作的电影或视频游戏中,或者插入到3D场景中进行插图,那该有多酷。7.GenerativeAdversarialTransformershttps://arxiv.org/pdf/2103.01209.pdf本文在强大的StyleGAN2架构中使用了Transformer的注意力机制,使其更加强大!8.我们要求人工智能创建约会资料。你会向右滑动吗?https://studyonline.unsw.edu.au/blog/ai-generated-dating-profileAI的profile页面会仔细查看吗?你能分清真人和机器之间的区别吗?这项研究揭示了将AI用于约会应用程序时会发生什么。9.SwinTransformer:HierarchicalVisionTransformerusingShiftedWindowshttps://arxiv.org/abs/2103.14030v1Transformers会在计算机视觉中取代CNN吗?在不到5分钟的时间内,您可以通过这篇关于SwinTransformer的新论文了解如何将Transformer架构应用于计算机视觉任务。10.IMAGEGANSMEETDifferentiableRenderingForInverseGraphicsandInterpretable3DNEURALRENDERINGhttps://arxiv.org/pdf/2010.09125.pdf这篇文章提出了一个名为GANverse3D的模型,它可以只用一个图像3D图像来定制和动画化。11.深度网络:他们为视觉做了什么?https://arxiv.org/abs/1805.04025本文将公开分享关于深度网络在视觉应用中的成功,以及我们必须解决的局限性等一切。12.InfiniteNature:PerpetualViewGenerationofNaturalScenesfromaSingleImagehttps://arxiv.org/pdf/2012.09855.pdf视图合成的下一步是永久视图生成,目标是创建一张可以飞入的图片它,你还可以探索影像中的美景!13.Portable,self-containedNeuroprostheticHandwithDeepLearning-BasedFingerControlhttps://arxiv.org/abs/2103.13452本文提出了一种由人工智能驱动的神经接口,可以由截肢者控制,具有逼真的灵巧性和直觉性Neuroprosthetics。14.TotalRelighting:LearningtoRelightPortraitsforBackgroundReplacementhttps://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf你有没有想过改变图片的背景,但让它看起来更逼真?这并不容易。你不能只在家里拍一张自己的照片,然后把它换成海滩背景。图片看起来很假,任何人都会立即看到“这是Photoshop”。本文提出的方法可以完美解决这个问题。15.LASR:LearningArticulatedShapeReconstructionfromaMonocularVideohttps://openaccess.thecvf.com/content/CVPR2021/papers/Yang_LASR_Learning_Articulated_Shape_Reconstruction_From_a_Monocular_Video_CVPR_2021_paper.pdf这篇文章提出了一种方法,可以生成只有短视频的人或动物作为移动输入的3D模型的。事实上,模型实际上理解生成的对象是一个可以移动的奇怪形状,但仍然需要保持依附于原始视频,因为这仍然是“一个对象”,而不仅仅是多个对象的集合。16.EnhancingPhotorealismEnhancementhttp://vladlen.info/papers/EPE.pdf在这篇文章中,英特尔研究人员提出了一种人工智能模型,可以实时应用于视频游戏,让每一帧图像看起来更自然。如果您认为这只是将视频游戏中的图像作为输入并以自然世界的风格对其进行修改的“只是另一个GAN”,那不是。你可以在游戏画面上花更少的功夫,让它稳定完整,然后用这个模型来改进画面风格。17.DefakeHop:轻量级高性能Deepfake检测器https://arxiv.org/abs/2103.069292021年如何准确识别Deepfake假视频?这篇新论文可能会提供一个答案。可能“再次使用人工智能”。未来,“眼见为实”可能很快就会变成“AI说真话”。18.High-ResolutionPhotorealisticImageTranslationinReal-Time:ALaplacianPyramidTranslationNetworkhttps://arxiv.org/pdf/2105.09188.pdf本文提出了一种基于机器学习的新方法,可以将任何风格的图像翻译成指定图像时尚的实时4K图形!19.Barbershop:GAN-basedImageCompositingusingSegmentationMaskshttps://arxiv.org/pdf/2106.01505.pdf这篇文章本身并不是新技术,而是GAN令人兴奋的新应用。这个AI可以改变你的发型,看看改变前后的对比。20.TextStyleBrush:从单个例子??迁移文字美学https://arxiv.org/abs/2106.083852021年,当你在异国他乡旅行时,走进一家餐厅,面对看不懂的菜单。你甚至不需要打开谷歌翻译,只需使用这篇文章中来自FacebookAI的新模型,你就可以翻译菜单图片中的每个单词。21.AnimatingPictureswithEulerianMotionFieldshttps://arxiv.org/abs/2011.15128本文中的AI模型拍一张照片,学习哪些粒子应该运动,将图片转换成无限循环的动画,同时充分保留图像的其余部分,创建一个逼真的视频。22.CVPR2021最佳论文奖:GIRAFFE-ControllableImageGenerationhttp://www.cvlibs.net/publications/Niemeyer2021CVPR.pdf这篇文章使用了修改后的GAN架构,可以在不影响背景或其他目标的情况下移动图像的目标。23.GitHubCopilot&Codex:EvaluatingLargeLanguageModelsTrainedonCodehttps://arxiv.org/pdf/2107.03374.pdf这种新的OpenAI模型可以从单词生成代码。24.Apple:通过设备上的私人机器学习识别照片中的人https://machinelearning.apple.com/research/recognizing-people-photosApple在您的设备上使用各种基于机器学习的算法,让用户能够15准确地计划和组织您的图像和视频。25.使用随机微分方程进行图像合成和编辑https://arxiv.org/pdf/2108.01073.pdf是时候告别用于图像生成的复杂GAN和Transformer架构了!斯坦福大学和卡内基梅隆大学的研究人员可以根据任何基于用户的输入生成新图像。即使没有艺术背景的人现在也可以从草图中生成精美的图像。26.SketchYourOwnGANhttps://arxiv.org/abs/2108.02774通过从草图生成图像,让每个人都能更轻松地进行GAN训练!事实上,通过这种新方法,您可以根据最简单的知识类型:手绘草图来控制GAN的输出。27.Tesla'sAutopilotExplainedhttps://www.louisbouchard.ai/tesla-autopilot-explained-tesla-ai-day/在这篇文章中,特斯拉的人工智能总监AndreKapasi等人演示了特斯拉的Autopilot自动驾驶系统如何收集图像通过他们的八个摄像头在路上导航。28.Styleclip:Text-drivenmanipulationofStyleGANimageryhttps://arxiv.org/abs/2103.17249AI可以生成图像,通过反复试验,研究人员可以将生成结果控制在特定的样式中。现在,有了这个新模型,这可以只使用文本来完成!29.TimeLens:Event-basedVideoFrameInterpolationhttp://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdfTimeLens模型可以理解视频帧之间的粒子运动,并以人眼可以识别的速度重建视频无法捕获。事实上,本文模型的效果已经达到了目前智能手机无法达到的效果。30.单一视频的多样化生成成为可能https://arxiv.org/abs/2109.08591你有没有想过编辑视频?比如删除或添加某人、更改背景、更改分辨率以适应特定的宽高比,而无需压缩或拉伸原始视频。本文的新研究。可以帮助您在一个高清视频中完成所有这些工作。31.使用雷达深度生成模型的熟练降水临近预报https://www.nature.com/articles/s41586-021-03854-zDeepMind刚刚发布了一个生成模型,其性能优于广泛使用的临近预报89%的时间方法,其准确性和实用性已经过50多位气象学家的评估!该模型专注于预测未来2小时内的降水量,而且效果出奇地好。32.鸡尾酒叉问题:真实世界音轨的三干音频分离https://arxiv.org/pdf/2110.09958.pdf你有没有看过根本听不到演员声音的视频或电视节目,还是音乐太大声了?好吧,这个问题可能再也不会发生了。三菱和印第安纳大学刚刚发布了一个新模型和一个新数据集,用于识别和处理视频音轨的声音。33.ADOP:ApproximateDifferentiableOne-PixelPointRenderinghttps://arxiv.org/pdf/2110.06635.pdf想象一下,从拍摄的一堆照片中生成一个3D模型或一段简单流畅的视频。现在,这个目标可以实现了。34.(Style)CLIPDraw:CouplingContentandStyleinText-to-DrawingSynthesishttps://arxiv.org/abs/2111.03133随便拍一张你要复制的样式,然后输入你要生成的文字.本文中的算法会自动生成一张新图片。35.SwinIR:Imagerestorationusingswintransformerhttps://arxiv.org/abs/2108.10257你有没有拍过一张你非常喜欢的照片,但现在只有一张小照片?如果能将其清晰度提高四到八倍该有多好。本文的方法可以将图像的分辨率提高4倍,使其看起来更平滑。几乎任何图像都可以在几秒钟内自动完成。36.EditGAN:高精度语义图像编辑https://arxiv.org/abs/2111.03186本文中的图像编辑工具,可以从头控制任何特征,只编辑你想要的,图像其余部分保持不变。这是一款基于NVIDIA、MIT和UofT提出的GAN草图模型的SOTA图像编辑工具。37.CityNeRF:BuildingNeRFatCityScalehttps://arxiv.org/pdf/2112.05504.pdf本文中的模型称为CityNeRF,由NeRF发展而来。NeRF是最早使用辐射场和机器学习从图像构建3D模型的公司之一。但它不是很有效,而且只适用于单一规模。在本文中,CityNeRF可以应用于卫星和地面图像,为任何视点生成各种3D模型比例。38.ClipCap:CLIPPrefixforImageCaptioninghttps://arxiv.org/abs/2111.09734CLIP是一个链接图像和文本作为指南的模型。一个非常相似的任务,称为图像字幕,听起来很简单,但实际上同样复杂。它体现了机器生成图像自然描述的能力。简单地标记您在图像中看到的对象很容易,但理解一张2D图片是另一回事,而这个新模型做得非常好。