当前位置: 首页 > 科技观察

年终收藏!本文看完了2020年最“出圈”的AI论文全集

时间:2023-03-15 14:10:38 科技观察

2020年,各国人民一定在新冠病毒的控制下瑟瑟发抖……然而,这不影响科研人员的工作态度和态度。输出质量。疫情之下,全球研究人员通过各种方式不断积极合作,发表了许多有影响力的成果——尤其是在人工智能领域。与此同时,AI偏见和AI伦理逐渐引起了大家的关注。在今年的新研究成果中,科研人员的心血结晶,必将对未来几年人工智能的发展产生不小的影响。本文将为大家介绍2020年初至今AI和数据科学领域最有趣和最有突破性的论文:(小编把每篇论文的Github代码地址放给大家,对任何感兴趣的都可以研究成果可以去了解)1.YOLOv4:OptimalSpeedandAccuracyforTargetDetection原论文:A.Bochkovskiy,C.-Y。王和H.-Y。M.Liao,Yolov4:物体检测的最佳速度和精度,2020。arXiv:2004.10934[cs.CV]。2020年4月,AlexeyBochkovsky等人。官方在论文《YOLOv4:OptimalSpeedandAccuracyofObjectDetection》中介绍了Yolo4。论文算法的主要目标是做出高质量、高精度的超高速物体检测器。代码地址:https://github.com/AlexeyAB/darknet2,DeepFacerawing:Faceimagedepthgenerationbasedonsketches原论文:S.-Y。Chen、W.Su、L.Gao、S.Xia和H。Fu,“DeepFaceDrawing:Deepgenerationoffaceimagesfromsketches,”ACMTransactionsonGraphics(ACMSIGGRAPH2020论文集),卷。39,没有。4,72:1–72:16,2020.基于这张新图像由于图像变换技术,我们可以从粗糙甚至不完整的草图开始生成高质量的面部图像。不仅如此,我们甚至可以调整眼睛、嘴巴和鼻子对最终图像的影响。代码地址:https://github.com/IGLICT/DeepFaceDrawing-Jittor3,PULSE:Self-supervisedphotoupsamplingthroughlatentspaceexplorationofgenerativemodels原论文:S.Menon,A.Damian,S.Hu,N.Ravi,和C.Rudin,Pulse:通过生成模型的潜在空间探索进行自监督照片上采样,2020年。arXiv:2003.03808[cs.CV]。该算法可以将模糊图像转换为高分辨率图像——它可以将超低分辨率的16x16图像转换为1080p高清人脸。代码地址:https://github.com/adamian98/pulse4,编程语言的无监督翻译原文:M.-A.Lachaux、B.Roziere、L.Chanussot和G.Lample,编程语言的无监督翻译,2020年。arXiv:2006.03511[cs.CL]。一种在没有任何监督的情况下将代码从一种编程语言翻译成另一种编程语言的新模型。它可以采用Python函数并将其转换为C++函数,反之亦然,而无需任何先验示例。它理解每种语言的语法,因此可以推广到任何编程语言。代码地址:https://github.com/facebookresearch/TransCoder?utm_source=catalyzex.com5,PIFuHD:multi-levelpixelalignmentimplicitfunctionforhigh-resolution3Dhumanbodyreconstruction原论文:S.Saito,T.Simon,J.Saragih和H.Joo,Pifuhd:用于高分辨率3d人体数字化的多级像素对齐隐式函数,2020.arXiv:2004.00452[cs.CV]。该技术可以从2D图像分辨率人重建3D高分辨率图像。您只需提供一张图片即可生成一个3D头像,即使从后面看起来也很像您。代码地址:https://github.com/facebookresearch/pifuhd6,迪士尼百万像素级换脸技术论文:J.Naruniec,L.Helminger,C.Schroers,andR.Weber,《High-resolutionneuralface-swapping视觉效果”,计算机图形学论坛,卷。39,第173–184页,2020年7月。doi:10.1111/cgf.14062。迪士尼在欧洲图形学会透视研讨会(EGSR)上展示了首个百万像素逼真的换脸技术。他们提出了一种在图像和视频中全自动换脸的算法。据研究人员称,这是第一种以时间一致性呈现百万像素逼真效果的方法。论文链接:https://studios.disneyresearch.com/2020/06/29/high-resolution-neural-face-swapping-for-visual-effects/7,DepthImageProcessingwithAutoencoderInterchange原文:T。公园,J.-Y。Zhu,O.Wang、J.Lu、E.Shechtman、A.A.Efros和R.Zhang,用于深度图像处理的交换自动编码器,2020.arXiv:2007.00653[cs.CV]。这项新技术,通过完全无监督的训练,可以在保持真实感的同时改变任何图片的纹理。结果看起来比GAN更好,而且速度更快。它甚至可以用来制作深度假货。代码地址:https://github.com/rosinality/swapping-autoencoder-pytorch?utm_source=catalyzex.com8,GPT-3:Alanguagemodelforsmallsamplelearning原论文:T.B.Brown,B.Mann,N.Ryder,M.Subbiah、J.Kaplan、P.Dhariwal、A.Neelakantan、P.Shyam、G.Sastry、A.Askell、S.Agarwal、A.Herbert-Voss、G.Krueger、T.Henighan、R.Child,A.Ramesh、D.M.Ziegler、J.Wu、C.Winter、C.Hesse、M.Chen、E.Sigler、M.Litwin、S.Gray、B.Chess、J.Clark、C.Berner、S.McCandlish,A.Radford、I.Sutskever和D.Amodei,“语言模型是少数学习者”,2020年。arXiv:2005.14165[cs.CL]。目前最先进的NLP系统正在尝试泛化到不同的任务。相比之下,人类只需要看到几个例子就可以执行新的语言任务,而他们需要在数千个例子的数据集上进行微调。这就是GPT-3背后的目标——改进语言模型的任务无关属性。代码地址:https://github.com/openai/gpt-39,videorenderingofjointspatiotemporaltransformations原论文:Y.Zeng,J.Fu,andH.Chao,Learningjointspatio-temporaltransformationsforvideoin-painting,2020.arXiv:2007.10247[cs.CV]。这种人工智能技术可以在移除移动物体后填充缺失的像素并重建整个视频。这种方法比以前的方法更准确、更清晰。代码地址:https://github.com/researchmm/STTN?utm_source=catalyzex.com10。像素级生成预处理论文:M.Chen、A.Radford、R.Child、J.Wu、H.Jun、D.Luan和I.Sutskever,“像素生成预训练”,第37届国际会议论文集关于机器学习,H.D.III和A.Singh,Eds.,ser。机器学习研究论文集,卷。119,虚拟:PMLR,2020年7月13-18日,第1691-1703页。[在线的]。一个好的人工智能,比如Gmail中使用的人工智能,可以生成连贯的文本和完整的短语。同样,使用相同的原理,该模型可以完成图像。此外,所有这些都是在无监督训练中完成的,根本没有任何标签!代码地址:https://github.com/openai/image-gpt11,使用white-boxcartoonrepresentation学习卡通化的过程原论文:XinruiWang和JinzeYu,“LearningtoCartoonizeUsingWhite-boxCartoonRepresentations.”,IEEECon??ferenceonComputerVisionandPatternRecognition,2020年6月。只要输入你想要的卡通风格,这项AI技术就可以将任何图片或视频卡通化。代码地址:https://github.com/SystemErrorWang/White-box-Cartoonization12,FreezeGfreezediscriminator:asimplebenchmarktofine-tuneGANpaper原文:S.Mo,M.Cho,andJ.Shin,Freezethediscriminator:用于微调甘斯的简单基线,2020。arXiv:2002.10964[cs.CV]。这个人脸生成模型可以将普通的人脸照片转换成独特的风格,比如Leemalnyeon,TheSimpsons,以及艺术风格,你甚至可以尝试狗!这项新技术的最大优点是它非常简单,并且比以前使用GAN的技术要好得多。代码地址:https://github.com/sangwoomo/freezeD?utm_source=catalyzex.com13.Humanneuralre-renderingpaperaddressfromasingleimage:K.Sarkar,D.Mehta,W.Xu,V.Golyanik,和C.Theobalt,“从单个图像对人类进行神经重新渲染”,欧洲计算机视觉会议(ECCV),2020年。该算法将人体的姿势和形状表示为参数化网格,可以从中重建单个图像,易于恢复。给定一个人的图像,该技术能够根据其他输入图像创建该人的不同姿势和穿着不同衣服的合成图像。项目主页:http://gvv.mpi-inf.mpg.de/projects/NHRR/14,I2L-MeshNet:Realizemage-to-Lixelforaccurate3DhumanposeandgridestimationstartingfromasingleRGBimagePredictionnetwork论文原文:G.Moon和K.M.Lee,“I2l-meshnet:Image-to-lixelpredictionnetworkforaccurate3dhumanposeandmeshestimationfromasinglergbimage”,欧洲计算机视觉会议(ECCV),2020年研究人员该论文的作者提出了一种从单个RGB图像进行3D人体姿势和网格估计的新技术,他们称之为I2L-MeshNet。其中I2L表示imagetolixel,类似于voxel(体积+像素)。研究人员将lixel、线和像素定义为一维空间中的量化单元。I2L-MeshNet:Image-to-LixelPredictionNetworkforAccurate3DHumanPoseandMeshEstimationfromaSingleRGBImage[14]代码地址:https://github.com/mks0601/I2L-MeshNet_RELEASE15,超级导航地图:连续环境原始论文中的视觉语言导航:J.Krantz、E.Wijmans、A.Majumdar、D.Batra和S.Lee,“超越导航图:连续环境中的视觉和语言导航”,2020年。arXiv:2004.02857[cs.CV]。语言导航是一个广泛研究且非常复杂的领域。事实上,对于一个人来说,穿过房子去拿你放在床头柜上的咖啡似乎很简单。但是对于机器来说,情况就完全不同了。代理是一种自主的人工智能驱动系统,它使用深度学习来执行任务。代码地址:https://github.com/jacobkrantz/VLN-CE16,RAFT:Recurrentall-pairsfieldtransformsforopticalflow原论文:Z.TeedandJ.Deng,Raft:Recurrentall-pairsfieldtransformsforopticalflow,2020.arXiv:2003.12039[cs.CV]。这篇论文来自普林斯顿大学团队,获得了ECCV2020最佳论文奖。研究人员开发了一种新的端到端可训练光流模型。他们的方法以更高的效率超越了多个数据集上最先进的架构的准确性。代码地址:https://github.com/princeton-vl/RAFT17,众包采样全光函数论文:Z.Li,W.Xian,A.Davis,andN.Snavely,“Crowdsamplingtheplenopticfunction,”inProc.欧洲计算机视觉会议(ECCV),2020年。使用游客在线发布的照片??,他们能够重建场景的多个视点,同时保留逼真的阴影和光照。对于逼真的场景渲染,这是向前迈出的一大步,代表了最先进的技术水平。他们的结果令人吃惊。代码地址:https://github.com/zhengqili/Crowdsampling-the-Plenoptic-Function18。通过深度潜在空间翻译恢复旧照片原论文:Z.Wan,B.Zhang,D.Chen,P.Zhang,D.Chen,J.Liao和F.Wen,通过深度潜在空间平移修复旧照片,2020。arXiv:2009.07047[cs.CV]。您可以拥有祖母18岁时的高分辨率照片,而不会留下任何人工痕迹——这称为旧照片修复。代码地址:https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life?utm_source=catalyzex.com19.Neuralcircuitstrategysupportingauditableautonomy原论文:Lechner,M.,Hasani,R。,Amini,A.等人。支持可审核自治的神经回路策略。NatMachIntell2,642–652(2020)。奥地利理工学院(ISTAustria)和麻省理工学院(MIT)的研究人员利用一种新的人工智能系统,以蠕虫等微小动物的大脑为基础,成功训练了一辆自动驾驶汽车。与Inceptions、Resnets或VGG等流行的深度神经网络需要数百万个神经元来控制自动驾驶汽车相比,它们只需要少数几个神经元。论文地址:https://doi.org/10.1038/s42256-020-00237-320,UnderstandingYouatDifferentAges原论文:R.Or-El,S.Sengupta,O.Fried,E.Shechtman,andI.Kemelmacher-Shlizerman,“Lifespanagetransformationsynthesis”,欧洲计算机视觉会议(ECCV)会议记录,2020年。想看看你40岁时会是什么样子吗?现在可以了!AdobeResearch的一组研究人员开发了一种新技术,仅基于真人的一张照片,就可以合成该人任何年龄的照片。代码地址:https://github.com/royorel/Lifespan_Age_Transformation_Synthesis21、DeOldify:给黑白图像上色DeOldify是一种对旧的黑白图像甚至胶片进行着色和恢复的技术。它由JasonAntic开发,目前仍在更新中。这是目前最先进的黑白图像着色方法,而且一切都是开源的。代码地址:https://github.com/jantic/DeOldify22,COOT:CollaborativeHierarchicalTransformationforVideoTextRepresentationLearning论文:S.Ging,M.Zolfaghari,H.Pirsiavash,andT.Brox,《Coot:Cooperativehierarchicaltransformer用于视频文本表示学习”,神经信息处理系统会议,2020年。顾名思义,通过输入视频和视频的一般描述,该技术使用转换器为每个序列生成准确的文本描述视频。代码地址:https://github.com/gingsi/coot-videotext23,像真正的画家一样变换图片风格原论文:Z.Zou,T.Shi,S.Qiu,Y.Yuan,andZ.Shi,Stylizedneuralpainting,2020.arXiv:2011.08114[cs.CV]这种图像到绘画的转换模型使用一种不涉及任何GAN架构的新颖方法来模拟具有多种风格的真实画家。代码地址:https://github.com/jiupinjia/stylized-neural-painting24。实时人像抠图真的需要绿屏吗?原论文:Z.Ke,K.Li,Y.Zhou,Q.Wu,X.Mao、Q.Yan和R.W.Lau,“实时人像抠图真的需要绿屏吗?”ArXiv,卷。abs/2011.11961,2020.人体抠图是一个非常有趣的任务,它的目标是找到照片中的任何一个人,并去除照片中的背景。由于任务的复杂性,很难找到具有完美形象的人。在这篇文章中,研究人员回顾了多年来使用的最佳技术和2020年11月29日发表的新方法。项目地址:https://github.com/ZHKKKe/MODNet25,ADA:Usinglimiteddatatrainingtogenerateconfrontationnetworks原论文:T.Karras,M.Aittala,J.Hellsten,S.Laine,J.Lehtinen,andT.Aila,Traininggenerativeadversarialnetworkswithlimiteddata,2020.arXiv:2006.06676[cs.CV]。使用NVIDIA开发的这种新训练方法,您只需使用十分之一的图像就可以训练出强大的生成模型!代码地址:https://github.com/NVlabs/stylegan2-ada最后还可以访问GitHub中的完整论文列表:https://github.com/louisfb01/Best_AI_paper_2020