论文1:OneModeltoEditThemAll:Free-FormText-DrivenImageManipulationwithSemanticModulations作者:YimingZhu,HongyuLiu等论文地址:https://arxiv.org/pdf/2210.07883.pdf摘要:本文首先使用现有的编码器将待编辑图像转换为StyleGAN的W^+语义空间中的latentcodew,然后使用提出的语义调制模块对隐式编码进行自适应调制.语义调制模块包括语义对齐和语义注入模块。首先通过attention机制对齐文本代码和GAN隐藏代码之间的语义,然后将文本信息注入对齐的隐藏代码中,保证隐藏代码有文本信息,实现用文本编辑图片的能力.与经典的StyleCLIP模型不同,我们的模型不需要为每个文本训练单独的模型,一个模型可以响应多个文本以有效地编辑图像,因此我们的模型成为FFCLIP-FreeFormText-DrivenImageManipulation。同时,我们的模型在经典的教堂、人脸和汽车数据集上取得了很好的效果。图1:整体框架图推荐:文本和图像编辑的新范式,以及多文本引导图像编辑的单一模型。论文2:PrintedOrganicPhotovoltaicModulesonTransferableUltra-thinSubstratesasAdditivePowerSources作者:MayuranSaravanapavanantham,JeremiahMwaura等论文地址:https://onlinelibrary.wiley.com/doi/10.1002/smtd.202200940摘要:MIT该学院的研究人员开发了一种可扩展的制造技术,可以生产可放置在任何表面上的超薄、轻型太阳能电池。麻省理工学院的研究人员创造出比人类头发丝还薄的太阳能电池板,每公斤可提供的能量是目前玻璃和硅基太阳能电池板的18倍。这些太阳能电池板的重量仅为传统光伏电池的百分之一。超薄太阳能电池板还可以连接到船帆、无人机机翼和帐篷上。它们在偏远地区和救灾行动中特别有用。建议:麻省理工学院制造了纸一样薄的太阳能电池板。论文3:ASurveyofDeepLearningforMathematicalReasoning作者:PanLu,LiangQiu等论文地址:https://arxiv.org/pdf/2212.10535.pdf摘要:在最近发布的一份报告中,来自UCLA等机构研究人员系统回顾了深度学习在数学推理方面的进展。具体来说,本文讨论了各种任务和数据集(第2节),并研究了数学领域中神经网络(第3节)和预训练语言模型(第4节)的进展。还探讨了用于数学推理的大型语言模型的上下文学习的快速发展(第5节)。我们进一步分析现有基准,发现对多模式和低资源设置的关注较少(第6.1节)。循证研究表明,当前对计算能力的表示是不充分的,深度学习方法在其数学推理方面不一致(第6.2节)。随后,作者建议在泛化和稳健性、可信推理、从反馈中学习和多模态数学推理(第7节)方面改进当前工作。推荐:深度学习如何慢慢打开数学推理之门。论文4:Muse:Text-To-ImageGenerationviaMaskedGenerativeTransformers作者:HuiwenChang,HanZhang等论文地址:https://arxiv.org/pdf/2301.00704v1.pdf摘要:本研究提出了一种使用masked一种使用编码图像建模方法进行文本到图像合成的新模型,其中图像解码器架构以来自预训练和冻结的T5-XXL大型语言模型(LLM)编码器的嵌入为条件。与基于级联像素空间扩散模型的Imagen(Sahariaetal.,2022)或Dall-E2(Rameshetal.,2022)相比,Muse由于使用了离散的token,效率显着提高。与SOTA自回归模型Parti(Yuetal.,2022)相比,Muse由于使用了并行解码,因此效率更高。根据在TPU-v4上的实验结果,研究人员估计Muse在推理速度上比Imagen-3B或Parti-3B模型快10倍以上,比StableDiffusionv1.4快2倍(Rombach等人,2022年)).研究人员认为Muse推理比StableDiffusion更快,因为在StableDiffusionv1.4中使用了扩散模型,显然在推理过程中需要更多的迭代。模型架构概述。推荐:推理速度比StableDiffusion快2倍,Google可以用单一模型生成和修复图像。论文5:Positive-IncentiveNoise作者:李学龙论文地址:https://ieeexplore.ieee.org/document/10003114摘要:在科学研究的方方面面,都存在大量的噪声,比如仪器精度不够仪器误差、人为操作失误导致的偏差、极端环境等外部干扰导致的信息失真等。研究人员普遍认为,噪声往往会对所执行的任务产生不利影响,这已成为一个公认的假设。因此,围绕“降噪”这一核心任务产生了大量的研究工作。然而,西北工业大学李学龙教授团队在进行信号检测和处理任务时,通过实验观察验证了这一假设:科研中的噪声真的总是有害的吗?如图1所示,在一个图像智能分类系统中,对图像加入适量的噪声再进行训练后,识别准确率反而提高了。这给我们带来了一点启发:在图像中加入一些噪声,而不是去除噪声,然后再进行图像分类任务,效果可能会更好。只要噪声对目标的影响远小于噪声对背景的影响,产生“一千伤敌(背景噪声),八百伤己(目标信号)”,因为任务追求高信噪比。本质上,面对传统的分类问题,在特征后随机加入适度的噪声,相当于增加了特征维度。从某种意义上说,它类似于在特征上加了一个核函数,实际上完成了一个从低维空间到高维空间的映射,使得数据更加可分离,从而提高了分类效果。图1图像识别准确率随着图像噪声强度的增加呈现出“先增后减”的“反直觉”关系。推荐:西工大李学龙教授提出了基于任务熵的数学分析框架。论文6:ABPN:AdaptiveBlendPyramidNetworkforReal-TimeLocalRetouchingofUltraHigh-ResolutionPhoto作者:雷碧文、郭谢凡等论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Lei_ABPN_Adaptive_Blend_Pyramid_Network_for_Real-Time_Local_Retouching_of_CVPR_2022_paper.pdf摘要:达摩院研究人员针对高清图像开发了一套超精细局部修图算法ABPN,旨在实现专业级的智能美肤。在任务中取得了良好的效果和应用。如上图所示,网络结构主要由两部分组成:上下文感知局部修改层(LRL)和自适应混合金字塔层(BPL)。LRL的目的是对降采样后的低分辨率图像进行局部修改,生成低分辨率修改结果图,充分考虑全局上下文信息和局部纹理信息。此外,BPL用于逐步将LRL中生成的低分辨率结果放大为高分辨率结果。其中,我们设计了一个自适应混合模块(ABM)及其逆向模块(R-ABM),利用中间混合层Bi,可以实现原始图像和结果图像之间的自适应变换和向上扩展,表现出强大的可扩展性和细节保真度功能。我们对人脸修改和服装修改这两个数据集进行了大量的实验,结果表明我们的方法在效果和效率上都明显领先于现有的方法。值得一提的是,我们的模型在单卡P100上实现了对4K超高分辨率图像的实时推理。建议:一键擦除瑕疵和皱纹。论文7:Image-and-LanguageUnderstandingfromPixelsOnly作者:MichaelTschannen,BasilMustafa等论文地址:https://arxiv.org/pdf/2212.08045.pdf摘要:开发一种可以处理任何模态或模态的方法结合单一的端到端模型将是迈向多模态学习的重要一步。在这篇论文中,来自苏黎世GoogleResearch(GoogleBrain团队)的研究人员将主要关注图像和文本。本文探讨了使用纯像素模型进行文本和图像的多模态学习。该模型是一个单独的VisionTransformer,它处理视觉输入或文本,或两者兼而有之,所有这些都呈现为RGB图像。所有模态都使用相同的模型参数,包括低级特征处理;也就是说,没有模态特定的初始卷积、标记化算法或输入嵌入表。该模型只接受一项任务的训练:对比学习,由CLIP和ALIGN推广。因此,该模型被称为CLIP-PixelsOnly(CLIPPO)。建议:减半参数,和CLIP一样好,VisualTransformer从像素开始,实现图文统一。ArXivWeeklyRadiostation与楚航、罗若田发起的ArXivWeeklyRadiostation一起,在本周精选7篇论文的基础上,精选出更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频10NLPPapers音频:00:0020:02本周精选的10篇NLP论文是:1.RethinkingwithRetrieval:FaithfulLargeLanguageModelInference。(来自HongmingZhang,DanRoth)2.使用语言模型理解政治两极化:数据集和方法。(来自BhikshaRaj)3。使用预训练语言模型实现表到文本生成:表结构理解和文本审议方法。(来自辉雄)4.用认知立场检测检查政治修辞。(来自布伦丹奥康纳)5。使用公式化知识实现知识密集型文本到SQL语义解析。(来自Min-YenKan)6.在隐性仇恨言论检测中利用世界知识。(来自杰西卡林)7。神经编解码器语言模型是零样本文本到语音合成器。(来自傅如伟)8.EZInterviewer:通过Mo提高求职面试表现ck访谈生成器。(来自张涛)9.用于自动语音识别的基于内存增强查找字典的语言建模。(来自王玉轩)10.参数有效的微调设计空间。(来自杨迪一)10CVPapers音频:00:0021:06本周10篇CV精选论文是:1.CA$^2$T-Net:来自单个图像的类别不可知的3D清晰度传输。(来自JitendraMalik)2。绘制小农腰果种植园地图,为贝宁的可持续林木作物扩张提供信息。(来自VipinKumar)3。Scale-MAE:一种用于多尺度地理空间表示学习的尺度感知掩码自动编码器。(来自特雷弗·达雷尔)4。步骤:从未标记的程序视频中提取自我监督的关键步骤。(来自RamaChellappa)5。Muse:通过MaskedGenerativeTransformers生成文本到图像。(来自杨明轩、凯文·墨菲、威廉·T·弗里曼)6.通过神经崩溃了解不平衡的语义分割。(来自张翔宇、贾佳亚)7.通过Coo的跨模态转换器指示3D对象检测的编码。(来自张翔宇)8.通过语义区域预测学习道路场景级表示。(来自AlanYuille)9。通过排序学习:具有组序约束的自监督学习。(来自BerntSchiele)10。AttEntropy:使用语义分割转换器的空间注意熵在复杂场景中分割未知对象。(来自PascalFua)10MLPapers音频:00:0023:15本周10篇ML精选论文是:1.基于相关信息原理的自组织保存图结构学习。(来自PhilipS.Yu)2。通过用于电子商务中信息提取的生成对抗网络修改查询扩展。(来自AltanCakir)3。通过查找相关子空间对神经网络预测进行解耦解释。(来自Klaus-RobertMüller)4。L-HYDRA:多头物理信息神经网络。(来自GeorgeEmKarniadakis)5。论Transformer对强化学习的改造:The发展轨迹。(来自陶大成)6.促进神经网络反编译优化的二进制文件。(陈启)7.NeuroExplainer:细粒度注意力解码以揭示早产儿的皮质发育模式。(来自沉定刚)8.类人少样本学习理论。(来自李明)9.压缩更新的时间差异学习:错误反馈满足强化学习。(来自乔治·J·帕帕斯)10。通过逆向多边际最优传输从聚合数据估计潜在人口流动。(来自查宏远)
