当前位置: 首页 > 科技观察

搜索速度提高了八倍,字节跳动发布最新音乐检索系统ByteCover2

时间:2023-03-16 10:09:07 科技观察

近日,字节跳动火山之声团队最新音乐检索系统ByteCover2入选ICASSP2022,该系统主要针对CoverSingingRecognition(CSI)这一重要任务。音乐信息检索(MIR)领域。通过表示学习的方法,它具有提取音乐核心特征的能力,而这个特征可以重新诠释各种各样的音乐。鲁棒性好,检索速度提高8倍。在Da-Tacos数据集上进行评估后,精度远超其他方案的SoTA性能。ByteCover2:Animplicitembeddeddimensionalreductionmethoddesignedforanefficientcoverrecognitionsystem《BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMBEDDING FOR EFFICIENT COVER SONG IDENTIFICATION》方法细节:封面识别往往需要对音乐中的一些常见变化具有鲁棒性,以确保系统专注于建模音乐的方向旋律。在设计封面识别系统时,通常主要考虑三种音乐变化,即音乐模式转换、音乐结构变化和音乐节奏变化。此外,抖音平台每天新增数千万用户投稿。如何快速响应庞大的查询需求,提高识别系统的整体吞吐量,同时保证识别准确率,也是亟待解决的问题;在特征方面,如何在保证其他属性的前提下,尽可能的缩小特征尺寸,从而减少存储空间,降低系统复杂度和成本,也是字节跳动在内部开发封面识别时面临的挑战。在ByteCover系统中,该团队通过多任务学习范式结合ResNet-IBN模型,从音频输入中提取稳健且有判别力的向量表示。针对效率优化问题,还提出了PCA-FC模块。实践证明,该模块可以在保持ByteCover2模型性能不变甚至提升的前提下,将向量大小压缩到八分之一。Bytecover模型结构及训练过程多任务学习提高音乐检索能力:封面识别领域通常有两种训练范式,即多类别学习和度量学习。前者将每条赛道视为一个独立的类别,在特征层之后加入全连接层,通过交叉熵等分类损失来训练模型。表示;后者直接在特征层上,使用tripletloss等指标来学习loss训练网络。总的来说,两种训练范式各有优缺点。团队通过实验发现,分类损失通常可以提高模型检索同一曲目的不同风格的能力,而精心设计的度量学习损失可以提高覆盖网络对类似音乐风格的性能。辨别能力。因此,ByteCover结合了这两种学习范式,通过引入BNNeck模块提高了两种损失的兼容性。ResNet网络和IBN正则化方法(ResNet&Instance-BatchNormalization):为了简化音乐特征提取的过程,加快特征提取速度,团队使用CQT谱图作为模型的输入,而不是常用的同期的其他封面识别方法。cremaPCP或其他更复杂的特征,但这种设计固有地损害了模型在输入特征级别对音频频移的鲁棒性。因此,我选择了卷积神经网络来做一个音乐表征提取网络,希望利用卷积网络的平移不变性来实现模型对频移的不变性。实验证明,CQT谱+普通ResNet的组合在效率和性能上都超越了cremaPCP+CNN的设计。深入探索,团队引入Instance-BatchNormalization,进一步从网络隐式表示层面学习风格无关的音乐特征,即特征图上不同通道间的均值方差等统计与输入风格化相关特征。通过归一化特征图的通道维度,IN可以在一定程度上去除隐藏表示层的程式化信息,从而提高封面识别模型对音色变化的鲁棒性。FeatureDimensionalityReductionModule(PCA-FC):通过计算,团队发现工业级coversystem的耗时大部分集中在特征检索阶段,这个阶段的耗时基本和size成线性关系音乐库的大小和特征向量的大小。曲库中的歌曲数量会随着业务的增长而不断增加,因此降低特征向量的大小成为优化检索系统整体耗时的唯一途径,同时其他覆盖向量特征降维同期工作经常使用全连接层。投影到较低维空间的维向量。实验结果表明,单纯使用全连接层进行降维会显着降低系统的检索能力。团队认为,这种现象不仅是因为更小的尺寸限制了向量的表示能力,而且性能的损失来自于随机初始化的全连接层。特征的各向同性破坏。对数据进行可视化后,我们可以发现降维后的特征分布在圆锥空间内,表现出明显的各向异性,不利于以余弦距离为度量的检索。因此,团队尝试使用PCA对特征向量进行降维,然后用PCA的变换矩阵初始化一个全连接层,将该层与特征提取网络连接起来共同训练,将模块称为PCA-FC.实验结果表明,PCAFC可以显着提高降维模型的检索性能,在保持相同检索性能的情况下,可以将向量大小压缩8倍。结果表明,Da-Tacos已被用作评价封面识别的基准测试数据集。在这个数据集上,1536维的ByteCover2模型取得了远超其他方案的SoTA性能。全班平均准确率指标(mAP)达到79.1%;而除ByteCover系列之外最好的方法Re-MOVE的指标仅为52.5%。值得一提的是,128维的ByteCover2模型甚至超越了2048维的ByteCover1和Re-MOVE方法。对比结果此外,ByteCover1系统还参加了2020年国际音频检索评测大赛(MIREX)。在此过程中,大大刷新了历年翻唱歌曲认可度最高的记录。mAP指数达到84%,比同年参赛的其他解决方案性能提升14%。次。除了ByteCover2,此次字节跳动火山语音团队还有多篇论文被ICASSP2022收录,涵盖智能音乐、音频合成、音频理解、超脑等方向。下面简单介绍一下。SmartMusicHTS-AT:AHierarchicallyLabeledSemanticAudioTransformerModelforSoundClassificationandDetection《HTS-AT: A HIERARCHICAL TOKEN-SEMANTIC AUDIO TRANSFORMER FOR SOUND CLASSIFICATION AND DETECTION》本文主要介绍HTS-AT,一种新颖的基于Transformer的声音事件检测模型。根据音频任务的特点,该结构可以有效提高音频频谱信息在深度Transformer网络中的流动效率,提高模型对声音事件的判别能力,显着降低计算量和内存消耗。此外,HTS-AT还引入了TokenSemantic模块,使模型具备预测声音时间起止点的能力,无需使用额外的标注数据进行训练。结合以上技术,HTS-AT在标准数据集AudioSet上的mAP指数达到了0.471,是目前该数据集上最好的水平,参数和计算量都比之前最好的方法要小;此外,在声音事件定位任务上,HTS-AT在没有额外标注数据的情况下达到了有监督定位模型的性能水平。HTS-AT模型的结构在音乐识别场景中,声音事件检测模型会选择包含音乐的片段,并将其发送给音乐检索系统,以提高整个系统的效率和准确性。S3T:Self-supervisedpre-trainingbasedonSwinTransformerformusicclassification《S3T: SELF-SUPERVISED PRE-TRAINING WITH SWIN TRANSFORMER FOR MUSIC CLASSIFICATION》本文提出了一种创新的基于分层TransformerS3T的自监督音乐预训练算法。S3T采用大规模音乐预训练和微调的范式,使用少量标记数据,充分利用大量未标记音乐数据,通过挖掘音乐中的信息,学习泛化能力强的通用音乐表示。时域和频域。S3T在多个下游任务中取得了不错的效果,尤其是仅使用10%的标签数据进行fine-tuning,可以超过之前用全量标签数据训练的模型,大大降低了人工数据标注的成本。S3T模型结构及训练过程音乐自监督学习无需大量人工标注即可利用大量音乐数据充分挖掘自身表征,通用性强。本文提出的音乐表示的自监督学习为音乐理解奠定了基础。S3T已经应用于音乐厂牌、音乐指纹等场景。经过微调的S3T可以对音乐进行风格、语言、情绪等方面的标签,可靠的音乐标签可以进一步服务于音乐推荐系统,使其能够准确地为来自不同地区的用户推送合适的音乐。音频合成基于服装风格迁移实现场景感知人物视频生成《Towards Using Clothes Style Transfer for Scenario-aware Person Video Generation》该方向致力于解决视频中人物个性化和背景场景自由选择的问题。在创新方面,设计了多个解耦编码器来学习角色的不同属性(身份、服装和姿势),并通过共享解码器融合多层次信息。不同于图像任务,视频需要学习帧与帧之间的变化,因此帧间鉴别器(Inner-frameDiscriminator)的设计大大提高了稳定性。具体来说,就是给模型生成的结果加上一个mask,人物可以切换到任何场景。工作在公共数据集TEDXPeople上,与视频中的基线系统(CVPR2021)相比,服装个性化的多个客观指标都有明显提升,可以达到SOTA效果:SSIM+0.047,PSNR+4.6,FID(越小的更好)-0.4,FVD(越小越好)-0.543。场景感知的服装风格迁移模型框架在数字人多模态生成的场景和业务中,数字人主播的个性化服装和场景的自由选择,为用户提供了自主可控的个性化能力,可以大幅提升。增加数字生活的多样性。AudioUnderstandingAnEnd-to-End(Context)SpeechRecognitionImprovementMethodBasedonFine-grainedContextualKnowledgeSelection《IMPROVING END-TO-END CONTEXTUAL SPEECH RECOGNITION WITH FINE-GRAINED CONTEXTUAL KNOWLEDGE SELECTION》在此基础上,提出了细粒度上下文知识选择机制(Fine-grainedContextualKnowledgeSelection),进一步增强该方法在大热词列表和更多干扰热词的背景下的语音识别定制性能。在之前的工作中,一种称为协同解码的语音识别定制技术有效地提高了定制识别的性能。在本文中,我们提出了一种细粒度的上下文知识选择机制,以进一步增强协同解码技术在定制场景中的能力,针对其在大热词列表和许多干扰热词的上下文中的性能下降问题。在公共数据集Librispeech上,本文的方法在基本CIF语音识别模型的test-clean2.12%WER的基础上,进一步带来了约5%的WER相对降低;内部16w小时的工业级ASR数据集训练基于语音识别模型,本文方法在真实会议测试集上带来的CER最高相对下降约16%。在应用场景方面,可以使用该方法来自定义语音识别。例如,在智能语音助手、在线视频会议等应用场景中,很多上下文相关的关键词、个性化信息、热词等识别难度很大。此外,在移动端智能语音助手的应用场景中,联系人列表中联系人的姓名、常去地点和位置等个性化信息;有针对性地提升这些定制化、个性化的文本内容的语音识别性能,在实际应用场景中具有重要意义。Non-AutoregressiveTransformerAutomaticSpeechRecognitionMinimumWordErrorTraining《MINIMUM WORD ERROR TRAINING FOR NON-AUTOREGRESSIVE TRANSFORMER-BASED CODE-SWITCHING ASR》本文由字节跳动和南洋理工大学(NTU)共同完成。近年来,由于基于非自回归变压器(NAT)的自动语音识别(ASR)框架具有以下优点,分别是“当前输出与历史输出??无关”和“其推理速度非常快”。快”,越来越受到业界的重视。对此,团队对其在语码转换语音识别任务(CSSR)上的表现抱有期待。另外,据不完全了解,似乎没有将最小词错误率(MWER)准则应用于NAT模型的先例,因此这项工作在一定程度上填补了这一空白,并已在SEAME上获得语码转换数据集。核实。本文的贡献主要有以下两个方面:1.我们提出了多种CTC掩码方法来训练代码转换场景中的NAT模型;2.我们在MWER训练准则生成方法下提出了多种N-best假设。发现和结论是:1.无论是单语言还是跨语言场景,上下文相关的场景信息都很重要,而NAT没有历史信息,NAT模型的一致性比自回归Transformer(AT)差.2.严重受限于N-best假设的生成方式,基于NAT的MWER训练在NAT模型上仅得到了小幅提升,因此如何生成更丰富的N-best还有待进一步研究。使用梯度掩码进行端到端语音识别的伪标签训练监督学习对伪标签的质量极其敏感,主要是因为伪标签中的错误或噪声往往导致模型训练不稳定并最终收敛到一个非最佳状态,特别是对于像RNNT这样的端到端模型。对此,论文提出了一种Gradient-mask方法来处理上述问题。该方法在训练过程中擦除编码器中可见输入的相应梯度,从而鼓励模型从不可见部分进行推测,可以有效降低模型对损坏标签的过拟合。在应用场景方面,该方法可以有效处理模型过拟合到标签损坏的情况,提高模型训练的效果。例如,在半监督自学习中,由于领域不匹配等原因导致伪标签质量太差,而已知一些数据质量太高。坏问题。ICASSP2022多方会议转录挑战赛的火山语音系统《THE VOLCSPEECH SYSTEM FOR THE ICASSP 2022 MULTI-CHANNEL MULTI-PARTY MEETING TRANSCRIPTION CHALLENGE》会议场景是语音识别和说话人日志技术应用中最具价值和挑战性的场景之一。会议现场包含丰富的演讲风格和复杂的声学条件。需要考虑语音重叠、说话者数量未知、远场信号、噪声、混响等挑战。ICASSP2022多通道多方会议转录挑战赛(M2MeT)提供120小时真实录制的中文会议数据,包括8通道麦克风的远场数据和相应耳机麦克风采集的近场数据。M2MeT挑战包括两个轨道:多说话人语音识别和说话人日志。团队在有限训练数据分赛道中分别获得第二名和第四名。针对多说话人语音识别赛道,团队提出了神经网络前端模块和语音识别模块的端到端联合训练方法,输入8路音频,输出多说话人识别文本,此外加入丰富的8通道数据模拟显示,测试集上的CER与官方baseline相比相对下降了32.6%。在speakerlog轨迹上,结合前端信号处理技术,团队提出了融合声源定位信息的speakerlog方法,提高识别准确率;同时,针对比赛数据中的说话人重叠问题,采用多通道Fusion算法,减少重叠部分的说话人漏检。最后,采用改进的DOVER-Lap算法融合多系统。最后,测试集上的DER(speakerlogerrorrate)与官方基线相比相对降低了53.7%。该技术可用于会议室多通道麦克风场景,生成包含说话人信息的多说话人语音转录结果。SuperbrainDirectionCross-lingualSpeechRepresentationLearningBasedonSparseSharedSubnetwork《LANGUAGE ADAPTIVE CROSS-LINGUAL SPEECH REPRESENTATION LEARNING WITH SPARSE SHARING SUB-NETWORKS》该工作提出了一种基于稀疏共享结构的多语言语音表示学习方法,即从模型中划分出多个稀疏子网络,分别对语言进行建模,实现语言自适应训练,通过剔除不重要的参数,提取出每种语言的子网络。基于此,本文探索了一种基于彩票假设的抽取方法和另一种基于一阶泰勒展开的快速抽取方法。在下游多语言语音识别任务上,该方法可以显着降低基线XLSR模型的错误率,并优于其他自适应训练方法,如GatingNetwork和Adapter。在国际化背景下,基于稀疏共享结构的多语言预训练过程需要为每种语言构建语音识别系统,以满足不同语言的字幕、审阅和翻译需求。多语言语音识别的目标是用单一模型支持多种语言的语音识别,可以有效降低部署和维护成本,在一些低资源场景下可以提高识别效果,意义重大。