当前位置: 首页 > 科技赋能

360数学论文入选国际顶级会议ICASSP2023音频技术研究成果获国际认可

时间:2024-05-19 16:07:26 科技赋能

近日,第48届IEEE声学、语音与信号处理国际会议(ICASSP)公布论文入围名单,论文奇富科技(原数学)的《基于多粒度 Transformer 的多模态情绪识别》(Multilevel Transformer for Multimodal Emotion Recognition)被会议接收。

ICASSP由IEEE主办,是全球规模最大、内容最全面的信号处理及其应用顶级学术会议。

它在学术界和工业界具有权威性和广泛影响力,备受人工智能领域研究人员的关注。

此次入选表明奇富科技在音频领域的技术实力已达到国际领先水平。

凭借在音频技术领域的创新积累,奇富科技也不断将前沿领域的研究成果应用于实践。

为用户提供优质服务一直是奇富科技运营的重中之重。

与过去仅通过文本识别用户情感相比,从用户音频解读的情感信息更加直接、丰富,更有利于指导用户交互策略,提升客户体验。

主观情绪判断使得标注任务变得尤为困难。

数据标签数量少、标签结果不一致等都是情感识别面临的挑战。

考虑到预训练模型的成功以及语言表达的细粒度特性,奇富科技推出了一种新的多粒度模型,可以有效地整合多模态细粒度表示和预训练全局表示来解决这个极端的问题。

这是一项有价值且具有挑战性的任务。

该技术帮助奇富科技显着提升用户服务体验,并有效应用于质检服务,降低了4%的客户投诉率。

将捕获的情感信号应用于基于语音呼叫的用户管理和座席指导的探索和尝试也一直在进行。

用户的情感表征可以帮助奇富科技更全面地了解用户、服务用户。

“通过ChatGPT在公司内部的实验和实施,我们极大地提高了用户理解文本的能力。

更好地识别和挖掘音频中的信息表示已经从幕后走到了前台,成为进一步提高用户理解的一种方式能力的关键。

公司一直坚持对音频技术的投入和自研,这也是我们不断进步的基石。

”费浩军表示。

奇富科技首席算法科学家。

据介绍,奇富科技在情感评估过程中引入了三大创新:一是针对多模态细粒度表示,提出了多级Transformer模型,探索音素表示和词表示相结合的不同方式。

特别是,该方法不需要外部信息来对齐语音和文本,而是借鉴Transformer TTS框架来有效地结合文本和语音信息。

其次,为了充分发挥预训练模型的优势,奇富科技提出了多粒度模型,直接将多级Transformer模型与Bert有效结合,使细粒度信息与全局信息充分融合,模型效果进一步提高。

推动。

第三,奇富科技的多级Transformer模型在公开数据集上取得了SOTA的成绩,并且多粒度模型在此基础上得到了很大的改进。

在实际业务方面,奇富科技采用论文中的方法,通过自主研发的实时情绪感知模型,对潜在的投诉进行及时预警和安抚。

结果显示,投诉率比对照组低4%。