结合音频和生命体征数据,AI深度学习系统不仅会成为焦虑人群的“社交教练”,也有望未来发展“情感训练”“智能”,极大地提高人们的社交素质。
人们可以用截然不同的方式解释给定对话的内容,这是不争的事实。
例如,这可以使社交互动对人们来说极具挑战性但如果有一种客观的方法来衡量和理解我们在交流时表达的情绪,事情会有所不同吗?接近为我们提供了一个潜在的解决方案:一个可穿戴人工智能系统,可以对人的言语方式和生命体征做出反应,以预测对话是快乐、悲伤还是中性。
该团队主要成员之一Tuka Alhanai也将于下周出席在旧金山举行的国际人工智能协会(AAAI)第31届大会。
“想象一下,在谈话结束时,你可以倒带并重现让你周围的人最焦虑的时刻,”他说。
“我们的研究只是朝这个方向迈出的一小步,但也表明,人们出门时随身携带人工智能社交教练的时代可能已经不远了。
”当参与者讲述一个故事时,系统就开始分析音频、音频的文本转录和身体信号,准确确定故事的整体基调。
率达到83%。
利用深度学习技术,系统还可以为会话中的每五秒间隔分配一个“情绪分数”。
研究团队的另一位核心成员穆罕默德·加塞米 (Mohammad Ghassemi) 表示:“据我们所知,这是第一个以被动但可靠的方式收集对话者身体数据和语音数据的实验,即使受试者进行自然、非结构化的对话,而且我们的结果表明,利用收集到的数据对对话的情绪基调进行实时分类是可行的。
”研究人员还表示,如果配备该系统的智能可用于智能手表等多人对话情况,可以生成更多数据供系统算法分析,这将有助于进一步提高系统性能。
德国帕绍大学复合智能系统教授兼主席,并未参与这项研究,但他对这一结果进行了评论:“该团队使用面向消费者的可穿戴设备来收集生理数据和语音数据,表明我们使用日常设备中拥有这种工具即将成为现实。
技术本身很快就会显得更有情商,甚至是“情商高”。
许多情绪检测研究背后的工作原理是让参与者观看“快乐”和“悲伤”的视频。
或者要求他们人为地表现出特定的情绪状态。
但为了引发更多情绪,研究小组要求受试者讲述自己选择的快乐或悲伤的故事。
受试者佩戴配备该系统的三星 Simband 智能腕带,该系统是一种研究设备,可捕获高分辨率生理波形,以测量运动、心率、血压、血流量和皮肤温度等身体迹象。
该系统捕获音频数据和文本记录,以分析说话者的语气、音调、能量和词汇。
研究人员利用三星智能腕带在 31 种持续几分钟的不同对话中收集的数据,训练了两种算法:一种仅区分对话的整体性质为“快乐”或“悲伤”;另一种仅区分对话的整体性质为“快乐”或“悲伤”;另一种仅区分对话的整体性质为“快乐”或“悲伤”。
第二种方法是以 5 秒的间隔将每个对话标记为“积极”、“消极”或“中立”。
Alhanai指出,在传统的神经网络中,数据的所有特征都提供给基于网络的算法进行分析。
相比之下,他们的团队发现在网络的不同级别组织不同的特征可以提高算法性能。
“系统不断学习,例如,文本记录中表达的情感比原始加速器数据抽象得多。
很明显,机器可以模仿我们人类来感知这些通信中包含的情感暗示,而无需研究人员的有效输入。
这很重要。
”继续开发能够准确把握人类情感脉搏的技术的事实是,该算法产生的结果与我们人类可能期望观察到的结果非常匹配。
例如,长时间的停顿和单调的语调与悲伤的故事相关,而充满活力、变化多端的言语模式与快乐的故事相关。
就肢体语言而言,不安和心血管活动的增加,以及某些姿势(例如将手放在脸上)往往与悲伤的故事密切相关。
平均而言,该模型以 5 秒为间隔对情绪进行分类的准确率超过 18%,比现有方法提高了 7.5%。
目前,该算法还不够可靠,不足以成为称职的社交教练,但 Alhanai 表示,他们正在积极朝着这一目标努力。
对于未来的工作,研究团队计划扩大数据收集规模,并考虑使用Apple Watch等商业设备,让世界各地的人们更容易使用该系统。
“我们的下一步是提高算法识别对话情绪的准确性,以便它能够准确识别无聊、紧张和兴奋等情绪,而不是仅仅将它们标记为‘积极’或‘消极’,”阿尔哈奈说。
“开发能够准确把握人类情感脉搏的技术有可能大大提高我们社交互动的质量。
”该研究部分由三星战略与创新中心完成。