近日,Meta公司推出“v2”架构的多模态人工智能翻译模型SeamlessM4T,调用它的“无缝沟通”模式,旨在使对话翻译更加自然和富有表现力。
“无缝表达”功能将说话者的语气、音调、音量、情绪色彩、语速和停顿等元素转移到翻译的语音中。
这一突破将为将翻译后的语音表现得更加自然生动,无论是在日常生活还是在内容制作中都会有很大的帮助。
目前“SeamlessExpressive”支持英语、西班牙语、德语、法语和中文,但演示页面缺少意大利语和中文另一个功能是“SeamlessStreaming”,它可以在说话者仍在说话时开始翻译,让其他人更快地听到翻译。
虽然还有不到两秒的短暂延迟,但该功能至少可以让你开始翻译,而不必等待对方说完一句话。
Meta 表示,最大的挑战是不同的语言有不同的句子结构,因此他们必须开发一种专门的算法来研究音频输入的部分内容,以决定是否有足够的上下文来开始生成翻译输出,或者是否需要继续听。
目前,Meta 尚未透露这些新功能何时向公众开放。
但我们可以预期,未来Meta会将这些新功能整合到其智能眼镜中,使其更加实用。
随着人工智能技术的不断发展,相信未来我们会看到更多突破性的翻译技术,为跨语言交流带来更流畅、更自然的体验。