Amazon 亚马逊人工智能研究团队近日宣布开发出史上最大的巨型文本转语音模型——BASE TTS。
该模型拥有惊人的 9.8 亿个参数,并使用超过 10 万小时的录音数据进行训练,涵盖了大量的英语语音,还融入了一些其他语言的发音示例。
近年来,ChatGPT等大规模语言模型备受关注,亚马逊此次将重点转向了文本转语音领域。
研究人员希望通过增加参数数量和扩展训练数据集来提高文本转语音应用的性能和自然度。
他们的努力成果是显着的。
BASE TTS不仅在参数数量上创下了新纪录,而且在发音准确性和语音自然度方面也取得了显着进步。
值得一提的是,亚马逊亚马逊团队还在人工智能领域探索“新兴能力”。
他们发现,在具有 1.5 亿个参数的中型数据集上,文本转语音应用程序显示出智能方面的显着飞跃。
这种飞跃涉及多种语言属性,例如复合名词的使用、表达情感、使用外来词等,这一发现对于未来人工智能模型的发展具有重要意义。
然而,由于担心潜在的滥用风险,亚马逊决定不向公众提供 BASE TTS。
相反,他们计划将其用作学习应用程序,并期望应用所学知识来提高文本转语音应用程序的整体音质。
这一决定体现了亚马逊对技术道德和社会责任的重视。
总体而言,亚马逊发布的BASE TTS文本转语音模型是人工智能领域的重大突破。
它不仅展示了人工智能技术的巨大潜力,也为我们对智能的出现提供了更多新的见解。
随着技术的不断进步,我们有理由相信,未来的文本转语音应用将更加自然、智能、多样化。