当前位置: 首页 > 科技观察

微软发布 AI 声音生成工具 VALL-E,只需 3 秒音频即可模仿人说话

时间:2023-03-17 01:02:51 科技观察

微软发布了AI语音生成工具VALL-E,只需3秒的音频就可以模仿人类语音。该工具基于60,000小时的英语语音数据进行训练,并使用3秒的特定语音片段生成内容。与许多当前的人工智能工具不同,VALL-E可以复制说话者的情绪和语气,甚至是说话者自己从未说过的话。IT之家了解到,康奈尔大学的一篇论文使用VALL-E合成了几种声音,你可以在GitHub上收听这些AI合成的音频。研究人员指出,在许多情况下,Vall-E优于当前的文本转语音模型。不过,该研究还写道,目前AI模型存在几个问题。例如,文本提示中的某些词可能没有发音、完全漏读或在输出中出现两次。此外,该模型目前难以模仿某些声音,尤其是那些带有口音的声音。与其他人工智能新技术一样,VALL-E也引发了安全和伦理方面的担忧。微软已经发布了一份关于VALL-E使用的道德声明,但没有明确未来的用途。目前,MicrosoftVall-E尚未开源。微软在GitHub上创建了一个Vall-E存储库,但目前只包含一个描述文件。