微软发布 AI 声音生成工具 VALL-E，只需 3 秒音频即可模仿人说话

时间：2023-03-17 01:02:51 科技观察

微软发布了AI语音生成工具VALL-E，只需3秒的音频就可以模仿人类语音。该工具基于60,000小时的英语语音数据进行训练，并使用3秒的特定语音片段生成内容。与许多当前的人工智能工具不同，VALL-E可以复制说话者的情绪和语气，甚至是说话者自己从未说过的话。IT之家了解到，康奈尔大学的一篇论文使用VALL-E合成了几种声音，你可以在GitHub上收听这些AI合成的音频。研究人员指出，在许多情况下，Vall-E优于当前的文本转语音模型。不过，该研究还写道，目前AI模型存在几个问题。例如，文本提示中的某些词可能没有发音、完全漏读或在输出中出现两次。此外，该模型目前难以模仿某些声音，尤其是那些带有口音的声音。与其他人工智能新技术一样，VALL-E也引发了安全和伦理方面的担忧。微软已经发布了一份关于VALL-E使用的道德声明，但没有明确未来的用途。目前，MicrosoftVall-E尚未开源。微软在GitHub上创建了一个Vall-E存储库，但目前只包含一个描述文件。

上一篇：数据科学必知必知：10个重要概念+22个图表含义

下一篇：区块链大家都知道，但是你知道它真正的应用场景吗？

微软发布 AI 声音生成工具 VALL-E，只需 3 秒音频即可模仿人说话相关文章