在五秒钟内克隆您的声音并生成任何内容，这个开源工具非常贴心

时间：2023-03-18 21:31:52 科技观察

语音克隆技术大家应该都知道吧。通俗地说，它可以借助深度学习算法完全模拟出某人的声音，而机器合成的声音甚至可以完美表达情绪，基本可以造假。只要你不见面，你就无法检测到正在向你发出声音的机器的知识。语音克隆的最大创新之一是减少创建语音所需的原始数据量。过去，系统需要数十甚至数百小时的音频。而元妹今天要给大家分享的这个工具，5秒就可以克隆成功。这个工具叫做MockingBird。MockingBird已上Github热榜，收获3.5KStars，累计分支303（Github地址：https://github.com/babysor/MockingBird）MockingBird具有以下特点：支持普通话，使用多种用于测试的中文数据集适用于pytorch，已在1.9.0版本（最新2021年8月）进行测试，GPUTeslaT4和GTX2060支持Windows+Linux，仅使用新训练的合成器（synthesizer）就有很好的效果，复用预训练编码器/声码器MockingBird如何使用MockingBird安装要求如下：首先，MockingBird需要Python3.7或更高版本。安装PyTorch并安装ffmpeg。运行pipinstall-rrequirements.txt以安装剩余的必需包。使用pipinstallwebrtcvad-wheels安装webrtcvad。接下来，您需要使用数据集来训练合成器：下载数据集并解压缩：确保您可以访问train文件夹中的所有音频文件（例如.wav）使用音频和梅尔频谱图进行预处理：pythonsynthesizer_preprocess_audio.py传入参数--dataset{dataset}支持adatatang_200zh、magicdata、aishell3预处理嵌入：pythonsynthesizer_preprocess_embeds.py/SV2TTS/synthesizer看到注意力线显示和损失符合你的需求，进入下一步。使用预训练好的合成器，如果没有设备或者不想慢慢调试，可以使用网友贡献的模型。训练声码器预处理数据：pythonvocoder_preprocess.py训练声码器：pythonvocoder_train.pymandarin启动工具箱，然后你可以尝试使用工具箱：pythondemo_toolbox.py-d

上一篇：数字孪生、物联网、远程办公在新技术的“加持”下还能这样“做”

下一篇：Linus终于被说服：30年的Linux内核C语言要升级了_0

在五秒钟内克隆您的声音并生成任何内容，这个开源工具非常贴心相关文章