语音克隆技术大家应该都知道吧。通俗地说,它可以借助深度学习算法完全模拟出某人的声音,而机器合成的声音甚至可以完美表达情绪,基本可以造假。只要你不见面,你就无法检测到正在向你发出声音的机器的知识。语音克隆的最大创新之一是减少创建语音所需的原始数据量。过去,系统需要数十甚至数百小时的音频。而元妹今天要给大家分享的这个工具,5秒就可以克隆成功。这个工具叫做MockingBird。MockingBird已上Github热榜,收获3.5KStars,累计分支303(Github地址:https://github.com/babysor/MockingBird)MockingBird具有以下特点:支持普通话,使用多种用于测试的中文数据集适用于pytorch,已在1.9.0版本(最新2021年8月)进行测试,GPUTeslaT4和GTX2060支持Windows+Linux,仅使用新训练的合成器(synthesizer)就有很好的效果,复用预训练编码器/声码器MockingBird如何使用MockingBird安装要求如下:首先,MockingBird需要Python3.7或更高版本。安装PyTorch并安装ffmpeg。运行pipinstall-rrequirements.txt以安装剩余的必需包。使用pipinstallwebrtcvad-wheels安装webrtcvad。接下来,您需要使用数据集来训练合成器:下载数据集并解压缩:确保您可以访问train文件夹中的所有音频文件(例如.wav)使用音频和梅尔频谱图进行预处理:pythonsynthesizer_preprocess_audio.py传入参数--dataset{dataset}支持adatatang_200zh、magicdata、aishell3预处理嵌入:pythonsynthesizer_preprocess_embeds.py/SV2TTS/synthesizer看到注意力线显示和损失符合你的需求,进入下一步。使用预训练好的合成器,如果没有设备或者不想慢慢调试,可以使用网友贡献的模型。训练声码器预处理数据:pythonvocoder_preprocess.py训练声码器:pythonvocoder_train.pymandarin启动工具箱,然后你可以尝试使用工具箱:pythondemo_toolbox.py-d
