颠覆播客行业人工智能技术已经可以再现任何人声

时间：2023-03-19 16:23:24 科技观察

播客行业正朝着更轻松、自然、非正式的音频叙事方向发展。这种语言不那么严肃的交流方式，也成功拉近了主播与观众之间的交流距离。也就是说，主播尽量使用口头语言，降低理解和回应表达内容的难度。正是因为这种通俗易懂的优势，有声叙事越来越受欢迎，相关调查数据也证明了这一发展趋势。根据Statista发布的统计结果，2018年美国播客听众数量已达7500万；预计到2024年，月收听用户将增长到1.64亿。由此估计，2019-2023年播客听众的复合年增长率将高达17%。2020年，四分之三的美国人确切知道播客是什么，超过一半(55%)的受访者已经开始收听播客。作为全球收入最高的播客，JoeRogan的《乔·罗根体验》（TheJoeRoganExperience）节目在2019年实现了高达5000万美元的销售额，月均下载量近2亿次。目前，播客行业面临的主要问题是如何在保持内容独立性的同时，获得必要的资源来支持行业的快速增长。终于进入正题——人工智能等突破性技术带来的语音克隆功能，或许能带来重要的解决方案，至少是部分解决方案。以尼克松项目为例，该项目令人信服地证明人工智能技术完全能够再现与人类受试者无法区分的语音效果。麻省理工学院的研究人员、记者和艺术家团队与语音克隆公司Respeecher和VDR的CannyAI合作，创建了第一次登月呼叫的模拟录音——只是这一次，宇航员阿姆斯特朗和奥尔德林未能完成任务而被困在月球上。他们甚至“伪造”了时任美国总统尼克松的一段视频，向世界宣告登月之旅惨遭失败。当播客遇到AI计算机化语音时，主要挑战是如何复制人类表达及其细微差别，同时尽量避免机器人声音的出现。在识别和再现细微的声音变化方面，基于人工智能的语音转换技术为我们指明了一条可行的发展路径。AppleSir、AmazonAlexa、MicrosoftCortana和GoogleAssistant等语音助手仍在使用文本转语音技术。虽然这种技术的实用性确实很高，但很难带来不同的语音类型。以Siri为例，为了实现老年男性的语音效果，除了需要引入庞大的预录文件外，Siri无法处理无法包含在音频文件中的词语。在这方面，AI支持的语音转语音成为新的突破口。AI语音克隆如何应用到播客领域？人工智能不仅可以实现语音克隆，还可以完美复制任何播客节目中的所有语音效果。它采用了被称为“智能鸡尾酒”的经典数字信号处理算法，加上特殊的深度生成建模技术——让内容创作者用最合适的声音来解决以前难以达到的录音效果（比如播音员有其他工作，或需要重建已故配音演员的声音等）。让我们看看语音克隆技术在播客制作领域的一些可能应用案例：1.让名人为您的节目配音，同样的效果可以轻松实现，而无需打扰他们自己去录音室。以此为基础，听众可以听到自己喜欢的声音，节目制作人和明星也可以免去疲劳带来的痛苦。2.重现旧声声音克隆可以让已故演员重新发声。想让肯尼迪总统为历史播客解说吗？没问题，变声技术可以准确地再现他的声音——是的，不仅仅是“相似”，而是真正的完美。3.用童声朗读，不用强迫孩子长时间工作。孩子说话总是很有趣，不一定是在内容上，更多的是在声音、语气和语调上。但与孩子一起工作可能会让人筋疲力尽。通过语音合成技术，我们可以让专业演员朗读童话台词，然后转换成童音效果，大大简化了节目制作流程。4、快速推动节目制作进度，确保播客及时播出。AI可以瞬间再现人声，可以在短时间内提供高质量的目标语音结果。综上所述，2017年全球播客市场带来的广告收入高达2.2亿美元，并且每年都在翻番。用户参与度的提升将成为吸引潜在广告主的核心驱动力。更重要的是，播客中的广告实际上效果非常好，研究表明它们的完成率接近90%。此外，广告商甚至愿意为某些播客剧集支付高达30美元的CPM（每千次展示的广告成本）。这个数字大家可能不太熟悉，但在Facebook上的CPM大约是6美元。网络电视正在缓慢但稳步地取代有线电视，播客和传统广播之间的关系似乎也是如此。仅从传统的广播广告开始，播客行业就可以吸引至少200亿美元的额外收入。而正如我们在文章开头提到的，播客可以吸引大量根本不会听广播的群体，因此盈利增长的前景可谓一片光明。这些调查数字表明，播客业务将长期存在，音频内容生产者也迫切需要寻找更高效、更有效的节目输出方式。或许AI语音克隆技术才是帮助播客行业在内容独立性和节目制作资源需求之间找到完美平衡的终极解决方案。

上一篇：华为员工晒百万级年终奖，论坛招闺蜜！

下一篇：调教Kubernetes部署的19款工具_0

颠覆播客行业人工智能技术已经可以再现任何人声相关文章