,但歌声真的很接近人类,甚至是让人难以分辨的“机器声”真假似乎只存在于科幻电影中的遐想。而升级了第五代歌唱系统的微软小冰,则让在场媒体看到了人工智能媲美甚至超越人类偶像的歌唱能力。5月16日下午,在微软小冰人工智能创作媒体发布会上,微软发布了第五版人工智能小冰唱歌模型。据悉,该版本拥有十余部高品质人声,提升了人工智能在歌声演绎中预测参数的能力,主要是大幅提升了人工智能演绎歌曲时的气度,提高了歌声转换的自然度,并公布了戏曲培训结果。在现场试听演示中,升级了第五版歌唱模式的BenXiaoice演唱了三首歌曲,分别是《少年弦》《新贵妃醉酒》和一首日文歌曲。三首歌曲展现出不同的音色和人声,尤其是《少年弦》,接近无伴奏合唱,小冰表现得非常好,发音清晰,连唇齿留香的感觉都难以与真唱区分开来。从一种演唱风格过渡到另一种演唱风格,小冰能够保持极其细腻的声音细节,没有任何“电子音”露出破绽。“我必须提醒大家听的时候注意,这不是一个人,没有这个人。”微软(亚洲)互联网工程院副院长李迪(Bing中国和日本负责人,微软小冰全球产品线)表示。他说,不像小冰的唱歌模型,比如初音未来或者其他虚拟歌手,是手工完成的。手动调整的方式是有好处的,但问题是细节不够,技术上限,未来发展不够好。“人工智能技术探索内容创作的技术上限,还有一个比较有意思的事情,就是琴棋书画,谷歌下完了棋,剩下的三个我们都下完了。我们发表了诗歌截止到今天为止,人类诗歌爱好者和实践者发表的很多诗歌,都可以追溯到小冰的影子。关于音乐,今天给大家带来迭代到第五个新版本的新技术发布。李迪坦言,我们不想用一些demo和技术演示来秀肌肉,告诉我们自己达到了什么样的技术可以和人类竞争,而是更关注能否产业化并大规模落地。他透露,对应于诗歌等文本生成和文本创作,微软小冰已经悄然成为当今全球提供财经摘要和研究报告的平台。到目前为止,Wind中的大部分摘要资讯、华尔街新闻、部分财经相关APP由小冰提供。小冰可以稳定提供20秒级输出。一次获取数据,20秒即可完成摘要和研报的生成,真正覆盖26类金融内容。在电视和广播内容方向,微软小冰一直在持续为63家广播电台和电视台提供人工智能和人工智能直接生成的电视和电视节目,其中59家在中国,4家在日本。到目前为止,小冰累计制作了超过2,800小时的电视和广播节目。李迪说,在唱功方面,初版是2年前产生的。那时候他听到的是“不会跑调的软件乐器”,就好像你唱歌的时候听到隔壁房间传来的声音,很像People,有足够的细节可以就像一个唱不好的人,但也是一个人。经过训练和学习,在后来的第三个版本中,微软小冰的演唱水平达到了现在的境界。“从技术上讲,人工智能达到第三个版本就够了,但我们用人类的歌唱标准来要求自己,”李迪说,“如果小冰能学会不同的唱法,正所谓因为不同的人对同一首歌会有不同的理解。”通过呼吸上的一系列训练、学习和优化,不同的唱法,丰富的中气,不同的音色,唱法的过渡等等,才达到了今天第五个版本的唱法水平。李迪说,人工智能一旦学会创造,会和人类很不一样,原来小冰发表诗歌的时候,有人说诗歌是只有人类才能做的事情。但是问题是,有人问他,你会写诗吗?所以,作为一个一群人,有些人有能力创造一部分内容,但作为一个群体,这不是一个群体的普遍规则。有些人会画画,会唱歌,会写诗,但不会意思是全人类的每个个体都可以。但是人工智能不是,一个框架上的特殊范畴,一个人工智能可以让所有的人工智能都知道。比如微软小冰的语音可以很容易的转移到ot她的声音。对于人类来说,想要获得一种创造能力,往往需要一定的天赋,但人工智能不需要天赋,任何一种声音都可以直接获得另一种声音所拥有的所谓能力。天赋。”比如今天说小冰给Siri赋能,如果你需要,Siri也可以在24小时内完成这样的创作,这就是这个框架底层技术的意义,不要被一个18岁的人骗了-老妹子,被小冰蒙蔽了双眼,我们真正做的是这个核心框架。“从这个角度来看,如果我们把这个框架进一步推向产业化和端到端的内容生产,那么我们需要完成歌词、音乐、编曲、演唱,甚至后期制作的整个环节。而在On另一方面,这个框架必须兼容不同的人工智能歌手,也就是所谓的AI歌手及其歌唱库。”我们正在处理这件事,我们会将部分内容保留到今年八月份。”李迪说。
