当前位置: 首页 > 科技观察

这个AI能用Lady Gaga曲风续写贝多芬,网友们纷纷玩得不亦乐乎

时间:2023-03-20 22:42:23 科技观察

这个AI可以继续按照LadyGaga的风格谱写贝多芬。网友们玩的不亦乐乎。此前,OpenAI的每一场DOTA2直播都是在这里进行的,而这次的内容不再是电子游戏,而是AI创作的歌曲的直播。OpenAICTOGregBrockman开玩笑说:“六个月前,我没想到我们会将直播频道的分类从DOTA2改为音乐和表演。”直播的主角是OpenAI全新打造的作曲AI“MuseNet”,最长可创作4分钟不同风格的音乐,风格可根据不同的作曲家(巴赫、贝多芬、奥斯卡·彼得森、弗兰克·辛纳屈、邦Jovi)、不同的风格变化(爵士乐、阿尔贝尼兹、配乐、乡村、宝莱坞、迪士尼),以及歌曲中可以使用的10种不同乐器。《MuseNet》使用了类似于OpenAI前段时间的文本生成模型GPT-2的大规模Transformer模型,而为了增强其长序列建模能力,《MuseNet》还使用了雷锋网AI科技评论刚刚介绍的Sparse注意技巧。在上次使用GPT-2生成接近人类水平的短文本后,OpenAI已经成为长序列建模的小能手。毕竟,学习音乐是一项艰巨的任务。不同的乐器有不同的音色,不同的流派有自己的微观结构。所以OpenAI的做法是让模型学习和预测MIDI(由音符、控制参数等组成的数字音频信号,可以用MIDI播放器播放),而不是学习原始音频波形;同时,OpenAI还为模型设计了相应的作曲器和乐器。Token,简化数据参数。借助稀疏Transformer重新计算和优化的核心,MuseNet被设计为一个72层的网络,具有24个注意力头,可以对长度为4096个元素的内容进行全注意力操作。正因为它能处理的序列足够长,它才能记住歌曲中的长词结构,完成段落的重复和变化。为了让模型更好地控制音乐主要内容的结构,OpenAI为模型设计了多种不同的embeddings。除了正常的位置嵌入之外,他们还让模型学习一个嵌入来跟踪每个样本中经过的时间。这样,所有同时发声的音符将具有相同的时间嵌入。他们还为和弦中的每个音符添加了一个embedding(这种做法类似于relativeattention,当模型需要生成第四个音符时,它会提供第三个音符作为参考,这使得模型更容易学习)。最后,他们还添加了两种不同的结构嵌入,它们共同告诉模型某首音乐在更大曲目中的位置;其中,第一个嵌入将大段音乐分成128部分,第二个嵌入从127倒数到0,表示我们离结束还有多远。模型效果惊人,不仅当天在Twitch直播中展示的不同风格的曲目辨识度高,旋律自然,而且OpenAI在介绍博客中展示的混搭生成结果(取自bar一段知名的音乐作为开头,然后让模型继续用其他风格写,模型会给出四个结果),好奇的网友使用OpenAI提供的实验工具生成的音乐非常令人佩服。推荐大家去MuseNet官方介绍页面试用混搭工具,试听现成的音乐。OpenAI技术博客延续LadyGaga风格的贝多芬《致爱丽丝》,OpenAI技术博客延续Adele肖邦风格的《Some One Like You》,来自4月25日OpenAI技术博客Twtich作曲现场视频,OpenAI自己的工作人员之前我从未听过这些歌曲;来自OpenAI技术博客OpenAI还根据嵌入式学习结果做了一张不同作曲家之间的相似关系图,这也非常符合我们日常的认知。在OpenAI研究人员看来,音乐生成任务的难点介于文本和图像之间,它具有类似于文本的灵活序列结构(例如图像中可以固定引用前N个元素,而文本和音乐的这个数字的大小不固定)。他们收集了训练数据集并尝试了不同的训练技术。这个研究真是生动有趣。OpenAI也希望大家参与活动,讨论反馈,帮助大家选择本次研究的下一个目标。公众参与期持续至5月12日。快来openai.com/blog/musenet/来玩听吧!本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。