这个AI能用Lady Gaga曲风续写贝多芬，网友们纷纷玩得不亦乐乎

时间：2023-03-20 22:42:23 科技观察

这个AI可以继续按照LadyGaga的风格谱写贝多芬。网友们玩的不亦乐乎。此前，OpenAI的每一场DOTA2直播都是在这里进行的，而这次的内容不再是电子游戏，而是AI创作的歌曲的直播。OpenAICTOGregBrockman开玩笑说：“六个月前，我没想到我们会将直播频道的分类从DOTA2改为音乐和表演。”直播的主角是OpenAI全新打造的作曲AI“MuseNet”，最长可创作4分钟不同风格的音乐，风格可根据不同的作曲家（巴赫、贝多芬、奥斯卡·彼得森、弗兰克·辛纳屈、邦Jovi)、不同的风格变化（爵士乐、阿尔贝尼兹、配乐、乡村、宝莱坞、迪士尼），以及歌曲中可以使用的10种不同乐器。《MuseNet》使用了类似于OpenAI前段时间的文本生成模型GPT-2的大规模Transformer模型，而为了增强其长序列建模能力，《MuseNet》还使用了雷锋网AI科技评论刚刚介绍的Sparse注意技巧。在上次使用GPT-2生成接近人类水平的短文本后，OpenAI已经成为长序列建模的小能手。毕竟，学习音乐是一项艰巨的任务。不同的乐器有不同的音色，不同的流派有自己的微观结构。所以OpenAI的做法是让模型学习和预测MIDI（由音符、控制参数等组成的数字音频信号，可以用MIDI播放器播放），而不是学习原始音频波形；同时，OpenAI还为模型设计了相应的作曲器和乐器。Token，简化数据参数。借助稀疏Transformer重新计算和优化的核心，MuseNet被设计为一个72层的网络，具有24个注意力头，可以对长度为4096个元素的内容进行全注意力操作。正因为它能处理的序列足够长，它才能记住歌曲中的长词结构，完成段落的重复和变化。为了让模型更好地控制音乐主要内容的结构，OpenAI为模型设计了多种不同的embeddings。除了正常的位置嵌入之外，他们还让模型学习一个嵌入来跟踪每个样本中经过的时间。这样，所有同时发声的音符将具有相同的时间嵌入。他们还为和弦中的每个音符添加了一个embedding（这种做法类似于relativeattention，当模型需要生成第四个音符时，它会提供第三个音符作为参考，这使得模型更容易学习）。最后，他们还添加了两种不同的结构嵌入，它们共同告诉模型某首音乐在更大曲目中的位置；其中，第一个嵌入将大段音乐分成128部分，第二个嵌入从127倒数到0，表示我们离结束还有多远。模型效果惊人，不仅当天在Twitch直播中展示的不同风格的曲目辨识度高，旋律自然，而且OpenAI在介绍博客中展示的混搭生成结果（取自bar一段知名的音乐作为开头，然后让模型继续用其他风格写，模型会给出四个结果），好奇的网友使用OpenAI提供的实验工具生成的音乐非常令人佩服。推荐大家去MuseNet官方介绍页面试用混搭工具，试听现成的音乐。OpenAI技术博客延续LadyGaga风格的贝多芬《致爱丽丝》，OpenAI技术博客延续Adele肖邦风格的《Some One Like You》，来自4月25日OpenAI技术博客Twtich作曲现场视频，OpenAI自己的工作人员之前我从未听过这些歌曲；来自OpenAI技术博客OpenAI还根据嵌入式学习结果做了一张不同作曲家之间的相似关系图，这也非常符合我们日常的认知。在OpenAI研究人员看来，音乐生成任务的难点介于文本和图像之间，它具有类似于文本的灵活序列结构（例如图像中可以固定引用前N个元素，而文本和音乐的这个数字的大小不固定）。他们收集了训练数据集并尝试了不同的训练技术。这个研究真是生动有趣。OpenAI也希望大家参与活动，讨论反馈，帮助大家选择本次研究的下一个目标。公众参与期持续至5月12日。快来openai.com/blog/musenet/来玩听吧！本文转载自雷锋网。如需转载，请在雷锋网官网申请授权。

上一篇：使用开源工具升级您的LinuxPC硬件

下一篇：用rsync备份Linux系统_0

这个AI能用Lady Gaga曲风续写贝多芬，网友们纷纷玩得不亦乐乎相关文章