当前位置：首页 > 科技赋能

中国首个音乐 SOTA 模型「天工音乐大模型」今日公测

时间：2024-05-19 16:40:39 科技赋能

中国首个音乐SOTA模式“天宫音乐模式”今日公测。

2020年4月17日，在“天宫”模型一周年之际，昆仑万维宣布“天宫3.0”基地大模型和“天宫SkyMusic”音乐模型正式开放公测！一年前的今天，第一版天宫模型正式对外发布。

一年来，我们不断迭代模型，迭代应用产品。

模型和应用越来越好，回报广大用户的支持。

“天宫3.0”拥有1亿个参数，超越Grok-1的1亿个参数，是全球最大的开源MoE模型。

“天宫3.0”在语义理解、逻辑推理、通用性、泛化??性、不确定性知识、学习能力等方面都有突破性的性能提升，数学/推理/编码/文创能力提升30%以上。

天宫3.0模型参数超越Grok-1，成为全球最大的开源MoE 专家混合大型模型。

强大的模型技术实力赋予了“天宫3.0”超强的性能。

在MMBench等多项权威多模态评测结果中，“天宫3.0”超越GPT-4V，取得全球领先。

天宫3.0多模态性能超过GPT-4V，全球领先。

与此同时，“天宫3.0”的大型音乐模型“天宫SkyMusic”也在今天向全社会开放公开测试。

“天宫SkyMusic”是中国首个音乐SOTA模型，也是中国自主研发的大模型技术首次在AIGC领域领先全球。

天宫SkyMusic综合性能超越Suno V3，实现了音乐大机型SOTA，领先全球。

天宫SkyMusic：中国首个音乐AIGC SOTA模式。

此前，大模型已经在文字、图像等多个技术领域取得突破，带来行业的全面变革。

。

然而，在AI音乐生成领域，全世界都在等待一款产品来开启“Music ChatGPT时刻”。

这是因为AI音乐行业的很多研究一直集中在符号音乐生成的技术路线上，并且大多只能实现无语音的背景音乐（BGM）的生成。

音乐的品质、效果、审美都远远落后。

由于无法达到可用水平，该行业发展缓慢。

“天宫天音乐”自主研发的AI音乐大模型的技术架构与行业主流路径有所不同。

《天宫SkyMusic》采用自主研发的大模型音乐音频生成技术路线。

该路线直接利用大模型技术，实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成。

这在技术上是极其困难的。

世界上只有包括昆仑万维在内的极少数顶级玩家参与其中。

在与海外顶级AI音乐模型Suno V3的横向评测中，《天宫天音乐》在人声及BGM音质、声音自然度、发音清晰度等方面均大幅领先对手，综合得分6.65分超越Suno V3并成为全球AI音乐SOTA典范。

此外，“天工天音乐”还具备原创参考音乐生成和方言歌曲生成功能。

参考音乐生成：用户可以上传自己的参考音乐，也可以选择“天工天音乐”数据库中现有的参考音乐来生成风格和人声相似的歌曲，进一步降低大音乐模型的使用门槛，让不熟悉的人也能使用有乐理知识的用户也能轻松演奏。

方言歌曲生成：“天宫天音乐”生成的音乐不仅在人声自然度、发声清晰度等方面表现出色，而且支持粤语、成都话、北京话等多种方言，让用户实现音乐变现更自由。

表达和传播方言文化。

“天宫SkyMusic”是中国首个公开的AI音乐生成模型，也是中国自主研发的大型模型技术首次在AIGC领域领先全球。

目前，在大文本模型领域，OpenAI受到全球关注；但在AI搜索、AI音乐生成等细分领域，中国玩家却勇往直前，通过自研技术不断在细分领域取得顶尖的SOTA表现。

，共同建设中国大模型产业，打造自主可控的大模型产业生态系统。

天宫3.0：1亿参数，全球最大的开源教育部大模型。

在上一代“天宫2.0”MoE大模型领先地位的基础上，“天宫3.0”实现了全面的性能升级，采用了亿级参数MoE混合专家模型。

该架构是目前全球模型参数最大、性能最强的开源MoE模型。

“天宫3.0”全面升级了逻辑推理能力、语义理解能力、复杂需求响应能力、内容创作能力，新增了多轮搜索和综合工具调用、图表绘制、研究模式、增强模式、图像修改和扩展。

等多项AI能力，为用户带来全新的AI体验。

多轮搜索和综合工具调用：“天宫3.0”对模型独立规划、调用、组合外部工具、整合信息的能力进行专题训练，使其能够独立生成和调用代码，完成行业研究和产品评论。

、信息分析、图片生成、图表绘制等复杂的用户需求。

同时，“天宫3.0”可以通过其强大的语义理解能力，将用户任务分解为细分环节，实时判断是否需要连接互联网或调用工具，进行单轮或多轮在线搜索和处理。

工具调用，完成多轮搜索、热点信息分析、图片生成等复杂的用户需求。

查询：查询最新的中国历史电影票房排行榜，图表展示图表绘制：《天宫3.0》全面提升逻辑推理能力和用户自然语言查询理解能力，使其能够更准确地判断用户需求，自主生成和调用代码，根据文字需求实时进行内容分析和图表构建，为用户带来更直观、高效的对比结果。

问：北京、上海、重庆哪个更好玩？多轮搜索、综合工具调用、图表绘制等是“天宫3.0”独有的大模型综合能力，连接了“天宫3.0”的AI搜索、AI对话、AI代码生成、AI图片自下而上通过语义识别能力直接触发识别、AI图像生成等底层能力，为用户带来更加便捷高效的AI体验，成为真正的AI生产力工具。

此外，《天宫3.0》还增加了研究模式、增强模式、地图修改扩展等多项AI能力。

研究模式：在研究模式下，“天工3.0”可以围绕用户的简单指令延伸出相关问题，并自动生成研究提纲、地图、实践总结、思维导图，帮助用户快速、清晰地掌握核心内容。

完成用户复杂的研究需求。

查询：康干盛世的增强模式：在增强模式下，“天宫3.0”可以对用户复杂的查询进行拆解、提炼、提问、信息理解、补全，提升其在自然语义理解方面的表现。

它更强大，在不确定的知识面前表现更好，能够更准确、更高效地满足用户需求。

查询：2019年春节档电影； “天宫3.0”了解并询问用户改变和扩展图像的需求：“天宫3.0”在多模态性能上实现了全面突破，超越GPT-4V，位居全球第一。

在强大的技术基础支撑下，“天宫3.0”的AI绘图能力新增了图像尺寸扩展、图像方向调整、垫图生成、垫图进化、垫图扩展等新功能。

上一篇：服贸会推动软件产业高质量发展，智能测试成亮点

下一篇：影像行业如何突围？荣耀Magic3系列以多主摄融合技术引领移动影像新潮流

中国首个音乐 SOTA 模型「天工音乐大模型」今日公测相关文章