当前位置: 首页 > 科技赋能

中国首个音乐 SOTA 模型「天工音乐大模型」今日公测

时间:2024-05-19 16:40:39 科技赋能

中国首个音乐SOTA模式“天宫音乐模式”今日公测。

2020年4月17日,在“天宫”模型一周年之际,昆仑万维宣布“天宫3.0”基地大模型和“天宫SkyMusic”音乐模型正式开放公测!一年前的今天,第一版天宫模型正式对外发布。

一年来,我们不断迭代模型,迭代应用产品。

模型和应用越来越好,回报广大用户的支持。

“天宫3.0”拥有1亿个参数,超越Grok-1的1亿个参数,是全球最大的开源MoE模型。

“天宫3.0”在语义理解、逻辑推理、通用性、泛化??性、不确定性知识、学习能力等方面都有突破性的性能提升,数学/推理/编码/文创能力提升30%以上。

天宫3.0模型参数超越Grok-1,成为全球最大的开源MoE 专家混合大型模型。

强大的模型技术实力赋予了“天宫3.0”超强的性能。

在MMBench等多项权威多模态评测结果中,“天宫3.0”超越GPT-4V,取得全球领先。

天宫3.0多模态性能超过GPT-4V,全球领先。

与此同时,“天宫3.0”的大型音乐模型“天宫SkyMusic”也在今天向全社会开放公开测试。

“天宫SkyMusic”是中国首个音乐SOTA模型,也是中国自主研发的大模型技术首次在AIGC领域领先全球。

天宫SkyMusic综合性能超越Suno V3,实现了音乐大机型SOTA,领先全球。

天宫SkyMusic:中国首个音乐AIGC SOTA模式。

此前,大模型已经在文字、图像等多个技术领域取得突破,带来行业的全面变革。

然而,在AI音乐生成领域,全世界都在等待一款产品来开启“Music ChatGPT时刻”。

这是因为AI音乐行业的很多研究一直集中在符号音乐生成的技术路线上,并且大多只能实现无语音的背景音乐(BGM)的生成。

音乐的品质、效果、审美都远远落后。

由于无法达到可用水平,该行业发展缓慢。

“天宫天音乐”自主研发的AI音乐大模型的技术架构与行业主流路径有所不同。

《天宫SkyMusic》采用自主研发的大模型音乐音频生成技术路线。

该路线直接利用大模型技术,实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成。

这在技术上是极其困难的。

世界上只有包括昆仑万维在内的极少数顶级玩家参与其中。

在与海外顶级AI音乐模型Suno V3的横向评测中,《天宫天音乐》在人声及BGM音质、声音自然度、发音清晰度等方面均大幅领先对手,综合得分6.65分超越Suno V3并成为全球AI音乐SOTA典范。

此外,“天工天音乐”还具备原创参考音乐生成和方言歌曲生成功能。

参考音乐生成:用户可以上传自己的参考音乐,也可以选择“天工天音乐”数据库中现有的参考音乐来生成风格和人声相似的歌曲,进一步降低大音乐模型的使用门槛,让不熟悉的人也能使用有乐理知识的用户也能轻松演奏。

方言歌曲生成:“天宫天音乐”生成的音乐不仅在人声自然度、发声清晰度等方面表现出色,而且支持粤语、成都话、北京话等多种方言,让用户实现音乐变现更自由。

表达和传播方言文化。

“天宫SkyMusic”是中国首个公开的AI音乐生成模型,也是中国自主研发的大型模型技术首次在AIGC领域领先全球。

目前,在大文本模型领域,OpenAI受到全球关注;但在AI搜索、AI音乐生成等细分领域,中国玩家却勇往直前,通过自研技术不断在细分领域取得顶尖的SOTA表现。

,共同建设中国大模型产业,打造自主可控的大模型产业生态系统。

天宫3.0:1亿参数,全球最大的开源教育部大模型。

在上一代“天宫2.0”MoE大模型领先地位的基础上,“天宫3.0”实现了全面的性能升级,采用了亿级参数MoE混合专家模型。

该架构是目前全球模型参数最大、性能最强的开源MoE模型。

“天宫3.0”全面升级了逻辑推理能力、语义理解能力、复杂需求响应能力、内容创作能力,新增了多轮搜索和综合工具调用、图表绘制、研究模式、增强模式、图像修改和扩展。

等多项AI能力,为用户带来全新的AI体验。

多轮搜索和综合工具调用:“天宫3.0”对模型独立规划、调用、组合外部工具、整合信息的能力进行专题训练,使其能够独立生成和调用代码,完成行业研究和产品评论。

、信息分析、图片生成、图表绘制等复杂的用户需求。

同时,“天宫3.0”可以通过其强大的语义理解能力,将用户任务分解为细分环节,实时判断是否需要连接互联网或调用工具,进行单轮或多轮在线搜索和处理。

工具调用,完成多轮搜索、热点信息分析、图片生成等复杂的用户需求。

查询:查询最新的中国历史电影票房排行榜,图表展示图表绘制:《天宫3.0》全面提升逻辑推理能力和用户自然语言查询理解能力,使其能够更准确地判断用户需求,自主生成和调用代码,根据文字需求实时进行内容分析和图表构建,为用户带来更直观、高效的对比结果。

问:北京、上海、重庆哪个更好玩?多轮搜索、综合工具调用、图表绘制等是“天宫3.0”独有的大模型综合能力,连接了“天宫3.0”的AI搜索、AI对话、AI代码生成、AI图片自下而上通过语义识别能力直接触发识别、AI图像生成等底层能力,为用户带来更加便捷高效的AI体验,成为真正的AI生产力工具。

此外,《天宫3.0》还增加了研究模式、增强模式、地图修改扩展等多项AI能力。

研究模式:在研究模式下,“天工3.0”可以围绕用户的简单指令延伸出相关问题,并自动生成研究提纲、地图、实践总结、思维导图,帮助用户快速、清晰地掌握核心内容。

完成用户复杂的研究需求。

查询:康干盛世的增强模式:在增强模式下,“天宫3.0”可以对用户复杂的查询进行拆解、提炼、提问、信息理解、补全,提升其在自然语义理解方面的表现。

它更强大,在不确定的知识面前表现更好,能够更准确、更高效地满足用户需求。

查询:2019年春节档电影; “天宫3.0”了解并询问用户改变和扩展图像的需求:“天宫3.0”在多模态性能上实现了全面突破,超越GPT-4V,位居全球第一。

在强大的技术基础支撑下,“天宫3.0”的AI绘图能力新增了图像尺寸扩展、图像方向调整、垫图生成、垫图进化、垫图扩展等新功能。