当前位置: 首页 > 科技赋能

昆仑万维开源“天宫”13B系列大模型,商用零门槛

时间:2024-05-19 16:46:55 科技赋能

10月30日,昆仑万维宣布开源百亿级大语言模型“天宫”Skywork-13B系列,并且还开源了GB,一个非常大的高质量开源B代币中文数据集。

昆仑万维“天宫”Skywork-13B系列目前包括两个1亿参数模型:Skywork-13B-Base模型和Skywork-13B-Math模型。

它们已在CEVAL、GSM8K等多项权威评测和基准测试中得到证明。

取得了同规模车型的最好成绩,中文能力尤为突出。

其在中国科技、金融、政务等领域的表现高于其他开源模型。

Skywork-13B下载地址(模型范围): 下载地址(Github): 该系列大模型还将开源GB和B Token的高质量中文语料数据集Skypile/Chinese-Web-Text-B,即目前最大的开源中文数据集之一。

与此同时,昆仑万维的“天宫”Skywork13B系列大型机型将全面开放商用——开发者无需申请商用。

1亿参数,两大模型,中国最大数据集之一,并全面开放商用。

昆仑万维的“天宫”Skywork13B系列大型模型堪称业界最彻底开源的价值百亿的优质商业模型。

Skywork-13B系列大模型的开源将为大模型的场景应用和开源社区的发展提供最好的技术支撑,降低大模型的商业门槛,推动人工智能技术在千家万户落地为人工智能生态建设贡献力量,携手开源社区探索未知世界,创造美好未来。

两大模型 昆仑万维“天宫”Skywork13B系列包括两大模型和B优质中国数据集。

?Skywork-13B-Base型号是Skywork-13B的基本型号。

它经过3.2万亿多语言高质量数据的训练。

在CEVAL、CMMLU、MMLU、GSM8K等评估和基准测试中展现了同规模模型的最佳性能。

最好的结果。

?Skywork-13B-Math模型经过专门的数学能力强化训练,在GSM8K等数据集上取得了同规模模型的最佳效果。

?Skypile/Chinese-Web-Text-B数据集。

该数据集是根据我们仔细过滤的数据处理过程从中文网页中过滤出来的高质量数据。

该开源数据集大小约为GB,代币总数约为(1亿)。

它是目前最大的开源中文数据集之一。

此外,Skywork-13B系列还公开了模型中使用的评估方法、数据匹配研究和训练基础设施调优解决方案。

希望这些开源内容能够进一步启发社区对大规模模型预训练的理解,推动通用人工智能(AGI)的实现。

昆仑万维“天宫”Skywork13B系列大型模型在CEVAL、GSM8K等多项权威评测和基准测试中展现了同尺寸模型的最佳成绩,其汉化能力尤为突出,具有优异的性能。

在中国科技、金融、政务等领域的表现高于其他开源模型。

Skywork-13B系列机型的5大特点: 1、参数性能最强:全面超越同规模大型机型。

开源的Skywork-13B系列模型在CEVAL、CMMLU、MMLU、GSM8K等多项权威评测基准上全面超越LLaMA2-。

13B等开源大型模型取得了同尺寸大型模型中最好的成绩。

(数据截至10月25日) 2、最大训练数据:3.2T高质量多语言训练数据。

Skywork-13B系列大型模型拥有1亿个参数和3.2万亿高质量多语言训练数据。

模型的生成能力、创造能力和数学推理能力得到显着提升。

3、最强中文建模能力:中文建模困惑度评测超越所有中文开源模型。

Skywork13B系列大型模型在中文造型方面表现出色,具有优秀的中国文化创意能力。

在中文文本创作领域的评测中,Skywork13B系列大型机型展现了出色的能力,尤其是在科技、金融、政务、企业服务、文创、游戏等领域表现高于其他领域。

业界其他开源模型。

上图展示了评估模型在不同领域数据下的困惑度。

度越低,模型在该领域的建模能力越强。

结果显示,天宫十三号B在科技文章、电影、政府报告、游戏、金融、通用领域都有着不错的表现。

4、最大的中文开源数据集之一:B Tokens高质量中文语料库Skywork-13B系列将搭载开源GB和B Tokens高质量中文语料数据集Skypile/Chinese-Web-Text-B是目前最大的开源中文数据集之一。

开发者可以最大程度地借鉴技术报告中的大模型预训练流程和经验,深度定制模型参数,进行针对性的训练和优化。

5、最真诚的开源商业用途:无需应用即可实现商业用途。

目前开源社区的大部分中国大型模型都没有完全商用。

一般来说,开源社区用户通常需要经历复杂的商业授权申请流程。

在某些情况下,甚至有明确的规定,根据公司规模、行业、用户数量等维度,不给予商业授权。

昆仑万维高度重视Skywork13B系列开源的开放性和商业化,简化了授权流程,取消了行业、公司规模、用户等限制,旨在帮助更多人熟悉与中国大型模型感兴趣的用户和企业在行业中不断探索和进步。

此次,Skywork13B系列大型型号将全面获得商用许可。

用户下载模型并同意并遵守《Skywork 模型社区许可协议》后,即可将大模型用于商业用途,无需再次申请授权。

希望用户能够更方便地探索Skywork13B系列大型号的技术能力,探索不同场景的商业应用。

促进开源生态的繁荣,让更多的开发者参与AIGC的技术发展,通过共创共享推动技术进步。

人工智能时代,构建蓬勃发展的开源生态是构建人工智能与应用融合的重要组成部分。

降低模型的研发门槛和使用成本,最大限度地共享技术能力和经验,让更多的企业和开发者参与到这场AI主导的技术变革中。

昆仑万维董事长兼CEO方瀚是最早参与开源生态建设的开源元老,也是中国Linux开源最早的推动者之一。

开源精神与AIGC技术的发展将在昆仑万维的战略中完美融合。

All in AGI和AIGC All in AGI和AIGC是昆仑万维的战略。

4月17日,昆仑万维发布国内首个真正实现智能涌现的大规模语言模型——“天宫3.5”并启动邀请测试。

5月19日,北京市经济和信息化局公布了第一批《北京市通用人工智能产业创新伙伴计划成员名单》。

昆仑万维凭借在AIGC领域的前沿探索和投资布局,成为首批示范合作伙伴和投资合作伙伴。

8月23日,昆仑万维发布国内首款人工智能搜索产品天宫AI搜索。

9月1日,计算机视觉和机器学习领域国际顶尖专家严水成教授正式加盟昆仑科技。

与昆仑科技创始人周亚辉共同担任天工智能联席CEO,并兼任昆仑科技全球研究院院长。

尖端技术研究。

9月5日,在腾讯优图实验室联合厦门大学开展的多模态大语言模型评测中,昆仑万维天工大模型综合得分排名第一。

9月25日,昆仑万维正式控股爱捷芯,布局AI芯片。

如今,天宫Skywork13B系列大型模型的开源,标志着昆仑万维继续投资AGI生态的决心。