当前位置: 首页 > 科技赋能

元象开源百亿参数通用大模型XVERSE-13B

时间:2024-05-19 15:55:43 科技赋能

8月7日,深圳——为促进国产大模型开源生态和产业应用的繁荣发展,元象XVERSE公司宣布其开源了百亿参数的高性能通用大模型。

XVERSE-13B,免费用于商业用途。

XVERSE-13B是目前同尺寸最好的多语言大型号。

在多项权威标准中英文评测中,其性能已经超越了Llama-2-13B、Baichuan-13B等国内外开源大型模型的代表(见图1)。

它具有高性能、完全开源、可商用等诸多优点。

可以大大降低高校和企业部署和使用大型模型的成本。

不仅使其可以替代国产车型,也是中国应用的更好选择。

开源信息 Hugging Face:大模型基于标准 Transformer 结构。

在 1.4 万亿个高质量、多样化 token 的训练数据上,从头开始训练了一个拥有 1 亿个参数的大型模型(train from scatch),支持 40 多种语言,以及上下文窗口大小。

元象还将在近期发布大模Chat版本,可以开箱即用,并持续优化开发者体验。

图1:经过多次权威评测,XVERSE-13B是目前同尺寸最好的多语言大模型。

XVERSE-13B是通用大型型号。

基于它生成的服务包括文本生成、自动写作、数据分析、问答、多语言翻译、个性化交互、角色扮演、专业助理等诸多方面都可以为用户带来巨大的价值。

XVERSE-13B预计将在医疗、教育、文化旅游、金融娱乐等多个行业具有广阔的应用前景,也将为元象自己的元界应用提供强有力的技术支持。

创建最强大的开源大模型训练语料库对于大模型的有效性至关重要。

XVERSE-13B构建了高达1.4万亿个高质量、多样化token的训练数据集,同时优化了采样策略和数据组织方法,让模型支持中文、英文、俄语、西班牙语以及多语言任务的处理性能和结果都非常出色。

XVERSE-13B支持的上下文窗口是同尺寸模型中最长的,因此可以很好地处理复杂场景,例如较长的多轮对话、知识问答、总结等,并且具有更广泛的范围应用程序。

该模型使用标准的 Transformer 网络结构,并从头开始训练。

并自主研发了高效算子、内存优化、并行调度策略、数据计算通信重叠、平台与框架协同等多项关键技术,让训练更加高效。

模型稳定性高,千卡集群峰值算力利用率可达58.5%,位居业界前列。

在多项中国权威评测中表现优异,超越百川13B。

为了验证模型的能力,XVERSE-13B通过了中国最具影响力的三个评测基准C-Eval、AGIEval和GAOKAO-Bench的综合评测(图2),性能优异,超越了主流模型相同参数尺度,如Baichuan-13B、Llama-2-13B、Ziya-LLaMA-13B等。

图2:在多项中国权威评测中,XVERSE-13B优于相同参数尺度的主流模型。

在中国C-Eval评测中(图3),XVERSE-13B综合得分达到54.7分,超越同参数量表的表现。

主流规模模型。

C-EVAL评估基准由上海交通大学、清华大学和爱丁堡大学联合创建。

它是一套针对中国语言模型的综合考试测试集,涵盖了不同行业领域的52个学科。

图3:C-Eval中文评测结果。

在AGIEval评测中,XVERSE-13B综合得分达到41.4分,超越同参数尺度的主流机型(图2)。

AGIEval评估基准由微软研究院发起,旨在综合评估基础模型在人类认知和问题解决相关任务中的能力。

它包括中国的高考、司法考试,以及美国的SAT、LSAT、GRE和GMAT等。

20 公开、严格的官方入学和职业资格考试。

在GAOKAO-Bench评测中,XVERSE-13B综合得分达到53.9分,大幅领先同参数量表的主流机型(图2)。

GAOKAO-Bench评估基准是复旦大学研究团队创建的评估框架。

它以中文高考题作为数据集,评估大型模型在中文语言理解和逻辑推理能力方面的表现。

英文评测表现领先于Llama-2-13BXVERSE-13B。

英语表现也非常出色。

在最权威的英文评测MMLU中,其综合得分高达55.1分,几乎在所有维度上超越同参数尺度的主流模型(图4),包括Llama -2-13B、Baichuan-13B等。

图4 :MMLU英语评估成绩 MMLU是与加州大学伯克利分校等知名大学联合创建。

它整合了科学、工程、数学、人文、社会科学等领域的57个学科。

主要目标是测试模特的英语跨学科专业能力。

深入审查。

它的内容范围广泛,从初级水平一直到高级专业水平。

需要强调的是,评价仅反映大模型库的核心能力。

元象将不断迭代优化,全面提升模型能力。

免费且可商用的哈尔滨工业大学是第一个使用它来帮助研究并秉承开源精神的公司。

XVERSE-13B代码采用Apache-2.0协议,完全开源,供学术研究使用。

企业只需注册即可免费使用。

哈尔滨工业大学(以下简称“哈工大”)作为我国第一支从事自然语言处理研究的顶尖科研团队,已率先使用XVERSE-13B大模型推进相关研究工作。

哈尔滨工业大学计算机科学与技术学院张伟南教授表示,“开源是互联网时代的主流模式,它不仅可以贡献社区、推动技术不断创新,还可以通过协作来解决问题”。

算法透明度、稳定性和公众信任等常见问题。

”元象XVERSE创始人姚星表示:“现实世界感知智能(3D)和现实世界认知智能(AI)是探索通用人工智能(AGI)的必由之路,也是元象继续探索的动力尖端的 3D 和 AI 技术。

XVERSE-13B是我们国产技术自力更生的一小步,开源将激发大模型的生态活力,在未来AI发展中迈出一大步,为现实世界的发展注入强劲动力。

经济和数字经济。

我们期待与众多企业和开发商携手共创大模型商业化新时代! ”元象不断钻研3D和AI前沿技术,文字语音图片、3D人物、3D物体、大型模型、空间音频、传记图像、大世界视频、动作捕捉、物体生成、歌曲合成。