当前位置: 首页 > 科技赋能

9月6日,在北京市科委、中关村科技园区管委会、北京市海淀区的指导下,百川智能发布百川2,文科全面领先LLaMA2

时间:2024-05-19 16:56:54 科技赋能

政府、百川智能召开主题为“百川汇海,开源共赢”的大型机型发布会,中科院院士张钹亲临现场并致辞。

会上,百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat及其4位量化版本,并且全部免费且可商用。

Check Point 此次针对模型训练,宣布将发布百川 2 技术报告,详细介绍百川 2 的训练细节,帮助大型模型学术机构、开发者和企业用户更深入地了解其训练流程,等等。

能够很好地促进大型模型学术研究和社区的技术发展。

百川2下载地址:LLaMA 2Baichuan2-7B-Base和Baichuan2-13B-Base均基于2.6万亿高质量多语言数据训练。

他们保留了上一代开源模型良好的生成和创造能力,并且多轮对话顺畅。

在能力低、部署门槛低等诸多特点的基础上,两种模型在数学、编码、安全、逻辑推理、语义理解等方面的能力都有显着提升。

与上一代13B模型相比,百川2-13B-Base数学能力提升49%,编码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,15语义理解能力的提高%。

两款开源模型在各大评测榜单上均表现出色。

在MMLU、CMMLU、GSM8K等多个权威评测基准中,他们以绝对优势领先LLaMA2。

与同参数数量的其他模型相比,它们的表现也非常出色。

引人注目,性能明显优于LLaMA2同尺寸竞品机型。

更值得一提的是,根据MMLU等多个权威英语评测基准,70亿参数的百川2-7B在主流英语任务中与1亿参数的LLaMA2不相上下。

7B 参数模型的基准结果。

13B 参数模型的基准结果。

百川2-7B和百川2-13B不仅完全开放给学术研究,开发者通过电子邮件申请获得官方商业许可后也可以免费商业使用。

国内首个全量开源模型训练Check Point支持大规模模型训练的学术研究,包括海量高质量数据的获取、大规模训练集群的稳定训练、模型算法优化等。

每个环节都需要投入大量的人才、算力等资源。

从头开始训练模型的高昂成本阻碍了学术界对大型模型训练的深入研究。

本着协作、持续改进的精神,百川智能开源了从B到B的模型训练全流程的Check Ponit,这对于科研机构研究大模型的训练过程、持续模型训练、和模型值对齐。

将极大推动国内大型模型的科研进步。

该开源训练模型流程??在国内开源生态中尚属首次。

技术报告揭示培训细节并繁荣开源生态系统。

目前,大多数开源模型仅在开源过程中公开其模型权重,而很少提及训练细节。

企业、研究机构、开发者只能在开源模式的基础上开展工作。

微调有限,难以深入研究。

秉承更加开放、透明的理念,我们旨在帮助从业者深入了解百川二号的训练流程和相关经验,更好地推动大模型社区的技术发展。

百川智能在发布会上宣布,将发布百川二号的技术报告。

技术报告将详细介绍百川二号训练的整个流程,包括数据处理、模型结构优化、标度规律、流程指标等。

报告链接:2大车型获得上下游企业积极响应。

腾讯云、阿里云、火山方舟、华为、联发科等多家知名企业参加了本次大会,并与百川智能达成合作。

未来,百川智能将继续深耕开源大模型领域,开放更多技术能力和前沿创新,携手更多合作伙伴,助力中国大模型生态蓬勃发展。