1月29日,百川智能发布超千亿参数大语言模型百川3。
在CMMLU、GAOKAO、AGI-Eval等多项权威通用能力评估中,百川3表现出了优异的能力,尤其是在中文任务中超越了GPT-4。
在MATH、HumanEval和MBPP等数学和代码特定评估方面也表现出色,证明了百川3在自然语言处理和代码生成领域的强大实力。
不仅如此,其在MCMLE、MedExam、CMExam等对逻辑推理和专业性要求极高的权威医学评估中的中文效果也超过了GPT-4,成为中文医疗任务中表现最好的大型模型。
百川3还突破了“迭代强化学习”技术,进一步提升语义理解和生成能力。
它在诗歌创作的格式、节奏、意义等方面都表现出色,领先于其他大型模式。
链接:3在多项英文评测中表现良好,达到接近GPT-4的水平。
在CMMLU、GAOKAO、HumanEval、MBPP等多个中文评测榜单中,它都超越了GPT-4,展现了其在中文任务上的优势。
此外,在MT-Bench、IFEval等对位表评测中,百川3超越了GPT-3.5、Claude等大型模型,处于行业领先水平。
与数百亿、数百亿参数模型训练不同,超千亿参数模型训练过程中对高质量数据、训练稳定性、训练效率的要求要高出几个数量级。
为了更好地解决相关问题,百川智能在训练过程中提出了“动态数据选择”、“重要性维护”、“异步CheckPoint存储”等多种创新技术手段和解决方案,有效提升了百川3的性能. 各种能力。
在高质量数据方面,传统的数据筛选依赖于人工定义,通过过滤、质量评分、教科书筛选等方法对数据进行筛选。
百川智能认为,数据优化和采样是一个动态过程,应该随着模型本身的训练过程而优化,而不是简单地依靠人工先验进行数据采样和筛选。
为了全面提升数据质量,百川智能设计了基于因果抽样的动态训练数据选择方案。
该方案可以在模型训练过程中动态选择训练数据,大大提高数据质量。
在训练稳定性方面,千亿参数以上的模型由于参数数量庞大,在训练过程中常常会遇到梯度爆炸、损失失控、模型不收敛等问题。
对此,百川智能提出了“Salience-Consistency”的渐进式初始化方法,以保证模型训练前期的稳定性。
还优化了模型训练过程的监控方案,在梯度、损失等指标上引入参数“有效排序”方法,及早发现训练过程中的问题,大大加快了训练问题的定位,保证了训练的收敛性。
最终模型。
影响。
此外,为了保证超千亿参数模型在数千块GPU上的高效稳定训练,百川智能同步优化了模型的训练稳定性和训练框架,采用“异步CheckPoint存储”机制,实现无训练性能损失。
大存储的频率降低了机器故障对训练任务的影响,使得百川3号的稳定训练时间达到1个月以上,故障恢复时间不超过10分钟。
在训练效率方面,百川智能针对超千亿参数模型的并行训练问题进行了一系列优化,如高度优化的RoPE、SwiGLU计算算子;在数据并行上实现参数通信与计算的重叠,在序列并行上实现激活值通信与计算的重叠,从而有效降低通信时间比例;在流水线并行中,引入了将激活值卸载到GPU的技术,解决了流水线并行中内存占用不均匀的问题,减少了流水线并行段数所需的时间,显着降低了空化率。
通过这些技术创新,百川3的训练框架相比业界主流框架性能提升了30%以上。
医疗数据集代币数量超过1000亿,医疗能力接近GPT-4。
大规模医疗背后蕴藏着巨大的社会价值和产业价值。
从疾病诊疗到患者护理和药物研发,大模型不仅可以帮助医生提高诊疗效率和质量,帮助患者获得更好的服务和体验,还可以帮助社会降低医疗成本和风险,助力医疗健康发展。
资源实现普惠、平等。
另外,医疗问题专业性强、知识更新快、准确性要求高、个体差异大。
能够充分体现大型模型的能力,被百川智能称为“大型模型皇冠上的明珠”。
因此,OpenAI、Google等领先的大型模型公司将医疗作为模型的重点训练方向和绩效评估的重要体系。
ChatGPT早在今年2月就通过了美国医师执照考试(USMLE),展示了其在医疗领域的强大能力。
谷歌更加重视医疗领域。
它在PaLM模型的基础上构建了大型医学模型Med-PaLM。
迭代后的Med-PaLM 2在体检MedQA中得分超过80分,达到专家级别。
在医疗领域,大型模型的多功能性发挥着至关重要的作用。
首先,其多模态学习能力可以整合文本、图像、声音等多种类型的医疗数据,提供更全面、准确的分析和诊断。
其次,大型模型的深度推理能力有助于做出复杂的医疗决策。
此外,稳定的性能和知识更新能力保证了医疗建议的可靠性和及时性。
同时,大模型的语言理解和生成能力使其能够处理专业术语和复杂的句子结构。
最后,模式识别和学习能力在大型模型中的应用使其能够从复杂的医疗数据中学习和识别重要的模式和特征。
因此,大模型在医学领域想要有好的效果并不容易。
它需要丰富的医学知识、适当的提示,并且模型本身必须具有出色的逻辑推理能力。
为了给百川3注入丰富的医学知识,百川智能在模型预训练阶段构建了超过1000亿Token的医学数据集,包括医学研究文献、真实的电子病历、专业书籍以及医学领域的知识库资源。
该数据集涵盖了医学知识从理论到实际操作、从基础理论到临床应用的各个方面,保证了模型在医学领域的专业性和知识深度。
针对医学知识刺激的问题,百川智能在推理阶段对Prompt做了系统的研究和调优。
通过准确的任务描述和适当的样本选择,模型输出更加准确和逻辑的推理步骤。
最终,不仅提升了百川3在多项医疗检查中的表现,还能够在真实的医疗问答场景中为用户提供更加准确详细的反馈。
在逻辑推理方面,百川3在数学、编码等多项权威评测中,在中文任务中超越了GPT-4,充分证明了其强大的基础逻辑推理能力。
在拥有丰富、高质量的专业医学知识的基础上,并能够通过调优的提示充分激发这些知识,结合超千亿参数的推理能力,百川3在医学领域的任务表现显着提升。
中文和英文医学测试分数提高了2至14个百分点。
百川3号在多项权威医学评测任务中均表现出色。
不仅MCMLE、MedExam、CMExam等中文医学任务的评估结果超过GPT-4,USMLE、MedMCQA等英文医学任务的评估结果也接近GPT-4的水平。
是医疗能力最强的中国模式。
突破“迭代强化学习”技术,创作精度大幅提升语义理解和文本生成。
作为大模型最基本的底层能力,是其他能力的支柱。
为了提升这两项能力,业界进行了大量的探索和实践。
OpenAI、Google、Anthropic等公司推出的RLHF(基于人类反馈的强化学习)和RLAIF(基于AI反馈的强化学习)是其中的关键技术。
基于强化学习对齐的模型不仅可以更准确地理解用户指令,尤其是多重约束、多轮对话下的指令,还可以进一步提高生成内容的质量。
然而,充分发挥强化学习在大型模型中的作用,不仅需要稳定高效的强化学习训练框架和高质量的偏序数据,还需要平衡“探索与利用”,实现模型能力的不断提升。
。
百川智能针对上述问题进行了深入研究,并提供了针对性的解决方案。
在强化学习训练框架方面,百川智能自主研发了集训练推理双引擎、多模型并行调度于一体的PPO训练框架,可以很好地支持超千亿模型的高效训练,训练效率大幅提升。
比业界主流框架高出%。
在偏序数据方面,百川智能创新性地采用RLHF和RLAIF相结合的方式生成高质量的偏序数据,在数据质量和数据成本之间实现了更好的平衡。
在此基础上,针对“探索与利用”的根本挑战,百川智能通过PPO探索空间和奖励模型评价空间的同步升级,实现“迭代强化学习”(迭代RLHF&RLAIF)。
基于强化学习的版本爬升,可以进一步释放基于SFT的基础模型的潜力,大幅提升百川3的语义理解和生成创造能力。
以文本创作中最具挑战性的唐诗宋词为例。
诗歌作为中国传统文化的瑰宝,不仅在格式、层次、排比、节奏等方面有严格的约束,而且内容高度凝练,意蕴深刻。
如果仅仅通过SFT的微调来学习,一方面,高质量的诗歌创作数据需要极高的专家成本;另一方面,另一方面,无法更好地理解和遵守并行性、对偶性、节奏性等方面的约束。
此外,传统的单镜头RLHF范式在唐诗宋词方面也遇到了很大的挑战。
PPO在训练过程中产生的Response可能会超出Reward Model的评估范围,导致“探索”过程失控。
百川3结合了“RLHF&RLAIF”和迭代强化学习方法,将大模型的诗歌创作能力提升到了一个新的水平。
与目前业界最佳模型相比,其可用性提升高达%,文采远超GPT-4。
对于宋词这种格式多样、结构深刻、韵律丰富的高难度体例,生成的内容也能对比工整、韵律和谐。
其精准而深厚的创作功力,将让大家轻松创作出咏物抒情的五言诗、七言绝句,写下心声,抒发抒情的《沁园春》《鼎风波》,这不仅可以提高大众的人文素质,也可以帮助中国传统文化真正“活”在大模型时代。
作为参数规模超千亿的大型语言模型,百川3不仅在英文方面达到了接近GPT-4的水平,而且在多个通用中文任务的表现上也超越了GPT-4,这是百川3的新里程碑。
百川情报.百川3全面的通用能力和在医疗领域的强劲表现,将为百川智能打造“超级应用”,将大模型技术落地到众多复杂应用场景提供有力支撑。