当前位置: 首页 > 科技赋能

QPS提升10倍,文心一言推理效率一个月迭代4倍

时间:2024-05-19 16:09:13 科技赋能

4月23日,百度文心一言内部会议纪要泄露。

从纪要内容来看,文心一言启动邀请测试后的一个多月内,同时在线用户数的增加对响应速度提出了挑战,尤其是框架层和模型层——飞桨和文心一言提出训练和推理的联合优化和协作。

更高的要求。

一个月成绩单:三幅数字体现百度对企业客户的响应: · QPS提升近10倍。

目前国内各大企业的大机型中,文心一言是第一个在3月16日启动邀请测试的。

文心一言开启邀请测试后的一个月内,飞桨就进行了四次迭代。

4月19日再次迭代支持大模型推理服务,4月19日凌晨正式迭代3.5版本。

据悉,其首款支持动态插入的分布式推理引擎,提升了单机QPS(并发)。

服务器每秒可以处理的数据)或与在线版本相比推理效率%;与首版大模型推理服务相比,单机QPS累计提升近10倍。

也就是说,模型推理效率提升10倍,意味着成本降低到原来的1/10,或者意味着可以服务10倍的用户数量。

对于QPS(每秒查询推理响应速度)10倍的提升,有分析认为“大模型就像汽车发动机,纸面动力再强、参数再大也没用,必须挤出最大”发动机的瞬间爆发力。

” (QPS) 和最佳性能。

深度学习框架就像发动机和变速箱的生产。

它可以使发动机整体部件组合更加精确,动力更加强劲。

自主研发的产品将更加兼容,协作更加高效。

,这可能是效率提升的最根本原因。

“除了QPS的提升之外,推理性能可能还会再提升50%。

纪要显示,结合文心一言模型的结构特点和量化技术(保证模型推理部署效率最高),飞桨已经完成了预留了2个优化版本的推理机,预计推理性能再提升50%,具体模型效果还在评估中,模型推理性能提升了50%。

事实上,除了计算能力和数据之外,深度学习框架对于大模型的训练和推理同样重要,这也是飞桨在这一轮大语言模型中的一大优势。

对文心一言来说,不仅安全、合规,而且灵活、可控,相比国内很多厂商使用谷歌的TensorFlow、Facebook的PyTorch等深度学习框架,百度自主研发的开源深度学习框架飞桨可以基于国内大型模型做出最快的反应。

由于深度学习框架的赢家通吃性质,深度学习框架规则的制定具有排他性,深度领域的人工智能通用技术将受到框架规则的限制。

只有结合深度学习框架进行设计、优化、迭代,人工智能软硬件的开发才能最有效。

对此,百度早在2018年就做出了相应的部署。

·模型算力利用率可提升1倍。

第三个数据体现在基础模型算力利用率上。

据此总结,结合飞桨分布式并行策略优化和训练精度策略调整,衡量计算机系统性能的基础模型训练峰值FLOPS Utilization可进一步提升一倍左右。

该模型的算力利用率提升了一倍,这是基于四层架构端到端训练的优势。

飞桨深度学习框架向下与芯片、向上与模型协同优化。

自12月以来,微软作为OpenAI的独家云计算提供商,获得了更大的市场份额。

据 Theinformation 报道,目前,微软云客户必须排队数月才能获得云计算资源。

这是因为微软基于大模型设计了自己的云产品体系,使其可以最大限度地发挥计算能力、大数据、机器学习等能力。

训练像 GPT-4 这样的大型语言模型需要强大的计算能力。

因此,几年前,微软根据GPT大模型的特点,对Microsoft Cloud等AI技术基础进行了调整,以适应大模型的训练。

以及高计算能力和特殊架构的推理要求。

就国内而言,百度从事AI已有十年之久。

是国内少数拥有芯片层昆仑AI芯片、框架层飞桨深度学习框架、模型层四层人工智能能力的全栈公司之一。

文信搜索、自动驾驶、智能家居等大模型及应用层场景。

自建各层AI能力,可以更高效地优化各层能力。

“反馈驱动的创新”使大型模型可供公众使用。

在百度内部,李彦宏倡导“反馈驱动创新”,基于客户进行快速验证和迭代。

从3月16日到4月19日,泄露的“飞桨为文心一言定制优化例会”显示了三个数字——10次、50%、1次。

在幕后,飞桨正在快速迭代。

通过与行业客户共创,围绕大模型重构和完善一系列人工智能产品和体验,进一步降低大模型的使用门槛和实施成本,提高训练和推理效率。

这有利于大模型的快速产业化。

就像过去一样,在“是否上公有云”的问题上,早期国内B端生态无法达成一致。

但现在,迁移到云端已经成为绝对主流趋势。

这背后是亚马逊云AWS每年降价70次的事实。

前几年,它每月都会降价一次。

亚马逊之所以有底气这样降价,是因为它在整个云基础设施和中间层都投入了巨大的研发。

对于大型人工智能模型来说也是如此。

训练一个具有常识和人类 AGI 能力的大型模型并不是许多制造商能够做到的。

百度能做好大型模型,文心一言在COT(Chain of Thought,逻辑链)、ITL(In-Text Learning)等能力和知识增强方面表现出色。

同时,百度就像上一个时代,云计算时代的亚马逊,通过技术架构的快速迭代,使得AI推理和生产的成本非常非常低,甚至接近人脑的功耗水平未来无限。

这需要巨大的投资,数百亿,甚至数百亿。

百度的快速迭代也体现了其在大模型时代的愿景,正如李彦宏对飞桨的定位,“飞桨是人工智能时代的操作系统,让开发者像搭积木一样构建AI应用,大大降低了应用门槛”人工智能。