当前位置: 首页 > 科技赋能

再次夺得第一名!文心3.5称霸国内大模特榜

时间:2024-05-19 16:33:17 科技赋能

近日,清华大学新闻与传播学院沉阳团队发布《大语言模型综合性能评估报告》(以下简称“报告”)。

报告显示,百度文心一言在三大维度20项指标中位列全国第一。

超越ChatGPT,中文语义理解排名第一,部分中文能力超越GPT-4。

清华大学新闻与传播学院的教授和博士生导师沉阳表示:“今年3月,百度在全球大型科技公司中率先发布了大语言模型文心一言,让中国参与到世界前沿的研究中来。

我们在这次评测中也看到了文心一言各方面能力的提升,特别是在中文语义理解方面,国内大规模模型的快速发展让技术落地前景更加广阔。

”据了解,本次评测选择了GPT- 4、ChatGPT 3.5、文心一言、通易千文、科大讯飞Spark、Claude、天宫7个大语言模型,重点关注生成质量、使用性能、安全合规三个维度。

综合考察语境理解,从汉语语义理解、误导性信息识别、逻辑推理、内容安全、隐私保护等20个指标综合来看,文心一言具有突出的语义理解能力,尤其是较好的汉语理解能力,对中国文化的理解较好,时效性强,内容控制安全,这得益于其在生成质量方面,基于语义理解、输出表达、自适应泛化的综合评估。

得分为 76.98%,仅次于 GPT-4,遥遥领先于包括 ChatGPT 在内的其他大型语言模型。

其中,在部分中文语义理解方面,文心一言以92%的成绩排名第一,超越科大讯飞Spark和GPT-4。

以知识增长为核心特征,文心一言对当地语言的特点有了更准确的把握。

同时,由于训练语料包含大量本土文本,对本土文化有更深入的了解,能够更好地处理与本土文化相关的话题和背景,如诗歌、方言等,有更强的国内落地性空间。

安全合规方面,基于内容安全、偏见公平、隐私保护等方面的综合评估,文心一言 得分为 78.18%,与 GPT-4 并列第一,远超其他大型语言模型。

报告显示,文心一言内容安全性良好,注重用户隐私保护和版权保护。

据了解,百度全面布局“芯片-框架-模型-应用”四层人工智能技术栈。

其自主研发的深度学习平台飞飘有力支撑了文心大模型的高效训练和推理。

截至目前,飞票已聚集数万用户。

开发商。

飞飘携手文心优化,最新版文心大模型3.5实现基础模型升级、微调技术创新、知识点增强、逻辑推理增强等,模型效果提升50%,训练速度提升2倍,推理速度提升30倍。

目前,推动大型模型在行业内的应用已成为大势所趋。

百度文心模型此前已与国家电网、浦发银行、泰康、吉利等企业单位合作,发布了11个行业模型。

目前,文心模式在国内拥有最大的产业应用规模。

已有15万家企业申请接入文心一言测试,并在100多个场景中取得了非常好的测试效果。