当前位置: 首页 > 科技赋能

模型“天天有新”,商汤“SenseChat 2.0”在多项评测基准上综合表现超过ChatGPT

时间:2024-05-19 16:16:12 科技赋能

近日,商汤科技在MMLU发布了自主研发的中文大模型“SenseChat 2.0”, AGIEval 和 C-Eval。

权威大型语言模型评估基准的结果。

根据评测结果,“咨询SenseChat 2.0”在三个测试集上表现均优于ChatGPT,实现了我国大型语言模型研究的重要突破。

截至目前,已有近千家企业客户应用体验了“SenseChat 2.0”和“SenseChat 2.0”2.0强大的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力。

”仍然在服务客户的过程中,持续实现快速迭代和改进,以及知识的实时更新。

三大权威大型语言模型评测基准结果:“SenseChat 2.0”综合能力超过普亭科技发布的评测结果中,入选了全球最权威的三个语言模型评测基准Future、AGIEval、C-Eval,结果表明“SenseChat 2.0”的综合能力超过了ChatGPT 2.0。

》在三个测试集上的表现均优于ChatGPT,有的非常接近GPT4的水平。

加州大学伯克利分校等大学构建的多任务测试评估集Confluence; AGIEval,微软研究院推出的学科考试评估集(包括中国高考、司法考试、美国SAT、LSAT、GRE、GMAT等);上海交通大学开发的C-Eval是清华大学和爱丁堡大学联合构建的汉语语言模型综合考试评估集;主要语言模型在MMLU、AGIEval、C-Eval三个评估基准中的得分。

MMLU是由加州大学伯克利分校开发的。

由哥伦比亚大学、芝加哥大学、伊利诺伊大学厄巴纳-香槟分校联合创建的大规模多任务语言理解评测基准,涵盖科学、技术、工程、数据、人文、社会科学等领域的 57 个学科。

其他领域。

从入门级到高级专业级,考验的是世界知识和解决问题的能力。

(参考论文:SenseChat 2.0)总体得分为68.6,远远超过GLM-B(45.7分)的得分,也超过ChatGPT(67.3分)和LLaMA-65B(63.5分),仅落后于GPT-4( 86.4分),排名第二。

各主要子评估集的表现如下:(图中粗体表示最好结果,下划线表示第二个结果)AGIEval由微软研究院发布,专门用于评估人类认知和相关任务中的基础模型。

解决问题。

模型所表现出的通用能力可以实现模型智能与人类智能的比较。

该基准选取了20项针对普通人类考生的官方、公开、高标准的普通和资格考试,包括普通大学入学考试(中国高考和美国SAT考试)、法律入学考试、数学竞赛、律师资格考试、国家公务员考试考试等。

(参考论文:SenseChat 2.0”测得分数为49.91,遥遥领先于GLM-B(34.2分)、LLaMMA-65B(34.0分),并再次超越ChatGPT(42.9分),仅次于GPT-4的56.4分在AGIEval(GK)评估子集中,“Discussion SenseChat 2.0”以58.5分领先,仅略落后于GPT-4(58.8分),细分科目评估结果如下,其中拥有GK的科目为中文。

高考科目:(图中粗体表示最好成绩,下划线表示第二名成绩。

)C-Eval是上海交通大学、清华大学和上海交通大学联合构建的汉语语言模型综合考试评估集爱丁堡大学,包含8个多项选择题,涵盖52个不同科目和四个难度级别(参考论文:C-Eval评估基准,“Discuss SenseChat 2.0”得分66.1,在18个大型模型中仅次于GPT参与评价。

-4(68.7分),全面领先于ChatGPT、Claude、Bloom、GLM-B、LLaMA-65B等国内外大型型号。

其中,C-Eval(Hard)子评估集选出了8个具有挑战性的项目。

数据、物理、化学科目进一步考验大语言模型的推理能力。

“讨论SenseChat 2.0”也表现在前列。

图:最新的C-Eval排名(来源:SenseChat2.0)。

今年4月,能力持续快速提升。

商汤正式发布“商汤日新SenseNova”大模型系统,以及自主研发的中文大模型“咨询SenseChat”。

截至6月,全球已正式发布40多个大型语言模型,其中包括中国厂商和大学。

科研院所等已发布近20个大型语言模型。

在“百花齐放”的市场格局中,通过结果和性能的对比,可以了解各大预测模型的特点和差异,直观地了解各主要语言模型当前的智能水平。

目前,“咨询SenseChat 2.0”已经超越GPT-3.5,并且随着商业化的推进,在多个行业和场景中发挥了令人满意的作用。

例如,在需要大量文案工作的场景中,“讨论SenseChat 2.0”可以辅助处理各种文章、报告、信件、产品信息、IT信息等,编辑、重写、总结、分类、提取信息、制作问答等有效提高企业员工的工作效率。

在客户服务场景中,“讨论SenseChat 2.0”还可以扮演许多不同的企业角色,例如银行客服、给孩子讲故事的绘本老师等,进行顺畅的沟通和互动,提升客户体验。

此外,“Discussion SenseChat 2.0”还拥有丰富的知识储备,可以结合公司自身行业的专有数据,非常高效地创建符合公司需求的高水平知识库,帮助实现更加智能化的知识库管理。

“讨论SenseChat 2.0”也是一款高级AI代码助手,可以极大地帮助提高开发效率,实现新的80/20规则,即80%的代码由AI生成,20%由手动生成。

商汤大语言模型能力的提升来自于更多优质中文数据的训练和学习,得益于团队在底层大模型技术上的不断创新。

在训练阶段,商汤团队采用了一系列自主研发的增强复杂推理能力的方法,以及更有效的反馈学习机制,让大模型在增强推理能力的同时,缓解了传统大模型的幻觉问题。