当前位置：首页 > 科技赋能

商汤新模型完成训练，12项权威评测排名第一

时间：2024-05-19 16:17:39 科技赋能

8月28日，商汤科技公布截至2020年6月30日止6个月中期业绩。

财报显示，公司营业收入14.3亿元（人民币）），同比增长1.3%，整体营收表现稳健。

财报显示，大型语言模型InternLM-B超越GPT-4在12项权威评测中排名第一，综合性能超越GPT-3.5-turbo。

今年上半年，商汤发布了“RiRiXin”大型模型系统，并发布了国内首个基础模型书生浦语（InternLM），其综合性能超越了GPT-3.5-turbo。

InternLM是商汤联合上海人工智能实验室等国内几家顶尖科研机构发布的预训练大语言模型。

大语言模型的研发总共投入了约1万块GPU，使其能力实现快速发展。

InternLM-B表现亮眼，在12项权威评测中排名第一。

第一年8月，新模型InternLM-B完成训练，参数数量增至1亿。

新模型语言、知识、理解、推理、主题五大能力得到显着提升，并在全球51个知名评测集（包括MMLU、AGIEVAL、ARC、CEval、Race、GSM8K、等），总共有 300,000 个问题集。

整体测试成绩排名全球第二，超越GPT-3.5-turbo和Meta新发布的LLaMA2-70B等型号。

InternLM - 在 12 个主要基准测试中排名第一。

其中，在评估集综合测试中，AGIEval得分57.8，排名第一，超越GPT-4； CommonSenseQA 评测得分为 88.5 分排名第一，NaturalQuestions 排名第二； InternLM-B阅读理解C3排名第一，CMRC、RACE（中）、RACE（高）、LAMBADA五项评测全部排名第一；此外，InternLM-B在推理WinoGrande、StoryCloze、HellaSwag、StrategyQA、SIQA上排名第一。

商汤的大语言模型能力取得了快速发展。

商汤于2016年4月推出SenseChat 1.0，这是国内首批基于千亿参数大语言模型的聊天机器人产品之一。

InternLM是首个综合能力超越GPT-3.5-turbo的基础模型，于6月发布。

它拥有 1 亿个参数，并使用 1.6 万亿个多语言语料库进行训练。

它支持20多种语言。

在此基础上，又于7月初发布了SenseChat 2.0。

8月，商汤发布的InternLM-B不仅能够生成更加准确可靠的内容，能够在复杂场景下进行多步推理和计算，而且还具备独立反映和纠正错误的能力。

InternLM-B还重点升级了代码解释器和插件调用能力（函数调用），可以使用Python解释器、API调用和搜索三种常用工具来解决复杂任务，灵活构建AI代理应用。

在此基础上，商定SenseChat将于9月份升级至3.0版本。

商汤与多家科研机构合作，支持和推动人工智能开源平台建设。

InternLM-7B（70亿参数）的部分训练数据、训练代码和基础模型权重已免费向学术界和工业界开源，并支持商业用途。

此外，InternLM-7B在多个型号测试榜单中名列第一，成为表现最好的轻量化基础型号。

商汤表示，期待看到AI社区对InternLM的改进，共建更多AI应用。

事实上，大语言模型的突破带来了新的机遇。

基于InternLM的轻量级模型，结合自主研发的推理加速算法，商汤与领先的手机芯片厂商建立了研发合作，成功实现了大语言模型手机的实时计算能力。

商汤表示，他正在积极与众多手机制造商和客户合作，开发将大语言模型与移动操作系统相结合的新功能。

商汤集团执行董事长兼首席执行官徐立博士表示：“这半年来，大模型和生成式人工智能可以说是全球最受瞩目的技术突破，商汤迎来了极其关键的时期我们希望能给行业带来更强的大模型能力，帮助我们的用户创造颠覆性的产品，在生成式AI时代取得成功。

上一篇：ThinkPad T14p AI 2024上市，重塑高效办公和专业创意体验

下一篇：腾讯文档上线“自然模式”，国家公园珍稀动物邀您开启云端协作

商汤新模型完成训练，12项权威评测排名第一相关文章