1月17日,商汤科技与上海人工智能实验室联合香港中文大学、复旦大学大学正式发布新一代大语言模型学者·浦语2.0(InternLM2)。
InternLM2的核心理念是回归语言建模本质,致力于通过提高语料质量和信息密度来提升模型库的语言建模能力,从而在数学、编码、对话、创作等方面取得长足进步等,综合性能达到开源机型领先水平。
InternLM2 在包含 2.6 万亿个代币的高质量语料库上进行训练。
沿袭第一代书生-浦语(InternLM)的设置,InternLM2包含7B和20B两种参数规格以及基础版和对话版,以满足不同复杂应用场景的需求。
它继续开源并提供免费的商业授权。
开源链接Github:60%的训练数据可以达到使用二代数据训练1T token的性能,模型训练效率大幅提升。
第三代数据清洗过滤技术大幅提升模型训练效率。
基于第三代数据清洗和过滤技术,InternLM2的语言建模能力得到显着增强。
与第一代InternLM相比,InternLM2在大规模高质量验证语料上的Loss分布整体左移,表明其语言建模能力得到了实质性增强。
它支持K个超长上下文,“大海捞针”以及近乎完美的长上下文输入和理解能力可以显着扩展大型模型应用场景,例如支持实际场景中的大文档处理、复杂推理计算、工具调用等。
然而,大型模型的上下文长度有限仍然是学术界和工业界面临的重要问题。
通过扩大训练窗口大小和改进位置编码,InternLM2支持20万个token的上下文,可以一次性接受和处理约30万个汉字(约500-600页文档)的输入内容,准确提取关键信息,并实现长文本处理。
“大海捞针”。
参考行业实例,研究人员对 InternLM2 进行了“大海捞针”测试:将关键信息随机插入长文本的不同位置,并设置问题来测试模型能否从中提取关键信息。
InternLM2“大海捞针”测试结果上图展示了InternLM2在不同长度(横轴)、不同位置(纵轴)的上下文中回忆关键信息的准确率(Recall)。
红色代表较低的召回率,而绿色代表较高的召回率。
实验结果表明,当上下文长度扩展到K时,InternLM2仍然保持近乎完美的召回成功率,验证了InternLM2对超长上下文的坚实支持。
为了测试 InternLM2 在真实长文本处理任务上的能力,研究人员将 3 小时公开会议录音的笔录输入到模型中,并要求 InternLM2 从中提取关键信息。
测试结果显示,尽管未经校对的文本存在大量错别字,但InternLM2准确提取了关键信息并总结了关键发言人的观点。
InternLM2准确总结了“2020年10月2日举行的联合国贸易和发展会议会议记录”。
性能全面提升,同量级全面领先的开源模型InternLM2的各项能力得到全面提升。
与第一代InternLM相比,它在推理和数学方面更出色。
、编码等方面的能力提升尤为显着,综合能力领先于同量级的开源机型。
研究人员根据大语言模型的应用方法和用户关注的重点领域,定义了语言、知识、推理、数学、代码、考试等六个能力维度,并在相同量级的多个模型的结果上进行了测试。
55套主流评测集。
对绩效进行了综合评价。
评测结果显示,InternLM2的轻量级和中量级版本在同尺寸模型中表现良好。
InternLM2轻量级和中量级版本的性能在同量级的开源模型中表现突出。
下表比较了不同版本的 InternLM2 与 ChatGPT (GPT-3.5) 和 GPT-4 在典型评估集上的性能。
可以看到,InternLM2仅使用了中等规模的20B参数,即其整体性能已经达到了与ChatGPT相当的水平。
其中,InternLM2在AGIEval、BigBench-Hard(BBH)、GSM8K、MATH等推理能力要求较高的评测中表现甚至优于ChatGPT。
InternLM2与ChatGPT评测结果对比同时,综合性能的提升带来了下游任务能力的全面提升。
新发布的InternLM2提供了出色的会话和创作体验,支持多轮任务规划和工具调用,并提供实用的数据分析能力。
对话与创造:更多温暖和想象。
InternLM2不仅客观性能指标显着提升,主观体验也显着提升,为用户提供卓越的对话和交互体验。
研究和测试表明,InternLM2-Chat能够准确理解和跟随用户意图,并具有很强的同理心和丰富的结构化创作能力。
下面给出几个例子: 例1:在严格的格式要求下编写课程大纲。
InternLM2设计的课程大纲准确遵循用户要求(如格式、数量、内容等)。
示例2:用人性化的答案解读用户。
InternLM2 能够在对话过程中与用户“产生共鸣”。
例3:发挥想象力,写出《流浪地球 3》的剧本。
《InternLM2》的设计充满了丰富合理的想象,比如外星遗迹、量子纠缠的引入等,同时整个故事展现了人类面对危机时的勇气和团结。
对话和创作体验提升的原因一方面是基础语言能力的显着增强,另一方面也得益于微调技术的提升。
InternLM2的微调过程使用了第三代数据清洗和过滤技术处理后的指令微调语料库,同时还使用了更强的Online RLHF。
在对InternLM2进行微调的过程中,研究人员对奖励模型和对话模型进行了三轮迭代更新。
每轮更新都会根据上一轮模型的表现更新偏好数据和提示词。
在奖励模型训练(RM)和近端策略优化(PPO)阶段,研究人员平衡地使用各种提示词,不仅提高了对话的安全性,还改善了用户体验。
刀具调用:能力升级,选刀更精准,多步规划更可靠。
基于更强大、更泛化的命令理解、工具筛选和结果反映能力,InternLM2可以支持复杂智能体的构建,并支持工具进行多轮有效调用和多步规划来完成复杂任务。
联合团队构建了针对多种任务调用评估集T-Eval的细粒度工具(该评估集上的性能超越了Claude-2.1和当前开源模型,性能接近GPT-3.5。
InternLM2的工具通过工具调用全面提升调用能力),让大型语言模型通过搜索、计算、代码解释器等方式获取知识并处理更复杂的问题,从而拓展应用边界。
研究人员对模型调用工具流程进行细粒度的拆解和分析,针对规划、推理、工具选择、理解、执行、反思等步骤进行了针对性的增强和优化。
基于InternLM2,通过开源代理框架Lagent构建的用户助理代理,可以在一条命令响应中完成地图查询、路线规划、发送电子邮件等任务。
数学推理:能够解决问题并进行可视化分析是大规模模型逻辑思维和推理能力的重要体现。
上海人工智能实验室基于更多开源模型,全面提升了InternLM2的数学能力,使其达到目前的标杆水平。
科学构建的预训练语料库,InternLM2形成了强大的内生计算能力。
在不依赖计算器等外部工具的情况下,在 内进行简单的数学运算可以达到接近 % 的精度,在 内精度达到 80% 左右。
InternLM2-20B 在 GSM8K 和 MATH 评估中优于 ChatGPT (GPT-3.5)。
InternLM2可以在简单的数学运算中达到接近%的精度,以处理各种复杂的计算。
InternLM2-Chat还可以使用代码解释器(Code-Interpreter)编写代码进行计算或形式化推理结果。
验证以解决计算要求较高或计算过程较复杂的问题。
在典型的数学评估集GSM8K和MATH上,借助代码解释器,InternLM2取得了较高的评估分数。
对于难度较高的MATH数据集,InternLM2的计算精度从32.5显着提升至51.2,甚至超越了GPT-4的性能。
InternLM2与ChatGPT数学能力评价结果对比。
以下示例显示 InternLM2 可以与代码解释器结合使用来解决更复杂的高级数学问题。
InternLM2可以完成积分求解等高等数学问题。
基于强大的计算和工具调用基础能力,InternLM2在语言模型上具备数据分析和可视化的实用能力,进一步贴近用户使用场景。
将国家统计局公布的《2020年3月至2020年11月规模以上工业企业(分行业)主要财务指标》输入InternLM2。
InternLM2可以分析数据并绘制折线图 +++ 关于商汤科技 作为一家人工智能软件公司,商汤科技以“坚持原创,让AI引领人类进步”为使命,旨在持续引领前沿研究在人工智能方面,持续打造更具扩展性和普惠性的人工智能软件平台,推动经济、社会和人类发展,持续吸引和培养顶尖人才,共同塑造未来。
商汤科技拥有深厚的学术积累和长期的原创技术研究投入,不断增强业界领先的多模态、多任务通用人工智能能力,涵盖感知智能、自然语言处理、决策智能、人工智能等关键技术。
智能内容生成。
包括AI芯片、AI传感器、AI计算基础设施等关键能力。
此外,商汤科技还积极打造新型人工智能基础设施——商汤科技大规模AI器件SenseCore,集算力、算法、平台于一体。
在此基础上,商汤科技建立了商汤科技“日日新SenseNova”大规模模型和研发体系,以低成本解锁通用人工智能任务的能力,推动高效率、低成本、大规模的人工智能创新与落地,从而打通商业价值闭环,解决长尾应用问题,引领人工智能进入产业发展阶段。
商汤科技的科技业务涵盖智慧商业、智慧城市、智慧生活、智能汽车四大板块。
相关产品和解决方案受到客户和合作伙伴的好评。
商汤科技倡导人工智能“发展”伦理,积极参与数据安全、隐私保护、人工智能伦理、可持续人工智能等相关行业、国家和国际标准的制定,并与多个国内及多边机构在人工智能领域开展合作。
智力 智力的可持续和道德发展是在密切合作下进行的。
商汤科技入选联合国人工智能战略资源指南并于2016年6月发布,是亚洲唯一获此殊荣的人工智能公司。
目前,商汤科技(股票代码:.HK)在香港联交所主板上市。
商汤科技在香港、上海、北京、深圳、成都、杭州、南平、青岛、西安、台北、澳门、京都、东京、新加坡、利雅得、阿布扎比、迪拜、吉隆坡、首尔等地设有办事处。
此外,商汤科技还在泰国、印度尼西亚、菲律宾等国家开展业务。
欲了解更多信息,请访问商汤科技网站、微信、微博和LinkedIn。