当前位置: 首页 > 科技赋能

InfoQ发布大型语言模型评测报告:ChatGPT排名第一,文心一言中国排名第一

时间:2024-05-19 16:22:26 科技赋能

近日,InfoQ研究中心对国内外多个人工智能大模型产品进行了实际评测,并根据发布的结果《大语言模型综合能力测评报告 》(以下简称《报告》),OpenAI的ChatGPT排名第一,百度文心一言以74.98%的综合得分位列榜单第二,紧随其后(分数相差仅2.15%),均以70分的成绩排名第二。

得分超过%,领先第一梯队,并拉大与第二梯队的差距。

数据说明:评估结果仅基于以上列出的模型。

评测截止日期为2020年5月25日。

根据《报告》,本次评测的大型号产品包括ChatGPT gpt-3.5-turbo、Claude-instant、Sage gpt-3.5 -turbo、天宫3.5、文心一言V2.0.1、统一千问V1.0.1、科大讯飞Spark认知大模型、Moss-16B、ChatGLM-6B、vicuna-13B。

InfoQ研究中心创建了一套基于样本的科学计算方法来对答案进行评分。

计算公式为“某模型在某细分类别的得分率=模型得分/模型总得分”。

评测题目总数超过题目数量,包括四个一级维度——语言模型准确性、数据基础、模型与算法能力、安全与隐私;涵盖语义理解、语法结构、知识问答、逻辑推理、编码能力、上下文理解、上下文感知、多语言能力、多模态能力、数据基础、模型算法能力、安全隐私12个二级维度。

整个榜单中,ChatGPT 遥遥领先,综合数据排名第一。

国产大型车型的排名尤其值得关注。

作为全球各大科技公司中第一个推出的大规模语言模型产品,文心一言的综合数据表现较为出色,尤其是在中文语义理解、逻辑推理、编码能力、知识问答等方面,领先国内大型语言????其中,该模型在中文语义理解和知识问答两项测试中超越ChatGPT,排名全球第一。

在语义理解方面,大型语言模型呈现出高度差异化的分布。

其中,文心一言表现出色,获得最高分85%,领先ChatGPT等国内外大型模型产品。

在编程方面,《报告》表明国外产品的能力明显高于国内产品。

国货中,文心一言表现最好,得分为68.37%,与Claude相比还有一定差距。

值得一提的是,在“代码自动补全”题中,文心一言超越了ChatGPT等国外产品。

根据InfoQ研究中心的评测结果,总体来看,ChatGPT以77.13%的综合得分排名第一,文心一言以74.98%的综合得分排名第二,Claude以68.24%的综合得分排名第三,科大讯飞Spark排名第三以综合得分74.98%第一名。

总体得分为68.24%,排名第四。

InfoQ研究中心认为,一方面,我们可以看到国内大机型与国际同类产品之间还存在差距。

另一方面,我们也应该看到,国货在一些细分领域仍然表现得非常好,比如汉语特有的推理题。

其中,国内模式比国际模式得分更高,这与国内模式更熟悉中国本土的内容和逻辑是分不开的。

附:InfoQ 研究中心《大语言模型综合能力测评报告》 近期,国内与人工智能领域相关的利好政策陆续出炉。

中央召开的相关会议强调,“未来要重视通用人工智能发展,打造创新生态系统”。

《北京市促进通用人工智能创新发展的若干措施(年)(征求意见稿)》围绕5大方向提出21项具体措施包括“开展大模型创新算法和关键技术研究”、“加强大模型训练数据收集和治理工具开发”等,同时还拓展涉足政务、医疗、科研、金融、自动驾驶、城市治理等领域。

应用场景方面,为抢占大模型发展机遇,推动通用人工智能领域的创新和领先,我国大模型技术产业迎来了一波前所未有的发展机遇。

百度、阿里巴巴、华为等国内多家企业迅速布局相关业务。

推出自己的人工智能大模型产品。

另外,目前全球整个大型模型领域,人才团队密度都比较高,并且有资本的支持。

人才方面,从目前公布的一些大型模型研发团队背景可以看出,团队成员均来自国际顶尖大学或拥有顶尖科研经验;在资本方面,以亚马逊和谷歌为例,这两家公司在大模型技术领域已经摸爬滚打多年。

谷歌的资本支出已分别达到1亿美元和1亿美元,并且仍在呈现上升趋势。

根据谷歌披露的最新数据,其训练参数规模为1亿美元的大型模型的理想训练成本超过1万美元。

当一个领域的资本和人才团队密度高时,就意味着这个领域发展得更快。

很多人都觉得ChatGPT这个现象级产品的出现,拉开了大语言模型技术蓬勃发展的序幕。

但事实上,自2018年大语言模型诞生以来,OpenAI、微软、谷歌、Facebook、百度、华为等科技巨头都在不断探索大语言模型领域。

ChatGPT只是将大语言模型技术推进到了爆发阶段。

模型产品格局呈现新局面——国外基础模型积累较深,国内应用端优先。

为此,InfoQ研究中心基于案头研究、专家访谈、科学分析三种研究方法,检索了大量文献和资料,采访了10+该领域的技术专家。

同时重点关注语言模型准确性、数据基础、模型和算法。

能力、安全和隐私四大维度分为语义理解、语法结构、知识问答、逻辑推理、编码能力、上下文理解、上下文感知、多语言能力、多模态能力、数据基础、模型和算法的能力、安全和隐私分为12个细分,分别为ChatGPT gpt-3.5-turbo、Claude-instant、Sage gpt-3.5-turbo、天宫3.5、文心易言V2.0.1、统一钱文V1.0.1、科大讯飞Spark认知大模型、Moss-16B、ChatGLM-6B、vicuna-13B经过++题以上的评估,并根据评估结果发布了《大语言模型综合能力测评报告 》(以下简称《报告》)。

为了保证报告的客观公正和计算结果的准确性,InfoQ研究中心基于样本创建了一套科学的计算方法——通过实际测试,得出每个模型问题的答案,并对答案进行评分。

正确答案得 2 分,部分正确答案得 1 分,完全错误答案得 0 分,模型认为不会做的答案得 -1 分。

计算公式为“某个模型在某个细分类别的得分率=模型得分/模型总得分”。

例如,模型A在7题类别中的总分是10,该类别题可获得的总分是7*2=14,那么模型A在该类别题中的得分为10/14 =71.43%。

基于以上评估方法,报告主要得出了许多值得大家关注的结论。

希望下面核心结论的解读能够为大家对未来大语言模型技术的具体实践和探索提供方向。

百亿参数规模是大型模型训练的“门票”。

大模型的技术革命已经开始。

企业进行大模型产品开发需要同时具备三大要素,即数据资源要素、算法与模型要素、资本与资源要素。

InfoQ研究中心通过分析当前市场的产品特点发现,数据资源、资金和资源是大模型研发的基本要素。

算法和模型是目前区分大语言模型研发能力的核心要素。

受算法和模型影响的模型丰富度、模型准确性以及能力涌现性已成为评价大型语言模型好坏的核心指标。

这里需要注意的是,虽然数据和财力为大型语言模型的开发设置了很高的门槛,但对于大而有实力的企业来说仍然不是什么挑战。

仔细研究大模型产品的核心要素就会发现,大模型训练需要“足够大”,百亿参数规模才是“门票”。

GPT-3和LaMDA的数据表明,当模型参数规模在1亿到1亿范围内时,大型模型的很多能力(比如计算能力)几乎为零。

与此同时,大量的计算触发了“炼金机制”。

根据NVIDIA论文的附录章节,一次迭代的计算量约为4.5 ExaFLOPS,完整的训练需要2次迭代。

完整训练的计算量为ZettaFLOPS(相当于单芯片A运行43.3年的计算)。

数据来源:Sparks of Artificial General Intelligence GPT-4 的早期实验。

从全球大模型训练参数规模的数量级来看,根据民生证券研究所和wiki百科数据,国际领先的大模型GPT-4的推断参数量级可达到5万亿以上规模,并且国产一些大型车型规模超过1亿。

其中,百度开发的Ernie和华为开发的盘古是目前国内大数据模型参数规模的领先者。

InfoQ研究中心对各种主要语言模型进行了综合测试,发现国外的ChatGPT在能力上确实非常耐打,排名第一。

令人意外的是,百度的文心一言闯入前三,排名第二,值得一提的是,其总分仅落后ChatGPT 2.15,远超第三名Claude。

数据说明:评估结果仅基于以上列出的模型,评估截止日期为2020年5月25日。

在整个研究过程中,InfoQ研究中心发现算法和训练模型水平主导了大型语言模型的性能。

从基础模型到训练方法的工程化,再到具体的模型训练技术,目前赛道上各厂商在各个环节模型选择上的差异,导致了大语言模型最终性能的差异。

每个厂商的产品能力可能有所不同,但因为有足够多的玩家参与到大型模型技术的建设中,他们对技术的不断探索让我们看到了大型模型技术成功革命的希望。

在大模型产品全面开花之际,大语言模型将计算机能力从“搜索”扩展到“认知&学习”再到“行动&解决方案”。

大语言模型的核心能力呈现出金字塔结构。

“写作能力”和“句子理解能力”是目前大型语言模型最擅长的2大能力。

根据InfoQ研究中心的评估结果,安全和隐私问题是大型语言模型开发的共识和底线,在能力得分中排名第一。

大语言模型基础能力整体表现排名靠前。

与逻辑推理相关的编程、推理和上下文理解的整体表现仍有很大的提升空间;多模态仍然是少数大型语言模型的独特优势。

在基础能力层面,大语言模型展现了优秀的中文创意写作能力。

在六个写作细分主题类别中,大语言模型的表现相对突出。

其中,采访提纲和邮件写作均获得接近满分。

相比之下,视频脚本的编写对于大型语言模型产品来说还比较陌生。

在该领域,细分题类得分仅为75%。

对于文学题,随着写作难度的增加,大语言模型的能力水平下降。

表现最好的部分是简单写作题,得分为91%;尽管许多模型在对联题上表现较好,但也有一些模型在对联答题上表现较差,总体得分最低为 55%。

然而,在语义理解方面,目前的大型语言模型还没有那么“智能”。

在方言理解、关键词提取、语义相似度判断、“做什么”这四个问题类别中,大语言模型呈现出非常分化的分布。

“做什么”问题获得了92.5%的最高分,而汉语方言理解问题却被难住了。

对于大型语言模型,总体准确率只有 40%。

InfoQ研究中心的一份报告显示,对于中文知识等问题,国内模型的表现明显优于国际模型。

十个模型中,知识得分最高的是闻心一言,得分为73.33%,第二名是ChatGPT,得分为72.67%。

除IT知识问答题外,国产大模型产品在中文知识环境下的其他8个题类的问答表现普遍接近或优于国际大模型产品。

事实上,无论是中文创意写作、语义理解,还是中文知识问答,这些问题主要体现的是大语言模型产品对于文本的基本认知和学习能力。

从评测结果中我们可以清晰地看到,百度文心一言在各方面数据上都表现出色,各项能力均排名前2。

然而,我们看到的不仅仅是文心一言的技术能力,还有国产大语言模型的强劲技术突破和重大进步。

国产产品在跨语言翻译方面还有很大的提升空间,整体的逻辑推理能力是一个很大的挑战。

近年来,国家和国内厂商逐年加大对人工智能领域的投入。

我们看到了国内大型语言模型的发展。

日新月异的进步和技术成果让我们欣喜,但当我们更客观地看待大语言模型技术的发展时,我们会发现我们在某些方面与国际水平相比还有很大的提升空间,比如我们InfoQ研究中心发布《报告》可以看出,国外产品的编程能力明显高于国内产品。

在十个模型中,Claude的编程得分最高,得分为73.47%。

表现最好的国货《文心一言》得分为68.37%,与Claude还有一定距离。

四个题类中,国外产品在Android相关问题上明显超越国内产品。

然而,令人惊讶的是,在“代码自动完成类别”问题中,国内产品文心一言已经超越了国外产品,这说明国内产品超越国际水平只是时间问题。

此外,十个模型中知识得分最高的也是Claude,得分为93.33%。

国内得分最高的大语言模型分别是文心一言和天宫3.5,但与国际水平仍有差距。

要知道,翻译题主要体现的是大型语言模型产品的语言理解能力。

InfoQ本次评测的“编程翻译题”、“英语写作”和“英语阅读理解”三个题类中,大语言模型呈现出较大的差异分布。

在所有测试的模型中,英语写作问题得分最高,为 80%,而英语阅读理解问题仅得分 46%。

这意味着国产产品在跨语言翻译方面还需要继续发力和迭代。

差距还是存在的,但也没必要贬低自己。

大模型技术的技术进化一直在持续。

据《报告》介绍,目前整个大语言模型在逻辑推理能力方面面临着比较大的挑战。

为了评估对大型语言模型的理解和判断,InfoQ 研究中心设置了逻辑推理问题的多个维度。

在商业制表题、数学计算题、数学应用题、幽默题、中国特色推理题五个题类中,大语言模型总体得分低于基本能力。

分析原因,业务制表题不仅需要对内容进行收集和识别,还需要根据内容进行逻辑分类和排序。

整体难度还是比较高的。

逻辑推理能力是未来大型语言模型产品的主攻方向。

InfoQ研究中心评估的十个模型中,文心一言和科大讯飞Spark在逻辑推理题上得分最高,均为60%,仅落后得分最高的ChatGPT 1.43%。

在一些细分领域,国产产品的表现还是非常不错的。

例如,在汉语推理题中,国内模型得分高于国际模型。

国产模式对中国内容和逻辑的熟悉应该是造成这一结果的核心原因。

从上述InfoQ研究中心发布的评测结果来看,我们可以看到国内产品与国外产品的差距。

国内大语言模型能力已接近GPT3.5水平,但与GPT4能力仍有巨大差距。

然而纵观整个大语言模型领域,其实我们每个人都可以清晰地发现,大语言模型技术的发展门槛和挑战还是非常高的。

芯片门槛、实践经验积累门槛、数据和语料库门槛,都需要国内各大厂商共同努力突破。

从InfoQ研究中心的评测结果来看,文心一言的总体得分与ChatGPT相差无几。

在中国最新一波互联网革命中,文心一言堪称国内短期内最有前途的公司。

AIGC产品赶上国际标准。

温心一言的团队拥有众多AI专家,始终保持着认真的技术探索态度,正在努力缩小差距。

温馨一言的下一次突破已经不远了,值得我们大家期待。