当前位置: 首页 > 科技赋能

工联研究院大模型评价:文心一言工业领域表现突破GPT3.5,位居国内大模型第一

时间:2024-05-19 16:49:07 科技赋能

近日,中国工业互联网研究院(简称“研究院”)工商部门》)针对中国人工智能大模型,对工业领域知识问答能力进行系统评价。

结果显示,百度文心一言性能超过GPT3.5,综合评价指数位居全国第一。

总工会选取了工业领域8个典型行业进行本次评价。

百度文心一言在电子设备、装备、钢铁、矿山、电力、石化、建材等七大行业排名全国第一。

专家委员会由5名院士和8名IEEE Fellow、13名专家高层组成。

评测对象涵盖GPT4、GPT3.5、文心一言、ChatGLM等国内外代表性大头模型。

评估结果选出前六名模型进行发表。

2、百度文心一言中国“最懂行业”。

本次工业知识问答测试主要分为客观题和主观题两大类,共100多题。

主观题主要考察四个维度:基础能力、句子能力、概括能力和逻辑能力。

评估结果显示GPT4表现最好。

国产大头型号性能突出,整体相当于GPT3.5。

其中,百度文心一言性能超过GPT3.5,位居国内大型机型第一。

在客观题部分,评估结果显示GPT4和文心一言的表现优于其他大型模型。

但评估结果也指出,大型模型的总体精度还有很大的提升空间。

主观题方面,国内大模型的基础能力和句子能力接近GPT4,但泛化能力和逻辑能力与GPT4存在一定差距。

在大模型的自我认知能力和分析污染问题的能力方面,GPT4表现出了比其他大模型更好的能力。

2、大模型发展新热点:丰富特定行业专业知识。

虽然国内大模型在本次评测中表现较好,甚至在部分行业赶上了GPT3.5,但总工会的评测报告也指出,国内外通用大模型在行业知识问题领域都在探索中而答案还处于起步阶段,国内大型机型与GPT4还有差距。

例如,行业之间的泛化能力有待加强。

事实上,总工会的评估报告揭示了垂直行业普遍推行的大规模模式以及缺乏特定行业专业知识的痛点。

对于解决问题的方法,总工会的评估报告中给出的建议是进一步丰富相关专业领域的数据训练集,进一步进行专业微调。

目前,国内科技公司正在加强与工业企业的合作,希望通过在实际场景中探索和应用大模型来缩小差距,赶上GPT4.0。

例如,本次评测中国内模型排名第一的百度文心一言,正在与南方电网电力调度控制中心探索大型调度AI模型在电力调度场景中的运用。

在汽车行业,长安汽车正在基于百度文心大模型开发生成式人工智能产品,为量产车型赋能,实现提升用户体验的目标。

除了能源和汽车制造之外,百度智能云还在建筑、采矿、物流、纺织等领域探索利用大模型来提高运营效率和用户体验。

通过在实际场景中的探索和应用,科技公司可以积累更多的行业知识,扩大相关领域的数据训练集。

这种外部的真实反馈有助于驱动大模型更快地实现迭代升级。

未来,总工会将继续在工业领域更多维度开展通用大型模型的性能评估,包括但不限于大型模型的稳健性、安全性和人文价值等。