,全球大模型玩家迎来激动人心的“实力值” “排名更新!继11月初零一万武发布性能优异的Yi-34B基础模型后,11月24日Yi-34B-Chat微调模型开源上线,再次引起全球开发者的广泛关注。
在短时间内,它已在全球许多英语和汉语大学广泛使用。
名列模特权威排行榜榜首。
其中,斯坦福大学开发的大型语言模型评测AlpacaEval Leaderboard备受关注。
在一场真正的“秀肌肉”比赛中,Yi-34B-Chat以94.08%的胜率超越LLaMA2 Chat 70B、Claude2、ChatGPT,成为羊驼认证模型类别中仅次于GPT-4的全球第二名。
英语能力大语言模型,也是Alpaca官方认证的少数开源模型之一。
在AlpacaEval排行榜排名(2020年12月7日发布)的同一周,在加州大学伯克利分校主导的LMSYS ORG排名中,Yi-34B-Chat也以最高的 Elo 分数。
性能相当于GPT-3.5。
在各类大型模型评测中,伯克利LMSYS ORG排名采用了最贴近用户体验的“Chatbot Arena”特殊评测模式,允许众多大型语言模型在评测平台上随机进行一对一对战。
通过众筹,现实生活中的用户前来进行在线实时盲测和匿名投票。
20个大模型的总分是根据11月份真实用户投票总数计算得出的。
Elo 分数越高,模型在真实用户体验中的表现越好。
可以说,是众多大型模型评测中最能展现“关键时刻”的一场以用户为中心的体验对决。
在开源模式中,Yi-34B-Chat成为了当之无愧的“最强王者”(英语水平)之一。
12 月 8 日,LMSYS ORG 正式公布 11 月份总体排名时评论道:“Yi-34B-Chat 和 Tulu-2-DPO-70B 在开源社区的攻击性表现已经与 GPT-3.5 相当。
”就LMSYS ORG列表(2020年12月8日发布)中的中国能力而言,Yi-34B-Chat微调模型也不甘落后。
SuperCLUE是中国人能力排行榜,从基础能力、专业能力和中国特色能力三个不同维度评价模型的能力。
根据11月底发布的《SuperCLUE 中文大模型基准评测报告 》显示,11月下旬首次发布的Yi-34B Chat迅速晋升至与众多优秀国产大机型齐名的“优秀领导者”象限,并排名“SuperCLUE Big”在多项基准评估中。
在关键指标“模型对胜率”方面,Yi-34B-Chat取得了31.82%的胜率,仅次于GPT4-Turbo。
中国SuperCLUE排名(2019年11月28日发布)对于开发界来说尤其值得一提。
Yi-34B-Chat微调模型还为开发者提供了模型的4bit/8bit量化版本。
Yi-34B-Chat 4bit量化版模型可直接在消费级显卡(如RTX)上使用,且训练成本友好。
Yi-34B-Chat模型在不同对话场景下的强度如何?我们来看一些更直观的问题演示:【知识与生成】:Transformer模型结构能否走向AGI? 【创意文案】:给我生成一个小红书文案,送给大家一支豆沙色口红。
【中文理解】:小王给领导送了礼物之后。
领导说:“小王,你什么意思?”小王:“稍微想一下,就有点意思了。
”领导:“你不够有趣。
”小王:“小事一桩,没什么意义。
”领导:“小王,你真有趣。
”小王:“没有别的意思。
”领导:“那我就尴尬了。
”小王:“是我。
”这是什么意思?零一万武表示,除了Yi系列强基的贡献外,Yi-34B-Chat模型的效果还得益于其人工智能对齐(AI Alignment)团队采用的一系列创新对齐策略。
通过精心设计的指令微调过程,不仅增强了模型理解和适应人类需求的能力,而且使模型与人类价值观保持一致,包括Helpful、Honest、Harmless等。
在强基设定下,团队采用了轻量级的指令微调方案,涵盖单项能力提升和多项能力融合两个阶段。
其中,个人能力包括一般指令跟随、创意内容生成、数学、推理、编程、泛COT、对话交互等。
通过大量的消融实验,针对模型单能力构建和多能力融合总结了专属的认知经验。
在数据数量和质量上,一方面,团队只需要强大的基础模型上的少量数据(几个到数百个)就可以激发模型特定的单一能力;另一方面,数据质量比数量更重要。
,少量高质量数据优于大量低质量数据。
通过关注超出模型能力的“低质量”数据来减少模型“幻想”。
在指令多样性和难度方面,团队通过构建每个能力下的任务系统,实现了训练数据中指令的均衡分配,极大地提高了模型的泛化能力。
通过复合指令构建和指令难度演化,不仅提高了模型效果,而且显着降低了对数据量的需求。
在风格一致性方面,团队发现训练数据的风格会影响模型的收敛速度以及对能力上限的逼近程度,因此统一了回复风格。
例如,CoT 的回复样式就是为了避免轻量级 SFT 情况下对样式的需要而设计的。
不一致加剧了模型的“记忆”现象。
在多能力融合阶段,团队采用网格搜索方法确定数据配比和超参数设置,通过基准测试结果和自建评估集指导搜索过程,成功实现了模型的多能力融合。
生态和开发者一直是大语言模型的核心。