当前位置：首页 > 科技赋能

测试云测：Claude3登顶Chatbot Arena榜单意味着什么

时间：2024-05-19 16:19:29 科技赋能

今年3月初，Anthropic推出了憋了近一年的大招，Claude3系列机型，Claude3俳句，Claude 3 十四行诗和Claude 3 作品。

其中，最强的Claude3 Opus模型在本科级知识（MMLU）、研究生级推理（GPQA）、小学数学（GSM8K）等基准测试中表现全面超越GPT-4。

这是人工智能语言模型发展史上具有里程碑意义的时刻——Anthropic的Claude 3 Opus大型语言模型（LLM）在Chatbot Arena首次超越OpenAI的GPT-4，夺得第一名。

与此同时，Anthropic 的较小模型之一 Haiku 也因其在排行榜上的强劲表现而闻名。

Chatbot Arena 是一个流行的众包排名列表，人工智能研究人员使用它来衡量人工智能语言模型的相对能力。

自当年 5 月 10 日左右 GPT-4 被纳入 Chatbot Arena（排行榜于当年 5 月 3 日上线）以来，GPT-4 的变种至今仍继续占据排行榜榜首。

因此，GPT-4在Arena的失利是震惊AI界的一件大事。

后来居上的Anthropic背后的主要资金支持者无疑是亚马逊。

9月，亚马逊宣布初始投资12.5亿美元，并表示将投资至多40亿美元。

就在近日，亚马逊在官网宣布完成对Anthropic的追加27.5亿美元投资，从而履行了其40亿美元的总投资承诺。

当大家都在构建自己的大型模型时，亚马逊云技术更倾向于为大型模型提供一把“挖金铲”——作为云计算的创始人和迄今为止云计算领域的领导者，亚马逊云技术正在在生成式AI时代的战略定位以及“云是公共服务”本质的认知逻辑值得我们今天的中国云计算厂商思考。

这是因为业内人士会认为这是一个伪命题，大模型离不开计算能力。

那么云计算厂商在做什么呢？ 2017年，亚马逊云技术公司re:Invent的一个概念或许可以提供答案：“数据引力”。

其基本理念是：数据在哪里，资源就在哪里，趋势就在哪里。

数据就像一种引力，吸引着一个又一个的技术趋势走向它，比如2016年的数据湖。

这一说法对于今天的生成式人工智能来说也是如此。

过去我们经常提到数据驱动、数据驱动企业、数据驱动决策、数据驱动应用、数据驱动硬件设计……过去我们更关注的是“数据”，也许更重要的是它是“驱动”的。

数据如何驱动？这就是当今强大的人工智能。

毕竟，云厂商从诞生之日起就清楚地知道数据、AI、云缺一不可。

测试云测就是这样一个由人工智能技术驱动的企业服务平台。

已为全球超过百万家企业和开发者提供云测测试服务、AI训练数据服务、安全服务。

在测试过程中保证应用程序、软件、系统等产品的质量，Testin Kong融合了云模型和AI人工智能的优势。

通过云服务和智能化，AI+RPA测试能力部分或全部替代人工测试。

主要发展趋势。

同时，在人工智能数据服务领域，测试云测通过数据采集、数据清洗、数据标注等，将数据治理引入企业业务，以专业领先的一站式数据充分满足AI客户的需求。

服务，并利用自身在技术、服务和标准化方面的独特优势引领行业发展趋势。

人工智能带来的颠覆性变化正在持续，各行各业迟早都会受到影响。

云计算、大数据、人工智能、物联网等新兴技术让未来对企业充满机遇和挑战。

面对如此深远的变化，选择优秀的企业服务合作伙伴无疑是顺应时代的举措。

测试云测不仅具有深刻的见解，而且在服务、产品、安全等全方位专业领域拥有出色的能力。

企业服务领域的领导者。

测试云测：Claude3登顶Chatbot Arena榜单意味着什么相关文章