当前位置: 首页 > 科技赋能

测试云测:Claude3登顶Chatbot Arena榜单意味着什么

时间:2024-05-19 16:19:29 科技赋能

今年3月初,Anthropic推出了憋了近一年的大招,Claude3系列机型,Claude3俳句,Claude 3 十四行诗和Claude 3 作品。

其中,最强的Claude3 Opus模型在本科级知识(MMLU)、研究生级推理(GPQA)、小学数学(GSM8K)等基准测试中表现全面超越GPT-4。

这是人工智能语言模型发展史上具有里程碑意义的时刻——Anthropic的Claude 3 Opus大型语言模型(LLM)在Chatbot Arena首次超越OpenAI的GPT-4,夺得第一名。

与此同时,Anthropic 的较小模型之一 Haiku 也因其在排行榜上的强劲表现而闻名。

Chatbot Arena 是一个流行的众包排名列表,人工智能研究人员使用它来衡量人工智能语言模型的相对能力。

自当年 5 月 10 日左右 GPT-4 被纳入 Chatbot Arena(排行榜于当年 5 月 3 日上线)以来,GPT-4 的变种至今仍继续占据排行榜榜首。

因此,GPT-4在Arena的失利是震惊AI界的一件大事。

后来居上的Anthropic背后的主要资金支持者无疑是亚马逊。

9月,亚马逊宣布初始投资12.5亿美元,并表示将投资至多40亿美元。

就在近日,亚马逊在官网宣布完成对Anthropic的追加27.5亿美元投资,从而履行了其40亿美元的总投资承诺。

当大家都在构建自己的大型模型时,亚马逊云技术更倾向于为大型模型提供一把“挖金铲”——作为云计算的创始人和迄今为止云计算领域的领导者,亚马逊云技术正在在生成式AI时代的战略定位以及“云是公共服务”本质的认知逻辑值得我们今天的中国云计算厂商思考。

这是因为业内人士会认为这是一个伪命题,大模型离不开计算能力。

那么云计算厂商在做什么呢? 2017年,亚马逊云技术公司re:Invent的一个概念或许可以提供答案:“数据引力”。

其基本理念是:数据在哪里,资源就在哪里,趋势就在哪里。

数据就像一种引力,吸引着一个又一个的技术趋势走向它,比如2016年的数据湖。

这一说法对于今天的生成式人工智能来说也是如此。

过去我们经常提到数据驱动、数据驱动企业、数据驱动决策、数据驱动应用、数据驱动硬件设计……过去我们更关注的是“数据”,也许更重要的是它是“驱动”的。

数据如何驱动?这就是当今强大的人工智能。

毕竟,云厂商从诞生之日起就清楚地知道数据、AI、云缺一不可。

测试云测就是这样一个由人工智能技术驱动的企业服务平台。

已为全球超过百万家企业和开发者提供云测测试服务、AI训练数据服务、安全服务。

在测试过程中保证应用程序、软件、系统等产品的质量,Testin Kong融合了云模型和AI人工智能的优势。

通过云服务和智能化,AI+RPA测试能力部分或全部替代人工测试。

主要发展趋势。

同时,在人工智能数据服务领域,测试云测通过数据采集、数据清洗、数据标注等,将数据治理引入企业业务,以专业领先的一站式数据充分满足AI客户的需求。

服务,并利用自身在技术、服务和标准化方面的独特优势引领行业发展趋势。

人工智能带来的颠覆性变化正在持续,各行各业迟早都会受到影响。

云计算、大数据、人工智能、物联网等新兴技术让未来对企业充满机遇和挑战。

面对如此深远的变化,选择优秀的企业服务合作伙伴无疑是顺应时代的举措。

测试云测不仅具有深刻的见解,而且在服务、产品、安全等全方位专业领域拥有出色的能力。

企业服务领域的领导者。