陆程比以往任何时候都更接近他十年前分享的未来愿景,即未来将没有APP世界。
据外媒12月20日报道,中国人创办的AI公司Rabbit又获数千万美元融资。
这是他们在过去两个月内获得的第三笔融资。
两个月前,他们获得了美国著名科技大亨、风险投资家维诺德·科斯拉(Vinod Khosla)数千万美元的投资。
随后,他们又获得了韩国互联网巨头Kakao的数百万美元投资。
最新的投资是科斯拉继续加大投资。
笔记。
据相关人士透露,Rabbit近期在内部进行了大规模的行为模型技术演示。
他们的技术和产品的进步速度得到了Khosla团队的认可和赞赏,并决定追加投资。
这三笔融资总额为3000万美元。
Rabbit是一家基于大动作模型(LAM)开发下一代操作系统的人工智能公司。
用户可以使用自然语言与机器交互。
新系统(兔子OS)不仅可以理解人们复杂的意图,还可以直接帮助人们操作应用程序来完成任务——以此取代当前用户与移动APP之间的触摸交互,进一步创新人机的效率和体验相互作用。
2023年1月,该公司发布了Quantum Engine的技术预览版。
用户可以上传脚本,选择角色与NPC自由互动,AI实时生成无限剧情。
彼时,用户率先通过实时语音体验与AI的实时交互。
有国内用户使用《甄嬛传》和《黑客帝国》体验剧情一度引起关注和讨论。
随后,2.14情人节,有媒体利用技术引擎预览版进行了AI 24小时直播测试,吸引了数万名观众,引发媒体界关于如何将业务与商业结合的讨论。
人工智能技术。
几个月后,他们宣布技术预览版中的两项核心技术内核和LAM已获得技术专利,并将用于下一代操作系统Rabbit OS的开发。
当时硅谷掀起了一股对AI Agents的兴趣,很多人都在探索如何利用AI帮助人类自主完成任务,比如围绕大语言模型(LLM)的AutoGPT。
LAM的出现将这个讨论推向了另一个技术维度——LLM虽然很强大,但并不能靠它来解决所有问题。
也许我们需要一个新的大模型来帮助我们操作和执行。
LLM基于文本进行学习和训练,而LAM则直接基于应用程序的交互界面进行学习。
这使得LLM和LAM表现出能力上的差异:LLM可以理解人们的意图,而LAM可以实际操作来实现他们的意图。
这个想法首先被科斯拉认可。
他是OpenAI首位风险投资家,对LLM有着深刻的理解。
在与rabbit交流后,他决定投资支持他们关于LAM的技术想法。
此后,这个创业团队以及他们开发的LAM越来越受到投资者和互联网巨头的关注。
这个团队由技术专家、工程师和连续创业者组成。
其创始人陆成是人工智能领域的连续创业者。
他于2014年创立的渡鸦科技,2017年被百度收购,后前往美国继续创业。
“网络制造公司”成立,最近更名为“兔子公司”。
一段十年前陆成在宁波TEDxMoonLake的视频在网上流传。
23岁的陆城分享了话题《交互理念与未来操作系统初探》。
他的核心观点是:基于APP的操作系统违背了人类的自然交互逻辑。
未来的操作系统应该去掉APP的外壳,让人们以更自然的方式与计算机交互。
2013年,陆成在宁波TEDxMoonLake发表演讲。
随着大规模语言模型的发展已经达到了技术奇点,大规模行为模型的创新研发得到了业界更多的认可,陆程比以往任何时候都更接近他十年前分享的内容。
以我们未来的愿景,世界上没有APP。
01 LAM的崛起:针对APPS的冗余和低效。
如今,我们每个人的手机上都安装了几十上百个不同的APP。
美国的一项调查数据显示,平均每部手机安装了80个不同的APP。
平均每天使用的APP数量为9个,APP过多冗余的现象给消费者和开发者都带来了困扰。
用户必须下载多个功能重复的应用程序进行比较和使用。
当实现某种意图时,他们必须在多个应用程序之间来回切换才能完成操作。
例如,在安排家庭旅行时,我们需要使用IM进行沟通和预订。
诸如机票、酒店预订、租车、餐厅预订等任务,往往需要我们切换到十几个应用程序,需要几个小时才能完成。
在开发方面,一方面严重造成了重复开发资源的浪费,另一方面也导致了不良性的发展倾向——不择手段地让用户留在自己的APP上消耗时间,寻求更多的用户时间来换取更多的用户。
高流量价值,而不是帮助用户更高效地实现任务意图。
随着用户使用智能设备的时间越来越长,越来越多的时间被浪费在冗余的APP中。
造成这种现象的根本原因在于,目前主流的操作系统,无论是在电脑上还是在移动设备上,都是在一定的参数规则的约束下构建的,并遵循严格、传统的用户界面(UI/UX)进行交互。
尽管人们已经被这种交互界面“驯化”了十几年,但它仍然不是最自然、最简单、最高效的理想交互方式。
例如,当我们使用市政、银行等功能复杂的APP时,我们需要花费大量的精力来学习相关服务的操作说明。
大规模行为模型 LAM 希望结束这种现象。
基于该技术的下一代操作系统Rabbit OS可以通过自然语言对话准确理解用户的意图,然后自主地找到最适合用户需求的应用程序并直接完成任务所需的步骤。
对于用户来说,他们只需要说出或输入自然语言即可讲述。
LAM的使用体验看起来与Siri等语音助手类似,但实际上有本质的区别:Siri遵循传统操作系统和APP的规则和限制。
受限于APP的授权和API接口,但LAM可以突破APP的限制,无论API是否开放,都可以像真人一样完成云服务器上各种任务的应用操作。
例如,您可以“嘿,Siri,为我播放一首歌!”但你不能“嘿,Siri,订购我最喜欢的披萨送到我家。
”但 LAM 可以,因为它知道您喜欢什么披萨、您的送货地址,并且能够帮助您操作设备上的应用程序。
作为下一代操作系统的核心技术,LLM和LAM的角色功能在帮助用户执行任务方面同样重要。
前者用于理解用户意图,后者用于执行用户意图。
Rabbit在官网发布了其大规模行为模型LAM的开发过程的相关信息,与业界分享了他们对这项技术的思考。
02LAM研发:软硬件同步开发,即将发布。
Rabbit OS智能硬件使用自然语言实现人机交互,而不是触摸交互。
技术探索始于10年前的智能音箱设备。
随着人工智能技术的进步,特别是ChatGPT的出现,加速了探索进程。
兔子研发团队尝试使用最先进的LLM模型来完成应用理解任务。
尽管LLM已经展示了理解和利用应用程序编程接口的能力,但应用程序的用户界面与文本内容根本不同,导致LLM任务的性能不佳。
任何交互界面都需要LLM执行预处理步骤——将操作动作转换为原始文本、光栅化图像或一些标记化序列来提示LLM,然后让它形成执行动作的命令推理,让LLM充当翻译器从“理解端”到“执行端”,但它很难很好地完成这个任务。
这种使用LLM进行交互式执行的方法也有一些显着的缺点。
例如,将操作动作转换为标记化序列或像素阵列将丢弃应用程序中包含的重要结构信息,例如解释操作步骤和操作逻辑。
文本太长、太晦涩,即使使用最强大的大型语言模型也无法理解。
除了LLM难以达到预期之外,尝试实现新的自然语言交互体验还面临一系列问题,其中最重要的是在当前流行的操作系统规则下无法获得足够的API来实现各种应用程序的操作。
因此,rabbit训练了一个新的大规模行为模型LAM来解决上述问题。
让 LAM 通过观察使用应用程序界面模仿人类的过程来执行可靠的学习复制。
LAM 在真人演示中很快就学会了各种应用程序的界面逻辑。
符号键的含义是什么?点击后会进入什么新界面?不同应用之间的UI设计有何异同?虽然颜色、形状会有所不同,但交互逻辑其实是一模一样的……这样一来,LAM 就拥有了足够的人机交互知识,可以灵活运用在各种应用中,无论应用过程中界面如何迭代变化。
程序执行时,LAM仍然可以像真人一样理解每个功能按钮的位置和含义。
LAM 学习应用用户界面的过程。
来源:rabbit.tech 这也使得 LAM 与传统的 RPA(机器人流程自动化)有着本质的区别:后者只是基于用户界面的坐标系来模拟点击操作。
一旦用户界面发生变化、按钮位置发生转移,RPA就会失败,稳定性不如API;而LAM可以真正理解用户界面的变化,独立找到任务所需的操作步骤,并完成执行。
同时,这个训练过程使得LAM的学习过程更容易观察,而不是在黑盒模型中推理,导致输出操作动作不可控。
兔子团队表示:LAM在语言建模(LM)、编程语言(PL)和形式方法(FM)方面处于跨学科科学研究的前沿。
从长远来看,LAM 展示了自己版本的“缩放法则”,其中它学到的动作可以推广到各种应用,甚至是生成式应用。
研发团队利用内部标准对LAM的实用能力进行了初步评估:虽然还处于研究的早期阶段,但LAM已经展现出其竞争力,例如在网站应用的导航任务中表现良好。
Rabbit表示,虽然LAM和Rabbit OS可以轻松运行在任何智能设备上,但需要为训练提供更高级别的安全性和可扩展性。
同时,为了保证LAM能够有更好的用户交互体验,真正实现使用自然语言的复杂人机交互,他们还开发了硬件设备r1,该设备将搭载下一代操作系统具有 LAM 功能的rabbit操作系统。
目前,兔子官网已开放r1大会的邮件预约,将于2024年1月9日(美国西部时间)正式发布。
其官网rabbit.tech已开放预订。
兔子与瑞典Teenage Engineering团队共同完成了r1的工业设计。
这也是陆诚与Teenage Engineering的第二次合作。
他们联合推出的智能音箱设备Raven H,被评为《华尔街日报》 CES 2018最佳产品。