“在AI 2.0时代,生成式AI被视为推动生产力进步的重要技术。
如果能够提高三-知识、推理和执行能力的水平实现突破,将真正带来整个社会生产力的跨越式发展。
”董事长、商汤科技CEO徐立在GDC上提出了这一前瞻性观点。
3月23-24日,全球开发者大会(GDC)在上海隆重举行。
董事长、商汤科技CEO徐立受邀出席开幕式并发表主旨演讲,分享了AI 2.0时代生产力工具“质”变背后的思考和突破路径。
新的生产力工具仍需要不断发展。
近来,“新生产力”成为热门话题,尤其是在开发者领域。
生成式人工智能被认为是一项导致生产力突破的技术,也标志着人工智能进入了新的发展阶段。
我们称之为AI 2.0时代。
ChatGPT、Copilot、Blackwell是AI2.0时代流行的代名词。
搜索数据显示,中国对这些词的兴趣度位居全球第一,这意味着中国近千万开发者和普通大众都渴望关注AI所能带来的变化。
当然,这也是中国人工智能发展的一个非常好的基础。
随着AI 2.0时代的到来,GitHub上相关项目的数量呈指数级增长。
生成式AI项目、大型模型项目、辅助编程开发的工具项目层出不穷。
但另一方面,我国数字人才缺口也在逐年加大,短缺比例迅速扩大。
还有一组数据值得关注。
尽管中国极其关注AI 2.0,但在实际应用方面却落后于美国、印度等国家。
其中,语言是一个不容忽视的问题。
以通过自然语言完成编程任务为例,英语与现有程序匹配度较高,但优秀的中文语言工具相对缺乏。
虽然AI 2.0时代我们已经开始使用生产力工具,但这些工具带来的生产力提升并不明显。
它们只能解决不到10%的问题,给生产链带来的突破也相对有限。
众所周知,整个软件开发生命周期包括需求分析、设计、开发、测试、部署和维护。
虽然人工智能可以带来很多创新或者拓展到很多场景,但目前只能解决其中非常小众的一部分。
具体来说,AI目前能解决的就是在过去的基础上抽象成了相对标准化,甚至固化为知识库形式的内容,包括代码补全、代码添加、以及一些测试用例。
如果分配到整个软件或者产品设计过程中,比例并不高。
当然,随着可扩展性变强,很多工具会从前端设计、测试用例逐步演变到维护的横向扩展。
除了横向能力的拓展外,从纵向来看,新型生产力工具的精准度和完成度普遍较低。
根据SWE-bench评估,Claude 2和GPT-4在特定任务上的任务完成率均不足5%,即使是最新的Devin也只有13%的完成率。
尽管整个行业在向前发展,但仍处于相对雏形。
另一个有趣的现象是,你拥有的编程经验越多,你就越能更好地使用新的生产力工具。
统计数据显示相反的情况:经验不足五年的程序员花费一个多小时使用新的生产力工具解决问题,但经验超过五年的程序员花费的时间更少。
这意味着越是高级、复杂的任务,对于当前新的生产力工具来说仍然会面临一定的挑战。
大模型能力三层架构 大模型能力可以分为三层架构,这三层相互依赖但又相对独立。
第一层知识(Knowledge)是世界知识的综合注入。
目前很多生产力工具都是解决知识层面的问题。
当用户提出问题时,底层逻辑来自于“世界上并无新鲜事”——你面临的问题可能是以前的人遇到并解决过的。
,因此使用大型模型可以很好地完成这些任务。
第二个层次的推理(Reasoning)是理性思维的质的提升。
当你了解了这个世界之后,你就可以向前发展。
即使你不知道这个事实,你也可以用AI来逐渐推断出这个事实,并给出更多的可能性。
知识和推理是大型模型作为生产力工具最重要的两个层面。
但目前推理层的增长还比较有限。
这也是未来必须重点突破的能力之一。
第三层执行(Execution)是世界内容的交互转化,即如何与世界交互并提供反馈。
从某种意义上说,如今如此流行的具身智能在执行力上将会有一个大的突破。
总体来说,这三层可以形成一个完整的三层能力,为世界提供生产力工具模型。
“KRE”三层架构实践:商汤科技“小浣熊”快速进化 商汤科技结合“KRE”三层架构打造了一款办公辅助软件——“小浣熊”。
基于一个开发好的基础模型,从需求分析到最终产品开发,总共需要投入一个人日的工作量。
如果去年我使用了“小浣熊”代码补贴工具,我可以节省30%的工作量。
主要解决整个流程中的一些重复劳动。
基于良好的代码库,它可以完成一些代码任务。
在此基础上,我们进一步整合了从需求分析、需求设计到长尾应用的各个环节,推出了更强大的“小浣熊”2.0版本。
真正意义上的,是根据我们提供的海量数据筛选需求,制定产品特征,并根据产品特征完成自主产品开发。
最终,我们期望在获取世界知识的基础上,将其应用于现实世界中更多的机器人场景。
然后用“KRE”的三层来理解“小浣熊”。
知识层是代码的完成,完成的代码来自于别人写的代码;推理层深入软件开发全过程;执行层垂直场景划分,依托场景化智能。
那么知识和推理,这两个层面有关联吗?以GPT4为例,它有一个强大的代码解释器,可以处理各种数学问题。
当遇到某些具体问题时,例如“请列出一百以内所有两个素数的乘法”和“一百以内两个素数加1的乘法”,它可以正确列出前者,但在处理时会出错发生在后一种情况。
这两道题难度一样,为什么会出错呢?原因是这类问题以前从未见过,其世界知识无法给出直接答案。
需要调用代码解释器,但生成的代码准确率不可能%,所以有出错的概率。
可以说,知识层主要解决高频、标准化的问题,解决别人已经做过的问题,显然准确率很高。
推理主要解决长尾和碎片问题。
举两个“小浣熊”场景的例子。
场景一:智能管理。
在交通分析的场景中,大屏上的数据往往是固定的,比如某个路口的交通流量、某个时间的交通分析等,这是一个标准化的问题。
但当涉及到天气因素、舆情因素、新闻因素结合起来时,以往并没有这样的分析结果,而可以利用软件强大的推理能力来完成一些长尾应用的分析。
场景二:办公智能化。
当需要制定产品推广预算时,财务报表、账户信息、产品介绍等各类文档资源都输入商汤科技的“浣熊办公”中。
它可以根据输入的数据和需求提供合理的计划。
科学的预算计划体现出强大的推理能力。
总之,如果生产力工具在知识能力、推理能力、执行能力三个层面取得突破,最先受益的是广大开发者和场景化核心应用,最终将带来生产力的跨越式发展。
整个社会的生产力。
商汤科技“小浣熊”目前免费向所有开发者开放。