当前位置: 首页 > 科技赋能

对话联汇科技赵天成:被动智能走向主动智能,一切都将被颠覆

时间:2024-05-19 16:45:54 科技赋能

作者 |北方编辑|靖宇 历史上从未有过像过去这样的时刻,人工智能与人类的未来更加紧密地联系在一起。

短短几个月,AI行业上演了OpenAI开发者大会、Humane推出AI Pin、微软Ignite大会、xAI发布Grok、OpenAI“宫斗剧”等重大行业活动,不仅引发了激烈讨论一次次在AI圈中的热议,也引发了更多人对AI商业化及其自身未来发展的密切关注。

作为“大模型元年”,AI大模型的落地也迈出了不同的方向。

对于以OpenAI为代表的C端来说,将GPT Store、人人可定制的GPT等融入人类生活成为新的主题;而对于B端来说,“技术如何实现”、“应用的可能性”等更实际的话题,却从未在创业者的话语中如此频繁地出现过。

卡内基梅隆大学(CMU)、联汇科技的“学术大师”赵天成·首席科学家还记得在大学学习博士时,看到谷歌的AlphaGO击败人类顶尖围棋选手时的震撼。

当时,他已经清楚地看到了传统“基于规则”的AI开发方式的弊端,转而研究“AI代理”。

他选择了一条“GPT前模型”的AI道路。

早在几年前,他就预言大型模型是人工智能快速进化的正确路径。

回国加入联汇科技后,赵天成和他的团队开始打磨基础模型,专注于多模态大模型领域,并于2016年推出了首款自主研发的多模态大模型,至今仍有相关性给创业者。

厌倦了“滚动”形成鲜明对比的大文本模型。

技术创新和务实的产品开发,让联汇科技凭借多模态大机型的超强能力,先后获得广电、运营商、国家电网等多个领域的B端客户,成为联汇科技不可多得的典范。

大模特创业者。

那些成功的人。

在商业道路上,赵天成看到了当年“人工智能四小龙”目前的困境,认识到“小模型定制是死路一条”的道理,并坚持联辉科技在该领域的持续研发和创新的大型模型。

对于当前的“百模型之战”,赵天成认为,单纯“滚动参数”,试图重现ChatGPT的能力,对于很多初创公司来说,可能并不是唯一正确的出路。

在B端积累了相当多的经验,他认为大模型不仅仅限于LLM。

相比之下,多模态大模型可以在更多场景下实现。

“GPT只是大型模型的一种路径,但OpenAI的方法可以在更多场景中尝试。

”赵天成告诉极客公园。

在他看来,人工智能B端的竞争不是“百团大战”,而更像是“丛林狩猎”。

最终获得猎物的不一定是一家大公司。

以下为极客园整理的首席科学家与联汇科技赵天成访谈实录: 01 传统AI研究有上限,你要做没人敢做的事情。

极客公园:您之前在加州大学学的是计算机专业,后来为什么去了CMU?进行语言技术研究?赵天成:我在加州大学洛杉矶分校电气工程系主修计算机科学。

我用了近三年的时间完成了本科专业课程。

第四年主要学习了研究生系列课程。

我也在 UCLA 语音技术实验室做了语音处理相关的研究,开始接触到人工智能、机器学习等前沿话题激发了我极大的兴趣。

我选择在CMU攻读计算博士学位,因为CMU在人工智能领域排名世界第一,而去那里是所有人工智能研究人员的梦想。

我去CMU计算机学院的LTI(语言技术研究所)是因为接触了语音处理技术后,感觉这个技术已经开始慢慢从学术界向工业界转移。

它的技术部分是相对而言的。

已经比较成熟了,想做更多前沿的人工智能基础理论研究和工业工程相关研究。

我当时判断,由于语音识别作为语音感知层已经比较成熟,后续的行业趋势肯定会包括更深层次的认知智能,比如理解语义、智能对话,甚至超越语言本身的推理和决策能力。

CMU的LTI是该领域世界上最好的研究机构。

那里的科学家开发出了世界上最早的语音识别引擎、机器翻译系统、人机对话系统等,我相信新一代突破性的人工智能可以在那里诞生。

智能技术。

极客公园:2016年您选择做语音语言研究时,当时学术界的状况如何?赵天成:当时NLP(自然语言处理)领域正处于转型期。

当时有一群人在做基于规则的研究,还有一些人在做基于机器学习的研究,或者说机器学习和规则结合起来。

在,我发表了业内最早的端到端人机对话论文,讲的是如何利用神经网络来解决整个对话系统的问题。

当时常见的做法是拼接多个规则模块,但使用神经网络来完成所有对话仍然是一个前沿的想法,很像现在的ChatGPT。

该作品还获得了当年 SIGDIAL 最佳论文奖的提名。

我当时提出的是,应该用神经网络进行端到端的学习来实现智能对话,而不是用很多AI规则模块来构建人机交互系统。

极客公园:这个灵感的来源是什么?赵天成:当时我分析了传统的对话系统,发现虽然短期内可以通过人为建立规则或者人为建立专家系统来提升系统的能力,但是这种提升是不可持续的,因为我们无法穷尽一切。

所有的对话场景,所以从长远来看,要实现人工智能的大跨越,正确的路线应该是减少人工干预,依靠更强的计算能力,让机器更好地自学习,实现智能的提升。

我们不能陷入“人工智能”有多少的恶性循环,那只会让“人工智能”变成“人工迟钝”。

但要实现机器自学习,这个过程存在很多挑战,因为人机交互系统会有很多复杂的模块,需要自然语言理解和解释为实体,以及对话层面的大量逻辑和规划。

这些必须通过神经网络来解决。

机器人小欧深入了解屏幕|小程序搜索“机器人小欧”体验 但当时业界并没有像现在那么多的工具。

在做的过程中,我们考虑从哪里开始,走完最基本的闭环。

,然后基于它进行扩展。

这是我当时感觉比较容易实现并成为真正的智能AI的方向和路径。

极客公园:您在CMU攻读博士学位时,业界还没有出现大模型的概念?赵天成:当时还没有大模型的概念,甚至连生成模型都是一个很少见的概念。

在硕士和博士学习期间,我做了两件事。

在攻读硕士学位期间,我承担了一个 NSF 项目。

那个时候还没有智能音箱。

我提出建立一个智能代理,其智能大脑可以集成各种单任务代理能力。

可能是点菜,也可能是点菜。

是一个通过统一代理与用户沟通的推荐地图。

这在当时还是一个前沿话题,类似于现在的ChatGPT插件系统。

我和我的团队在2018年从0到1搭建了整个平台,作为基础科研平台,支撑了后续多篇科研论文的发表。

这一成果得到了亚马逊、谷歌等众多人工智能专家的充分肯定。

在制作这个智能代理的过程中,我发现通过传统的方法制作智能代理的能力上限其实很低。

这激发了我在博士项目中构建端到端生成模型。

我相信,只有这样,才能真正从根本上解决这个问题。

所以从今年开始,基本上我所有的论文都集中在如何制作更好的生成模型上。

将数据“注入”其中后,它可以完成更复杂的任务。

极客公园:我们当时做的模型已经是一个大模型了,但是还没有现在几百亿参数那么大?赵天成:是的,只是规模不同而已。

核心算法非常接近,几乎没有区别。

比如我当时训练的是一个一亿参数的模型,但是现在可能是一亿参数或者一亿参数的模型。

极客公园:AlphaGo于2008年出现,当时引起了巨大的反响。

你当时感觉如何?赵天成:当时我很感动。

因为我当时做的就是生成模型过程中最大的两个技术栈:部分神经网络的设计、训练和强化学习。

当时的AlphaGo就是强化学习的一个很好的应用场景和成果。

所以我们也考虑如何将这种能力应用到现实场景中,因为AlphaGo本身的规则是固定的。

但事实上,我们在处理人机交互、自然语言、图像时有着无限的可能性,其难度远远超出了下围棋的任务。

所以我们花了很多精力研究如何将AlphaGo级别的端到端机器学习应用到更广泛的领域。

2016年,我们提出了基于隐藏变量的强化学习,让智能体能够学习从人类反馈中获得更好的结果。

人机交互策略大大提高了任务完成的成功率,达到了当时的SOTA性能。

极客公园:2009年、2018年左右,国内AI行业还处于低谷。

您为何选择回国创业人工智能?赵天成:因为我发现无论什么模式、什么技术,都需要有一些匹配的应用场景来实现它的迭代,体现出它自身的价值。

当时我们跟中国有很多交流,发现其实无论是视频还是多媒体,国内有很多应用场景在美国可能很少见,但是在中国有更多的机会。

一方面,国内人工智能将有更大的应用空间和更多机会。

另一方面,回到中国也是我个人的选择。

我还是一个家国情怀很强的人。

在美国留学这么多年,我希望能够把自己的时间和精力投入到建设自己的国家中。

经过综合考虑,我选择回国。

实现我的理想。

02 做小模型定制是死路 极客公园:当时国内AI行业的状况如何,联辉科技是如何选择进入市场的角度?赵天成:当时国内大型模型几乎没有开放。

包括华为、百度在内的很多大厂商也训练了一些模型,但当时没有人发现任何实际价值。

回来后我分析了国内AI行业的痛点。

当时很多行业都在做AI,比如零售AI、客服AI等,这些基本上都是用传统的小模型方法来做的,定制化程度很高。

对于小模型定制来说,瓶颈在于每个模型无法通用,每个场景都必须从头开始,没有积累,使得定制成本非常高。

这使得当时人工智能的商业化成为一项非常累人、赔钱的工作。

经过研究分析,我们发现,市场上中长尾应用场景虽然很多,但功能需求却非常分散。

这种情况和我们之前的智能座席平台类似。

如果以小模型的方式去做,就很难走得远。

所以我觉得既然要做一些事情,就一定要做一些有“未来”的事情,放弃小模型的想法,专注于大模型。

并且根据学术研究成果,我们判断大车型的行业爆发不会太遥远。

欧姆的大型视觉语言模型具有主动思考和分析的能力。

极客公园:当时你们是如何让客户认识到这个技术案例的先进性的?说服对方往这个方向投资?赵天成:很难。

那时候还没有大模型的概念。

我们尝试了很多方法来科普,但几乎没有人理解。

我们尝试通过与其他产品的比较来说明我们的路线的优势,因为通过大模型和小模型的比较可以看到效果。

比如,在介绍跨模态搜索能力的时候,我们告诉对方,之前的搜索需要打标签,但我们在搜索中,只需要用自然语言说一句话就可以找到东西。

我们不使用标签,或者说我们是“无限标签”。

其实很多客户还是不明白这个概念,所以我们只能更具体的介绍一下。

例如,虽然我们有无限的标签,但有时我们不得不说我们有几万个标签,因为这可以给他们一个具体的概念。

这些都是我们在尝试着陆时遇到的困难。

极客公园:有没有哪个客户给你留下了深刻的印象?你没拿出来之前他还不信,你拿出来之后他就震惊了?赵天成:比如某广电集团,他们也是我们比较大的客户。

他们拥有大量的视频媒体素材,例如新闻广播节目等。

过去,他们每年花费数百万进行人工编目和标签,以实现资产管理和检索。

当时我们说可以通过机器学习自动生成无限个标签,实现任意检索。

但对方不相信,所以我们给他们搭建了一个测试系统,让客户自己验证。

那我们就从技术底层来解释一下这个原理。

经过多次使用和讲解,他们内部的一些专业技术专家也认识到了这条技术路线的先进性,后续的合作也变得更加顺利。

极客公园:这是团队经过很长一段时间才想出来的商业方向吗?还是已经想好场景和方向,就根据不同的客户来来去去提供支持?赵天成:虽然我们当时认为大模型一定是一个方向,也一直在致力于提升大模型的基础能力,但商业化方向是通过不断的市场探索慢慢摸索出来的。

在寻找具体的应用场景时,我们尝试了很多行业,也遇到了很多壁垒。

最终我们发现我们重点关注媒体视觉和物联网视觉两大应用场景。

极客公园:从回国到成功落地这么大的客户,花了多长时间?赵天成:差不多一年多了。

虽然在技术方面,我们在美国已经积累了一些经验,但回来后并不是从零开始。

但到了实际落地的时候,还有很多需要改进的地方。

事实上,要真正落地应用,需要大模型能力提升、工具链开发、应用场景确定、应用闭环开发、业务模型确定等一系列因素的结合。

这不仅仅是一个技术问题。

极客公园:您回国时,中国的“人工智能四小龙”备受关注。

这么多年过去了,你能从这些公司的起起落落中吸取什么教训?赵天成:我觉得这些公司都非常优秀。

他们在小模型应用的实现上做了很多尝试,在高频领域有很多成功案例,但在中长尾领域却进展不佳。

这反过来验证了我的判断——如果用小模型来服务中长尾场景,似乎是一条死路。

这个判断更加坚定了我们打造更大模型的决心。

我们看到,只要打通大车型的商业路径,就会有巨大的市场价值。

欧姆视觉语言大模型具备四大核心能力 03 被动智能走向主动智能,一切都将被颠覆。

极客公园:在ChatGPT出来之前,您就已经预测到了大模型技术的行业趋势。

这些年,您对大模型的理解发生了怎样的变化?赵天成:我从2008年左右就开始关注端到端的生成模型训练,其核心思想和今天的大模型训练如出一辙,就是先建立一个上限非常高的神经网络模型,然后分析大量无监督数据。

进行自回归学习,实现原本需要N个专家系统模块组合的复合能力。

这些年来,大模型学习最大的变化就是它一次又一次刷新了我对于这种学习方法所能达到的上限和开发速度的预期,也让我更加坚信了这种方法论的正确性。

早年,端到端模型能够实现AI平滑生成自然语言。

后来能够顺利回答用户的问题已经是非常了不起的成就了。

然而,现在GPT-4不仅可以生成流利的语言并回答问题,还可以主动选择不同的工具并生成思维和推理链。

这在当时是难以想象的事情。

当时这个过程只能手动定义,无法由AI本身来完成。

现在,无论是大型多模态模型还是大型语言模型,都逐渐具备了自行生成整个推理环节或决策环节的能力。

我觉得这是一个颠覆性的改变,也让现在的AI Agent开始具备主动思考的能力和决策的能力。

联慧科技智能管家机器人照顾老人极客园:那么这些年的变化让AI实现大规模商业化成为可能吗?赵天成:是的,这些年最大的变化就是从以前的被动智能——用户问问题,AI回答问题,变成了现在的主动智能——用户问问题,AI不回答只回答他直接的问题,而且还主动出击。

想想其他问题。

用户甚至不需要提出问题,AI本身就可以根据其观察主动发现问题并给出解决建议。

例如,在零售场景中,如果AI通过视频分析发现超市里的咖啡洒了,它会自动想到需要清理,或者通知人清理。

这样,从观察到行动的决策方案,以前只能通过手动设置,现在可以自动实现。

这是一个相对颠覆性的变化,从被动智能演变为主动智能。

联慧科技的巡店机器人进行店铺管理。

当人工智能从被动智能发展到主动智能时,将具有更多的商业应用价值,才有可能实现大规模商业化。

极客公园:联汇科技团队很早就开始尝试AI落地场景。

您现在还可以透露哪些其他实施场景吗?赵天成:现在很多人工智能应用主要是基于纯语言模型。

我们的特点是专注于多模态大模型,特别是视觉和语言这两种模态。

视觉与语言结合的应用场景有很多。

比如媒体领域有很多内容创作的需求。

我们正在打造一个产品,采用基于大型视觉语言模型的智能代理框架,实现导演层面的自动化和主动智能,解决导演最头疼的内容创意问题。

该产品可以根据内容主题要求,自动分析内容主题是什么。

,需要什么材料,如何去掉镜头,最终要用什么样的叙事线,让AI来做一步一步的推理过程。

视频 小欧文胜视频 另外,还有很多智能家居、智能零售等场景在中国做。

过去,安装在家庭或商店的摄像头只是观察者,只会识别预定目标,例如有人闯入,然后通知你观看视频播放。

但一旦这些摄像头配备了主动智能,每个设备都可以主动思考。

,就变成了虚拟店长和虚拟保姆,非常有想象力。

OmBot自治代理:面向行业的多模态代理系列04大模型 B端市场是丛林,不是决战极客公园:联辉科技在AI商业化方面非常成功,尤其是B端。

其中有哪些经验值得分享?赵天成:B端场景和C端场景不一样。

B端必然会有个性化的需求。

因此,如何以较低的成本满足这些个性化需求就显得非常重要。

在过去的几年里,我们一直致力于加强我们大模型的能力,并开发相应的微调工具链。

在此基础上,用户可以通过Prompt(提示词)完成用户的个性化微调训练,这让定制的成本变得非常低,创造了用户个性化AI服务的新方法。

我们的经验是,在提供B端服务时,一定要考虑权衡。

你不能走定制小模型的道路。

你要学会克制,学会让步、让步。

极客公园:大型AI模型商业化的真正难点是什么?赵天成:人工智能技术产品化、满足客户需求需要考虑很多因素。

国内外市场差异较大。

美国在很多技术方面分层更加清晰,生态链的每个环节都可以发展出优秀的企业。

比如有的公司光靠做中间件就可以过上不错的生活。

但国内还没有这么成熟的生态系统,只做中间件很难生存。

因此,在国内市场,AI公司想要实现商业化,其产品必须有“厚度”,这意味着必须对客户有更深入的了解,打造产品闭环。

仅仅使模块变得完美是不够的。

极客公园:不久前刚刚举办了OpenAI开发者大会。

很多开发者看完后都感觉自己半年甚至一年的努力化为了零。

您对这一趋势有何看法?赵天成:我觉得OpenAI的商业化尝试和我的预期差不多。

他们肯定会做这些事情。

萨姆·奥尔特曼是一个非常有野心的人,他当然不会放弃这么大的潜在市场。

OpenAI的商业模式对国外开发者影响很大,但我认为他们很快就会在这样的生态系统中找到新的机会。

正如我前面提到的,国内外的AI生态系统存在很大差异,尤其是在2B市场。

OpenAI的模式在中国很难复制。

私有化部署、数据壁垒、国内用户个性化需求等特点都会影响业务实施模式。

所以我们还是坚持把自己的模型做好,把自己的工具链做好,以增强我们本土的长期竞争力。

同时,我们也在结合国内的经营环境探索更多的应用形式,也会借鉴国内外的很多模式。

他山之石可以攻玉。

总体来说,OpenAI的发展对我们的成长还是非常重要的。

有利。

极客公园:联辉科技如何看待或应对中国大型模型的现状?赵天成:我们主要从几个方面来处理。

首先,我们走差异化路线。

回顾“百模之战”,其实大多数公司都在想方设法重现ChatGPT。

截至目前,他们基本上还处于OpenAI大语言模型的早期阶段,很难看出各个公司产品之间的差异。

我们从一开始就走多式联运路线。

很多时候客户会说我见过文字AI,但没见过能看懂图像的AI。

图片+文字的场景应用非常丰富。

因此,通过差异化,我们可以更好地满足客户需求,提供市场想要的产品。

另外,与很多公司相比,联汇的定位有所不同,因为我们主要服务在B端,这与市场上大多数公司的C端做法不同。

相比一些盲目推出模型参数大小的公司,联辉科技拥有丰富完整的产品体系。

我们更关心的是模型的实际执行能力。

大家也知道微软透露GPT 3.5-Turbo使用的大模型参数只有1亿左右。

因此,必须综合判断模型参数是否合适。

越大并不总是越好。

极客公园:如果现在回国创业,在目前大模型领域的红海形势下,你还会考虑做基础模型吗?赵天成:如果现在从0开始建立一个基础模型,会比三年前困难很多。

许多队伍已经抵达。

但我不认为大模型领域现在已经进入红海阶段,因为大模型本身已经证明学习和压缩海量数据可以产生智能,但ChatGPT只是大模型的一种形式。

通过大量的预训练,将知识融入到模型中,使其能够产生通用能力,并显现出一定的智能。

这只能作为语言模型来完成吗?我想绝对不是这样的。

它还可以用于其他场景,例如图像、3D或分子结构等。

因此,专注于某个领域的机会还是很多的。

例如,我可以专门制作大型3D模型,或者物理世界的大型模型,例如世界模型。

事实上,三年前,制作大型语言模型存在很大的不确定性。

所以我觉得做基础大模型还是有很多机会的。

关键是要真正理解大模型的方法论,正确选择切入点。

极客公园:您如何看待与AI领域各大厂商的关系?是完全竞争还是还有其他的可能性?赵天成:首先,在人工智能领域,小公司随时都有机会。

就像在美国,很多AI创新都是谷歌提出的,但OpenAI做得比谷歌更好。

我的一些朋友也是2000年在OpenAI实习的,当时公司员工还不到100人。

所以在AI领域,初创企业并非没有机会,但竞争肯定是不可避免的。

每个企业都必须找到自己的定位。

对于C端场景来说,竞争肯定会很激烈。

大厂商本身拥有强大的用户平台,而小公司可能需要一些真正创新的应用场景和更好的市场策略才能获胜。

但是B端,我认为无论是大厂还是小厂,都不存在赢家通吃的情况,因为B端的行业逻辑和C端不一样。

有一个很好的类比。

C端可能是一种规模战。

大家都在争夺火力。

我有1个坦克,你有1个坦克。

我可以打败你。

但在B面场景中,每个人都是丛林中的猎人。

你可能有火箭发射器,我有狙击步枪。

我的火力没有你强,但谁能杀死这只鹿还不确定。