当前位置: 首页 > 科技观察

ChatGPT取代搜索引擎?谷歌着急,百度不着急:早就布局了

时间:2023-03-12 17:20:06 科技观察

本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。生成式AI将取代搜索引擎的声音,出现在ChatGPT发布的第一天。后来越来越邪恶,有人幻想以后人们不是google找信息,而是geept。也有人说,搜索引擎给出的一页10个蓝色链接将成为历史,就像老式拨号电话的拨号盘一样。Google起初并不在意,但随着ChatGPT爆出圈子,它也感受到了威胁。内部拉响红色警报,调整AI产品策略。微软将此视为一次弯道超车的机会,并计划继承ChatGPT在Bing搜索中的能力。……不过,持不同意见的人也不少。随着大家使用的深入,ChatGPT会以权威的口吻输出错误信息,无法获取最新知识等弱点就会暴露出来。△严重胡说OpenAI的CEO也表示,现阶段ChatGPT容易给人一种错觉,靠它做重要的事情是不靠谱的。Keras之父认为搜索和生成从根本上是两个问题,原理决定了两者不能相互替代。有趣的是,另一家搜索巨头百度也站在了这一边。近日,百度刚刚召开了CreateAI开发者大会。发布会前夕,百度搜索宣布将基于百度自研的生成模型升级“生成式搜索”能力,并指出生成式AI与搜索引擎是互补而非替代,他还表示底层搜索技术和AI底层技术是相通的。其实你已经用过百度了。这些话不是说说而已,而是从2021年开始就在尝试把AIGC和搜索结合起来。十年前,当点击“百度点击”按钮的时候,搜索引擎背后的工作原理还比较简单,就是通过关键词索引、算法筛选和排序,以生成结果页面。现在,结果页面有时不仅仅是一个链接列表。比如你新买了一部iPhone,把手机翻了个底朝天,找不到录音功能藏在哪里。无奈,我转而百度,输入“苹果是如何录音的?”在搜索框中,生成页面顶部出现的不是链接,而是一张小卡片。AI选择最能帮到你的答案,做一个总结,显示在最上方,无需在搜索结果中翻来覆去。点进去看看,还是图文并茂的那种,步骤一目了然。(世界未解之谜:苹果的录音机为什么叫voicememo???)或者上网看到截图,想知道是哪部剧的,描述一下,搜索引擎就能看懂问题基于深度语义和匹配结果,也可以找到答案。不信可以通俗地描述一下下面的剧照,“韩国电影《漂浮在空中的野兽船叫什么名字》”,然后在评论区告诉我们答案。再比如,如果你想知道“北京和上海哪个GDP更高”,百度可以根据权威数据自动生成两地GDP多年的趋势图。直接呈现高低对比,无需单独搜索计算。这些功能都是有AI技术支持的,也是AIGC和搜索技术的结合,但是用起来太流畅了,大家都习惯了,就像手机上的指纹识别一样。搜索引擎虽然已经有20多年的历史,但对于大多数网民来说,仍然是不可替代的高频刚性需求,而且需求一直在变化。从简单的关键词命中搜索,到自然语言搜索,再到语音(尤其是方言)搜索,人们使用搜索引擎的方式越来越接近本能和直觉。从网页作为文档的基本搜索,到知识和服务的搜索,人们越来越期望搜索能够提供更大的价值。由此产生的复杂需求和庞大的计算量,使得搜索成为一个技术壁垒非常高的产品。据了解,百度发力AI以来,近十年累计研发投入超过1000亿元,每年占研发的比重都在15%以上,2021年达到23%。百度核心业务20年,也是最贴近大众的“窗口”之一,每天处理海量请求。百度领先的AI技术将率先登陆搜索,让搜索紧跟需求发展,也是AI技术最好的试验场。两大“杀手级”技术公开亮相。提起百度的AI技术,最广为人知的就是文心模式,其特点是产业级和知识提升。背后还有一个飞桨深度学习平台,提供了一系列的基础设施和工具。而下层自研的昆仑芯片,兼具超强算力和高性价比的成本优势。那么这些技术在搜索引擎中是如何使用的呢?这就是在百度创客大会上亮相的两大“杀手级”技术,跨模态大模型“智一”和新一代索引技术“千流”。先来看跨模态大模型智一,它是AI技术在搜索场景的代表。简单来说,一个大模型可以不断地从全网不同形式的资源中学习,无论是文本、图片、视频还是结构化信息。打破资源形态的界限,更容易理解用户的搜索需求。从技术层面来看,知乎采用了百度文信大尺度模型技术。大规模预训练技术提升模型性能,蒸馏压缩率高达99%的模型小型化技术降低成本,可充分应用于搜索场景。据了解,智易目前每天在百度搜索的各种场景下进行万亿次推理。如此庞大的使用规模带来了新的问题,如何高效地将满足需求的结果呈现给用户。这就需要新一代的索引技术——千流,负责智能有序地组织不同维度的信息。与以往的索引技术相比,千流专注于多领域、多维度表达的三维栅格化索引。如何理解光栅化?以往,搜索引擎为了提高效率,会按质量横向切割内容,进行分级处理。先从优质内容开始搜索,满足要求及时返回结果,不满足要求进入下一层。在千流,一批最优质的内容进一步按领域垂直分层。质量分层+内容命中相结合,将内容横向一格一格,纵向一格进行按需检索,大大降低了每次检索的计算量。这是对搜索引擎后端架构的彻底改造,成本减半,速度提高一倍。但这不仅仅是节省成本的问题。百度工程师透露,节省下来的计算量还可以投入到内容的精耕细作中,比如综合运用多种算法提升索引质量,或者加入最新的生成式AI技术。此外,不同格子之间还可以采用个性化算法,就像“一条鱼吃多了”一样,不同的部位采用不同的烹调方式。知易与千流的结合,不仅可以更准确地了解用户的搜索意图,还可以提高内容质量和信息检索效率,为搜索开辟更多可能。用户的高频需求正在推动人工智能技术的变革。新技术还可以激发新的用户需求的表达。两者构成“双轮驱动”,不断推动搜索进化。在这样不断的反馈和迭代下,下一个质变正在到来。搜索即创造回到原题:生成式AI会取代搜索引擎吗?作为中国最大的搜索引擎,百度的答案已经很明确:AIGC和搜索引擎是互补而不是替代。百度搜索优秀架构师顾思淼解释了百度判断的思维路径:目前的AIGC对话系统,即使是目前最流行、最流行的ChatGPT,其自身的能力仍然存在明显的瓶颈,(比如有时候会说废话,不会能够及时响应)获取最新消息),并且不能保证未来的技术一定能够解决这些问题。因为从产业应用和落地的可能性来看,现有模型的规模无法支撑一个可以记录所有知识的模型。尤其是用户需求巨大的时效性内容。解决的办法是换个角度,用AIGC为用户开放的搜索问题或定制化的信息需求“创造答案”。从单边搜索或者生成,融合到检索+生成会取得更好的效果。这也是百度从2021年开始发力生成搜索的重要原因,检索与生成相结合的模式,注定要改变百度搜索升级后的产品形态。据了解,最终的产品将与ChatGPT有很大不同,即虽然有多轮交互,但并不是简单的多轮对话。简而言之,用户可以更高效地向搜索引擎提出需求,生成搜索可以在满足需求的同时迭代和调整这种需求。不会PS的人可以使用生成式搜索找到一张图片,然后用文字描述如何修改图片,搜索引擎可以通过百度的NLP技术根据要求修改图片并反馈。升级后,生成式搜索体验将在三个方面得到提升。信息情报整合组织。在保证权威性和准确性的前提下,对搜索结果进行梳理,提供一体化的结构化答案。内容创作。基于文心·NLP大模型,具备自然语言处理能力,可满足“写文章”、“写公告”、“智能聊天对话”等创意搜索需求。个性化内容体验。基于不同的用户画像和阅读偏好,同样的内容也有差异化、个性化的特定表达。△“内容创造”示意图据介绍,百度即将在近期升级全网首创生成搜索。总结一下,无论是AIGC、ChatGPT,还是生成式搜索,在一定程度上都是技术尤其是AI技术发展带来的新机遇。比如2022年底,百度CEO李彦宏在股东大会上的演讲中说:把AIGC这样很酷的技术变成每个人都需要的产品,是最难的一步。百度生成搜索能否成为每个人都需要的下一个“酷”产品?等着瞧。