当前位置: 首页 > 科技观察

ChatGPT狂欢的背后:缺点还在,启示也不少2023年还有这些事情要做……

时间:2023-03-12 21:35:37 科技观察

2022年的最后一个月,OpenAI用一款爆款对话机器人——ChatGPT回应了人们一整年的期待,虽然它不是期待已久的GPT-4。用过ChatGPT的人都能体会到它是名副其实的“六角战士”:不仅可以用来聊天、搜索、翻译,还可以写故事、写代码、调试,甚至可以开发小游戏和参与美国高考……有人开玩笑说,从那以后,人工智能模型只有两种——ChatGPT和其他。资料来源:https://twitter.com/Tisoga/status/1599347662888882177由于其惊人的功能,ChatGPT自推出仅5天就吸引了100万用户。许多人大胆预测,如果这种趋势持续下去,ChatGPT将很快取代Google等搜索引擎和StackOverflow等编程问答社区。图片来源:https://twitter.com/whoiskatrin/status/1600421531212865536但是ChatGPT生成的答案很多都是错误的,不仔细看是看不出来的,会导致答题鱼眼。这种“很强大但也很容易出错”的属性,给了外界很大的讨论空间。大家都想知道:ChatGPT的强大能力从何而来?ChatGPT的缺点是什么?它会在未来取代搜索引擎吗?它的出现给我们的人工智能研究带来了哪些启示?在小红书技术团队举办的第六期“REDtechiscoming”科技直播中,NLP领域专家、美国加州大学圣塔芭芭拉分校助理教授李磊,小红书科技副总裁张磊,与小红书社区部多媒体智能团队算法负责人张德兵展开对话,交流并解答了ChatGPT的热点问题。李雷,毕业于上海交通大学计算机系(ACM班),获学士学位,获博士学位。来自卡内基梅隆大学计算机系。先后担任美国加州大学伯克利分校博士后研究员、百度美国深度学习实验室青年科学家、字节跳动人工智能实验室高级主任。2017年,李磊凭借AI写作机器人小铭机器人获得吴文俊人工智能技术发明二等奖。Xiaomingbot还拥有强大的内容理解和文本创作能力,可以流畅地播放体育赛事和撰写财经新闻。李雷的主要研究方向是机器学习、数据挖掘和自然语言处理。在机器学习、数据挖掘和自然语言处理领域在国际顶级学术会议上发表论文100余篇,拥有技术发明专利20余项。曾获得2012年美国计算机学会SIGKDD最佳博士论文第二名、2017年CCF杰出演讲者、2019年CCF青竹奖、2021年ACL最佳论文奖。张雷,小红书科技副总裁,毕业于上海交通大学,曾任欢聚时代技术副总裁、百度丰巢首席架构师,负责百度搜索广告CTR机器学习算法工作。曾任IBM深度问答(DeepQA)项目中国区技术总监。张德兵,小红书社区部多媒体智能算法负责人,原格灵神通首席科学家,快手多模态智能创造负责人,具有丰富的技术研究和业务实施经验,带领团队获得成果包括国际权威人脸识别大赛FRVT世界冠军在内的多项学术竞赛冠军,推动了CV和多模态技术在安防、零售、体育等TOB场景以及C端场景等的应用短视频和广告。业务落地。三位嘉宾的讨论不仅围绕ChatGPT目前的能力和问题展开,还展望了未来的趋势和前景。下面,我们对交流内容进行梳理和总结。OpenAI联合创始人GregBrockman最近在推特上表示,2023年将使2022年看起来像是AI进步和采用的沉闷一年。来源:https://twitter.com/gdb/status/1609244547460255744ChatGPT的强大能力从何而来?与许多试用过ChatGPT的人一样,三位嘉宾都对ChatGPT的强大功能印象深刻。其中,张德兵举了一个让ChatGPT充当LinuxTerminal的例子:告诉ChatGPT大概的机器配置,然后让它在此基础上执行一些指令。原来ChatGPT可以记住一段很长的操作历史,而且前后逻辑关系非常一致(比如你把几行字符写到一个文件里,然后让它显示里面写了哪些字符文件,它可以显示)。DeepMind研究员JonasDegrave将ChatGPT用作Linux终端的示例。来源:https://www.engraved.blog/building-a-virtual-machine-inside/这个结果让张德兵等人怀疑ChatGPT是不是在后台开了一个终端来欺骗用户?于是他们进行了一些测试:让ChatGPT执行一些非常复杂的指令(比如两次for循环,每个for循环有10亿次),如果ChatGPT真的打开一个终端,它会卡住一段时间。结果出乎意料:ChatGPT很快跳过了这个过程,并显示了这个命令后的下一个结果。这让张德兵等人意识到,ChatGPT确实已经大致了解了整个demo的逻辑,具有一定的“思考”能力。那么这种强大的能力从何而来呢?张雷提出了两个假设。一种假设认为,这种能力本身是内置在大模型中的,但我们之前没有适当地释放它;另一种假设认为,大模型的内置能力其实并没有那么强,需要借助人力来完成。做一些调整。张德兵和李磊都同意第一个假设。因为,我们可以直观地看到,训练和微调大型模型所需的数据量存在几个数量级的差异。在GPT-3及后续模型使用的“预训练+提示”范式中,数据量的差异更加明显。而且,他们使用的in-contextlearning甚至不需要更新模型参数,只需要在输入文本的上下文中放入少量带标签的样本,就能诱导模型输出答案。这似乎说明ChatGPT的强大能力确实是内生的。传统的fine-tune方法与GPT-3的in-context学习方法对比。此外,ChatGPT的强大还依赖于一个秘密武器——一种称为RLHF(ReinforcementLearningwithHumanFeedback)的训练方法。根据OpenAI官方发布的信息,这种训练方式可以分为三个阶段[1]:冷启动阶段的监督策略模型:从测试用户提交的提示中随机抽取一批,指定提示的高-高质量的答案,然后使用这些手动标记的数据来Fine-tuneGPT3.5模型,让GPT3.5有能力初步理解指令中包含的意图;训练奖励模型(RewardModel,RM):随机抽取一批用户提交的提示,然后使用第一阶段Fine-tune好的冷启动模型为每个提示生成K个不同的答案,然后让标注者将K个结果排序为训练数据,通过pair-wiselearningtorank模式训练奖励模型;使用强化学习增强预训练模型的能力:使用前一阶段学习到的RM模型,根据RM评分结果更新预训练模型的参数。这三个阶段中的两个使用人工注释,或RLHF中所谓的“人工反馈”。李雷说,这种方法产生的结果是出乎意料的。之前做机器翻译研究时,他们通常使用BLEUscore(一种快速、廉价、与语言无关的自动机器翻译评估方法,与人的判断有很强的相关性)来指导模型。起初,这种方法效果很好,但随着模型变大,它的效果不断下降。所以他们从中吸取的教训是,理论上用反馈训练像GPT-3这样的超大型模型不会有太大改善。然而,ChatGPT的惊人结果却颠覆了这种体验。李磊认为,这是ChatGPT给大家带来的震撼,提醒大家转变研究观念。ChatGPT的缺点是什么?不过,除了震惊之外,三位嘉宾也指出了ChatGPT目前的一些不足之处。首先,如前所述,它生成的一些答案不够准确,时不时会出现“严重胡说八道”的情况,逻辑推理能力也不是很好。来源:https://m.huxiu.com/article/735909.html其次,如果要在实践中应用像ChatGPT这样的大型模型,需要的部署成本是相当高的。目前还没有明确的证据表明将它们的大小减小一两个数量级可以保持模型的能力。“如此惊人的能力,如果只能在非常大的范围内维持,离应用还很遥远,”张德兵说。最后,ChatGPT在某些特定任务(例如翻译)上可能无法实现SOTA。虽然ChatGPT的API还没有发布,我们无法知道它在一些benchmark上的能力,但是李雷的同学在测试GPT-3的过程中发现,虽然GPT-3可以很好的完成翻译任务,但是比目前单独训练的双语模型仍然更差(在BLEU分数上差了5到10分)。据此,李磊推测ChatGPT在某些基准测试上可能达不到SOTA,甚至可能与SOTA有一定距离。ChatGPT能否取代Google等搜索引擎?是什么激发了AI研究?在关于ChatGPT的各种讨论中,“可以替代搜索引擎”这个话题可能是最热门的一个。近日,《纽约时报》报道称,ChatGPT的火爆让谷歌有种难以对付的感觉。他们担心,如果每个人都使用像ChatGPT这样的聊天机器人,就没有人会点击带广告的Google链接(2021年,GoogleAds收入占总收入的81.4%)。在《纽约时报》获得的一份备忘录和录音中,谷歌首席执行官桑达尔皮查伊一直在开会“确定谷歌的人工智能战略”并“颠覆公司内部众多团队的工作,以应对ChatGPT带来的挑战”。威胁”[2]。对此,李磊认为,现在说换人可能为时过早。首先,新技术的普及与商业成功之间往往存在很深的差距。早年间,谷歌眼镜也曾表示要成为新一代的交互方式,但至今未能兑现诺言。其次,ChatGPT在一些问答任务上确实表现优于搜索引擎,但搜索引擎承载的需求不限于这些任务。因此,他认为我们应该根据ChatGPT本身的优势来做产品,而不是针对已有的成熟产品来替代它,这是一件非常困难的事情。许多AI研究人员认为,ChatGPT和搜索引擎可以协同工作,两者不存在替代和替代的关系,最近流行的“youChat”就证明了这一点。来源:https://twitter.com/rasbt/status/1606661571459137539张德兵也持类似观点,认为ChatGPT短期内取代搜索引擎不现实。毕竟它还是有很多问题,比如不能访问互联网资源,会造成信息误导。此外,其能力是否可以泛化到多模态搜索场景还不清楚。但不可否认的是,ChatGPT的出现确实给了AI研究人员很多启发。李雷指出,第一点值得注意的是情境学习能力。在之前的很多研究中,大家忽略了如何通过某种方式挖掘现有模型的潜力(例如,机器翻译模型只是用来翻译,而没有尝试给它一些提示,看看它是否能产生更好的翻译),但是GPT-3,ChatGPT做到了。所以,李雷在想,能不能把之前的模型都改成这种in-contextlearning的形式,给他们一些文字、图片或者其他形式的提示,让他们充分发挥自己的能力,这会是一个A非常有前途的研究方向。第二个值得注意的点是在ChatGPT中发挥重要作用的人工反馈。李雷提到,谷歌搜索的成功其实很大一部分原因在于它很容易获得人的反馈(是否点击搜索结果)。ChatGPT通过要求人们写下答案并对模型生成的答案进行排名来获得大量的人类反馈,但这种方式的获取成本很高(最近的一些研究已经指出了这一点)。因此,李磊认为,未来我们需要考虑的是如何低成本、高效地获取大量的人为反馈。来源:https://twitter.com/yzhongwyz/status/1605382356054859777小红书“种草”新技术对于在小红书从事多模态智能创作研究的张德兵来说,ChatGPT也提供了很多启发。首先,这个模型直观地展示了大NLP模型在复杂的多轮对话、不同query的泛化、思想链(ChainofThought)等各种场景下相比小模型都有了很大的提升,相关的功能目前在小型型号上。不可用。张德兵认为,NLP大模型的这些相关能力,也有可能在跨模态生成中得到尝试和验证。目前跨模态模型在模型规模上与GPT-3和ChatGPT相比有明显差距,同时也有很多跨模态场景下的作品展示了NLP分支表达能力的提升,这将影响视觉生成结果的精细度。帮助很大。如果跨模态模型的规模能够进一步扩大,模型能力的“出现”或许是一件值得期待的事情。其次,和第一代GPT-3一样,目前的多模态生成结果在选择的时候往往可以看到非常不错的惊艳效果,但是在生成的可控性上还有很大的提升空间。ChatGPT似乎在一定程度上改善了这个问题,生成的东西更符合人的思维。因此,张德兵指出,跨模态生成可以参考ChatGPT的很多思路进行尝试,比如基于高质量数据的fine-tuning、强化学习等等。这些研究成果将应用于小红书的多项业务,包括电商等场景下的智能客服、搜索场景下更精准理解用户查询和备注、智能创作场景下的用户素材智能配音等。、复制生成、跨模态转换和生成式创作等。在每个场景中,应用的深度和广度都将随着模型尺寸的压缩和模型精度的不断提升而不断增强和扩展。作为一个拥有2亿月活跃用户的UGC社区,小红书以社区内容的丰富性和多样性创造了海量的多模态数据集。在信息检索、信息推荐、信息理解等方面积累了海量的真实数据,尤其是智能创造相关技术,以及底层的多模态学习和统一表示学习。广阔的登陆场景。小红书仍然是为数不多的仍然保持强劲增长势头的互联网产品之一。得益于图文并重的产品形态,小红书将在多模态、音视频、搜索推广等领域面临挑战。并创造出许多前沿的应用问题。这也吸引了大批技术人才的加入。小红书技术团队多名成员拥有谷歌、Facebook、BAT等国内外一流公司的工作经验。这些技术挑战也会让技术人有机会在新领域全面参与,甚至发挥重要作用。未来,小红书技术团队所能提供的人才成长空间比以往任何时候都更加广阔,也等待着更多优秀的AI技术人才的加入。同时,小红书也非常重视与行业的交流。《REDtech来了》是由小红书技术团队打造的面向行业新锐的技术直播栏目。今年以来,小红书技术团队与多模态、NLP、机器学习、推荐算法等领域的领军人物、专家学者进行了深入的交流与对话,试图从双视角进行探索和学习学术研究和小红书的实践经验。讨论有价值的技术问题。