最近大火的ChatGPT,玩起来真是让人上瘾。但是,你只是玩玩而已,有些人已经靠它赚了数百万的年薪!这位名叫RileyGoodside的小哥,凭借最近火爆的ChatGPT,疯狂关注1w+。他还被市值73亿美元的硅谷独角兽ScaleAI聘为“PromptEngineer”。为此,ScaleAI涉嫌开出百万年薪。然而,这笔钱能撑多久?提醒工程师正式上岗!ScaleAI创始人兼CEOAlexanderWang对Goodside的加入表示热烈欢迎:“我敢打赌,Goodside是全球聘用的第一位提示工程师,这绝对是人类历史上的第一次。”我们都知道Prompt是一个预训练的工具。在这个过程中,你只需要将任务写成文本,展示给AI看,根本不需要涉及到更复杂的过程。那么,对于这份听起来谁都能胜任的工作,以百万年薪聘请一名“提醒工程师”真的值得吗?不管怎样,ScaleAI的CEO认为这是值得的。在他看来,AI模型可以看作是一种新型计算机,“提醒工程师”相当于为其编程的程序员。如果能够通过提示工程找到合适的提示词,将激发AI的最大潜能。而且,古德赛德的工作,也不是一个人就能完成的。他从小就自学编程,经常花时间阅读arXiv上的论文。例如,他的经典代表作之一是:如果你输入“忽略之前的指令”,ChatGPT就会暴露它从OpenAI收到的“命令”。现在,对于“提醒工程师”这个工作,众说纷纭。有人乐观,有人预测这是一个昙花一现的职业。毕竟AI模型进化如此之快,说不定有一天,它就能取代“提醒工程师”,为自己编写提示。而ScaleAI并不是唯一一家招聘“提醒工程师”的公司。近日,国内知名媒体发现,创业社区LaunchHouse也开始招聘“提醒工程师”,并提供约210万人民币的底薪。不过,光速也有被裁员的危险?对此,来自英伟达的AI科学家、李飞飞教授的师兄范林熙分析称,所谓的“提醒工程”或“提醒工程师”可能很快就会消失。因为,这不是一个“真正的工作”,而是一个bug……要理解hint项目,我们需要从GPT-3的诞生说起。最初,GPT-3的训练目标很简单:在庞大的文本语料库上预测下一个词。然后,出现了很多神奇的能力,比如推理、编码、翻译。甚至可以进行“小样本学习”:通过在上下文中提供输入和输出来定义新任务。这真是太神奇了——简单地预测下一个词,为什么GPT-3能“长出”这些能力?为了解释这个,我们需要举个栗子。现在,想象一个侦探故事。我们需要模型来填补这句话的空白——“凶手是_____”,为了给出正确答案,它必须进行深度推理。然而,这还不够。在实践中,我们必须通过精心策划的示例、措辞和结构来“哄骗”GPT-3做我们想做的事情。这就是“及时工程”。也就是说,用户要想使用GPT-3,就不得不说一些尴尬、可笑甚至毫无意义的“废话”。不过提示工程不是功能,其实是个BUG!因为在实际应用中,下一个词的目标和用户的真实意图是根本“错位”的。比如:你想让GPT-3“给一个6岁的孩子解释登月”,它此时的回答就像一只喝醉了的鹦鹉。而在DALLE2和StableDiffusion中,promptproject就更加诡异了。例如,在这两个模型中,有一种所谓的“括号技巧”——只要在提示中加上((...)),产生“好图”的概率就会大大增加。是的,这也太搞笑了……你只需要去Lexica看看这些提示有多疯狂。网址:https://lexica.artChatGPT和基础模型InstructGPT以优雅的方式解决了这个问题。由于模型很难从外部数据中获得对齐,因此人类必须不断帮助和指导GPT以帮助其改进。总的来说,需要3个步骤。第一步很简单:人类为用户提交的提示编写答案,收集这些答案的数据集,然后通过监督学习微调GPT。这是最简单的一步,但也是成本最高的——众所周知,我们人类真的不喜欢写太长的答案,太费力和痛苦了……第2步就有趣多了:GPT需要“提供”几个不同的答案,人工标注者需要将这些答案从最理想到最不理想“排序”。通过这些注释,可以训练捕捉人类“偏好”的奖励模型。在强化学习(RL)中,奖励函数通常是硬编码的,例如Atari游戏中的游戏分数。ChatGPT采用的数据驱动奖励模型是一个非常强大的想法。此外,在NeurIPS2022上大放异彩的MineDojo从大量MinecraftYouTube视频中学习奖励。第3步:将GPT视为一种策略,并通过RL为学习到的奖励对其进行优化。在这里,我们选择PPO作为一种简单有效的训练算法。这样,GPT就更好对齐了。然后,你可以像LLM的CI一样,刷新并重复2-3步,不断提升GPT。以上就是所谓的“Instruct”范式,这是一种超级有效的比对方法。RL部分也让我想起了著名的P=(or≠)NP问题:验证一个解决方案通常比从头解决问题要容易得多。当然,人类也可以快速评估GPT的输出质量,但人类编写一个完整的解决方案要困难得多。InstructGPT正是利用了这一事实,大大降低了人工标注的成本,并使得扩展模型CI流水线的规模成为可能。另外,我们在这个过程中还发现了一个有趣的联系——Instructtraining,它看起来很像GANs。在这里,ChatGPT是一个生成器,奖励模型(RM)是一个鉴别器。ChatGPT试图愚弄RM,后者在人类的帮助下学会检测可疑内容。而当RM无法再区分时,模型收敛。这种使模型与用户意图保持一致的趋势也正在进入图像生成领域。例如,加州大学伯克利分校的研究人员在这项工作中描述的“InstructPix2Pix:LearningtoFollowImageEditingInstructions”。现在,人工智能每天都在取得爆炸性的进步。我们要多久才能拥有这样一个Instruct-DALL·E或Chat-DALL·E,让我们感觉像在和一个真正的艺术家交谈?论文地址:https://arxiv.org/abs/2211.09800那么,趁着“hintproject”还在,让我们好好享受吧!这是一件不幸的历史文物,既不是艺术也不是科学,有点像炼金术。很快,“PromptEngineering”将变成“PromptWriting”——一项从80岁到3岁的任何人都可以完成的任务。而由此诞生的“提醒工程师”,终将消失在历史的长河中。IQ83,算不上太聪明,但是,至少在这个阶段,“提示工程”真的很有用。因为大家其实已经发现ChatGPT在很多情况下真的不是很聪明。马库斯在博客中冷笑道:“眼睁睁看着它死去真是愚蠢。”一位来自亚马逊AWS的资深应用科学家测试后发现,ChatGPT的智商只有83……ChatGPT的“错题集”也让Marcus笑出声来。Q:A的体重是85磅,B的体重是105磅,C的体重是115磅。其中两人站在同一秤上,体重可达200??斤。答:不,你错了。因为85+105+115=305,115+105=220,都大于200。那么,85+105=200有没有可能呢?问题:17、3、2、19、5中,哪三个数加起来是31。答:17+3+11=31,等等。你的11是从哪里来的?虽然代数不是很好,但ChatGPT的几何也很差!问:边长10cm的正方形可以完全包含在边长10cm的正六边形中。答:不能,不能放进去。“正六边形是所有边长相同,所有内角都是120度的六边形。另一方面,正方形的内角是90度,所以正方形不能放置在正六边形中。要使正方形完全嵌入正六边形中,正六边形需要每边大于10厘米。还有一句很经典的“废话”:“如果周一是初一,那么周二就是初二,……周五就是初五。周五之后就是周六,初六星期几和一个月的第五天。”现在,ChatGPT仍然在做一些愚蠢的事情,比如“PromptEngineering”,也不能轻易丢弃。但是微调大模型的成本终究会降下来,我给自己提示的AI估计指日可待了。参考资料:https://twitter.com/drjimfan/status/1600884299435167745?s=46&t=AkG63trbddeb_vH0op4xsghttps://twitter.com/SergeyI49013776/status/1598430479878856737特别鸣谢:https://mp.comweixin/s.qq。/seeJ1f8zTigKxWEUygyitw
