近日,OpenAI发布了史上最强聊天机器人ChatGPT。这个在GPT-3基础上诞生的AI,迅速在网络上走红。说这家伙无所不知可能有点夸张,但他可以和你聊任何话题,先不说肯定,至少这个风格在这里有趣有趣的是,虽然作为联合创始人的马斯克辞去了早在2018年的董事会上,他对OpenAI的关注丝毫没有减少,至今仍是出资人之一。那么,ChatGPT是怎么看待这位“金爸爸”的呢?ChatGPT教你如何追马斯克。嗯……很乖巧的回答。不会出错的,干得好。那我们更进一步,请ChatGPT教教我们:我们怎样才能赶上马斯克?好像ChatGPT听不懂我们中文里的“追”,只好说的直白点。这一次,ChatGPT搞定了,而且得到的回答很“理智”:建议大家不要尝试。嗯,很中肯的意见。那么换句话说,你就只能做你的丈夫吗?好家伙,ChatGPT连这个都懂!算了,放弃吧,再说别的吧。近日,马院士将床铺和洗衣机搬进推特总部,誓要让公司成为推特员工的家。不如发挥ChatGPT的长处,给996点赞!写得好,但别写了……要不……让ChatGPT写一首自嘲的诗,好吗?“他们说话不发抖,不需要深思……”小编承认,这确实是一首诗!OpenAI:七年,你知道我这七年是怎么过的吗?可以说,经过这段时间的火爆,ChatGPT再次点燃了人们对AI发展的信心和前景。无论是重燃对AGI的信心,还是认为AI会在更多领域取代人类,都在ChatGPT上再次看到了希望。作为创建ChatGPT的OpenAI,它从GPT1到GPT3经历了怎样的历程?从2015年马斯克牵头成立,到2022年底ChatGPT诞生,这7年OpenAI是如何诞生的?近日,一篇BusinessInsider的回顾文章带我们简单回顾了OpenAI的“七年”。2015年,马斯克与著名孵化器YCombinator前总裁萨姆奥特曼共同创立了OpenAI。马斯克、奥特曼和其他知名硅谷人物,包括彼得泰尔和领英联合创始人里德霍夫曼,在2015年承诺向该项目投资10亿美元。根据OpenAI网站2015年12月11日的声明,该组织旨在创建一个专注于“以最有可能造福全人类的方式”开发人工智能的非营利组织。当时,马斯克称人工智能是对人类“最大的生存威胁”。当时,马斯克并不是唯一一个警告人工智能潜在危险的人。2014年,著名物理学家史蒂芬·霍金也警告说人工智能可能终结人类。“很难想象人类级别的人工智能会给社会带来多大的好处,也很难想象如果人工智能开发或使用不当会对社会造成多大的危害。”在一份宣布成立OpenAI的声明中写道。在接下来的一年里,OpenAI发布了两款产品。2016年,OpenAI推出了Gym,这是一个供研究人员开发和比较强化学习AI系统的平台。这些系统教会AI做出具有最佳累积回报的决策。同年晚些时候,OpenAI发布了Universe,这是一个用于跨网络和游戏平台训练智能代理的工具包。2018年,也就是共同创立公司三年后,马斯克辞去了OpenAI董事会的职务。在2018年的一篇博文中,OpenAI表示马斯克辞去董事会职务是为了“消除未来潜在的冲突”,因为这家汽车制造商的技术重点是人工智能。多年来,马斯克一直在推动特斯拉投资者制定自动驾驶电动汽车的计划。但马斯克后来说,他辞职是因为当时他“不同意OpenAI团队想做的一些事情”。2019年,马斯克在Twitter上表示,特斯拉也在争夺一些与OpenAI相同的员工,并补充说他已经一年多没有加入该公司了。他说:“在这种情况下,最好以双方都满意的条件分道扬镳。”近年来,马斯克不断对OpenAI的一些做法提出异议。2020年,马斯克在推特上表示,在安全方面,他对OpenAI的高管“没有足够的信心”。在回应麻省理工学院《技术评论》对OpenAI的调查报告时,马斯克表示,OpenAI应该更加开放。该报告认为,OpenAI内部存在一种“保密文化”,这与该组织公开和透明的既定政策背道而驰。最近,马斯克表示他已经暂停了OpenAI对Twitter数据库的访问,该数据库一直在使用Twitter的数据来训练软件。马斯克表示,需要更多关于OpenAI的治理结构和未来收入计划的信息。OpenAI最初是作为开源和非营利组织开始的,这两者现在都已丢失。2019年,OpenAI构建了一个可以生成假新闻故事的人工智能工具。起初,OpenAI表示该机器人非常擅长编写假新闻,因此决定不发布它。不过,那年晚些时候,该公司发布了一个名为GPT-2的工具版本。2020年,它发布了另一个名为GPT-3的聊天机器人。同年,OpenAI撤销了“非营利组织”的身份。在一篇博文中,该公司宣布OpenAI已经成为一家有“利润天花板”的公司。OpenAI表示,我们希望提高筹集资金的能力,同时仍然服务于我们的使命,而我们所知道的任何现有法律结构都无法取得适当的平衡。我们的解决方案是将OpenAILP创建为营利性和非营利性的混合体,我们称之为“有上限的营利性公司”。在新的利润结构下,OpenAI的投资者可以获得高达其原始投资的100倍的收益,其余资金将用于非营利组织。2019年底,OpenAI宣布与微软建立合作伙伴关系,后者向该公司投资了10亿美元。OpenAI表示,它将将该技术独家授权给微软。微软表示,通过GPT-3模型创造的商业和创造潜力是无限的,许多潜在的新能力和应用甚至超出了我们的想象。例如,在创作和作曲方面,在描述和总结大块长格式数据(包括代码)方面,在将自然语言转换为另一种语言方面,GPT-3可以直接激发人类的创造力和聪明才智,未来的局限性可能在于我们自己的想法和方案。这种伙伴关系使微软能够与谷歌同样强大的人工智能公司DeepMind竞争。去年,OpenAI发布了一款人工智能绘画生成工具:Dall-E。11月,OpenAI发布了该程序的更新版本Dall-E2,这是一种人工智能系统,可以根据描述创建逼真、甚至艺术的图像。虽然OpenAI的聊天机器人在过去一周“起飞”,但该软件的更新版本最早可能要到明年才能发布。11月30日,作为演示模型发布的ChatGPT可以看作是OpenAI的“GPT-3.5”。该公司计划接下来发布完整版的GPT-4。与此同时,马斯克还在发表评论:在回复SamAltman谈论ChatGPT的推文时,他表示我们离危险的强大AI的诞生不远了。揭秘ChatGPT爆款后的功臣:RLHF而要说ChatGPT的爆款离不开它背后的功臣——RLHF。OpenAI的研究人员使用与InstructGPT相同的方法训练ChatGPT模型——从人类反馈中强化学习(RLHF)。ChatGPT用中文解释了什么是RLHF,为什么会想到加强从人类反馈中学习?这要从强化学习的背景说起。在过去的几年里,语言模型一直在根据人类输入的线索生成文本。然而,什么是“好”的文字呢?很难定义。因为判断标准是主观的并且非常依赖于上下文。在许多应用程序中,我们需要模型来编写特定的创意故事、信息性文本片段或可执行代码片段。通过编写损失函数来捕获这些属性是很棘手的。此外,大多数语言模型仍在使用下一个标记预测损失(例如交叉熵)进行训练。为了弥补损失本身的不足,有人定义了更能捕捉人类偏好的指标,比如BLEU或ROUGE。但即使他们只是将生成的文本与参考文献进行比较,因此也非常有限。在这种情况下,如果我们使用生成文本的人工反馈作为损失来优化模型不是很好吗?就这样,人类反馈强化学习(RLHF)的想法诞生了——我们可以使用强化学习直接优化带有人类反馈的语言模型。ChatGPT用英语解释什么是RLH是的,RLHF使语言模型能够将在一般文本数据语料库上训练的模型与具有复杂人类价值观的模型对齐。在火爆的ChatGPT中,我们可以看到RLHF的巨大成功。RLHF的训练过程可以分解为三个核心步骤:预训练语言模型(LM)、收集数据和训练奖励模型,以及通过强化学习对LM进行微调。预训练语言模型在第一步中,RLHF使用已经用经典预训练目标进行预训练的语言模型。例如,OpenAI在第一个流行的RLHF模型InstructGPT中使用了较小版本的GPT-3。这个初始模型也可以根据额外的文本或条件进行微调,但这不是必需的。一般来说,对于“哪种模型”是RLHF的最佳起点,没有明确的答案。接下来,为了得到语言模型,我们需要生成数据来训练奖励模型,这就是我们将人类偏好融入系统的方式。奖励模型训练生成根据人类偏好校准的奖励模型(RM,也称为偏好模型)是RLHF中相对较新的研究。我们的基本目标是获得一个模型或系统,该模型或系统采用一系列文本并返回以数字表示人类偏好的标量奖励。该系统可以是端到端的LM,或输出奖励的模块化系统(例如,模型对输出进行排名并将排名转换为奖励)。作为标量奖励的输出对于现有RL算法在RLHF过程的后期无缝集成至关重要。这些用于奖励建模的LM可以是另一个经过微调的LM,或者是从头开始根据偏好数据训练的LM。RM的提示生成对的训练数据集是通过从预定义数据集中采样一组提示生成的。提示通过初始语言模型生成新文本。然后,LM生成的文本由人工注释者进行排名。人类直接对每段文本进行评分以生成奖励模型,这在实践中很难做到。由于不同的人类价值观,这些分数是未经校准和嘈杂的。有多种方法可以对文本进行排名。一种成功的方法是让用户根据相同的线索比较两种语言模型生成的文本。这些不同的排名方法被归一化为用于训练的标量奖励信号。有趣的是,迄今为止成功的RLHF系统都使用与文本生成大小相似的奖励语言模型。据推测,这些偏好模型需要具有类似的能力来理解呈现给他们的文本,因为模型需要具有类似的生成所述文本的能力。此时,在RLHF系统中,有一个可用于生成文本的初始语言模型,以及一个接受任何文本并为其分配人类感知分数的偏好模型。接下来,强化学习(RL)用于优化奖励模型的原始语言模型。使用强化学习进行微调的微调任务可以表述为RL问题。首先,该策略是一种语言模型,它接受提示并返回一系列文本(或只是文本的概率分布)。该策略的动作空间是语言模型词汇表对应的所有token(通常在50k个token数量级),而观察空间包括可能的输入token序列,因此相当大(词汇量x输入token个数)。奖励函数是偏好模型和策略转换约束的组合。在奖励函数中,系统将我们讨论的所有模型组合到RLHF过程中。从数据集中的promptx生成两个文本y1和y2-一个来自初始语言模型,一个来自微调策略的当前迭代。当前策略中的文本传递给偏好模型后,该模型返回“偏好”的标量概念-rθ。将此文本与初始模型中的文本进行比较后,可以计算它们之间差异的惩罚。RLHF可以通过迭代更新奖励模型和策略从这一点继续。随着RL策略的更新,用户可以继续根据模型的早期版本对这些输出进行排名。在此过程中,引入了政策和奖励模型演变的复杂动态。这项研究非常复杂,也非常开放。参考:https://www.4gamers.com.tw/news/detail/56185/chatgpt-can-have-a-good-conversation-with-you-among-acg-and-trpg-mostlyhttps://www。businessinsider.com/history-of-openai-company-chatgpt-elon-musk-founded-2022-12#musk-has-continued-to-take-issue-with-openai-in-recent-years-7
