这个模型让前特斯拉AI总监AndrejKarpathy痴迷了三天！

时间：2023-03-20 20:28:29 科技观察

最近，一位名叫XanderSteenbrugge的AI研究员和数字艺术家上传了一段非常震撼的视频《跨越时间之旅》。地球上的生物大进化，从原始海洋开始，到远古蜥蜴、恐龙、哺乳动物，再到猴子、猩猩、猿、智人……最后，出现了科幻小说中的未来世界。Steenbrugge也兴奋地评论道：我们正在跨过一个门槛，在这个门槛上，生成式人工智能不再只是新颖的美学，而是已经演变成一种令人惊叹的工具，可以构建强大的、以人为本的叙事。根据Steenbrugge的说法，该视频使用了36个连续的短语。为了找到可能的最佳序列，他尝试了超过一千种不同的提示和种子，并对代码应用了许多“提示工程”技巧，以确定哪些有效，哪些无效。前TeslaAI高级主管AndrejKarpathy看完后大吃一惊，忍不住跃跃欲试一波。“一个大脑形状的超现实蒸汽朋克神经网络机器，放在一个基座上，上面布满了由齿轮制成的神经元”，打完这段文字，他的杰作也生成了。一段2分钟的视频（在A100上渲染大约1小时），通过随机噪声馈送的模型之间的平滑插值生成。该模型称为稳定扩散，使用一种在两个句子的含义之间进行“插值”的方法。插入的地方是语义空间，而不是视觉空间，因此它极大地改变了故事的讲述方式。而这仅仅是由生成人工智能驱动的数字内容创作革命的开始。?稳定扩散：开源模型的里程碑自2021年初以来，可以根据文本描述生成图像的人工智能一直在快速发展。当时，OpenAI通过DALL-E1和CLIP展示了令人印象深刻的结果。2022年，OpenAI发布了令人印象深刻的DALL-E2，谷歌展示了Imagen和Parti，Midjourney推出了公测版，Craiyon在各种社交媒体上创建了AI图像。而就在最近，StabilityAI发布了一个全新的模型——StableDiffusion。不过，与DALL-E2不同的是，StableDiffusion可以生成OpenAI禁止的各种知名度。虽然像Midjourney、Pixelz.ai等系统也能做到，但他们一代的质量远比不上StableDiffusion，而且也不开源。现在请老朋友马斯克表演第二部《黑寡妇》（斯嘉丽·约翰逊）。显然，StabilityAI作为首席开发者，希望不止一个公司或团队能够训练StableDiffusion的变体。例如，您是一名没有海量GPU计算能力的研究人员。别担心，StableDiffusion很快就能在只有5.1GBVRAM的显卡上运行。再比如，如果你是一个经常使用搭载苹果M1芯片的MacBook的发烧友，StableDiffusion也可以运行。只是生成图像的时间会从几秒变成几分钟。多模态模型似乎正在遵循以前的大型语言模型所走的道路：摆脱单一供应商，并通过开源广泛提供众多替代方案。此外，Runway已经在研究如何基于StableDiffusion实现文本到视频的编辑。总之，让网球场变成沙滩；无论是电闪雷鸣，还是风吹日晒；无论是在月球上还是在火星上；它不会阻止我打网球......用计算加速基础AI的开源处于测试阶段，之后StableDiffusion将免费，代码和训练好的模型将作为开源发布。还将有一个带有Web界面的托管版本，供用户测试系统。StableDiffusion是StabilityAI、RunwayML、LMUMunich、EleutherAI和LAION的研究人员合作的结果。EleutherAI以其开源语言模型GPT-J-6B和GPT-NeoX-20B等而闻名。非营利组织LAION（大规模人工智能开放网络）使用开源LAION5B数据集提供训练数据，团队在初始测试阶段根据人类反馈进行过滤，以创建最终的LAION-Aesthetics训练数据集。Runway的PatrickEsser和慕尼黑大学的RobinRombach领导了该项目，该项目基于他们在海德堡大学CompVis小组的研究。在海德堡大学，他们创建了广泛使用的VQGAN和LatentDiffusion。这两个模型，加上OpenAI和GoogleBrain的成果，使得StableDiffusion成为可能。StabilityAI成立于2020年，其背后的资助者是数学家和计算机科学家EmadMostaque。他曾在多家对冲基金担任分析师。凭借StabilityAI和他的个人财富，Mostaque希望培育一个开源AI研究社区。他的创业公司此前曾支持创建“LAION5B”数据集。为了训练StableDiffusion的模型，StabilityAI为服务器提供了4,000个NvidiaA100GPU。“除了我们的75名员工，没有其他人拥有决策权——无论是亿万富翁、大型基金还是政府——我们是完全独立的，”Mostaque说。“我们计划用我们的计算来加速基础人??工智能的开源。”网友们除了前两个视频都在疯狂玩，还有网友用StableDiffusion生成老化动画。他说，在制作过程中改变长提示中的单词比短提示具有更微妙的效果。此外，使用描述，例如老年、中年和蹒跚学步，通常比说明特定年龄（例如10、40、80）更有效。此外，还有各种梦幻般的静态图片。《情人》《狮子》Leyendecker和Maxence的《黑色灵魂》《网络京剧》彩蛋感受特斯拉前人工智能与自动驾驶视觉总监AndrejKarpathy被虐的心路历程。看完大师制作的视频后，卡帕提非常激动。然后一波操作的结果放到幼儿园班级就不会觉得不听话了。走投无路的Karpathy表示，他想聘请一名“提醒工程师”为他创作。终于，Karpathy终于回过神来，创作了自己非常满意的新作——蒸汽朋克人工神经网络机器，还有蓝莓意面。

上一篇：你只知道熊猫吗？数据科学家不能错过的24个Python库（下）

下一篇：无处不在：德国的FunkMedia遭遇全国性勒索软件攻击

这个模型让前特斯拉AI总监AndrejKarpathy痴迷了三天！相关文章