最近,一位名叫XanderSteenbrugge的AI研究员和数字艺术家上传了一段非常震撼的视频《跨越时间之旅》。地球上的生物大进化,从原始海洋开始,到远古蜥蜴、恐龙、哺乳动物,再到猴子、猩猩、猿、智人……最后,出现了科幻小说中的未来世界。Steenbrugge也兴奋地评论道:我们正在跨过一个门槛,在这个门槛上,生成式人工智能不再只是新颖的美学,而是已经演变成一种令人惊叹的工具,可以构建强大的、以人为本的叙事。根据Steenbrugge的说法,该视频使用了36个连续的短语。为了找到可能的最佳序列,他尝试了超过一千种不同的提示和种子,并对代码应用了许多“提示工程”技巧,以确定哪些有效,哪些无效。前TeslaAI高级主管AndrejKarpathy看完后大吃一惊,忍不住跃跃欲试一波。“一个大脑形状的超现实蒸汽朋克神经网络机器,放在一个基座上,上面布满了由齿轮制成的神经元”,打完这段文字,他的杰作也生成了。一段2分钟的视频(在A100上渲染大约1小时),通过随机噪声馈送的模型之间的平滑插值生成。该模型称为稳定扩散,使用一种在两个句子的含义之间进行“插值”的方法。插入的地方是语义空间,而不是视觉空间,因此它极大地改变了故事的讲述方式。而这仅仅是由生成人工智能驱动的数字内容创作革命的开始。?稳定扩散:开源模型的里程碑自2021年初以来,可以根据文本描述生成图像的人工智能一直在快速发展。当时,OpenAI通过DALL-E1和CLIP展示了令人印象深刻的结果。2022年,OpenAI发布了令人印象深刻的DALL-E2,谷歌展示了Imagen和Parti,Midjourney推出了公测版,Craiyon在各种社交媒体上创建了AI图像。而就在最近,StabilityAI发布了一个全新的模型——StableDiffusion。不过,与DALL-E2不同的是,StableDiffusion可以生成OpenAI禁止的各种知名度。虽然像Midjourney、Pixelz.ai等系统也能做到,但他们一代的质量远比不上StableDiffusion,而且也不开源。现在请老朋友马斯克表演第二部《黑寡妇》(斯嘉丽·约翰逊)。显然,StabilityAI作为首席开发者,希望不止一个公司或团队能够训练StableDiffusion的变体。例如,您是一名没有海量GPU计算能力的研究人员。别担心,StableDiffusion很快就能在只有5.1GBVRAM的显卡上运行。再比如,如果你是一个经常使用搭载苹果M1芯片的MacBook的发烧友,StableDiffusion也可以运行。只是生成图像的时间会从几秒变成几分钟。多模态模型似乎正在遵循以前的大型语言模型所走的道路:摆脱单一供应商,并通过开源广泛提供众多替代方案。此外,Runway已经在研究如何基于StableDiffusion实现文本到视频的编辑。总之,让网球场变成沙滩;无论是电闪雷鸣,还是风吹日晒;无论是在月球上还是在火星上;它不会阻止我打网球......用计算加速基础AI的开源处于测试阶段,之后StableDiffusion将免费,代码和训练好的模型将作为开源发布。还将有一个带有Web界面的托管版本,供用户测试系统。StableDiffusion是StabilityAI、RunwayML、LMUMunich、EleutherAI和LAION的研究人员合作的结果。EleutherAI以其开源语言模型GPT-J-6B和GPT-NeoX-20B等而闻名。非营利组织LAION(大规模人工智能开放网络)使用开源LAION5B数据集提供训练数据,团队在初始测试阶段根据人类反馈进行过滤,以创建最终的LAION-Aesthetics训练数据集。Runway的PatrickEsser和慕尼黑大学的RobinRombach领导了该项目,该项目基于他们在海德堡大学CompVis小组的研究。在海德堡大学,他们创建了广泛使用的VQGAN和LatentDiffusion。这两个模型,加上OpenAI和GoogleBrain的成果,使得StableDiffusion成为可能。StabilityAI成立于2020年,其背后的资助者是数学家和计算机科学家EmadMostaque。他曾在多家对冲基金担任分析师。凭借StabilityAI和他的个人财富,Mostaque希望培育一个开源AI研究社区。他的创业公司此前曾支持创建“LAION5B”数据集。为了训练StableDiffusion的模型,StabilityAI为服务器提供了4,000个NvidiaA100GPU。“除了我们的75名员工,没有其他人拥有决策权——无论是亿万富翁、大型基金还是政府——我们是完全独立的,”Mostaque说。“我们计划用我们的计算来加速基础人??工智能的开源。”网友们除了前两个视频都在疯狂玩,还有网友用StableDiffusion生成老化动画。他说,在制作过程中改变长提示中的单词比短提示具有更微妙的效果。此外,使用描述,例如老年、中年和蹒跚学步,通常比说明特定年龄(例如10、40、80)更有效。此外,还有各种梦幻般的静态图片。《情人》《狮子》Leyendecker和Maxence的《黑色灵魂》《网络京剧》彩蛋感受特斯拉前人工智能与自动驾驶视觉总监AndrejKarpathy被虐的心路历程。看完大师制作的视频后,卡帕提非常激动。然后一波操作的结果放到幼儿园班级就不会觉得不听话了。走投无路的Karpathy表示,他想聘请一名“提醒工程师”为他创作。终于,Karpathy终于回过神来,创作了自己非常满意的新作——蒸汽朋克人工神经网络机器,还有蓝莓意面。
