当前位置: 首页 > 科技观察

硅谷押注,生成式AI火了,让你把简单文字变成图像甚至视频

时间:2023-03-21 21:24:49 科技观察

硅谷押注生成式AI大火,让您可以将简单的文本转换为图像甚至视频这种AI可以在几秒钟内从少量词汇中生成匹配的图像。分析师预计该技术将被广泛应用于各行各业,并产生数万亿美元的经济价值。虽然这些电脑程序生成的图像并不完美,比如手上出现多余的手指、四肢不自然的弯曲等等。同时,图像生成器在处理文本时也会遇到问题,比如生成无意义的符号等。然而,这些图像生成程序可能是技术繁荣的开始。硅谷风险投资公司NextViewVentures的投资人大卫贝塞尔说:“在过去三个月里,‘生成人工智能’这个词已经成为一个流行语。”从2021年开始,生成式AI技术取得了如此巨大的进步,甚至激发了许多人辞掉工作创办新公司,梦想着AI可以为新一代科技巨头提供动力的未来。在过去五年左右的时间里,人工智能领域一直在蓬勃发展,但其中大部分进步都与理解现有数据有关。AI模型已经变得足够高效,可以识别出某人刚用手机拍摄的照片中是否有猫。此外,这些模型足够可靠,每天可为谷歌搜索引擎提供数十亿条搜索结果。然而,生成式AI模型可以生成以前不存在的全新事物。换句话说,他们正在创造,而不仅仅是分析数据。人工智能和机器学习平台CraiyonProductiveAI的创建者BorisDayma说:“最令人印象深刻的是,生成式AI还可以创造新事物。它们不只是创造相似的旧事物。有了图像,你还可以创造与以前所做的完全不同的新事物。”硅谷知名风险投资公司红杉资本在其网站上发文称:“从游戏到广告再到法律,生成式人工智能可能会改变世界。所有需要人类创造力才能发挥作用的领域。这项技术有可能产生万亿美元的经济价值。”更有意思的是,红杉资本还在帖子中指出,其上述文章部分由GPT-3编写而成,后者本身就是一个能够生成文本的生成式AI。生成式AI的工作原理图像生成使用的技术来自机器学习的一个子集,称为深度学习。自2012年具有里程碑意义的图像分类论文重新点燃人们对该技术的兴趣以来,深度学习推动了人工智能的大部分进步。深度学习使用在大型数据集上训练的模型,直到程序理解该数据中的关系。然后,该模型可用于识别图片中是否有狗或翻译文本等应用。图像生成器通过反转此过程来工作。他们不是将英语翻译成法语,而是将英语短语翻译成图像。它们通常由两个主要部分组成,一个处理初始短语,另一个将数据转换为图像。第一部分,生成式AI,基于一种称为生成对抗网络(简称GAN)的方法。以前,这些GAN经常被用来生成不存在的人的照片。从本质上讲,它们的工作原理是让两个AI模型相互竞争,以更好地创建满足预定目标的图像。然而,较新的方法通常使用转换器,这是谷歌在2017年的一篇论文中首次提出的概念。这是一种新兴技术,可以利用更大的数据集,但其培训可能要花费数百万美元。第一个引起广泛关注的图像生成器是Dall-E,这是硅谷初创公司OpenAI于2021年推出的一个项目。OpenAI今年发布了一个更强大的更新。“有了Dall-E2,这真的是我们穿越恐怖谷的那一刻,”专注于生成AI的开发者ChristianCantrell说。另一个常用的基于AI的图像生成器是Craiyon,以前称为Dall-EMini,可在线获取。用户输入一个短语后,他们可以在几分钟内在浏览器中看到生成的图形。据人工智能和机器学习平台CraiyonProductiveAI的创建者Daima称,自2021年7月推出以来,Craiyon现在每天生成约1000万张图像,总计10亿张前所未见的图像。在今年早些时候使用量飙升之后,Daima将全力投入Craiyon。他说他专注于使用广告来保持用户免费,因为该网站的服务器成本很高。Craiyon是一个Twitter帐户,专门发布最怪异、最具创意的图片,拥有超过100万粉丝。但最能激发热情的项目是去年8月向公众发布的StableDiffusion。它的代码在GitHub上可用,可以在计算机上、云端或通过编程接口运行。这允许用户根据自己的目的调整程序代码,或在其之上构建新程序。例如,StableDiffusion通过一个插件集成到Adob??ePhotoshop中,允许用户生成背景和图像的其他部分,然后他们可以使用图层和其他PS工具在应用程序中直接操作,从制作成品图像的过程技术成为专业人士可以使用的工具。该插件的开发者坎特雷尔在Adob??e工作了20年之后于今年辞职,专注于生成人工智能。这位资深人士表示,该插件已被下载数万次。艺术家们告诉他,他们在无数他意想不到的地方使用了它,比如动画哥斯拉,或者以艺术家能想象到的任何姿势创造蜘蛛侠的形象。使用生成AI的新兴艺术是如何构建“提示”,即生成图像的短语。一个名为Lexica的搜索引擎可以将StableDiffusion的图像与可用于生成它们的确切单词串链接起来。Reddit和Discord等平台上有如何引导人们输入他们想要生成图像的短语的提示。初创企业、云服务提供商和芯片制造商可能会从中受益最多许多投资者将生成人工智能视为一个潜在的变革平台,就像智能??手机或互联网的早期阶段一样。这种转变极大地扩大了可能能够使用该技术的潜在市场规模。坎特雷尔认为,生成式人工智能类似于一种称为数据库的更基础的技术。“生成式人工智能有点像数据库,”他说,“数据库有助于释放应用程序的巨大潜力。我们生活中使用过的几乎所有应用程序都是建立在数据库之上的,但没有人关心一个数据库有用,他们只知道如何使用它。”CompoundVC管理合伙人迈克尔·登普西(MichaelDempsey)表示,一项以前仅限于实验室的技术进入主流的时刻“非常罕见”,吸引了很多风险投资者的关注,他们喜欢在潜力巨大的领域下注。但他警告说,生成式人工智能目前正处于接近炒作周期顶峰的“好奇阶段”。处于这个阶段的公司可能会失败,因为它们没有专注于企业或消费者愿意支付的特定用途。该领域的业内人士认为,今天开创这些技术的初创公司最终可能会挑战目前主导AI领域的软件巨头,包括谷歌、Facebook母公司Meta和微软,并为下一代科技巨头铺平道路。HuggingFace的CEOClementDelangue表示:“将会出现一大批价值数万亿美元的新公司,而这些初创公司将基于这项新技术。”类似于GitHub的开发者平台,托管预训练的AI模型,包括Craiyon和StableDiffusio。它的目标是让程序员更容易构建人工智能技术。一些公司获得了大量投资。HugingFace在今年早些时候从LuxCapital和SequoiaCapital等投资者那里筹集资金后估值为20亿美元。OpenAI是该领域最著名的初创公司,已从微软和KhoslaVentures获得超过10亿美元的资金。与此同时,StableDiffusion开发商StabilityAI正在洽谈以高达10亿美元的估值筹集风险投资。亚马逊、微软和谷歌等云服务提供商也可以从中受益,因为生成人工智能可能是计算密集型的。Meta和Google聘请了该领域的一些最优秀的人才,将这项先进技术融入公司的产品中。9月,Meta宣布了一项名为“Make-A-Video”的人工智能计划,通过生成视频而不仅仅是图像,将技术提升到一个新的水平。Meta首席执行官马克扎克伯格在他的Facebook页面上发帖称:“这是一个惊人的进步。生成视频比生成照片要难得多,因为除了让每个像素都正确之外,系统还必须预测它们将如何随时间变化”最近,谷歌还发布了一个名为Phenaki的程序的代码,该程序可以将文本转换为几分钟长的视频。这一热潮也可能会推动Nvidia、AMD和英特尔等芯片制造商的发展,它们的图形处理器非常适合训练和部署AI模型。在上周的会议上,Nvidia首席执行官黄仁勋强调了生成人工智能是该公司最新芯片的关键用途,并表示此类技术可能很快会彻底改变通信方式。然而,生成人工智能对最终用户的好处仍然有限。很多令人兴奋的这些这些天围绕着免费或低成本的实验展开。例如,一些作者已经尝试使用图像生成器为他们的文章制作插图。Nvidia正尝试使用这些模型生成新的人、动物、车辆或家具的3D图像,这些图像可以填充虚拟游戏世界。棘手的伦理问题最终,每个开发生成式AI的人都将不得不应对图像生成器带来的伦理问题。首先是就业问题。尽管许多程序需要强大的图形处理器,但计算机生成的内容仍然比专业插画师的时间成本要低得多,专业插画师的时薪可达数百美元。生成式人工智能可能会给艺术家、视频制作人和其他以工作为生的人带来大麻烦。CompoundVC管理合伙人MichaelDempsey表示:“事实证明,机器学习模型可能会变得比人类更好、更快、更便宜。”围绕原创性和所有权,生成式人工智能也将带来更复杂的挑战。AI模型是使用大量现有图像训练的,原始图像的创作者是否对以其原始风格生成的图像拥有版权仍在争论中。一位艺术家最近使用主要由名为MidJourney的生成AI创建的图像赢得了美国科罗拉多州的艺术比赛。他在获奖后接受采访时说,他从自己生成的数百张图片中选择了一张,然后在Photoshop中对其进行了调整和处理。StableDiffusion生成的一些图像似乎带有水印,这表明部分原始数据集受版权保护。一些提示指南建议用户使用特定的在世艺术家的名字,以便更好地模仿该艺术家的风格。上个月,出于对侵犯版权的担忧,GettyImages禁止用户将生成的AI图像上传到其库存图像数据库。ImageGenerator还可用于创建商标角色或对象的新图像,例如Minions、Marvel角色或《权力的游戏》的王座。随着图像生成软件变得更好,它也有可能诱使用户相信虚假信息,或者显示从未发生过的事件的图像或视频。开发人员还必须应对这样一种可能性,即基于大量数据训练的AI模型可能在数据中包含与性别、种族或文化相关的偏见,这可能导致模型在其输出中表现出此类偏见。HugingFace发表了关于伦理问题的材料和关于人工智能模型负责任开发的讨论。HuggingFace首席执行官ClementDeLange表示:“我们看到这些模型面临短期和直接的挑战,因为它们是概率模型,在大型数据集上进行训练,并且往往会吸收很多偏差。”该公司表示,GenerativeAI曾经被要求画一张“软件工程师”的照片,它生成了一张白人男性的图像。