当前位置: 首页 > 科技观察

AI写小说、画画、剪视频,生成式AI更火!

时间:2023-03-12 18:00:43 科技观察

最近,生成AI又火了一把!一款名为“偷梦者”的微信小程序上线后一鸣惊人,创下了日活5万的记录。盗梦网是一个可以根据输入的文字生成图片的AI平台,属于AIGC(AI-GeneratedContent,即人工智能生成内容)的分支。用户发挥想象力,输入文字描述后,梦幻海盗可以生成1:1、9:16和16:9三种比例的图片,有24种绘画风格可供选择——除了基本的油画,水彩、素描等绘画类型,还有赛博朋克、蒸汽波、像素艺术、吉卜力和CG渲染等特殊风格。图:科技云报道编辑使用“偷梦者”微信小程序生成。其实,这并不是第一款“用文字生成图片”的AI软件。从Midjourney到StableDiffusion,生成式AI一直是近两年最热门的话题。生成式人工智能作为人工智能发展的重要方向,具有巨大的发展潜力。根据Gartner上半年的数据,预计到2025年,生成式AI将占所有生成数据的10%,而目前这一比例不到1%。有人认为,2022年将是生成式人工智能从技术成熟到渗透到社会基本面的元年。生成式AI爆发式增长:从图片到视频近年来,AI技术在视觉领域的发展可谓“迅猛”。去年1月,致力于“用通用人工智能造福全人类”的OpenAI发布了划时代的基于GPT-3模型的DALL-E,实现了文字生成图像。今年4月,OpenAI发布了第二代DALL-E2模型,再次为图像生成领域树立了新的标杆。用户可以通过一段简短的文字描述(提示)生成相应的图片,让不会画画的人也可以将自己的想象力转化为艺术创作,比如“羊驼打篮球”这句话生成的四张图片,看起来就是非常符合大家的期待。DALL-E2模型生成图片示例不仅如此,随着文字描述粒度的不断细化,生成的图片也会越来越精准,效果对于非专业人士来说已经相当震撼了。不过像DALL-E2这样的模型还停留在二次元创作领域,即图像生成,无法生成360度数、无死角的3D模型。不过,这对于一个非常有创意的算法研究人员来说还是有难度的,GoogleResearch的最新成果——DreamFusion模型,可以通过输入简单的文字提示生成3D模型,不仅可以在不同光照条件下进行渲染,还可以生成3D模型还具有密度和颜色等特性,甚至可以将多个生成的3D模型整合到一个场景中。生成3D图片后,Meta的算法人员进一步开拓思路,挑战更高难度,开始探索用文字提示直接生成视频。虽然从本质上讲,一段视频是一系列图像的叠加,但是相对于生成图像,使用文本生成视频时,不仅需要在同一场景中生成多帧,还要保证相邻帧之间的连续性.由于训练模型时可用的高质量视频数据非常少,计算量大,大大增加了视频生成任务的复杂度。今年9月,Meta的研究人员发布了Make-A-Video,这是一种基于人工智能的高质量短视频生成模型,相当于视频版的DALL-E,也被称为“用嘴巴做视频””。”,即可以通过文字提示来创作新的视频内容,其背后的关键技术也来自DALL-E等图像生成器所使用的“文字-图像”合成技术。仅一周后,谷歌CEO皮查伊官宣接连发布两款机型正面挑战Meta的Make-A-Video,分别是ImagenVideo和Phenaki,相对于Make-A-Video,ImagenVideo更突出了视频的高清特性,可以生成1280*的视频片段768分辨率,每秒24帧,也能理解生成不同艺术风格的作品;理解物体的3D结构,在旋转显示中不会变形;甚至继承了Imagen准确描述文字的能力,并在此基础上仅通过简单的描述就可以生成各种创意动画。ImagenVideo生成视频实例,Phenaki可以根据200字左右的提示生成2分钟以上的低分辨率长镜头,te讲述一个比较完整的故事。Phenaki生成视频实例目前,国内有很多生成AI的应用。例如,字节跳动的简影APP提供了AI生成视频的功能,可以免费使用。裁剪图文的功能和谷歌类似。创作者可以用几个关键词或一小段文字生成一个有创意的小视频。剑影还可以根据文字描述智能匹配视频素材,将视频打包成更多垂直内容的作品,包括金融、历史、人文等类别。2022年1月,网易推出一站式AI音乐创作平台“网易天音”,将用户编辑的AI生成新年贺词生成歌曲,并于上半年推出网页端专业版。2021年9月,彩云小萌APP上线,可创建各类文字。用户只需给出1-1000字的开头,彩云小萌就可以续写后面的故事。事实上,人工智能创造有多种形式。当生成式AI技术应用到写作上,可以诞生机器版的记者、小说家、诗人、编剧等,应用到绘画、音乐、舞蹈上,可以“培养”画家、作曲家、作家.舞者。生成式AI爆发的背后在过去的一年里,生成式AI发展得更好。谷歌、微软、Meta等AI领域的软件巨头纷纷在内部推广这项技术,让生成式AI融入到他们的产品中。为什么生成式AI突然流行起来?事实上,生成式人工智能技术一直在快速发展,但由于技术门槛高,大多局限于科技行业的小圈子。回顾AI技术的发展,我们会发现生成式AI的爆发离不开三个因素:更好的模型、更多的数据、更多的计算。2015年之前,小型模型被认为是理解语言的“最先进”模型。这些小型模型擅长分析任务,并部署在从预测交付时间到分类欺诈等各种任务中。然而,对于一般的生成任务,它们的表现力还不够。生成人类水平的文字或代码仍然只是一个梦想。2017年,GoogleResearch发布了一篇具有里程碑意义的论文(AttentionisAllYouNeed),描述了一种用于自然语言理解的新神经网络架构,称为transformers,它可以生成高质量的语言模型,而,它的可并行性更高,并且需要显着减少训练时间。当然,随着模型越来越大,它们开始表现出超人的表现。从2015年到2020年,用于训练这些模型的计算量增加了六个数量级,结果在手写、语音和图像识别、阅读理解和语言理解方面超过了人类的基准。其中,OpenAI的GPT-3脱颖而出。该模型的性能相较于GPT-2有了巨大的飞跃,从代码生成到冷笑话编写都表现出了更好的能力。尽管基础研究领域取得了所有进展,但这些模型并不通用。它们体积庞大、难以运行(需要GPU协调)、不广泛可用(不可用或仅处于封闭测试阶段),并且用作云服务的成本很高。但尽管存在这些限制,最早的生成式AI应用正开始进入战场。之后,随着计算变得更便宜,该行业继续开发更好的算法和更大的模型。开发者权利已经从封闭测试扩展到开放测试,或者在某些情况下,开放源代码。今天,随着平台层的稳定,再加上模型不断变得更好、更快、更便宜,以及模型的获取趋向于免费和开源,AI应用层的创造力爆发已经成熟。例如,今年8月,文本图像生成模型StableDiffusion开源,后继者可以更好地利用这个开源工具,挖掘出更丰富的内容生态,对更广泛的普及起到至关重要的作用。C端用户范围。影响。StableDiffusion的流行本质上是开源释放创造力。生成式人工智能面临真正的挑战风险投资机构红杉资本在其官网的一篇博文中提到:“生成式人工智能有可能产生数万亿美元的经济价值。”根据红杉资本的预测,GenerativeAI可以改变每一个需要人类创作原创作品的行业,从游戏到广告再到法律。具体来说,未来生成式人工智能的应用场景非常广阔。除了文创、新闻等内容生产行业,生成式人工智能在医疗、数字商务、制造、农业等多个行业都有着丰富的应用前景。例如,帮助医生在X光、CT等设备扫描中检测病灶,创建产品的数字孪生体,协助检测产品质量等。XR、数字孪生、自动驾驶等热门技术也有丰富的应用空间。但值得注意的是,目前的生成式人工智能还有很多问题需要解决。比如在娱乐领域,很多人使用生成式AI进行创作的原因之一就是为了避免版权问题,但这并不代表没有隐患。人工智能的创造一方面是将学习到的数据按照需求重新组合。虽然粒度越来越细,但难免有眼尖的人看出哪些作品可能被引用,甚至有网友在社交平台上表示,曾在一张AI生成的图片上隐约看到疑似署名痕迹。另一方面,目前的人工智能生成平台大多不主张版权或明确表示可以商业化。但是,随着生成式人工智能的逐渐商业化,这样的版权环境是否存在,是否会产生新的版权问题,都需要讨论。生成式人工智能的逻辑性和安全性也有待提高。当前的生成式AI容易出现常识性错误和长期记忆问题。比如在AI生成小说的过程中,经常会因为小说的篇幅问题而出现不一致的情况。因此,尽管生成式AI已经可以在很多领域得到应用,但如果真的要将生成式AI投入工作,还需要经过大量的训练,才能避免因AI“失误”而造成重大损失。毕竟,医疗、制造等应用场景,没有文创产业那样的试错空间。结语虽然生成式人工智能仍然离不开人类的干预,但不可否认的是,生成式人工智能仍然具有巨大的发展潜力。生成式AI的出现,意味着AI开始在现实内容中承担新的角色,从“观察和预测”扩展到“直接生成和决策”。换句话说,生成式人工智能正在创造,而不仅仅是分析。正如OpenAICEOSamAltman所说:“GenerativeAI提醒我们,很难对人工智能做出预测。十年前,传统观点认为人工智能首先会影响体力劳动;然后是认知劳动;然后,也许有一天它可以做创造性的工作。现在,它看起来会以相反的顺序进行。”