过去的一年可以说是人工智能领域重要的一年,也可以算是AIGC的元年。
虽然AIGC这个概念由来已久,比如微软的聊天机器人小冰、用于图像创作的GAN等,但这个名字直到2016年才登上热搜,为人们所熟知。
重要原因是生成模型 Diffusion 和 chatGPT 分别在图像和自然语言生成领域大放异彩。
那么AIGC到底是个什么东西,生成模型为何能有如此大的号召力和影响力,又会给行业带来怎样的影响呢?AIGC:更低的成本、更丰富的信息,让AI从幕后走到台前。
AIGC是AI generated Content的缩写,是继PCG(Professional GC)和UGC(User GC)之后的一种新的内容生成方式。
在互联网时代早期,平台主要依靠聘请专业人员撰写内容来吸引用户。
这个模型被称为PGC。
PGC模式虽然可以保证内容质量,但输出效率低、成本高。
随着移动互联网的爆发,特别是近年来流媒体的升温,普通用户作为内容生产的主体,信息的发布和流通发生了巨大的变化。
UGC已经开始成为平台内容的主要来源,但也存在质量和品质的差异。
内容成本高等问题。
与PGC和UGC相比,AIGC的崛起可以说是又一次颠覆性的改变。
它使内容生成变得简单且富有创意,成本更低,信息更丰富。
基于扩散生成的图像堪比专业艺术家的图像,而chatGPT的知识整合能力、上下文理解能力、跨领域支持也给人一种强人工智能即将来临的“错觉”。
AIGC确实意味着AI突然从传统后台业务进入前台,成为内容生产者。
此前,AI主要扮演幕后筛选和推荐的角色。
然而,随着新技术的出现,人工智能不再单纯是我们的助手,而可能逐渐成为我们的伙伴甚至指南。
AIGC如何让人工智能从“人工迟钝”走向“人工智能”?事实上,AIGC强大的“内容能力”背后隐藏着三种力量:大模式、多模态和开源。
首先是大模型。
此前,主流人工智能技术主要使用特定场景训练的小模型。
这种技术路线往往包括几个基础模型(类似于执行特定任务的程序),可以满足特定领域交互的需求。
但如果要添加新功能,就必须训练新模型。
结果,如果你问一些非常规的问题,人工智能就会变得人为迟钝。
但以开放AI为代表的新技术路线从一开始就采用了千亿参数的大模型训练。
作为GPT3的升级版本,chatGPT的参数估计超过1亿。
这种训练成本较高,但在理解需求时更容易接近人类的思维方式,因为人脑是一个由无数神经元连接起来的非常大的网络。
(聊天GPT采用的是典型的大模型训练方式,训练成本极高,但不断迭代后效果更好。
)第二是多模态。
OpenAI推出的CLIP以及基于该技术的扩散模型在生成领域开辟了一条新的便捷路线——多模态融合产生比以往技术更自然、更准确的内容。
除了技术创新之外,CLIP超过40亿的训练数据也印证了模型效果与海量数据之间的强相关性。
另一件事是开源。
开源一直是AI技术文化的一部分。
开源的影响是巨大的。
例如,GAN 及其变体在 AI 领域的持续活跃就是开源的直接结果。
开源也赋予了技术商业化的能力。
比如稳定扩散的开源,让进入门槛高的领域变得普通人可以接触到,也让缺乏相关能力的中小企业可以在此基础上进行后续的二次开发。
AIGC引领了行业的巨大变革:从文字、代码、图片到视频,chatGPT 在外部测试和商业化计划中取得的惊人成绩,为人们提供了很大的想象空间。
对于大型预训练模型来说,只有领先的科技公司才能提供如此多的数据和资源支持。
他们堪称AIGC的基石和平台。
基于平台的垂直开发和业务应用蕴藏着巨大的潜力。
这种潜力将为各行各业带来深刻的变化。
预训练大型模型可以提高模型的通用性,让企业和用户低门槛使用顶尖的AI技术。
随着未来的发展,与工业技术的融合可以大大提高工业化水平,形成流水线生产,最终形成“基础层-中间层-应用层”三级王牌结构。
这种可喜的效果相当于现在的成熟的“云服务-小微企业-用户”公有云体系,AIGC最直接的影响是在消费领域,从文本生成、图像生成到视频生成、游戏生成这些都是我们拥有的新业态。
AIGC文字交互的形式原生匹配以客服聊天、新闻写作等为中心的场景。
在给定场景和提示的前提下,基于大模型的垂直领域优化可以轻松完成这种结构化文本生成,例如财经新闻、体育简报、在线客服问答等。
交互式文本可能会在游戏开发中取得突破,例如如与NPC角色的个性化互动、与灵宠的交流互动等,直接提升游戏体验。
当然,在一些具有较长语境联系、情感融合和艺术表达需求的创意文本的写作中,如小说、剧本等,需要更大的定制化和模型更高生成能力的支持。
在图像领域,图像编辑已经有了较多的技术支持和实践,比如滤镜、颜色、纹理、风格、分辨率调整等都比较成熟。
Deepfake曾经名噪一时,如今被称为DALL.E-2,以Diffusion和Midjourney为代表的稳定的Diffusion产品让完整的图像生成更加令人印象深刻。
扩散在图像领域带来的突破也让其在其他领域找到了一席之地,比如视频、语音生成、3D点云填充等,其中语音合成TTS已经取得了初步成果。
未来,文本配音、基于文本的自动填字、基于文本创作的自动配音的实现,将更大程度地降低创作领域的门槛,实现AI也是艺术家。
但我们也必须看到,生成图像的稳定性和质量仍有待提高。
虽然生成的图像在抽象绘画风格中表现良好,但在复制现实时,尤其是在生成多个物体时,仍然存在明显的伪造痕迹。
除了图像之外,真正能给消费领域带来大改变的就是视频领域。
视频的表现力和视觉冲击力将远远大于文字,尤其是在短视频领域。
利用AI技术实现图像修复技术、主体识别技术、视频跟踪、美化技术提升画质效果,根据风格、色彩、图片等多模态信息自动识别视频关键内容并进行关键帧处理,以及视频中的音频。
截取、剪辑合成,以及后续自动生成视频内容,都是AIGC在视频领域探索的机会。
事实上,在上述领域,产业探索正在高速进行。
野卡(3.HK)AI Lab在AIGC领域做出了一些成功的尝试。
首先,在内容生成方面,夜卡结合自身数据和千千汇平台资源,探索推出了一套自有的针对餐饮娱乐行业的商户产品文案推广的AI生成工具。
商家可以根据店内产品的简要描述,一键生成可读的促销文案。
这大大降低了商家创作文案和产品推广的难度,提高了产品推广和运营效率。
在视频领域,我们还为商家打造了AI视频云剪辑工具,帮助他们降低制作热门视频的难度。
通过对商家或专家拍摄的视频进行自动识别、关键帧提取、编辑拼接、特效打包,可一键编辑多个视频。
效果接近手工剪辑的水平,大大减少了商家制作和推广视频的需要。
门槛要求。
未来,随着数据量的增加,编辑效果会越来越好。
除了传统的消费领域,AIGC还将给实体和工业领域带来许多颠覆性的改变。
三维物体和空间的重建是二维世界和物理三维世界之间的重要纽带。
传统基于SLAM和3D点云重建技术的主要问题是采集效率低、精度有限。
基于扩散技术,进行了三维点云填充的尝试。
虽然由于点云数据量小、采样精度低、物体材质判断困难等原因,效果仍难以达到预期,但作为一种新的低成本重建方法,前景仍然十分看好。
如果3D建模技术能够通过AIGC实现突破,高效解决三维物体的自动重建功能,将会引起整个行业的变革,大幅提升效率。
总体而言,大多数行业将进入颠覆和变革时期。
对于AIGC的发展,红杉资本去年9月也做出了预测:文字类AIGC将在2020年进入黄金期,图片类AIGC将在2020年左右进入黄金期,3D、视频类AIGC将在2020年进入黄金期。
2020年左右,人工智能将进入黄金期,这一年将是变革的顶峰。
当然,任何技术都是一把双刃剑。
除了技术应用之外,AIGC的安全、道德、版权也值得业界深思。
技术在法律之外也没有地位。
技术滥用、歧视以及材料和产品的版权需要共同规范来确保行业的健康发展。
AIGC是真正赋予人工智能自主创造能力的起点。
虽然看起来还是有很多缺陷,但确实给人很大的期待。
未来随着GPT4的推出,相信会对人们产生更大的影响。
或许人类与人工智能之间一直存在的图灵测试将会被打破。
到那时,科幻电影中的强人工智能可能离我们的现实还很遥远。
没那么远。