当前位置: 首页 > 科技赋能

野卡AI实验室詹毅:AIGC将人工智能从幕后带到台前,将带来行业颠覆和变革!

时间:2024-05-19 16:49:52 科技赋能

过去的一年可以说是人工智能领域重要的一年,也可以算是AIGC的元年。

虽然AIGC这个概念由来已久,比如微软的聊天机器人小冰、用于图像创作的GAN等,但这个名字直到2016年才登上热搜,为人们所熟知。

重要原因是生成模型 Diffusion 和 chatGPT 分别在图像和自然语言生成领域大放异彩。

那么AIGC到底是个什么东西,生成模型为何能有如此大的号召力和影响力,又会给行业带来怎样的影响呢?AIGC:更低的成本、更丰富的信息,让AI从幕后走到台前。

AIGC是AI generated Content的缩写,是继PCG(Professional GC)和UGC(User GC)之后的一种新的内容生成方式。

在互联网时代早期,平台主要依靠聘请专业人员撰写内容来吸引用户。

这个模型被称为PGC。

PGC模式虽然可以保证内容质量,但输出效率低、成本高。

随着移动互联网的爆发,特别是近年来流媒体的升温,普通用户作为内容生产的主体,信息的发布和流通发生了巨大的变化。

UGC已经开始成为平台内容的主要来源,但也存在质量和品质的差异。

内容成本高等问题。

与PGC和UGC相比,AIGC的崛起可以说是又一次颠覆性的改变。

它使内容生成变得简单且富有创意,成本更低,信息更丰富。

基于扩散生成的图像堪比专业艺术家的图像,而chatGPT的知识整合能力、上下文理解能力、跨领域支持也给人一种强人工智能即将来临的“错觉”。

AIGC确实意味着AI突然从传统后台业务进入前台,成为内容生产者。

此前,AI主要扮演幕后筛选和推荐的角色。

然而,随着新技术的出现,人工智能不再单纯是我们的助手,而可能逐渐成为我们的伙伴甚至指南。

AIGC如何让人工智能从“人工迟钝”走向“人工智能”?事实上,AIGC强大的“内容能力”背后隐藏着三种力量:大模式、多模态和开源。

首先是大模型。

此前,主流人工智能技术主要使用特定场景训练的小模型。

这种技术路线往往包括几个基础模型(类似于执行特定任务的程序),可以满足特定领域交互的需求。

但如果要添加新功能,就必须训练新模型。

结果,如果你问一些非常规的问题,人工智能就会变得人为迟钝。

但以开放AI为代表的新技术路线从一开始就采用了千亿参数的大模型训练。

作为GPT3的升级版本,chatGPT的参数估计超过1亿。

这种训练成本较高,但在理解需求时更容易接近人类的思维方式,因为人脑是一个由无数神经元连接起来的非常大的网络。

(聊天GPT采用的是典型的大模型训练方式,训练成本极高,但不断迭代后效果更好。

)第二是多模态。

OpenAI推出的CLIP以及基于该技术的扩散模型在生成领域开辟了一条新的便捷路线——多模态融合产生比以往技术更自然、更准确的内容。

除了技术创新之外,CLIP超过40亿的训练数据也印证了模型效果与海量数据之间的强相关性。

另一件事是开源。

开源一直是AI技术文化的一部分。

开源的影响是巨大的。

例如,GAN 及其变体在 AI 领域的持续活跃就是开源的直接结果。

开源也赋予了技术商业化的能力。

比如稳定扩散的开源,让进入门槛高的领域变得普通人可以接触到,也让缺乏相关能力的中小企业可以在此基础上进行后续的二次开发。

AIGC引领了行业的巨大变革:从文字、代码、图片到视频,chatGPT 在外部测试和商业化计划中取得的惊人成绩,为人们提供了很大的想象空间。

对于大型预训练模型来说,只有领先的科技公司才能提供如此多的数据和资源支持。

他们堪称AIGC的基石和平台。

基于平台的垂直开发和业务应用蕴藏着巨大的潜力。

这种潜力将为各行各业带来深刻的变化。

预训练大型模型可以提高模型的通用性,让企业和用户低门槛使用顶尖的AI技术。

随着未来的发展,与工业技术的融合可以大大提高工业化水平,形成流水线生产,最终形成“基础层-中间层-应用层”三级王牌结构。

这种可喜的效果相当于现在的成熟的“云服务-小微企业-用户”公有云体系,AIGC最直接的影响是在消费领域,从文本生成、图像生成到视频生成、游戏生成这些都是我们拥有的新业态。

AIGC文字交互的形式原生匹配以客服聊天、新闻写作等为中心的场景。

在给定场景和提示的前提下,基于大模型的垂直领域优化可以轻松完成这种结构化文本生成,例如财经新闻、体育简报、在线客服问答等。

交互式文本可能会在游戏开发中取得突破,例如如与NPC角色的个性化互动、与灵宠的交流互动等,直接提升游戏体验。

当然,在一些具有较长语境联系、情感融合和艺术表达需求的创意文本的写作中,如小说、剧本等,需要更大的定制化和模型更高生成能力的支持。

在图像领域,图像编辑已经有了较多的技术支持和实践,比如滤镜、颜色、纹理、风格、分辨率调整等都比较成熟。

Deepfake曾经名噪一时,如今被称为DALL.E-2,以Diffusion和Midjourney为代表的稳定的Diffusion产品让完整的图像生成更加令人印象深刻。

扩散在图像领域带来的突破也让其在其他领域找到了一席之地,比如视频、语音生成、3D点云填充等,其中语音合成TTS已经取得了初步成果。

未来,文本配音、基于文本的自动填字、基于文本创作的自动配音的实现,将更大程度地降低创作领域的门槛,实现AI也是艺术家。

但我们也必须看到,生成图像的稳定性和质量仍有待提高。

虽然生成的图像在抽象绘画风格中表现良好,但在复制现实时,尤其是在生成多个物体时,仍然存在明显的伪造痕迹。

除了图像之外,真正能给消费领域带来大改变的就是视频领域。

视频的表现力和视觉冲击力将远远大于文字,尤其是在短视频领域。

利用AI技术实现图像修复技术、主体识别技术、视频跟踪、美化技术提升画质效果,根据风格、色彩、图片等多模态信息自动识别视频关键内容并进行关键帧处理,以及视频中的音频。

截取、剪辑合成,以及后续自动生成视频内容,都是AIGC在视频领域探索的机会。

事实上,在上述领域,产业探索正在高速进行。

野卡(3.HK)AI Lab在AIGC领域做出了一些成功的尝试。

首先,在内容生成方面,夜卡结合自身数据和千千汇平台资源,探索推出了一套自有的针对餐饮娱乐行业的商户产品文案推广的AI生成工具。

商家可以根据店内产品的简要描述,一键生成可读的促销文案。

这大大降低了商家创作文案和产品推广的难度,提高了产品推广和运营效率。

在视频领域,我们还为商家打造了AI视频云剪辑工具,帮助他们降低制作热门视频的难度。

通过对商家或专家拍摄的视频进行自动识别、关键帧提取、编辑拼接、特效打包,可一键编辑多个视频。

效果接近手工剪辑的水平,大大减少了商家制作和推广视频的需要。

门槛要求。

未来,随着数据量的增加,编辑效果会越来越好。

除了传统的消费领域,AIGC还将给实体和工业领域带来许多颠覆性的改变。

三维物体和空间的重建是二维世界和物理三维世界之间的重要纽带。

传统基于SLAM和3D点云重建技术的主要问题是采集效率低、精度有限。

基于扩散技术,进行了三维点云填充的尝试。

虽然由于点云数据量小、采样精度低、物体材质判断困难等原因,效果仍难以达到预期,但作为一种新的低成本重建方法,前景仍然十分看好。

如果3D建模技术能够通过AIGC实现突破,高效解决三维物体的自动重建功能,将会引起整个行业的变革,大幅提升效率。

总体而言,大多数行业将进入颠覆和变革时期。

对于AIGC的发展,红杉资本去年9月也做出了预测:文字类AIGC将在2020年进入黄金期,图片类AIGC将在2020年左右进入黄金期,3D、视频类AIGC将在2020年进入黄金期。

2020年左右,人工智能将进入黄金期,这一年将是变革的顶峰。

当然,任何技术都是一把双刃剑。

除了技术应用之外,AIGC的安全、道德、版权也值得业界深思。

技术在法律之外也没有地位。

技术滥用、歧视以及材料和产品的版权需要共同规范来确保行业的健康发展。

AIGC是真正赋予人工智能自主创造能力的起点。

虽然看起来还是有很多缺陷,但确实给人很大的期待。

未来随着GPT4的推出,相信会对人们产生更大的影响。

或许人类与人工智能之间一直存在的图灵测试将会被打破。

到那时,科幻电影中的强人工智能可能离我们的现实还很遥远。

没那么远。