当前位置：首页 > 科技赋能

野卡AI实验室詹毅：AIGC将人工智能从幕后带到台前，将带来行业颠覆和变革！

时间：2024-05-19 16:49:52 科技赋能

过去的一年可以说是人工智能领域重要的一年，也可以算是AIGC的元年。

虽然AIGC这个概念由来已久，比如微软的聊天机器人小冰、用于图像创作的GAN等，但这个名字直到2016年才登上热搜，为人们所熟知。

重要原因是生成模型 Diffusion 和 chatGPT 分别在图像和自然语言生成领域大放异彩。

那么AIGC到底是个什么东西，生成模型为何能有如此大的号召力和影响力，又会给行业带来怎样的影响呢？AIGC：更低的成本、更丰富的信息，让AI从幕后走到台前。

AIGC是AI generated Content的缩写，是继PCG（Professional GC）和UGC（User GC）之后的一种新的内容生成方式。

在互联网时代早期，平台主要依靠聘请专业人员撰写内容来吸引用户。

这个模型被称为PGC。

PGC模式虽然可以保证内容质量，但输出效率低、成本高。

随着移动互联网的爆发，特别是近年来流媒体的升温，普通用户作为内容生产的主体，信息的发布和流通发生了巨大的变化。

UGC已经开始成为平台内容的主要来源，但也存在质量和品质的差异。

内容成本高等问题。

与PGC和UGC相比，AIGC的崛起可以说是又一次颠覆性的改变。

它使内容生成变得简单且富有创意，成本更低，信息更丰富。

基于扩散生成的图像堪比专业艺术家的图像，而chatGPT的知识整合能力、上下文理解能力、跨领域支持也给人一种强人工智能即将来临的“错觉”。

AIGC确实意味着AI突然从传统后台业务进入前台，成为内容生产者。

此前，AI主要扮演幕后筛选和推荐的角色。

然而，随着新技术的出现，人工智能不再单纯是我们的助手，而可能逐渐成为我们的伙伴甚至指南。

AIGC如何让人工智能从“人工迟钝”走向“人工智能”？事实上，AIGC强大的“内容能力”背后隐藏着三种力量：大模式、多模态和开源。

首先是大模型。

此前，主流人工智能技术主要使用特定场景训练的小模型。

这种技术路线往往包括几个基础模型（类似于执行特定任务的程序），可以满足特定领域交互的需求。

但如果要添加新功能，就必须训练新模型。

结果，如果你问一些非常规的问题，人工智能就会变得人为迟钝。

但以开放AI为代表的新技术路线从一开始就采用了千亿参数的大模型训练。

作为GPT3的升级版本，chatGPT的参数估计超过1亿。

这种训练成本较高，但在理解需求时更容易接近人类的思维方式，因为人脑是一个由无数神经元连接起来的非常大的网络。

（聊天GPT采用的是典型的大模型训练方式，训练成本极高，但不断迭代后效果更好。

）第二是多模态。

OpenAI推出的CLIP以及基于该技术的扩散模型在生成领域开辟了一条新的便捷路线——多模态融合产生比以往技术更自然、更准确的内容。

除了技术创新之外，CLIP超过40亿的训练数据也印证了模型效果与海量数据之间的强相关性。

另一件事是开源。

开源一直是AI技术文化的一部分。

开源的影响是巨大的。

例如，GAN 及其变体在 AI 领域的持续活跃就是开源的直接结果。

开源也赋予了技术商业化的能力。

比如稳定扩散的开源，让进入门槛高的领域变得普通人可以接触到，也让缺乏相关能力的中小企业可以在此基础上进行后续的二次开发。

AIGC引领了行业的巨大变革：从文字、代码、图片到视频，chatGPT 在外部测试和商业化计划中取得的惊人成绩，为人们提供了很大的想象空间。

对于大型预训练模型来说，只有领先的科技公司才能提供如此多的数据和资源支持。

他们堪称AIGC的基石和平台。

基于平台的垂直开发和业务应用蕴藏着巨大的潜力。

这种潜力将为各行各业带来深刻的变化。

预训练大型模型可以提高模型的通用性，让企业和用户低门槛使用顶尖的AI技术。

随着未来的发展，与工业技术的融合可以大大提高工业化水平，形成流水线生产，最终形成“基础层-中间层-应用层”三级王牌结构。

这种可喜的效果相当于现在的成熟的“云服务-小微企业-用户”公有云体系，AIGC最直接的影响是在消费领域，从文本生成、图像生成到视频生成、游戏生成这些都是我们拥有的新业态。

AIGC文字交互的形式原生匹配以客服聊天、新闻写作等为中心的场景。

在给定场景和提示的前提下，基于大模型的垂直领域优化可以轻松完成这种结构化文本生成，例如财经新闻、体育简报、在线客服问答等。

交互式文本可能会在游戏开发中取得突破，例如如与NPC角色的个性化互动、与灵宠的交流互动等，直接提升游戏体验。

当然，在一些具有较长语境联系、情感融合和艺术表达需求的创意文本的写作中，如小说、剧本等，需要更大的定制化和模型更高生成能力的支持。

在图像领域，图像编辑已经有了较多的技术支持和实践，比如滤镜、颜色、纹理、风格、分辨率调整等都比较成熟。

Deepfake曾经名噪一时，如今被称为DALL.E-2，以Diffusion和Midjourney为代表的稳定的Diffusion产品让完整的图像生成更加令人印象深刻。

扩散在图像领域带来的突破也让其在其他领域找到了一席之地，比如视频、语音生成、3D点云填充等，其中语音合成TTS已经取得了初步成果。

未来，文本配音、基于文本的自动填字、基于文本创作的自动配音的实现，将更大程度地降低创作领域的门槛，实现AI也是艺术家。

但我们也必须看到，生成图像的稳定性和质量仍有待提高。

虽然生成的图像在抽象绘画风格中表现良好，但在复制现实时，尤其是在生成多个物体时，仍然存在明显的伪造痕迹。

除了图像之外，真正能给消费领域带来大改变的就是视频领域。

视频的表现力和视觉冲击力将远远大于文字，尤其是在短视频领域。

利用AI技术实现图像修复技术、主体识别技术、视频跟踪、美化技术提升画质效果，根据风格、色彩、图片等多模态信息自动识别视频关键内容并进行关键帧处理，以及视频中的音频。

截取、剪辑合成，以及后续自动生成视频内容，都是AIGC在视频领域探索的机会。

事实上，在上述领域，产业探索正在高速进行。

野卡（3.HK）AI Lab在AIGC领域做出了一些成功的尝试。

首先，在内容生成方面，夜卡结合自身数据和千千汇平台资源，探索推出了一套自有的针对餐饮娱乐行业的商户产品文案推广的AI生成工具。

商家可以根据店内产品的简要描述，一键生成可读的促销文案。

这大大降低了商家创作文案和产品推广的难度，提高了产品推广和运营效率。

在视频领域，我们还为商家打造了AI视频云剪辑工具，帮助他们降低制作热门视频的难度。

通过对商家或专家拍摄的视频进行自动识别、关键帧提取、编辑拼接、特效打包，可一键编辑多个视频。

效果接近手工剪辑的水平，大大减少了商家制作和推广视频的需要。

门槛要求。

未来，随着数据量的增加，编辑效果会越来越好。

除了传统的消费领域，AIGC还将给实体和工业领域带来许多颠覆性的改变。

三维物体和空间的重建是二维世界和物理三维世界之间的重要纽带。

传统基于SLAM和3D点云重建技术的主要问题是采集效率低、精度有限。

基于扩散技术，进行了三维点云填充的尝试。

虽然由于点云数据量小、采样精度低、物体材质判断困难等原因，效果仍难以达到预期，但作为一种新的低成本重建方法，前景仍然十分看好。

如果3D建模技术能够通过AIGC实现突破，高效解决三维物体的自动重建功能，将会引起整个行业的变革，大幅提升效率。

总体而言，大多数行业将进入颠覆和变革时期。

对于AIGC的发展，红杉资本去年9月也做出了预测：文字类AIGC将在2020年进入黄金期，图片类AIGC将在2020年左右进入黄金期，3D、视频类AIGC将在2020年进入黄金期。

2020年左右，人工智能将进入黄金期，这一年将是变革的顶峰。

当然，任何技术都是一把双刃剑。

除了技术应用之外，AIGC的安全、道德、版权也值得业界深思。

技术在法律之外也没有地位。

技术滥用、歧视以及材料和产品的版权需要共同规范来确保行业的健康发展。

AIGC是真正赋予人工智能自主创造能力的起点。

虽然看起来还是有很多缺陷，但确实给人很大的期待。

未来随着GPT4的推出，相信会对人们产生更大的影响。

或许人类与人工智能之间一直存在的图灵测试将会被打破。

到那时，科幻电影中的强人工智能可能离我们的现实还很遥远。

没那么远。

上一篇：加速智能汽车进入AGI时代，商汤爵影系列原生态大型车型亮相2024北京车展

下一篇：拼多多发布2021年Q1财报：开启8亿用户时代，收入同比增长239%

野卡AI实验室詹毅：AIGC将人工智能从幕后带到台前，将带来行业颠覆和变革！相关文章