当前位置: 首页 > 科技观察

ChatGPT带来的AIGC能为垂直行业做什么?

时间:2023-03-16 16:25:04 科技观察

AIGC从去年开始掀起热潮,引发了AIGC及其应用主题的爆发式增长。很多人都觉得,强人工智能时代离我们并没有那么遥远。但在热潮的另一面,我们看到真正能够落地的场景还是少之又少。目前比较成功的应用主要集中在个人消费领域,而AIGC在行业的应用大多还处于探索阶段。红杉资本9月22日对AIGC做出如下预测:文本AI世代将在2023年进入黄金时代,图片AI世代将在2025年左右到来,3D和视频AI世代将在2023年进入黄金时代。2023年可能是草案阶段,黄金时间可能在2030年。不可否认,文字和图片的AI生成确实走在了前列,而3D模型、视频和游戏的生成还处于研发阶段。红杉资本预测AIGC相关产品的成熟度。如果考虑AIGC的行业应用,比如在制造业、建筑业等巨型垂直实体领域,AIGC的C/Content内容将不仅仅停留在图文领域,而是需要进入更丰富的信息3D领域。接下来,我们将从AIGC技术->产品->商业应用和价值实现的发展路径进行探讨,并通过行业案例探讨AIGC如何在产业领域实现闭环和价值落地。1、AIGC技术:从文本到图片从ChatGPT上越来越多的测试可以看出,ChatGPT不仅可以对语义进行分析和结构化,还可以在此基础上使用NLP自然语言处理进行数据分析。ChatGPT对内容进行结构化处理和数据分析——由佳格数据提供事实上,以StableDiffusion为首的一批AI绘图框架或平台在去年早些时候曾引起轰动。图片虽然看起来比文字拥有更复杂的信息内容,但其技术成熟,产生时间早于以GPT为首的文字。我们需要以主流的开源框架StableDiffusion为例来回顾一下这些图片AIGC框架是如何工作的。StableDiffusion生成的图片已经具备了与人类画家相媲美的能力。StableDiffusion主要有三个组件,每个组件都有自己的神经网络。1.CLIP用于文本编码器:以文本为输出的语义信息形成一个77*768的矩阵,CLIP训练AI同时进行自然语言理解和计算机视觉分析。CLIP可以判断图像与文字提示的对应程度,比如逐渐将建筑物的图像与“建筑”一词进行匹配,其能力训练是通过全球超过40亿张带有文字描述的图片来实现的。CLIP的trainingset2、UNET和scheduler:这是著名的扩散模型主程序(出自CompVis和Runway团队2021年12月提出的“LatentDiffusionModel”(LDM/LatentDiffusionModel)),用于分析噪声进行预测实现反向去噪,进而实现信息空间图片生成的过程。如图所示,染料扩散的过程就像是一张图片逐渐变成噪声点的过程,而当研究人员在图片中加入随机噪声,让AI逆向学习整个过程时,然后从信息空间噪声图中得到一组信息。用于生成图像的模型。用一个流行的例子解释扩散模型的反向去噪过程。如果将一些染料随机滴入清水中,久而久之就会得到如下图所示的华丽形状。那么有没有一种方法可以根据特定时间的特定状态,逆推出染料初始用量、顺序、滴入水箱的初始状态等信息呢?显然,如果不借用AI的方式,这几乎是不可能实现的。不同的染料滴入水中,扩散成不同的形状。3、信息空间到实图空间的解码器:即将信息空间中的矩阵信息转换成肉眼可见的RGB图片。想象一下我们与人交流的过程。我们听到的声音信号被转换成大脑可以理解的文本信号并存储在大脑中。这个过程称为编码。如果你试图通过某种语言来表达文本信号,这个过程可以称为解码——这里的表达可以是任何一种语言,每种语言对应不同的解码器。解码只是一种表达方式,本质还是以人为本。脑海中对某事的描述和理解。StableDiffusion解释了从输入到输出的整个过程。正是这一系列的关键技术步骤,StableDiffusion成功打造了一款万能的AI绘图机器人,它不仅能理解语义,还能将其转化为信息空间中的信息流,也可以通过在信息空间模拟降噪来创建,通过解码器还原成肉眼可见的画面。在没有人工智能的世界里,这个科幻过程被认为是一个奇迹。2、AIGC技术:从图片到3D模型图片生成已经取得突破性成果,但如果这些成果能够进一步优化并应用到更多领域,将有可??能实现更大的价值。我们在细分领域也看到了一些探索成果。例如,通过理解场景,通过不同的数据集添加和调整参数,我们可以更好地控制图像的生成,而不仅仅是通过文本的不断试错。获得更好的结果。2.1设计意图图的生成2019年初,GANs生成的“ThisXXdoesnotexist”系列在海外引起了广泛关注。在中国,我们也看到企业在细分领域推出成果。并且团队还在2022年8月实验性推出了手机端“AI创意库”,只需输入一句话,对话机器人就能在一分钟内快速理解语义,并生成多张效果细腻接近建筑概念的图片计划意图图。在此基础上,“AI创意库”通过输入已有图片,修改部分描述关键词,生成一系列衍生图片,协助设计师在日常创作中寻找灵感。小酷科技“这座建筑不存在”,GANs模型生成建筑意象及迭代过程左:小酷的“AI创意图书馆”生成,触发陈述路易斯康风格,依山傍水的小博物馆;右图:小库“AI创作库”是根据左边的路易斯康风格图片生成的,风格切换为勒柯布西耶。为了让“AI创作库”更有效,团队做了一些新的探索:由于现有的算法和模型更多地聚集在一般的互联网资料上,存储建筑相关的图片、描述和风格显然不够专业水平的数据。这里采用对建筑相关词汇的特殊识别,形成微调的先验数据集,融合数据集进行训练,实现模型增强。通过在建筑专业领域强化的新模式,形成了专属于建筑行业的AI创意库。对于描述构造的短句,测试集的优品率较原模型提升了13.6%。GoogleDreamboothFine-Tuning算法展示了一个示例。当输入一张博物馆的图片和一个词“扎哈·哈迪德(已故世界著名女建筑师)”时,模型可以理解为博物馆的建筑风格或特征需要转移到扎哈·哈迪德身上。而不是在博物馆中添加扎哈·哈迪德的角色或肖像,或者在AI世界中创建扎哈·哈迪德的卡通肖像——这通常是通用模型会返回的结果之一。微调建筑模型后,小图书馆“AI创意图书馆”可以充分理解“扎哈·哈迪德”这个特殊词的隐藏含义2.23D模型虽然生成二维图片,虽然精彩,但仍然只停留暂时处于工业应用的“意向”。“画廊”在未来的作用,如果要成为能够准确表达设计的结果,就需要走向3D和更高的信息维度。2020年,在AIGC还没有现在成熟的时候,上述团队正在探索如何利用AI生成3D模型,并在同济大学DigitalFUTURESworkshop的教学中,公开了正在研发的算法从图形生成图像并进一步生成模型。可见当时模型的效果并不理想。有价值的是图形-图像-模型的联动。2020同济大学DigitalFUTURES工作坊小库教学团队成果,手绘图形生成图像再生成模型在同济大学DigitalFUTURES工作坊教学的第二年,团队发布了一个GANs来学习图形与真实3D模型之间的关系。将图形生成为逼真的3D模型的算法。该算法通过学习地图上不同层元素的特征,可以粗略地还原出地图对应的主要物体的三维拉伸形状,预测出不同物体投影对应的原始物体的高度。当然,这种方法还是有一定的缺陷,只能在图形场景下使用,其他场景下很难积累相似图片和3D形状之间的关系;其次,还原后的3D形状只能粗略预测高度,其他细节需要通过算法重新生成,与真实3D模型存在较大误差。只能用于项目的前期研判,应用场景有限。城市3D模型分层特征提取训练示意图2021同济大学DigitalFUTURESWorkshop小库教学团队成果,基于GANS的3D模型图重建得益于AIGC算法的爆发和3D生成算法的日益成熟。我们也看到垂直AI企业开始吸收更多先进的技术和思想来完善自己的模型,在3D-AIGC的路线上做出了一些新的尝试。比如OPENAI推出了Point-E框架,可以通过算法将任意二维图片预测为点云,然后利用点云预测三维物体。PointE框架整体流程示意图,但模型生成质量仍然有限,模型不可用主要体现在以下三个方面:1.3D形状难以还原:首先,2D图像数据比3D模型数据出现得更早,同时,它可以目前获取的二维图像数据多于后者,因此前者可以作为更大量级的训练材料,泛化less三维模型训练材料能力有限,难以还原原始三维形状;2.整体材料不足:3D模型最重要的部分是材料的填充和选择。但是,对于AI生成,直接从图片推导其素材的方法还不成熟。同一种材料在不同的形状、环境、光源下的表现是不同的。不同的是,当这些变量都集中在一张图片中时,材质重建几乎是不可能的;3、生成的模型精度不达标:通过点云细化的模型通常依赖点云的密度来重构物体SurfaceMesh,如果点云太少,物体会严重扭曲,模型甚至无法重建。小酷团队测试了Point-E模型。左边的建筑图片生成点云,然后模拟右边的3D模型。不幸的是,我们得到的只是一堆毫无意义的点云模型。Point-E仍然无法理解建筑物的图片。当然我们可以了解目前的技术瓶颈,如果你把目标定的低一点,选择一个简单的3D建模软件生成的形状,做2D截图,在point-e模型中重建,你会出乎意料的发现效果比上面的测试要好。不错,但仍仅限于“初稿”。这与训练集有很大的相关性。通过三维建模软件从各种角度生成二维视图是获取该模型训练数据的最简单方法之一。小酷团队测试了Point-E模型,在建模软件中选择一个简单的3D模型任意角度截图,重构3D模型,往往效果不错。综上所述,从文本->图片->点云->3D对象的技术路线是惊人的,但如果要应用到工业领域,AI科学家还有很多工作要做。然而,这是实现3D模型生成的唯一技术路线吗?3AIGC在垂直领域的应用新思路在通用领域的大规模模型研发方面,以OpenAI为首的厂商,包括英伟达、谷歌等巨头,也在推出自己的通用3D-AIGC框架。不幸的是,它仍处于早期阶段。对于垂直实体行业来说,落地应用显然还有很长的路要走。从全球范围来看,除了3D模型生成领域的大型模型,一些垂直行业也在探索如何应用AIGC。例如,西门子在发动机的设计和制造中对生成的模型进行仿真和进一步优化,最终通过3D打印实现了3D模型生成和关闭业务的交付。通过生成算法实现西门子发动机设计与仿真,依赖于底层业务内容和数据标准在工业逻辑下的不断迭代。根据ISO/IEC,SMART(StandardsMachineApplicable,ReadableandTransferable)被定义为内容的数字化标准:L1级为纸质文本,不存在机器交互的可能性;L2级别是开放数字格式,机器交互性很低;L3级别是机器可读文档,但机器无法理解检索结果和内容;L4级别是机器可读的内容,可以进行语义交互但机器无法理解上下文的逻辑关系;L5级别,机交互内容可实现自动识别、自动生成等智能属性。在工业领域,目前广泛应用L3级信息内容,正在开发L4级数字内容,而L5级智能是工业4.0和智能制造的核心基础。因此,生成L4以上的机器可读内容,尤其是L5级别的智能内容,是AIGC未来的发展方向。ISO/IECSMARTDigitalStandard《中国工程科学》2021第23卷第6期《标准数字化发展现状及趋势研究》刘希泽、王一一、杜晓燕、李嘉、车迪国外在AIGC的产业应用领域已经开始实践,国内探索还比较匮乏,但我们也发现了一些深耕垂直领域的企业。比如上文提到的小酷技术团队深耕建筑行业。我们将以其实际建筑行业为例,探讨AIGC在垂直行业的实施路径。当前,国内实体经济正处于转型窗口期,国家层面提出了“人工智能与实体经济融合”的重要任务。各大行业都渴望落地AI技术,帮助行业实现数字化、智能化的升级转型,而不是单一的一个停留在概念上的DEMO产品,或者饭后讨论的好玩的事情。建筑业是年产值接近30万亿元的国家支柱产业,但其数字化水平在全国各行业中排名倒数。目前,国家提出了智能化建设的政策,希望“中国制造”更上一层楼。智能建造是以新型建筑的工业化(工业化/装配式、数字化、智能化)为基础,以新一代信息技术与先进建造技术的深度融合为基础,贯穿于设计、生产、建设、运行维护和监理,具有自感知、自决策、自执行、自适应、自学习的特点。它是一种旨在优化建筑行业全生命周期质量、效率和核心竞争力的先进施工方法。2011-2021年中国建筑业总产值及增速-国家统计局-前瞻产业研究院,信息来源:Gartner;凯布尔;经合组织;中央统计局;彭博社;麦肯锡全球研究院分析在建筑行业,底层数据标准正在从机器可读文档的L3CAD时代走向机器可读内容的L4BIM时代。建筑行业对3D模型的要求是内容对象在三维空间具有全维度的准确信息,包括模型、数据等维度。如果它们也能包括常规维度,那么它就可以自感知、自学习、自迭代。智能能力。目前L3级CAD和L4级BIM应用软件在国外已经被垄断,我们的发展空间和潜力必须集中在L5级,可以覆盖高维和低维。建筑领域数字化标准SMART的内容格式表明,基于对建筑行业数字化转型的洞察,小库团队意识到需要重新定义整个行业的底层数据。自2016年成立以来,一直致力于L5级3D模型AIGC的底层技术研发及其在建筑行业的应用。基于一套包含业务流程逻辑的AI系统,生成包括建筑信息和多维数据、3D模型、规则/标准/规定在内的“数模尺度”可链接内容,实现建筑设计的智能生成计划。团队参考人工智能生成的AIdrivenBuildingInformationModelonCloud(简称ABC)等底层数据,将智能生成的成果总结为四个实际步骤:AI识别现有内容进行训练或结构化数据重构、评估和评估对数据进行模拟,对初步数据结果进行优化,最终生成由一系列AI模型组成的业务结果。L5级楼宇智能格式ABC智能云模型,预示着AI识别领域。团队通过对数千万不同业务类型的CAD图纸数据进行清洗和训练,获得了100%的云端还原和99.8%的L3级非语义CAD图纸*的精准语义解析和补充,达到了世界先进水平在这个领域里。该成果已深度应用到企业的多个产品和解决方案中。例如,施工图审阅“智审图”的文章审阅准确率约为96%。小酷的施工图组件和空间识别AI分析领域,基于项目的有效识别,针对住宅、商场等常见民用建筑类型,使团队能够进行物理环境模拟分析、人体行为数据模拟与预测,以及项目相关的大数据分析。分析和模拟。在应用层面,可以协助客户对项目方案进行量化分析。例如,通过对房地产企业全系列住房产品的评价,可以获得不同的价值评价系数,帮助房地产企业提升产品质量。因此,小酷科技也入选了中房协住宅设计大赛首届AI评委。此能力亦已应用于香港及中国十余家商场的开发及营运。在小酷“产品力价值评估”的AI优化??领域,团队认为“优化”是在前置“识别”和“分析”之后进一步优化迭代,即在已有的基础上重新生成更好的结果内容。这些技术已经应用到公司的特定产品和解决方案中。例如,在设计云2022版的“智能阳光优化”功能中,小酷可以自动微调未通过阳光的方案,使其无需对原有图案进行大幅调整即可通过阳光验证。这种能力也被用在建筑解决方案的设计开发中,比如幕墙设计的优化场景。在与四川商业设计院合作的四川某博物馆幕墙项目中,小库算法将原有的30000块不规则三角形幕墙板优化为12个标准模块,少于现有可缩减的116种世界水平。减少90%,建筑幕墙的成本将因SKU的减少和模具数量的减少而大大降低。小库的“幕墙优化AI算法”AI生成场是智能化设计的核心部分。对于建筑行业而言,选择经济、实用、美观的设计方案,交付安全、高效、优质的施工成果,需要多学科、多角色的协同配合。不仅要从宏观到中观,再到微观,一一突破,还要逐步覆盖建筑、结构、机电、给排水、景观等多个学科。.,我们需要涵盖住宅、公寓、工业、办公、商业等业务类型。因此,垂直领域专业成果的产生,不是某种模型算法和一组数据就能解决的。它需要多模型、多模态、多数据集等多种技术与业务逻辑的有机结合。通过贴合细分场景的产品设计,并根据用户反馈不断迭代,最终实现。小酷团队从业务逻辑出发,梳理出传统架构设计所需的24个业务流程步骤,将其核心内容提炼重构为6个业务模块,建立了一套全新的AI系统和云架构为核心。架构设计AIGC业务流程:调整(信息调用和AI识别)、做(全AI生成和人机协同生成)、修改(人工变更和AI优化)、验证(数据验证和AI审核)、协同(云多-人机协作与业务管理),输出(自动输出更多格式-3D模型/2D绘图/图片/PPT/Excel等)。左图:架构设计原有业务流程的24个步骤,右图:小酷重组为AI支持的6个业务流程板块业务模块与AI识别、AI生成、大数据、云协同等技术深度融合,实现架构规划、单体设计、构件生成等深度架构业务需求,从分析到设计到评审再到协同输出。逐步覆盖住宅业务所需的广度和深度。《小库设计云-建筑规划》产品6大模块《小库设计云-建筑单元》产品6大模块4.AIGC在行业的价值已经在大部分行业落地,AIGC的应用还处于起步阶段婴儿期。整体AI技术的不断发展,将推动后续AIGC的创新应用。以当前建筑行业实践为例,AIGC目前能够在投资研究、设计、评估、管理、施工等产生用户可感知价值的一些业务细节上,帮助改善对效率要求高的特定业务场景。4.1最优解增益与效率提升建筑业投研阶段,2021年出台的“两个集中”政策(土地集中供应和土地集中拍卖)将在一个月内释放大量土地,而开发商需要在短时间内完成对每块土地的投资评估,其核心是如何在一块土地上找到最优的建筑规划方案,以获得最大的产品价值和投资回报计算。原本,完成一个住宅规划概念方案至少需要3-5天,无法满足业务需求,因此对前期建筑规划方案的极致效率提出了需求。小酷团队推出了AIGC的建筑规划方案,可以在原来30%左右的时间内输出初步方案。更重要的是,人工智能可以生成和优化一些人们没有想到或人工难以穷举的解,从而在性能或经济性方面获得更好的结果。例如,在中国金茂的江西项目中,人工智能生成的方案不仅在时间上仅占原方法的20%,而且项目总价值较原方案增加了5600万。在2021年9个月的房地产拍卖市场中,团队已完成近千个项目和近万份提案,协助客户成功拿下数十宗地块。“小酷设计云”AI生成实际小区征地方案4.2降本节能减排在实际建筑施工过程中,小酷团队将AI与DFMA(DesignForManufacturingandAssembly)设计相结合,并加入携手建筑巨头中建集团旗下的中国建筑,将箱式装配式建筑与AI设计生成、L5级ABC“数-模-规模”深度联动,实现投资-计划-成本的真正结合-实施前的时间联动减少80%的设计和成本变更,有效减少整体装配部件SKU和开模量,实现50%以上的节能减排。在获得更好的性能和经济效果的同时,“原生数据”与工厂生产线、智能工地有效连接成为“孪生数据”。深圳某酒店项目,从设计到施工历时4个月完成,大大缩短了总工期至少14个月,节省了60%以上的时间。“小库拼装云”与中建科技在深圳某酒店合作,全程智能设计、智能施工)L5级智能施工模式与传统模式对比由上图可以看出案例中,L5级别的AIGC可以从数据的源头出发,通过细分场景在产业链各环节的具体应用,有效助力产业链在整个过程中获得更高的质量、效率和核心竞争力。生命周期。未来,AIGC从文字、图片走向更高维的3D、L5级内容结果是大势所趋。这不仅是建筑行业对人工智能的未来期待,也是所有垂直行业的共同期待。注:*在图层无明显错误的基础上,目前小酷AI对标准构件(门、窗、墙、楼梯、电梯、空调、消防栓、车位)等的识别准确率为99.8%(测试集为上千张建筑平面CAD图纸,图纸来源为多家领先开发商的内部标准库)