当前位置: 首页 > 科技观察

AI 江湖风云变幻 计算机视觉路在何方

时间:2023-03-11 22:04:10 科技观察

人工智能风云变幻,计算机视觉的出路何在?识别、理解和处理图像和视频中的信息。得益于深度学习的兴起和发展,当前的CV领域发展迅速。该技术已广泛应用于安防、金融、自动驾驶、医疗等行业,并逐渐成为人工智能领域应用最广泛的技术之一。当越来越多的应用场景被发现,也意味着计算机视觉的发展前景将极其广阔。前沿:进步与挑战2012年后,深度学习的兴起颠覆了几乎所有的计算机视觉任务。其特点是将传统的特征工程与模型学习相结合,即可以在学习过程中进行特征设计。刚刚过去的2021年,传统科技巨头的表现依然不俗,不少机型一经推出就受到广泛关注。OpenAI还发布了两个连接文本和图像的神经网络:CLIP和DALLE。基于这两个模型,机器学习社区的开发人员尝试了许多新的文本和图像匹配方式。GoogleBrain团队发布了VisionTransformer(ViT)进阶版ViT-G/14,这是一个拥有多达20亿个参数的CV模型。在对30亿张图像进行训练后,它刷新了ImageNet上的最高准确率记录——90.45%。……另外,在过去的一年里,简历领域出现了大量的出版物。据统计,今年的CVPR(ComputerVisionandPatternRecognition,计算机视觉领域的顶级峰会之一)在12个会议上发表了1600多篇论文,一些新的话题也成为人们关注的焦点。第一,使用对抗性示例进行学习。通过对抗性学习,当添加不同级别的噪声时,可以根据其预测标签的稳定性来估计每个样本的可靠性。这使模型能够识别并专注于对噪声更具弹性的样本,从而降低其对对抗性示例的敏感性。第二,自我监督和对比学习。自我监督学习是创建数据高效人工智能系统的几个计划之一。它主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘出自己的监督信息,并通过这种结构化的监督信息来训练网络,以便可以学习对下游任务有价值的表示。第三,视觉语言模型。VL使用不同形式的数据,可以更好地进行特征映射和提取。此外,这些系统可以使用大量数据样本进行训练。与自监督学习类似,学习到的特征是通用的,可用于多个下游任务。此外,VL模型可用于学习更好的视觉特征并增强语言表示。第四,有限的数据学习。弱监督学习和迁移学习有助于减少训练CV模型所需的标记数据量,从而增加这些模型在工业中的应用和采用。弱监督学习还可以帮助模型在存在噪声标签的情况下表现更好。但是,弱监督学习和迁移学习都是比较新的领域,要在工业上应用还需要时间。商业:潜力无限,暗流涌动自2012年神经网络技术在计算机视觉领域出现以来,算法稳步提升多次,在某些视觉任务上的表现已经与人类相当,甚至超越.随着计算机视觉技术的成熟,其商业价值和发展潜力也得到了资本市场的普遍认可。据Crunchbase统计,在过去8年里,大约1800家计算机视觉初创公司获得了超过150亿美元的风险投资。就中国市场而言,计算机视觉行业的市场规模也在快速发展。据前瞻产业研究院预测,2020年我国计算机视觉产品市场规模将占到整个人工智能行业的57%。从行业分布来看,热门赛道集中在零售、安防、制造、医疗。零售行业可以基于场景化营销、产品识别分析、消费者行为分析、防盗等应用,提供提升用户体验和门店运营智能化改造的途径;智能交通、智慧园区等领域应用广泛;CV技术在制造业的应用包括智能现场安全监控、预测性维护、智能辅助运输和工业视觉质量检测等,场景丰富多样;在医疗领域,CV产品和解决方案作为提高现代医学诊疗水平的重要工具,使得实施低风险、微创手术方案成为可能。总体而言,计算机视觉与产业融合的深入也加速了产业规模的增长。统计显示,到2025年,我国计算机视觉技术和视觉核心产品及相关产业规模将达到6000亿。不过,虽然这条赛道潜力无限,但对于这条赛道上的玩家来说,依然是暗流涌动。2021年12月,在商汤科技上市的关键时刻,美国财政部将其列入“中国军工复合体企业”名单,美国投资者被禁止投资商汤科技。此前被列入制裁名单的另外3家公司(旷视科技、云从科技、依图科技)与商汤科技并称为“AI四小虎”。当前,中美两国在科技领域的竞争日趋激烈。在互联网行业整体发展放缓的背景下,美国对中国人工智能企业的打压无疑雪上加霜。截至2021年12月31日,同属于计算机视觉领域的“AI四小龙”均已启动上市计划,但唯有商汤科技几经波折成功在港股上市。四小虎上市之路的曲折,抛开外部因素,更多的反映出整个AI产业在商业化道路上的挣扎。人工智能的发展历经坎坷,与其烧钱快、落地难的现实不无关系。以AI四虎为例。他们都在计算机视觉领域。他们创业之初,产品同质化程度高,落地场景更集中在安防和金融领域。他们需要寻求发展,开发更多的产品方案和解决方案。落地场景刚需。然而,力争在更细分的赛道上落地,无疑是一个更大的挑战。随着业务的不断扩张和高额的研发投入,落地低于预期的阴影从未散去,常年亏损的局面仍未扭转。计算机视觉技术的应用需要深入商业和行业,加强用户洞察,满足千万人的需求。这就需要企业在未来注重前沿算法研发的同时,进一步加强算法与业务应用的融合。在落地的深水区,寻求与其他产业和合作伙伴共建生态,实现价值闭环。五大趋势展望2021年计算机视觉领域的整体发展,英特尔软件创新者、谷歌开发专家SayakPaul提出了五大新趋势。趋势一:资源高效模型原因:最先进的模型通常很难在轻量级设备(如手机、树莓派等微处理器)上离线运行。较重的模型往往具有显着的延迟(这里是单个模型运行前向计算所需的时间)并且会显着影响基础设施成本。如果由于成本、网络连接和隐私问题而无法选择基于云的模型托管怎么办?趋势2:用于创意应用的生成模型原因:生成模型已经取得了长足的进步。生成对抗网络(GAN)现在几乎可以创建任何假图像。例子参考https://thisxdoesnotexist.com/,可以实现各种功能:ImageSuper-Resolution,DomainTransfer,Extrapolation,ImplicitNeuralRepresentationsandCLIP(隐式神经表征和CLIP)趋势三:自监督学习原因:自监督学习没有使用任何GT标签(GroundTruthLabeler),而是使用pretexttasks;然后使用大量未标记的数据集进行模型训练。相比之下,监督学习有以下挑战:需要大量标记数据来提升性能。标注数据的人工成本高,而且可能存在偏差。大规模数据标注和训练需要很长时间。标记数据的准备非常便宜,在计算机视觉领域,SEER(一种自监督模型)等模型在对象检测和语义分割方面表现优于监督学习。趋势四:使用Transformers和Self-Attention的原因:Transformers是一种新的机器学习架构,它使用了Self-Attention(自注意力)机制,这与传统的Attention(注意力)机制有很大不同。该方法通过量化成对实体之间的关系,可以有效地获取源端或目标端自己的词与词之间的依存关系,有助于网络学习对齐数据中的上下文信息。此外,当self-attention与CNN相结合时,它将构建强大的基线(BoTNet)。与CNN相比,Transformer的优点:归纳和先验较少,因此可以认为是针对不同学习任务的通用计算基础参数的有效性和性能可与CNN相媲美。与CNN相比,Transformer的劣势:在预训练时,更依赖于大数据机制。因为transformer没有像CNN那样定义明确的先验趋势五:稳健的视觉模型视觉模型容易受到许多影响其性能的因素的影响。目前,我们主要面临以下三个问题:干扰。深度模型对于输入数据的细微变化不够稳健;形变。深度模型首先响应高频区域,使其容易受到常见损坏的影响,例如模糊、对比度、缩放等。分布外的数据。可以提高鲁棒性的尝试:Adversarialtraining:类似于拜占庭容错,基本上是让模型准备好在遇到不好的情况时自行处理;一致性正则化:期望模型能够对嘈杂的输入保持一致性;立即检测异常数据点。结语计算机视觉带给机器的不仅仅是通过视觉认识世界的能力,而是与世界建立联系,根据理解做出决策,最终实现交互的路径。与其他技术一样,CV也在经历着落差、泡沫、泡沫挤压、理性回归、再起的跌宕起伏,商业化还有很长的路要走。但是,我们仍然愿意相信,历史的车轮永远向前,计算机视觉造福人类生活的那一天不会太远。附参考资料:从CVPR2021论文看计算机视觉现状:https://www.163.com/dy/article/GEUJ8CG50531D9VR.html#post_comment_areaIEEE梅涛研究员:视觉计算的前沿进展与挑战:https://www.yanxishe.com/blogDetail/283192021中国人工智能产业市场现状及优势赛道分析计算机视觉成为千亿级赛道:https://baijiahao.baidu.com/s?id=1711947993304727146&wfr=spider&for=pcSayak保罗|深度学习、计算机视觉等:https://sayak.dev/【原创稿件,合作网站转载请注明原作者及出处.com】

猜你喜欢