当前位置: 首页 > 科技观察

一切皆有可能:计算机视觉CV与NLP领域融合度越来越高

时间:2023-03-16 12:48:53 科技观察

2020年10月,深度学习领域顶级会议ICLR2021论文投稿结束。此次盛会上,又一位大牛在深度学习领域取得了新的突破。这种技术变革会带来什么影响?且听东方琳语。人工智能应用在CV计算机视觉领域,CNN卷积神经网络一直占据着相当主流的地位。Transformer架构已广泛应用于NLP自然语言处理任务中。在这两个领域中,每种技术各有所长,彼此之间并不存在冲突。不过近年来,专家学者一直在尝试对Transformer进行NLP领域的跨界研究。经过一段时间的实验,他们在一些图像场景中取得了相当不错的效果。本次ICLR2021有一篇论文试图将标准的Transformer架构直接应用到计算机视觉领域,提出了一种新的VisionTransformer模型,并在多个图像识别基准上取得了接近甚至优于当前SOTA方法的性能。SOTA是最先进的。如果一篇论文能够被称为SOTA,则意味着所提出的算法(模型)的性能目前是最优的。这项研究表明,对CNN的依赖是不必要的,并且当直接应用于图像块序列时,转换器在图像分类任务中也表现良好。TeslaAI负责人AndrejKarpathy专门转发了这篇论文并表示:我很高兴看到计算机视觉和NLP领域的日益融合。随着技术的进步,一切皆有可能。如果NLPVSCV模型的跨界学习能够进行到底,那么图像视觉领域的Transformer能否拉下原来的龙头CNN呢?这是一个非常有趣的命题。ICLR2021有什么值得关注的贡献吗?知乎上,有网友表示:我们正站在一场模式大变革的前夜,神经网络的潜力远未到尽头。一个全新的、强大的、可以颠覆整个CV和AI世界的新模式,才刚刚揭开冰山一角,即将全面袭来。人工智能是一门综合性学科,需要基础科学、业务场景、数据质量、工程实践等技术领域的紧密结合。近年来,越来越多的其他方向被整合。人工智能的各个分支在技术上是可以融合和替换的。也能给我们带来更多的启示:作为人,其实跳出舒适圈,我们也可以跨界学习和融合,更好地适应这个不断变化的社会。在数字化逐渐主导世界的今天,人工智能技术的融合与人类的跨界融合将对社会进步产生更强的推动作用。你怎么认为?关注东方琳语,一起了解更多AI知识。