当前位置: 首页 > 科技赋能

搜狗荣获Cityscapes评测世界冠军,多项指标刷新世界纪录

时间:2024-05-22 16:24:30 科技赋能

近日,搜狗公司视觉研究团队在国际自动驾驶领域权威评测Cityscapes实例分割评测中荣获第一名,击败英伟达和Facebook、商汤科技等数十家国际实力科研机构,一举打破世界纪录,代表中国向世界展示了我们卓越的技术实力。

这是搜狗继在CVPR大会上赢得WAD自动驾驶识别挑战赛后,今年再夺桂冠。

短时间内夺得两项世界冠军,充分证明搜狗已经成为计算机视觉领域的行业领先者。

什么是 Cityscapes 评估数据集?众所周知,人工智能技术在自动驾驶领域有着非常广阔的市场空间,也是最有前景的应用前景。

如何判断AI判断和识别交通信息的能力,取决于其评估数据集的水平。

Cityscapes评测数据集由梅赛德斯-奔驰于2016年推广发布,目前被公认为自动驾驶领域最权威、最专业的图像语义分割评测集之一。

它侧重于对真实场景中城市道路环境的理解,任务难度较大。

高,更接近自动驾驶等大众需求。

在Cityscapes评估数据集中,分为两个子任务:像素分割和实例分割。

与像素分割相比,实例分割更加困难,是计算机视觉领域最重要和最具挑战性的任务之一。

如何让机器更加“聪明”,拥有足够的学习能力,是所有人工智能研发中最大的问题。

也是国内外科技公司竞相研究的自动驾驶技术。

能够在Cityscapes评测数据集中脱颖而出并打破世界纪录,意味着搜狗拥有强大的AI技术能力。

实例分割,自动驾驶的曙光。

实例分割是一个非常综合的问题,集成了目标检测、图像分割、图像分类等多种AI技术。

顾名思义,像素级语义分割就是将图像中的每个像素划分到对应的类别,即实现像素级分类;分类的具体对象是实例。

那么实例分割不仅需要像素级的分类,还需要根据特定的类别来区分不同的实例。

实例分割对于自动驾驶汽车、机器人、视频监控等领域具有重要价值,受到了全球科研开发界的密切关注。

Cityscapes评估集包含50个城市不同条件下的街道场景和30种对象标注。

搜狗此次参与的实例场景图像语义分割评测,物体类别较多,场景复杂,挑战难度很大。

面对复杂的实例环境,搜狗所展示的技术非常巧妙。

过去我们往往把AI聚焦在单车道上,但实际路况信息非常复杂多变,这就要求驾驶员有足够的“见四面八方”的能力。

以整体视野观察整个道路状况。

为此,搜狗通过引入全局编码模块,显着提高了全局信息在实例分割中的影响力。

全局编码模块可以很好地捕获图像中的语义信息,并选择性地突出显示与实例相关的特征图,从而提高准确性。

另一方面,在训练过程中简单地引入每像素分割损失而不是专注于使用场景的全局上下文信息将导致严重的类间不平衡问题。

针对这种情况,搜狗推出了全局实例编码损失函数GIE-loss。

该损失函数预测场景中出现的实例类别,以增强网络学习全局语义信息的能力。

与每个像素的传统损失函数不同,GIE-loss 平等地对待每个对象,无论其大小如何。

使用这个损失函数后,小物体的分割效果明显变好。

(对比图1) (对比图2) (对比图3)通过上面的结果对比图,我们可以清楚地看到,全局编码模块的引入,彻底改变了传统实例分割算法无法兼顾的缺点远的和近的物体。

可以很好地识别近处的物体,而且对远处小物体的分割效果也得到了很大的提升,使得最终的AP指标远远优于其他团队。

截至目前,Cityscapes评测已吸引近百支团队参与,其中包括Facebook、香港中文大学、商汤科技、NVIDIA等众多国内外优秀创新企业和顶尖学术机构。

值得一提的是,近两年来,商汤科技、中国香港队和NVIDIA几乎在所有图像分割评测中都获得了冠军。

首次参赛的搜狗队在各项评价指标上都远远超过其他队伍,打破了世界纪录,以无可争议的成绩获得了第一名。

通过不断的算法积累和迭代,搜狗视觉研究团队建立了一套高效、易用的通用检测和分割框架,可以根据任务快速迁移算法模型,以满足实际应用需求。

CVPRWAD检测任务与本次实例分割任务中使用的模型基本相同,验证了模型的效率和易用性。

同时,团队近期还做了一些简单的实验。

只需修改一些代码和几个小时的训练,它就可以在一些著名的评估数据集上取得顶级结果。

聚焦“自然交互+知识计算”将塑造搜狗人工智能的未来。

人工智能命题的范围很大,但搜狗选择的突破点却很小。

从这一点到另一点,正是王小川为搜狗规划的未来之路。

搜狗始终坚持“自然交互+知识计算”的人工智能核心战略,重点发展自然交互领域的能力。

在语音领域,拥有充足真实语料数据优势的搜狗将语音识别与人机对话相结合,发布了知音引擎,推出了全球首款商用AI同声传译。

除了独立语音识别的“听能力”之外,搜狗在合成的“说能力”上也取得了突破。

能够自动学习的AI机器,拥有听、说、翻译等多项能力,位居行业第一。

地位。

多模态输入成为搜狗语音交互研发的重点。

在视觉领域,搜狗在AI技术上也不断取得突破,让机器的自然交互更加全面。

在2016年乌镇互联网大会上,搜狗发布了业界首个唇形识别技术,首次将视觉和听觉结合起来,帮助机器从更多元化的维度理解用户的需求。

在车辆、智能家居等垂直场景中,准确率高达90%。

此次Cityscapes实例场景图像语义分割评测的胜利,体现了搜狗在视觉识别方面的技术积累,有助于机器进一步提升各种感知能力的交互水平。

连续获得多项国际赛事冠军的搜狗,已经证明了其在人工智能领域充足的技术基础。

我们有理由相信,未来在AI赛道上占据领先地位的搜狗一定会取得更好的成绩,用实际的AI产品来提升用户的交互体验。