近日,第38届国际顶级人工智能学术会议AAAI(人工智能促进会)正式发布年会录用通知。
联汇科技论文赵天成-博士团队的两篇论文入选。
AAAI是由国际人工智能促进协会主办的年度会议。
它是人工智能领域历史最悠久、覆盖范围最广的国际顶级学术会议之一。
也是中国计算机学会(CCF)推荐的A级国际学术会议。
据了解,本次AAAI会议(主赛道)共提交0篇论文,打破历史纪录。
经过全面、严格的评审过程,共有论文脱颖而出,录用率为23.75%。
联辉科技赵天成-博士团队收录在本次会议的两篇论文,聚焦目标检测、视觉定位等当前人工智能研究领域最前沿的问题,并提供解决方案和手段。
论文《How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection》(如何评估物体检测的泛化能力?开放词汇检测综合基准数据集OVDEval),计算机视觉中的物体检测(OD)从封闭集标签过渡到基于大规模视觉的开放词汇用于语言预训练 (VLP) 的检测 (OVD)。
然而,目前的评估方法和数据集仅限于测试目标类型和指称表达的泛化能力,无法提供系统、细粒度、准确的基准数据集来评估OVD模型的能力。
我们提出了一个名为 OVDEval 的新基准,其中包括 9 个子任务,并引入了对常识知识、属性理解、位置理解、目标关系理解等的评估。
该数据集经过精心设计,提供具有挑战性的负例,测试模型对视觉的真实理解和语言输入。
此外,我们还发现了这些细粒度标签数据集上常用的平均精度(AP)指标的问题,并提出了一种称为非最大抑制平均精度(NMS-AP)的新指标来解决这个问题。
大量的实验结果表明,除了简单的目标类型之外,现有的顶级 OVD 模型在我们的新任务中表现不佳,这证明了所提出的数据集在识别当前 OVD 模型的弱点和指导未来研究方面的有效性。
的价值。
实验证实,所提出的 NMS-AP 指标可以更真实地评估 OVD 模型,而传统的 AP 指标可能会产生误导性结果。
论文《GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection》(利用视觉语言预训练和开放词汇目标检测实现零镜头视觉定位),针对视觉定位任务标注过程耗时费力,导致应用领域受限的问题该模型提出了一种简单有效的视觉定位方法 GroundVLP,一种零样本迁移方法,充分利用了从图像文本对和纯对象检测数据训练的现有模型的语义理解和类别检测能力。
图文对和纯目标检测数据比视觉定位标注数据更容易获取,也能有效拓展应用范围。
GroundVLP 在多个数据集上显示出卓越的性能。
两篇论文被AAAI会议接收,标志着联汇科技在人工智能基础研究和创新应用领域的突破性进展得到了国际顶级专业协会的高度认可。
联辉科技将始终以技术创新为引擎。
积极探索人工智能前沿技术和应用,持续推动创新成果转化和应用拓展,努力为客户提供更高效、更智能、更可靠的产品和服务。