当前位置: 首页 > 科技观察

10亿参数AI模型SEER“平等对待”:服务富人,服务世界

时间:2023-03-13 22:09:17 科技观察

使用选定和标记的数据集来训练AI系统,产生擅长物体识别等任务的专门AI模型。但是仅仅依靠这种方法有实际的局限性,我们认为其中一个特别重要:这样的系统可能难以识别日常生活中常见但在用于训练AI系统的数据中“代表性不足”的物体。特别是,选择训练哪些图像以及如何标记它们可能会无意中引入“偏差”。例如,当被要求识别“尼泊尔”家中的物体时,主要针对“美国和欧洲”房屋图像进行训练的物体识别系统可能难以表现出色。这是我们对SEER感到兴奋的原因之一,SEER是我们开发的一种新型高性能计算机视觉系统。通过利用自我监督学习,SEER可以从任何数字图像集合中学习,而无需研究人员挑选和标记每个对象。初步评估表明,SEER在识别物体方面优于传统的计算机视觉系统,这些物体虽然来自数十亿人的生活,但在用于训练AI系统的传统图像数据集中“代表性不足”。我们希望使用SEER让人工智能更好地为每个人服务,而不仅仅是那些随着时间的推移受益最多的人。从世界各地收集图片“测试”人工智能我们在2019年计算机视觉系统偏差研究中使用了“DollarStreetDataset”来测试SEER。SEER的结果令人兴奋,自我监督学习正在让人工智能更好地造福于世界各地的人们。DollarStreet数据集——世界不同国家和地区不同收入的家庭例如下图来自尼泊尔的一个家庭。SEER的识别结果是:香料、药材、碗、水果、社交酒。监督学习模型的识别结果是:洗涤设备、厨房水槽、陈列物品、碗、水果、炊具、锅所以,SEER正确识别了图片中的物体,而传统系统则没有。来源:FacebookAIBlog下图来自一个中国家庭。SEER的识别结果是:炊具、炉灶、锅具和工具。监督学习模型的识别结果是:前门锁、电源开关、炊具、挂钟和炉灶。因此,SEER正确识别了一个炉子,而传统训练的系统则没有。来源:FacebookAIBlog下图是印度的一条小街。SEER的识别结果为:自行车、街景、垃圾、菜地监督学习模型的识别结果为:果树、房屋、自行车、宠物、屋顶来源:FacebookAIBlogAI自监督学习给大家的是改进语言和方言在性能方面显示出巨大的希望,因为这些语言和方言没有大量数字化文本可用作标记训练数据。在上面的示例中,SEER在对象识别方面表现更好,这是另一个令人兴奋的结果,因为该模型是在没有任何数据管理的情况下对随机互联网图像进行训练的。这表明,用于训练SEER的自我监督方法可能会对构建人工智能系统的努力产生巨大影响,这些系统不仅可以有效地服务于富人,而且可以服务于整个世界。这些努力只是开始,但很明显,我们正走在一条非常令人兴奋的进步道路上。