当前位置: 首页 > 科技观察

微软新的图像字幕AI将有助于使WordOutlook等软件易于访问

时间:2023-03-17 23:50:46 科技观察

微软开发了一种新的图像字幕算法,该算法在某些有限测试中的准确性优于人类。该AI系统已用于更新该公司的视障者助手应用程序“SeeingAI”,并将很快整合到Word、Outlook和PowerPoint等其他微软产品中。在那里,它将用于为图像创建替代文本等任务,该功能对于提高可访问性尤为重要。这些应用程序包括微软自己的SeeingAI,该公司于2017年首次发布。SeeingAI使用计算机视觉来为视障人士描述通过智能手机摄像头看到的世界。它可以识别家居用品、阅读和扫描文本、描述场景,甚至可以识别朋友。它还可以用于描述其他应用程序中的图像,包括电子邮件客户端、社交媒体应用程序和WhatsApp等消息应用程序。微软没有透露SeeingAI用户的数量,但AzureAI公司副总裁埃里克·博伊德(EricBoyd)告诉TheVerge,该软件是“为盲人或低视力人群提供的领先应用程序之一”。SeeingAI连续三年被盲人和低视力iOS用户社区AppleVis评选为最佳应用或最佳辅助应用。微软新的图像字幕算法将显着提高SeeingAI的性能,因为它不仅可以识别物体,还可以更准确地描述它们之间的关系。因此,该算法可以查看图片,不仅可以判断图片中包含哪些项目和对象(例如“人、椅子、手风琴”),还可以判断它们之间的交互(例如“Amanis坐在椅子上拉手风琴”)。微软表示,该算法的功能是其自2015年以来一直使用的先前图像字幕系统的两倍。该算法在9月份发表的预印本论文中有所描述,在名为“nocaps”的图像字幕基准测试中取得了有史以来的最高分。这是行业领先的图像字幕评分板,但它有其自身的局限性。nocaps基准包含超过166,000个人工生成的说明,描述了从OpenImages数据集中提取的大约15,100张图像。这些图像涵盖了一系列场景,从运动到假日快照再到美食摄影等等。