过去,盲人复明常被视为医学上的“奇迹”。随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,为AI助盲带来新的可能,更多的盲人将依赖AI提供的感知、理解和交互能力“以另一种方式再次看世界”。人工智能助盲,让更多人“看到世界”状态信息在一定程度上帮助视障人士缓解视觉缺陷带来的问题。但科学研究表明,在人类获得的外部信息中,视觉所占比例高达70%至80%。因此,构建基于AI的机器视觉系统,帮助视障患者对外界环境进行视觉感知和理解,无疑是最直接有效的解决方案。在视觉感知领域,目前单模态AI模型在图像识别任务上已经超越了人类水平,但这类技术只能实现视觉模态内部的识别和理解,难以完成跨模态的交叉与其他感官信息。动态学习、理解和推理,简单来说,只能感知不能理解。为此,计算视觉的奠基人之一大卫·马尔在他的著作《视觉》中提出了视觉理解研究的核心问题,认为视觉系统应该在两个或三个维度上表达以构建环境并可以交互用它。这里的交互意味着学习、理解和推理。可见,优秀的盲人AI技术实际上是一个包括智能感知、智能用户意图推理和智能信息呈现在内的系统工程。只有这样,我们才能构建一个无信息的交互界面。为了提高AI模型的泛化能力,使机器具备跨模态的图像分析和理解能力,以“机器视觉+自然语言理解”为代表的多模态算法开始兴起并迅速发展。这种多信息模态交互的算法模型可以显着提高人工智能的感知、理解和交互能力。一旦成熟应用于AI助盲领域,将造福亿万盲人,让他们重新“看见世界”。据世界卫生组织统计,全球至少有22亿人视力受损或失明,而我国是世界上盲人最多的国家,占盲人总数的18%-20%全世界每年新增盲人人数高达45万。盲人视觉问答任务引发的“多米诺效应”第一人称视角感知技术,对AI助盲具有重要意义。它不需要盲人跳出参与者的身份来操作智能设备,而是可以从盲人的真实视角出发,帮助科学家建立更符合盲人认知的算法模型,这促使了出现盲人视觉问答的基础研究任务。盲人视觉问答任务是人工智能助盲学术研究的出发点和核心研究方向之一。然而,在目前的技术条件下,盲人视觉问答任务是一种特殊的视觉问答任务。与普通的视觉问答任务相比,准确率的提升面临更大的困难。一方面,盲人视觉测验的题型较为复杂,包括目标检测、文字识别、颜色、属性识别等书籍内容等。另一方面,由于盲人的特殊性,感知交互的主体,盲人在拍照时很难掌握手机与物体的距离,经常会出现失焦的情况,或者虽然拍到了物体,但没有拍到整个图片,或者关键信息没有被拍到,这大大增加了有效特征提取的难度。同时,现有的视觉问答模型大多是基于封闭环境下的问答数据训练实现的。由于样本分布的严重局限性,很难泛化到开放世界的问答场景,需要整合外部知识进行多阶段推理。其次,随着盲人视觉问答研究的深入,科学家们发现视觉问答会遇到噪声干扰带来的衍生问题。因此,如何准确定位噪声并完成智能推理也面临着重大挑战。由于盲人不具备对外界的视觉感知能力,因此在图文配对的视觉问答任务中,往往会犯很多错误。例如,盲人去超市购物时,由于商品的外观和手感相似,盲人很容易问错问题,比如拿起一瓶醋,却问是哪个厂家的酱油群岛这种语言噪音往往会导致现有人工智能模型失效,要求人工智能具备从复杂环境中分析噪音和可用信息的能力。最后,AI助盲系统不仅要解答盲人目前的疑惑,还要具备智能意图推理和智能信息呈现的能力。智能交互技术是一个重要的研究方向,算法研究尚处于起步阶段。智能意图推理技术的研究重点是通过让机器不断学习视障用户的语言和行为习惯,推断出视障用户想要表达的交互意图。例如,通过盲人拿着水杯坐下的动作,可以预测下一个可能将水杯放在桌子上的动作,通过盲人询问衣服的颜色或款式等问题,预计他可能会出差等等。该技术的难点在于用户的表情和动作在时间和空间上的随机性,从而导致交互决策心智模型的随机性。因此,如何从连续的随机行为数据中学习,提取用户输入的有效信息,设计动态的、非确定性的多模态模型,实现不同任务的最佳呈现,就显得十分重要。浪潮信息专注于人工智能助盲基础研究,多项研究获得国际认可。毫无疑问,上述基础研究领域的重大突破是人工智能助盲技术早日落地的关键。目前,浪潮信息前沿研究团队正通过多项算法创新、预训练模型和基础数据集建设,全力推动人工智能助盲研究的进一步发展。在盲目视觉问答任务研究领域,VizWiz-VQA是由卡内基梅隆大学等机构的学者联合发起的全球多模态顶级盲目视觉问答挑战赛。“VizWiz”盲人视觉数据集用于训练AI模型,然后由AI对盲人提供的随机图文对给出答案。在盲人视觉问答任务中,浪潮信息前沿研究团队解决了很多盲人视觉问答任务中的常见问题。首先,由于盲人拍摄的照片比较模糊,有效信息很少,所以问题通常比较主观和模糊。理解盲人的需求并给出答案是一项挑战。该团队提出了一种双流多模态锚点对齐模型,利用视觉目标检测的关键实体和属性作为连接图片和问题的锚点,实现多模态语义增强。其次,针对盲人难以正确方向拍照的问题,通过自动校正图像角度和字符语义增强,结合光学字符检测和识别技术,解决了“什么是”的理解问题.最后,盲人拍摄的照片通常模糊不完整,这使得一般算法难以判断目标物体的类型和用途。模型需要有更充分的常识能力来推断用户的真实意图。为此,团队提出了一种将答案驱动的视觉定位与大规模模型图文匹配相结合的算法,并提出了多阶段交叉训练策略。推理时,使用交叉训练的视觉定位和图文匹配模型进行推理定位答案区域;同时基于光学字符识别算法判断区域内的字符,并将输出的文本发送给文本编码器,最后通过图文匹配模型的文本解码器得到答案为盲人求助,最终多模态算法的准确率领先人类9.5个百分点。多模态视觉问答模型解决方案目前视觉定位研究应用的最大障碍之一是噪声的智能处理。在真实场景中,文字描述往往是嘈杂的,比如人的口误、歧义、修辞等。实验发现,文本噪声会导致现有的AI模型失效。为此,浪潮信息前沿研究团队探索现实世界中人类语言错误导致的多模态不匹配问题,首次提出视觉定位文本去噪推理任务FREC,要求模型正确定位视觉内容对应噪声描述,进一步推断文本有噪声的证据。FREC提供了30,000张图像和超过250,000条文本注释,包括口误、歧义和主观偏见等各种噪声。它还提供可解释的标签,例如噪声纠错和噪声证据。FCTR结构图同时,团队还构建了首个可解释的去噪视觉定位模型FCTR,在有噪声的文本描述条件下准确率比传统模型高出11个百分点。该研究成果发表在ACMMultimedia2022会议上,该会议是国际多媒体领域的顶级会议,也是该领域唯一CCF推荐的A类国际会议。论文地址:https://dl.acm.org/doi/abs/10.1145/3503161.3548387面向行业研究方向,提出可解释代理视觉交互问答任务AI-VQA,通过建立逻辑链在庞大的知识库中进行搜索,扩展已有的图文内容。目前,团队已建成AI-VQA开源数据集,包含超过14.4万个大型事件知识库、1.9万个交互行为认知推理问题,以及关键对象、支持事实、推理路径等可解释性标注。.ARE结构图同时,团队提出的第一个智能代理交互行为理解算法模型ARE(encoder-decodermodelforalternativereasonandexplanation),是第一个端到端实现交互行为定位和交互行为影响推理,基于多模态图文融合技术和知识图谱检索算法,实现了具有长因果链推理能力的视觉问答模型。科技的伟大,不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能成为可能。对于盲人来说,通过AI技术让盲人能够像其他人一样独立生活,而不是被特殊对待,恰恰体现了科技最大的善意。在人工智能照进现实的那一刻,科技不再是高山的冰冷,而是充满人文关怀的温度。站在人工智能技术的前沿,浪潮信息希望人工智能技术的研究能够吸引更多的人来继续推动人工智能技术的落地,让多模态人工智能致盲的浪潮延伸到人工智能反诈骗、AI诊疗、AI灾害预警等更多场景,为我们的社会创造更多价值。参考链接:https://dl.acm.org/doi/abs/10.1145/3503161.3548387
