当前位置: 首页 > 科技观察

AI 学会了用“人眼”看世界,甚至连人类瞳孔的细微缩放都能模拟

时间:2023-03-13 06:34:36 科技观察

AI学会了用“人眼”看世界,甚至可以模拟人瞳孔的轻微缩放“收集待观察的信息”,然后专注于文字或图像,开始“收集数据”:不仅可以阅读,正常看图片,甚至可以模拟人类在无聊、兴奋、紧张等各种情绪下的瞳孔放大和眨眼频率的微小变化。实际上,这是杜克大学研究人员新开发的“虚拟眼睛”模仿人类看世界的方式,这项研究现已开源,将发表在顶级通信会议IPSN2022上,通过这项研究获得的近乎真实的数据,将全部反馈给计算机,这些有什么用数据?基于EyeTracking技术获得的数据通常称为眼动数据,包括注视时长、眼跳、跟随运动等多个属性。灵魂,这些眼球运动数据可以反映出很多关于人类的真实信息。例如,瞳孔放大、眼睛扫视和徘徊时间可以表明当前所有者的情绪(无聊或兴奋)、注意力、对某项任务的新手或熟练程度,甚至是对特定语言的熟练程度。该研究的作者之一MariaGorlatova甚至表示:(眼动追踪数据)可能会无意中揭示性别和种族偏见、我们不想让别人知道的兴趣,以及我们甚至不知道的关于自己的信息。因此,对这些眼动数据的学习和研究,自然可以衍生出一系列的传感应用:包括认知负荷估计、久坐活动识别、阅读理解分析和情绪识别等。很多企业和开发者,比如微软的VIVEProEye,已经开始采用眼动追踪来实现基于注视的新交互和环境感知。然而,在采集大规模、带标签的眼动数据时,不可避免会遇到几个问题:人类视觉行为的随机性增加了数据采集的成本。与人类受试者一起工作可能会侵犯隐私。生成模型训练所需数据的时间成本高得令人望而却步(可能需要数百名配备设备的人不间断地使用眼睛数小时)。虚拟眼睛如何采集数据来解决上述问题?杜克大学研究团队提出了一套受心理学启发的模型EyeSyn。该模型可以仅使用公开可用的图像和视频来合成任何大小的眼动数据集。其整体架构如下:整体思路是以图像和视频为输入,将其作为视觉刺激,生成相应的眼动数据。大型架构由三个小模型组成:ReadGaze模型模拟文本阅读中的视觉行为。它有一个基于文本识别的检测模块和一个模拟跳过视觉行为的模拟器。VerbalGaze模型模拟了在语言交流过程中注视面部一个区域并在面部不同区域之间切换注意力的视觉行为。它有一个面部区域跟踪模块和一个基于马尔可夫链的注意力模型。StaticScene和DynamicScene模型模拟了感知静态和动态场景时的眼球运动。它有一个基于图像特征的显着性检测(SaliencyDetection)模型来识别视觉场景中潜在的定点位置。△动态场景中的眼动数据就是基于这些分量。EyeSyn无需根据现有眼动数据进行训练,上岗后可直接上手工作。而且,与传统的眼动数据采集过程相比,EyeSyn在模拟不同的眼动追踪设置、视距、视觉刺激的渲染大小、采样频率和主体多样性方面也更加方便快捷。现在,仅基于一小部分图像和视频,EyeSyn就可以合成超过180小时的眼动追踪数据,比现有的基于注视的活动数据集大18到45倍:根据研究人员MariaGorlatova的说法,“合成数据本身并不完美,但这是一个很好的起点。”小公司可以直接使用这种方法,而不是花费大量的时间和金钱与人类受试者一起构建真实世界的活动数据集。这种更快的眼动数据生产方法将使普通VR、AR和相关产品的生产成为可能。△MariaGorlatova论文:https://www.researchgate.net/publication/359050928_EyeSyn_Psychology-inspired_Eye_Movement_Synthesis_for_Gaze-based_Activity_Recognition开源链接:https://github.com/EyeSyn/EyeSynResource参考链接:https://techxplore.com/news/2022-03-simulated-human-eye-movement-aims.html。