中国科学技术大学统一输入过滤框架:首次可过滤性理论分析,支持全数据模式通用。据估计,到2022年,超过80%的商业物联网项目将包含AI应用。然而,大多数具有最佳精度的AI模型计算量太大,无法在移动设备上执行高吞吐量推理,即使推理任务被卸载对于边缘或云服务器,其推理效率无法满足应用程序的需求。以移动为中心的人工智能应用中广泛存在冗余输入,对其进行过滤是提高推理效率的有效途径。现有工作分别探索了两种类型的输入过滤机制:推理跳过和推理重用。其中,推理跳过方法旨在跳过不产生有意义输出的推理计算。例如,相册分类应用程序可能会在没有人脸的图片上运行人脸检测模型;智能扬声器应用程序可能会上传不包含说明的语音。到云端进行语音识别:推理重用方法希望重用已经执行过的推理计算的结果,以便在新数据到达时可以更快地从缓存中返回结果。例如,智能手环上的动作分类模型可能会处理生成的具有相同动作标签的运动信号:而基于无人机和边缘服务器的交通监控可能会在两个连续的图片帧中得到恒定的车辆计数结果:现有工作已经设计了有效输入许多应用的过滤方法,然而,有两个重要问题仍未得到解答并严重影响输入过滤方法的应用:推理任务的可过滤性。尽管输入过滤技术在许多特定应用中显示出优化效果,但它们往往受到对冗余输入的主观观察的启发。如果“哪些推理任务对输入过滤有优化机会”的问题无法在理论上得到回答,那么输入过滤技术的应用就很难避免代价高昂的试错过程;强大的特征可区分性。输入数据的特征表示直接关系到执行推理跳过和找到可重用推理结果的准确性,因此对输入过滤的性能具有关键影响。大多数现有方法依赖于手工制作的特征或预训练的深层特征,这些特征在应用过程中不能很好地区分,并且可能完全失去过滤效果。在MobiCom2022上,中国科学技术大学LINKE实验室提出了一个端到端可学习的输入过滤框架InFi(INputFIlter),用于以移动为中心的模型推理场景。这项工作首次对输入过滤问题进行形式化建模,并基于推理模型和输入过滤器的函数族复杂度的比较,从理论层面分析了推理任务的可过滤性。InFi框架涵盖了现有SOTA方法使用的推理跳过和推理重用机制。本工作基于InFi框架,设计并实现了支持六种输入模态和三种推理任务部署方法的输入过滤器,在以移动为中心的推理场景中具有广泛的适用性。对12个以移动为中心的AI应用程序的实验验证了理论分析结果,表明InFi在适用性、准确性和资源效率方面优于SOTA方法。其中,在移动平台上的视频分析应用中,与原始推理任务相比,InFi实现了推理吞吐量的8.5倍,节省了95%的通信带宽,同时保持了90%以上的推理准确率。论文地址:https://yuanmu97.github.io/preprint/InFi_MobiCom22.pdf项目地址:https://github.com/yuanmu97/infi可过滤性分析直观上推理任务的可过滤性是指:基于原推理任务,是否可以获得输入数据冗余的低成本,高精度预测器。原始推理任务被定义为属于函数族H的模型h,它将输入数据映射到推理输出。例如,人脸检测模型以一张图片作为输入,输出检测结果(人脸位置的检测框)。根据推理模型的输出,定义一个冗余判断函数f_h,输出一个冗余标签。例如,当人脸位置检测框的输出为空时,推理计算就被认为是多余的。属于函数族G的输入过滤器g被定义为从输入数据到冗余标签的映射函数。假设原始推理模型的目标函数(即提供真实标签的函数)为c,其过滤器的目标函数为,可见原始推理模型与训练输入的区别filter的区别在于监督标签:推理预测由原任务标签域Y监督,而filter预测由冗余标签域Z监督。那么推理任务的可过滤性的直观思路是如果学习输入过滤器比学习原始推理模型更简单,那么就有可能获得有效的输入过滤器。基于这一思想,本工作分析了三种常见类型推理任务的可过滤性:分析过程的关键是将输入过滤器的目标函数与原始推理模型相关联,从而在两者之间建立复杂度可比的复杂度两个学习任务。桥。以分类任务为例,基于置信度的冗余判别,输入滤波器的目标函数族具有分析结果的形式。框架设计与实现上面的可过滤性分析是基于将输入过滤视为学习任务,因此框架设计需要端到端可学习,而不依赖于手工制作的特征或预训练的深度特征。同时,框架设计应统一支持推理跳过(SKIP)和推理重用(REUSE)机制。这项工作基于一个简洁的思想,即对所有零输入的推理结果,SKIP等同于REUSE,将两种机制统一到一个框架中。该框架包括两个阶段,训练和推理。在训练阶段,通过孪生特征网络对一对输入数据进行特征提取,计算特征距离后,使用分类网络得到冗余标签预测结果。在推理阶段,如果使用SKIP机制,则将另一输入的特征固定为零,退化为一个基本分类器,根据预测的冗余标签决定是否跳过当前输入数据;如果使用REUSE机制,需要维护一张“输入特征-推理输出”表作为缓存。通过计算当前输入特征与缓存的输入特征之间的距离,使用K近邻法来决定是否重用缓存的推理结果。这项工作提出了“模态相关特征网络+任务无关分类网络”的设计,针对文本、图像、视频、音频、感知信号和中间层特征设计了特征提取网络,并且可以很容易地扩展到更多的Multi-数据模态,分类器网络被设计为多层感知器模型。对输入模态的灵活支持为InFi在不同任务部署方法中的适用性提供了基础,包括三种典型的以移动为中心的推理任务部署方法:on-device推理、卸载到边缘推理和端到边缘模型分割推理。InFi使用Python实现,深度学习模块基于TensorFlow2.4,目前代码已经开源。验证实验InFi在5个数据集上对12个人工智能推理任务进行了验证实验,涵盖图片、视频、文本、音频、运动信号、中间层特征六种输入模态。与三种基线方法的对比实验表明,InFi具有更广泛的适用性,并且在准确性和效率上都具有优势。以城市道路监控视频中的车辆统计任务为例,在进行on-device推理时,与原有工作流程相比,使用SKIP和REUSE机制的InFi方法可以分别提高推理吞吐量1.9倍和7.5倍。保持90%以上的推理准确率;两种机制下的InFi在进行端到边的模型分割推理时分别可以节省70.7%和95.0%的通信带宽。InFi的训练成本也很低。在基于运动信号的动作识别应用中,只有10%的训练数据集被用于获得具有接近最优过滤性能的SKIP和REUSE结果。InFi节省了80%的推理操作,同时保持了95%以上的推理准确率。结论和未来展望这项工作首次给出了可过滤性的理论分析,提出了一个统一的端到端可学习输入过滤框架,并验证了其设计和实现在广泛的人工智能推理任务中的优越性。它对于实现以移动为中心的资源高效推理具有重要意义。InFi框架的优点之一是它不需要手动标记。未来可能会形成一种新的人工智能模型部署的最佳实践,即在每个模型的推理服务过程中,对输入过滤器进行自监督训练,以实现模型推理的准确性-资源权衡。
