当前位置: 首页 > 科技赋能

肖洪波太感人了!前端智能化三大挑战堪比螺丝道场 - GTIC 2018

时间:2024-05-22 10:22:42 科技赋能

正文 | CJ 3月9日,由智东西主办的GTIC全球AI芯片创新峰会在上海举行。

大会邀请了32位重要嘉宾分享,观众报名人数超过10000人,会场座无虚席。

场外甚至还有大量迟到的人选择现场观看直播。

在本次大会上,触景科技CEO肖洪波以“前端智能为安防创造数据新价值”为主题进行了精彩演讲。

对于安全中越来越重要的前端智能,Chujingwuwu有很多不同的看法。

以下是智竞熙整理的干货演讲资料。

1、传统监测技术无法满足现有需求。

触景无锡成立于2007年,一直专注于智能传感领域。

2017年,触景无锡开始进军安防领域,致力于为安防摄像头和无人机提供智能传感能力。

随着技术的提高和市场的发展,今天的安全与以前完全不同了。

首先,大量的安全数据对传统安全系统提出了挑战。

相机传感器每天都会生成大量数据。

单个高清摄像机需要10Mb/s的带宽,2亿个摄像机需要2Pb/s的存储空间。

安防数据量如此之大,以至于需要YouTube存储所有摄像头的视频数据。

其次,传统监测技术无法满足现有需求。

很多场景下,监控往往是存储后进行,人工进行筛选,或者将摄像头数据传输到云端,然后通过云端进行计算分析。

因此,传统监控技术的实时性不够好。

想象一下,无人机在飞行过程中需要识别周围物体,并使用双目摄像头确定周围距离并避开障碍物。

如果我们需要将数据传输到云端,云端可能要排队。

如果附近也有无人机飞行,当数据上传到云端时,双方的数据无法及时处理,可能会导致“崩溃”。

另外,由于安防的发展,家庭中使用越来越多的摄像头。

在家庭等场景中,传统的服务器处理需要将这种非常私密的数据传输到云端进行分析计算,因此传统的监控技术在某些场景下无法保证视频数据的私密性。

同时,与传统的视频编码有损压缩不同,前端可以轻松获取原始数据,并且可以直接对原始数据进行处理,并将处理结果反馈给传感器底层,并且可以利用智能分析的结果来优化底层SP(Subspace Pursuit,子空间跟踪)算法,以获得更好的数据质量。

2、对现实世界的多维度感知 因此,前端智能化以其实时性、隐私性、减轻后端压力、提高后端效率和质量等优势,成为安全领域的升级趋势之一。

在会后接受智动智专访时,肖洪波还提到,未来五年,越来越多具有前端传感能力的电子产品将进入市场。

如何利用传感器的感知能力挖掘更有价值的数据将是一个重要的课题。

除了图片、视频之外,前端智能还可以通过声音、测距、地理位置、激光测距、气压、海拔等多个数据维度感知自己所在的现实世界。

在前端将传感器数据融合在一起,提供多维度数据,并根据数据进行人工智能分析。

因为在现实世界中,人们观察到的数据是相关的而不是分离的。

人们会将多种信息结合起来进行综合分析,比如将一些距离信息与图像信息融合,或者将热信息与图像融合。

当我们重新分析多维数据时,往往可以分析出更有价值的信息。

例如,对于声音信息,前端智能可以让摄像头通过耳机阵列判断声音的方向和角度,并可以将场景中的求救、枪声、玻璃破碎的声音与摄像头联系起来。

这样,当紧急情况发生时,摄像头可以利用声音信息来调整摄像头,拍摄合适的照片和视频。

前端获得数据后,需要提供比较微观的、可测量的数据,以供前端设备未来的预测。

所谓微观测量,主要是测量时间维度和毫秒维度的数据。

以火车站场景为例。

当距离较远时,人脸很小,甚至小到无法用于人脸识别。

这样的数据没有任何价值。

当距离很近时,由于光照条件,面部角度可能会变得不适合拍摄。

因此,前端要做的就是确定哪一帧、哪一点进行合适的抓拍,这就需要前端摄像头根据周围的场景不断进行调整。

3、“螺丝里建道场”:前端智能面临三大挑战。

与云端相比,前端智能有很多优势,但也面临三大挑战:模型参数大、实时性要求高、计算能力弱。

对此,肖洪波表示,前端智能是“一颗螺丝钉里的道场”。

前端计算能力有限,功耗很低,因此散热和功耗需要很低。

在计算能力有限的情况下,需要进行模型压缩和优化,最终转化为数学优化问题来优化整个模型。

因此,前端嵌入式人工智能研究涉及大量底层优化工作。

针对这三大挑战,Touchview Infinity认为除了感官数据外,还需要引入时间维度数据。

通过具有时间维度的视频数据,可以实现多个摄像头之间的联动,前端可以获得更多的信息。

这种添加了时间维度的多摄像头场景称为前端摄像头传感阵列。

肖洪波表示,通常的模型都是基于卷积神经网络,利用图像处理来处理视频。

在实际的前端处理过程中,会遇到大量的视频数据,而视频数据本身是有时间维度的,但在之前的处理过程中被忽略了。

因此,通过这样的多摄像头联动,可以在多个摄像头中确定一个人的身份,并实现轨迹跟踪。

这样,未来就可以预测。

在时间维度进行预测后,人工智能AI模型可以在前端进行优化,以获得更好的处理性能。

Touchview Infinite可以通过边缘智能传感终端集群(SENS)实现多个摄像头的联动。

这是一个智能传感模块。

它很小,和人民币硬币大小差不多。

通过该模块,可以对摄像头进行扩展。

跟踪识别,从而形成本地前端传感阵列。

除了多摄像头联动之外,传感数据的优化也非常重要。

例如,在非常逆光的场景中,人脸后面有非常明亮的光。

人脸处于逆光环境下,在镜头前显得较暗。

但经过算法处理后,可以将人脸拍得非常清晰。

在非常强的背光条件下也可以获得非常清晰的图像。

在前端,Touchview实现了算法模型优化工厂,并提供嵌入式DPU和FPGA,帮助安防厂商的产品(如摄像头)获得前端感知能力。

2018年,Touchview Infinite推出了基于Intel Movidius芯片的前端采集系统Instant View。

前端可以不跳帧抓拍人脸。

单帧图像可以捕捉人脸,并且可以捕捉特定区域的图像。

优化(如强背光)。

结论:安防前端智能不仅仅局限于人脸识别。

说到安全,人们第一个想到的总是人脸识别。

我们经常在不同的新闻中看到数据,人脸识别算法的准确率接近%,但是当思考AI如何涉及到安全问题时,我们需要思考的不仅仅是狭义上的人脸识别。

如何优化人脸识别前的数据采集,如何捕捉高质量的图片,以及采集后如何对多类数据进行智能组合和分析,挖掘其背后更大的价值。

这些问题都值得思考。