文章|于洋云栖大会·上海峰会上,阿里巴巴iDST(Institute of Data Science & Technologies,数据科学与技术研究院)视觉计算负责人华先胜接受智能物联网专访,探讨应用领域阿里云视觉计算、深度学习、未来技术布局、数据与算法的关系。
iDST曾被称为阿里巴巴最神秘的部门。
它类似于谷歌的Google X实验室,从事人工智能、机器学习等前沿领域的科学研究,而不注重短期商业价值。
华先生是iDST的成员。
2007年加入阿里巴巴,2016年7月加入阿里云人工智能研究院iDST科学家团队,负责阿里云视觉计算团队的研发。
此前,华先生在微软工作了14年。
他是视觉识别和图像搜索领域的国际权威学者、IEEE Fellow会员。
1、视觉计算四大应用方向华先生于2016年加入微软,一直致力于视觉识别和图像搜索。
当时他们开发了一项技术,将视频浓缩成三到五分钟的精华,而且还搭配了音乐,播放时会更方便。
这也是当时的十二大创新之一。
后来由于视频分析比较困难,我转而进行图像搜索。
加入阿里巴巴的第一年,华先生也在搜索部门,只是为了解决通过图片搜索商品的问题。
但随着技术的发展,尤其是深度学习技术的出现,今天我们有机会分析视频中的具体语义。
在谈到深度学习时,可以看到华先生的眼神里充满了光芒,言语中充满了肯定。
华先生表示,目前可视化分析的方法有两种。
一是提取帧。
照片和视频的图像技术有点不同。
对于视频来说,这是一个连续的动画过程。
还有一种方法就是从视频上来做,可以用来追踪,比如阿里城市大脑中的识别。
当两辆车相撞并发生交通事故时,通过跟踪这段视频,您可以确定发生了什么。
在视觉计算的应用领域,华先生谈到了交通、营销、医学图像分析、搜索等几个具体方向。
目前以交通视频为主,未来将逐步扩展到安全、环境等更多领域。
。
首先,交通视频技术上涉及多条线路,例如监控或个人图像视频。
通过监控和分析交通视频,我们可以知道发生了什么事件,从而可以用于跟踪和识别。
人以及许多其他方面。
第二个可以用于精准营销。
例如,在电影中投放广告时,广告的内容必须是相关的,这就需要对视频内容的理解。
再比如,如果这个人正在打瞌睡,你最好在这个场景中制作一个清爽的广告。
这是基于内容的识别。
华先生表示,个人、媒体、电影、网络视频可以一起做。
它们在技术上是相似的,但有时问题的难度是不同的。
三是视觉诊断,可应用于医学图像分析和工业诊断。
华先生表示,医疗是阿里云的一个方向,他们也在和医疗部门合作。
其实这可以归为一个大类,叫视觉诊断,包括人为诊断、设备诊断、生产线诊断等。
比如工业生产线上不良品的检查,包括生产车间的设备状态,过去要求人们检查。
第一,它是劳动密集型的,而且环境可能不是很好。
一个相机可以解决很多问题,从而大大减少问题的数量。
人手。
第四是搜索。
它本身就是一种技术,也是一种场景。
例如,它可以用于个人视频和医疗应用。
它与文本搜索引擎不同。
它是视觉信息,这是阿里巴巴所擅长的。
比如你想找一辆车在城市里的行驶轨迹,你可以用手机搜索,有照片也可以搜索,也可以根据照片搜索电视剧。
这些都是视觉搜索,都是局部的分析和识别。
有方向性。
另一种是相反,就是产生一些识别信号,比如产生艺术图片或者根据视频产生广告。
这种广告基本上不影响体验,会是一个比较优雅的广告。
这就是为什么它能够带来商业价值。
2、将神经网络推向死胡同 谈起深度学习技术,华先生充满了热情。
他认为深度学习几乎席卷了视觉领域的所有传统方法。
他表示,其实很多研究传统机器学习的人都无法接受深度学习,也就是说,为什么没有完整的理论就能做得这么好?然而,原来传统的机器学习有很好的理论,可以推论,而深度学习不好做假设。
许多人认为深度学习只是随机实验。
事实上,这需要大量的经验和分析。
如何设计你的网络才能实现你的目标,特别是如何迫使你的视频网络实现你的目标。
但这是事实。
有规则可循。
另外,你需要有一个好的策略,甚至一些样本和数据。
样本本身也是决定你最终能否做好的关键因素。
深度学习的另一个好处是,当你设计好网络之后,你可以使用很多方法将其调整到良好的状态。
有很多方法可以使网络收敛到你想要的点,尽管并不是所有问题都能解决。
你可以做到,但是你可以通过训练策略等很多手段来做到这一点,相当于说你要他有很多目标,把他逼到死角,然后他才能收敛到你想要的目标。
。
此外,视觉计算团队也在布局一些未来的技术,比如如何在城市大脑中检测复杂场景中的时空异常。
目前我们有一个最近的解决方案,可以利用机器学习对图像和视频做初步的分解,比如车、人、车流的分解,然后通过这些来检测异常。
能上升到更高的高度吗?我们在这方面进行了尝试,但还没有达到使用的地步。
此类异常情况并不多,但缺乏解决所有小概率事件的通用方法。
3、数据对于整体智能更重要。
在5月底的数博会上,李彦宏表示“数据不是根本,技术才是王道”。
但今天华先生却给出了不同的答案。
当智熙问及数据与算法的关系时,华先生更加认可了数据的价值。
他指出,数据实际上有两个意义和用途。
首先是算法的研发,要有数据;另一方面,智能的产生本身依赖于数据。
数据驱动的智能不是算法本身。
该算法仅为智能部分提供基础。
比如有一个很好的检测算法可以让我们知道交通流的状态。
然而,如果我们想要优化城市交通,我们必须有大量的数据来做到这一点。
这时候数据本身就产生了智能,不存在大数据。
智力无法产生。
这就是单一智力和整体智力的区别。
单一智能的数据只服务于算法本身的效果,而算法在整体智能中的作用会大大降低。
未来必须是两者的结合。