当前位置: 首页 > 科技赋能

对话阿里巴巴iDST负责人华先胜!阿里巴巴视觉研究四大方向解读

时间:2024-05-22 19:12:30 科技赋能

文章|于洋云栖大会·上海峰会上,阿里巴巴iDST(Institute of Data Science & Technologies,数据科学与技术研究院)视觉计算负责人华先胜接受智能物联网专访,探讨应用领域阿里云视觉计算、深度学习、未来技术布局、数据与算法的关系。

iDST曾被称为阿里巴巴最神秘的部门。

它类似于谷歌的Google X实验室,从事人工智能、机器学习等前沿领域的科学研究,而不注重短期商业价值。

华先生是iDST的成员。

2007年加入阿里巴巴,2016年7月加入阿里云人工智能研究院iDST科学家团队,负责阿里云视觉计算团队的研发。

此前,华先生在微软工作了14年。

他是视觉识别和图像搜索领域的国际权威学者、IEEE Fellow会员。

1、视觉计算四大应用方向华先生于2016年加入微软,一直致力于视觉识别和图像搜索。

当时他们开发了一项技术,将视频浓缩成三到五分钟的精华,而且还搭配了音乐,播放时会更方便。

这也是当时的十二大创新之一。

后来由于视频分析比较困难,我转而进行图像搜索。

加入阿里巴巴的第一年,华先生也在搜索部门,只是为了解决通过图片搜索商品的问题。

但随着技术的发展,尤其是深度学习技术的出现,今天我们有机会分析视频中的具体语义。

在谈到深度学习时,可以看到华先生的眼神里充满了光芒,言语中充满了肯定。

华先生表示,目前可视化分析的方法有两种。

一是提取帧。

照片和视频的图像技术有点不同。

对于视频来说,这是一个连续的动画过程。

还有一种方法就是从视频上来做,可以用来追踪,比如阿里城市大脑中的识别。

当两辆车相撞并发生交通事故时,通过跟踪这段视频,您可以确定发生了什么。

在视觉计算的应用领域,华先生谈到了交通、营销、医学图像分析、搜索等几个具体方向。

目前以交通视频为主,未来将逐步扩展到安全、环境等更多领域。

首先,交通视频技术上涉及多条线路,例如监控或个人图像视频。

通过监控和分析交通视频,我们可以知道发生了什么事件,从而可以用于跟踪和识别。

人以及许多其他方面。

第二个可以用于精准营销。

例如,在电影中投放广告时,广告的内容必须是相关的,这就需要对视频内容的理解。

再比如,如果这个人正在打瞌睡,你最好在这个场景中制作一个清爽的广告。

这是基于内容的识别。

华先生表示,个人、媒体、电影、网络视频可以一起做。

它们在技术上是相似的,但有时问题的难度是不同的。

三是视觉诊断,可应用于医学图像分析和工业诊断。

华先生表示,医疗是阿里云的一个方向,他们也在和医疗部门合作。

其实这可以归为一个大类,叫视觉诊断,包括人为诊断、设备诊断、生产线诊断等。

比如工业生产线上不良品的检查,包括生产车间的设备状态,过去要求人们检查。

第一,它是劳动密集型的,而且环境可能不是很好。

一个相机可以解决很多问题,从而大大减少问题的数量。

人手。

第四是搜索。

它本身就是一种技术,也是一种场景。

例如,它可以用于个人视频和医疗应用。

它与文本搜索引擎不同。

它是视觉信息,这是阿里巴巴所擅长的。

比如你想找一辆车在城市里的行驶轨迹,你可以用手机搜索,有照片也可以搜索,也可以根据照片搜索电视剧。

这些都是视觉搜索,都是局部的分析和识别。

有方向性。

另一种是相反,就是产生一些识别信号,比如产生艺术图片或者根据视频产生广告。

这种广告基本上不影响体验,会是一个比较优雅的广告。

这就是为什么它能够带来商业价值。

2、将神经网络推向死胡同 谈起深度学习技术,华先生充满了热情。

他认为深度学习几乎席卷了视觉领域的所有传统方法。

他表示,其实很多研究传统机器学习的人都无法接受深度学习,也就是说,为什么没有完整的理论就能做得这么好?然而,原来传统的机器学习有很好的理论,可以推论,而深度学习不好做假设。

许多人认为深度学习只是随机实验。

事实上,这需要大量的经验和分析。

如何设计你的网络才能实现你的目标,特别是如何迫使你的视频网络实现你的目标。

但这是事实。

有规则可循。

另外,你需要有一个好的策略,甚至一些样本和数据。

样本本身也是决定你最终能否做好的关键因素。

深度学习的另一个好处是,当你设计好网络之后,你可以使用很多方法将其调整到良好的状态。

有很多方法可以使网络收敛到你想要的点,尽管并不是所有问题都能解决。

你可以做到,但是你可以通过训练策略等很多手段来做到这一点,相当于说你要他有很多目标,把他逼到死角,然后他才能收敛到你想要的目标。

此外,视觉计算团队也在布局一些未来的技术,比如如何在城市大脑中检测复杂场景中的时空异常。

目前我们有一个最近的解决方案,可以利用机器学习对图像和视频做初步的分解,比如车、人、车流的分解,然后通过这些来检测异常。

能上升到更高的高度吗?我们在这方面进行了尝试,但还没有达到使用的地步。

此类异常情况并不多,但缺乏解决所有小概率事件的通用方法。

3、数据对于整体智能更重要。

在5月底的数博会上,李彦宏表示“数据不是根本,技术才是王道”。

但今天华先生却给出了不同的答案。

当智熙问及数据与算法的关系时,华先生更加认可了数据的价值。

他指出,数据实际上有两个意义和用途。

首先是算法的研发,要有数据;另一方面,智能的产生本身依赖于数据。

数据驱动的智能不是算法本身。

该算法仅为智能部分提供基础。

比如有一个很好的检测算法可以让我们知道交通流的状态。

然而,如果我们想要优化城市交通,我们必须有大量的数据来做到这一点。

这时候数据本身就产生了智能,不存在大数据。

智力无法产生。

这就是单一智力和整体智力的区别。

单一智能的数据只服务于算法本身的效果,而算法在整体智能中的作用会大大降低。

未来必须是两者的结合。