文章|莉娜 昨天一早,谷歌在一年一度的秋季硬件发布会上一口气发布了 7 款新品,包括 Pixel 2 手机、笔记本、翻译耳机、智能音箱、AI 摄像头……这一次的发布会“硬件供应充足” ”贯穿了谷歌“AI+软件+硬件”(AI+Software+Hardware)的中心思想。
从之前的爆料中我们基本上已经听说过 Pixel 手机、音箱、笔记本等产品。
相反,AI相机Clips、无线翻译耳机Pixel Buds等新颖有趣的AI新产品引人瞩目。
尤其是Clips,这是一款通过人工智能技术,可以自动选择场景、自动拍摄视频、自动保存的小相机。
你只需打开它并放在一边,它就会自动为你记录它认为有意义的内容。
片刻。
1. Clips是一款专注于家庭场景的AI相机,是一款方形相机,高仅5厘米,重60克。
它售价为美元(折合人民币),体积很小,而且也很轻。
只有1个快门按钮、1个镜头和1个拍摄时亮起的LED灯。
装上内置塑料外壳后,可以放置、悬挂或挂钩在家中的任何角落。
通过扭转镜头打开相机后,它可以每秒 15 帧的速度进行录制,拥有百万像素传感器和广角镜头,可以自动对焦,拥有 16GB 存储空间,电池续航时间为 3 小时——但是,确实没有内置麦克风。
最重要的是,当你将 Clips 放置在客厅时,在 AI 技术的加入下,它会自动“观察”镜头中的世界。
当出现有趣的场景时——比如你的小宝宝摇摇晃晃、蹒跚学步,或者家里的小猫饶有兴致地玩着线——,就会自动开始录制,视频时长从几秒到更长不到十秒的视频就会被录制下来(短视频的剪辑被称为“Clips”(Google的名字总是那么直白),用户可以在手机APP上选择将这些视频剪辑并导出为视频、照片、GIF或动态照片。
谷歌这款相机的目标受众是家庭,更具体地说,是室内环境中的婴儿、幼儿和宠物,当您想专心与孩子玩耍时,或者当您外出工作而错过精彩瞬间时,可以为您保存这一刻。
对于那些担心自己隐私安全的用户,谷歌表示,整个机器学习拍摄、计算和存储过程都是在相机终端上进行的,并且只有在想要导出照片时才将数据传输到网络。
,您需要在手机上下载Google App,并在App内选择编辑、导出或删除。
Clips 可与 Google 自家 Pixel 手机配合使用,也适用于三星 S7/8、iPhone 6/7/8 等机型。
不过,Clips 产品总监 Juston Payne 反复强调,Clip 并不是 Pixel 手机的配件,也不是任何东西的配件。
像所有其他数码相机一样,Clips 是一款独立相机。
2.利用AI自动寻找“有趣”的场景。
如上所述,Clips 会聚焦于“有趣”的场景。
到目前为止,它认为有趣的东西包括:面孔和宠物。
你可以想象一下克利普斯的“思考”过程是这样的:它睁开眼睛,看着眼前的世界。
然后问自己一系列问题,“这个世界上有面孔吗? - 这是我认识的面孔吗? - 这张脸上的眼睛睁着吗?它在微笑吗? - 这里的光线足够吗? - 这张照片模糊吗? ...”最后,确保镜头是好的并且值得拍摄。
Clips需要独立判断这些内容,这自然就需要我们天天提到的机器学习。
正如所有其他人工智能模型都需要接受大量数据的训练一样,Clips 使用的模型也是如此。
但快船面临着一个难题——没有合适的训练数据。
世界上有大量已经标记的数据集。
以 ImageNet 为例。
数千张带有“猫”或“狗”标签的图像数据可以快速训练出能够区分猫和狗的神经网络。
然而,世界上没有一套机器训练数据集包含“这是一个婴儿在地板上爬行的视频短视频,这是他父母想要保存的片段”或“有一个视频”一只小猫玩毛线球的样子看起来很可爱”的标签数据。
没有训练数据,人工智能神经网络就无从谈起。
然而,谷歌毕竟是谷歌。
一方面,它拥有强大的研究团队,另一方面,别忘了它还拥有全球最大的在线视频网站YouTube。
目前YouTube上有超过10亿个在线视频,并且用户每天持续上传超过30万个新视频。
这些视频是优秀的机器学习材料(特别是对于宠物猫)。
Google的Clips团队与大量视频编辑和图像评估团队合作,通过手动标记和评分视频来提供Clips的培训材料。
而且,在今年 5 月的 I/O 开发者大会上,谷歌宣布升级了 Google 照片库软件:现在加入了人工智能和机器学习技术,Google Photo 可以自动帮助你在众多照片中进行选择。
清晰、不重复、拍摄精美的照片。
随着你使用的次数越来越多,Clips会变得越来越聪明,慢慢地“学习”你关心哪些人、关心哪些场景。
下次您带孩子去公园一起玩耍时,Clips 只会专注于拍摄您孩子的照片,而不会被其他孩子的面孔“分散注意力”。
Clips 产品总监 Juston Payne 表示,Clips 现在非常擅长查找人和宠物(或者更准确地说,宠物猫和宠物狗——暂时不考虑宠物猪)的图像。
但仅限于家庭场景。
当你去度假、旅行、跳伞或水肺潜水时,Clips 无法判断哪些图像值得拍摄。
未来,谷歌计划在更多终端设备上拓展AI功能,支持更多应用场景。
Clips 是谷歌“AI for everything”宏伟计划的一小部分。
它很昂贵,而且不太聪明,但这是第一步。
3.隐私问题、终端智能和VPU 当然,面对这样一款完全由AI自主控制的摄像头,隐私问题可以说是房间里的粉红大象,无法回避。
面对这个问题,谷歌表示:“我们知道隐私确实很重要,所以我们一直在为Clips用户、他们的家人和朋友着想。
因此Clips是根据以下原则设计的: 1. Clips看起来像一个相机——意思是每个看到它的人都知道它是一台相机 - 当 Clips 打开时,LED 灯会亮起,让每个人都知道它正在运行 2. 当您与家人或亲密朋友一起在室内环境中时,它效果最佳,因为 Clips 可以自动进行。
学习识别与你相关的人脸,帮助你捕捉更多精彩瞬间。
最后,整个机器学习过程全部在摄像头端进行,没有任何数据传输到摄像头。
和所有相机一样,只有当你想导出照片时,数据才会离开你的设备。
”至于这三点能否说服用户。
……这很难说。
4.VPU是谁?抛开隐私问题不谈,上面提到的第三点很有趣。
为了实现在不连接云端的情况下在摄像头终端上进行图像计算和识别的能力,Clips内置了英特尔的Movidius Myriad 2 VPU视觉处理芯片。
这里解释一下,Movidius是一家硅谷公司,今年9月被英特尔收购。
Myriad 2 是这款芯片的名称。
Myriad 1 曾用于谷歌的 Tango 平板电脑。
VPU是视觉处理单元的缩写。
正如志东之前在一系列关于AI芯片的报道中提到的,现在的芯片/处理器实际上是指封装在一起的“处理器封装”。
这种计算包在技术上称为SoC(片上系统)。
-a-Chip),高大上的术语是“计算平台”。
根据分工的不同,增加了许多具有特殊功能的处理单元。
比如说我们最熟悉的就是GPU。
现在这个封装中的独立单元数量越来越多,比如ISP(图像处理)、Modem(通信模块)、DSP(数字信号处理),还有神经网络引擎、NPU等(AI苹果的A11和麒麟添加了不同的应用程序,不同的数据进来并由不同专业的计算模块处理,这将带来更好的结果和更高的能源效率。
比较。
不过,虽然都是“U”,但VPU与GPU、NPU是不同的。
它不是(或不仅仅是)一个模块,它本身就是一个SoC,集成了多个主控RISC CPU、众多硬件加速单元和矢量处理器阵列,专门为视觉海量像素的高性能图像信号处理而设计。
处理器(ISP)和丰富的高速外围接口。
VPU专为视觉处理应用而设计,在性能、功耗和功能上都有特殊增强,使其更加贴近实际应用需求。
尤其是在功耗方面,据 Movidius 首席执行官 Remi El-Ouazzane 介绍,与能够提供相同效果的 GPU 相比,Myriad 2 的功耗至少低了 10 倍——对于像 Clips 这样重量仅为 60 磅的小型相机来说一般来说,功耗和续航问题一定是重中之重。
Myriad 2的芯片设计包括12个SHAVE位处理器+SIPP滤波器。
前者对原始图像数据进行计算和处理。
每个处理器的运行频率为 MHz,并且具有超频潜力;后者是SIPP(Streaming Inline)处理管道滤镜,硬件加速的缩写,可以完成一些预设的图像处理任务,例如融合来自不同类型摄像机的数据或将多个视频内容拼接在一起。
此外,Myriad 2 VPU上还有两个32位RISC处理器用于芯片管理,有效降低延迟。
(Myriad 2的其他参数)当然,除了传统的图像处理能力之外,Myriad 2最重要的还是它的AI能力。
对于Clips来说,就是相机的智能理解能力。
除了芯片本身之外,Movidius还设计了一系列补充算法和SDK,使Myriad 2能够支持3D建模和扫描、图像搜索、室内导航、手势输入、面部识别、物理物体检测等——想必这个这次与谷歌的合作也让两家公司能够共同开发更多的功能。
基于这种架构设计,Myriad 2芯片采用台积电28nm工艺制造,面积为6.5mm,厚度为1mm。
支持6路60帧全高清视频信号输入,功耗在1.2W以内。
事实上,这款 Myriad 2 芯片于 2018 年发布,并集成在 DJI Phantom 4 无人机中。
而且,英特尔在不久前(今年8月)还推出了新版本的Movidius Myriad X VOU,拥有更强大的性能效果。
至于为什么没有在Clips中使用,可能是出于成本考虑,也可能是功耗考虑。
(目前Myriad 2的售价已降至每台不到10美元)结论:AI相机只是一个开始。
Clips看似是一个不起眼的小玩意,但不知道你是否意识到,它是有史以来第一个完全由AI驱动的主动决策的消费电子产品。
从它打开的那一刻起,人类就失去了对它的控制。
我们不知道它会选择拍摄什么场景,也不知道它为什么选择这个场景来拍摄——就像目前深度学习所使用的各种神经网络一样。
,我们知道它们工作得很好,但我们仍然不知道为什么。
这既令人兴奋又有点可怕。
可见,端到端智能化、端到端AI已经是大势所趋。
无论是软件上各种机器学习算法的不断成熟,还是硬件上各种高性能低功耗AI芯片的诞生,都在推动“万物AI”的发展。
步伐。
继Google Clips AI相机之后,不难想象AI咖啡机、AI麦克风,甚至AI耳环、AI腰带的诞生。
快船的市场反馈只会加速或延缓这一趋势,但不会结束它。
这仅仅是个开始。