人工智能可以说话和倾听,这是每个人都知道的。
例如,智能音箱、语音助手、手机中的语音输入方式等都得到了广泛的应用。
在感知智能的大方向上,AI当然不仅能说话,还能看——比如在张学友的演唱会上抓逃犯。
但AI的“看”不仅仅是识别人脸,还包括识别和判断物体。
例如,谷歌的猜画小程序依靠人工智能来识别物体。
不过,目前该领域商业化的方法似乎并不多。
人脸识别可以用于大规模的安防应用,但如今更多的AI物体识别的应用演示还停留在游戏和炫技的层面。
有没有办法让人工智能识别物体的能力从“好玩”变成“赚钱”?国内外各路AI势力都在努力解决这一问题。
理想总是美好的,但现实却缓慢而残酷。
AI之眼似乎还没有给商业世界带来足够的魅力。
Google Lens:下一个时代还是小菜一碟?普通人能使用的AI物体识别主要集成在手机摄像头中。
当用户将摄像头对准想要识别的各种事物时,AI系统会通过图像识别和OCR技术给出相应的结果。
听起来还是挺感人的。
目前,AI巨头谷歌在这一领域探索最多。
在年度 I/O 大会上,谷歌发布了集成到 Google Photos 中的 Google Lens 功能。
通过这个功能,手机用户可以将摄像头对准各种物体,然后让AI说话,告诉你它看到了什么。
准确来说,Lens的很多功能还是比较实用的。
例如,当旅行者面对未知的文物时,可以使用Google Lens来学习相关的历史文化知识;指向一瓶酒,人工智能可以告诉你有关这瓶酒的各种信息,例如年份和如何饮用。
、价格等;当在国外拍摄交通标志时,人工智能会利用谷歌翻译的力量来翻译信息。
谷歌并没有公布Lens能识别多少种东西,但从目前的情况来看,它已经可以识别相当多的类型了。
在今年的I/O大会上,这一功能进一步升级,可以通过拍照来识别文字信息、推荐穿搭风格,甚至可以识别海报上给出的艺术家信息和作品。
从一年来的发展来看,谷歌对Lens寄予厚望。
它不仅升级了产品地位,还不断激发新功能,并与谷歌其他AI应用建立联系。
虽然看似无所不能,但能识别一切的Lens也有一个弱点:Lens真正的工作流程是将识别出的物体与数据库进行匹配。
也就是说,数据库的大小直接影响Lens的用户体验。
技术本身的创造力乏善可陈。
比如去年吴恩达就毫不留情地嘲讽:Lens的花卉识别功能其实是百度遗留下来的。
目前,现实生活中的朗斯依然是“偶尔惊艳、日常痴呆”。
当然,这会给中国消费者带来更多的不便。
例如,Lens目前不支持中文。
然而,人工智能目标识别是军事战略家的战场。
微软不断声称Bing搜索中的照片搜索并不比Lens差。
然而,谷歌和微软都无法解决AI图像搜索的根本问题:用户打开率低、商业化差。
可以垂直做吗?对比国内AI物体识别的几个场景,谷歌推出的AI物体识别功能“我能识别一切”非常强势。
国内的AI公司,无论是BAT还是初创公司,似乎还处于这项技术应用的早期阶段,也更加关注快速商业化的可能性。
集中体现在,国内AI物体识别的应用大多集中在几个场景: 1、图像购物。
这个功能已经变得司空见惯了。
淘宝、天猫、京东都推出了图片购物功能。
让用户通过拍照的方式来匹配产品,更高效的了解自己平台上真实产品的价格。
就技术方案而言,由于拍摄的商品往往是AI识别的类别,特征明显、信息清晰,例如衣服、包包等,因此这类图像识别技术并不难,再加上完整的商品数据库,并不需要很强的技术探索能力。
但缺点也很明显,那就是用户的打开针对性太强。
2、认识花。
各种花卉识别软件和产品功能已经对中国用户的AI知识进行了洗礼。
目前,AI对花草的识别能力已经做到相当准确。
问题可能在于,这些应用大部分还是需要调用云数据库进行匹配,识别率不高。
和看图购物一样的问题是应用场景太窄。
毕竟没有人每天都有时间去春游…… 3、扫盲。
与识别花朵相比,文本识别实际上在OCR纠错、模糊识别等领域提出了更大的技术挑战。
尤其是手写体和古文字的识别。
国内不少AI初创公司开始聚焦照片识别、文字识别等细分应用领域。
比如我们已经可以看到AI识别并记录名片,利用AI拍照并实现外语翻译,在旅行中利用AI识别碑文、牌匾、金石碑文等,为旅行增添乐趣。
4. 批量作业。
从文本识别衍生出国内AI识别的另一大流派,那就是用AI来识别问题、批改作业。
这个领域需要足够的数据支持和手写识别能力,只能说还处于早期应用阶段。
但对于数学这样的科目,人工智能基本上可以用来批作业、评卷。
而且,AI批量作业还催生了另一个应用——利用AI答题的考试作弊工具。
当然,这四大领域各有市场可能性,但同样的问题是,用户可能不会花大量时间沉浸在某个细分识别领域。
毕竟,拿起手机拍摄物体很难成为一种随时发生的习惯。
应该是全能的还是专门的? AI物体识别应该是什么样的业务?想象力与难度并存的AI视觉应用。
从Google的产品逻辑我们可以发现,AI物体识别的出现希望用户能够面对生活中的各种事物:无论是猫狗、花草、海报信息还是街道建筑,拿出手机拍一张照片,让AI告诉你背后的答案。
这个让AI告诉我们一切的计划有一个很好的起点。
但问题是,这违背了大多数用户的搜索引擎习惯,而且我们在生活中遇到的大多数问题都不是眼前的真实物体,而是一些知识、信息或答案。
这些东西是无法通过拍照来寻找的,甚至搜索信息的强度也远远大于对眼前实物的茫然。
另一方面,AI识别物体的准确率有待提高。
一旦发现一两次AI识别错误或者恶意尝试萌化,用户自然就很难形成再次尝试的冲动。
因此,识别一切的万能AI似乎并不是这个行业的真面目。
场景化使用中,主要问题是出现频率不高,难以培养用户的使用习惯。
当然,进入商业层面也有一定难度。
目前,解决这个问题的办法很可能在于将AI物体识别技术与某些相对高频的移动互联网需求联系起来,并借助营销形成场景化的习惯。
最有可能的当然是旅行。
我们可以发现,无论是识别花草、识别古迹、识别名胜古迹,还是翻译交通标志和菜单,这些都是旅行中的因素。
当使用花卉识别应用程序和翻译器进行翻译、识别纪念碑然后调用特殊的小程序时,大多数人可能会觉得这种体验很烦人。
因此,在出行场景的统一规划下,今天似乎有更多机会整合各种AI物体识别应用,形成一站式出行AI。
BAT和出行APP凭借技术和数据优势,似乎更有可能成为该领域AI应用的整合者。
当然,我们更希望看到的是借助机器视觉能力诞生新的AI巨头。
与出行类似,AI物体识别的另一个机会在于儿童市场和教育市场。
孩子们需要利用AI来识别和感知更多的事物,而让AI为好奇的宝宝对生活中的各种事物提供答案似乎更能被年轻父母接受。
更重要的识别应用在于教育。
无论是老师批作业、家长辅导孩子,甚至学生寻找答案,无疑都是一个痛苦的过程。
如果能够利用人工智能来整合和激活这个市场,前景应该是比较客观的。
AI语音的理想状态是通过对话控制生活中的一切,包括智能家居硬件、内容、手机和购物。
AI物体识别最理想的商业状况也是形成一个超级平台,这样当我们面对生活中所有的困惑和好奇时,我们可以拿出手机拍张照片,让AI告诉我们答案。
然而,世界搜索的需求限制以及当前技术本身的瓶颈确实正在降低这样一个超级平台诞生的可能性。
但在垂直场景下,毫无疑问,AI图像识别可以提高人机交互的效率,是一种非常酷炫时尚的搜索方式。
商业市场依然充沛。
此外,目前还存在一些问题限制了该技术的应用。
比如,前面提到的模糊识别准确率低的问题,往往会导致用户需求与AI答案截然相反;再比如中文知识图谱体系还不够完善,很多领域我们目前还没有足够的中文数据来进行AI解答;而一个问题是,很多AI物体识别场景实际上需要摄像头响应能力,这就放弃了很多低端入门级手机搭载AI识别应用的可能性。
让人工智能帮助我们看到这个世界足够近,但却很远。
近与远之间的故事,或许是无数科技公司需要绞尽脑汁才能理解的。