当前位置: 首页 > 科技观察

“AI”向你发起视频通话,接不接?

时间:2023-03-14 01:00:26 科技观察

在一年一度的超级碗之前,亚马逊又发布了一则重磅广告“Alexa的新形态”。在广告中,一位女演员通过Alexa语音助手倾诉她对迈克尔乔丹的钦佩,彻底激怒了她的丈夫。毫无疑问,大多数观众不会太认真地对待这个来自亚马逊的新广告;但事实上,能够像人类一样顺畅地与我们交流的人工智能并不遥远。如今,人工智能化身——即使用数字身体和/或面部呈现的人工智能人物——远没有乔丹那么有魅力,甚至可能看起来有点吓人。研究表明,人类确实很喜欢开发这种具有类人功能的机器人,但一旦机器的“类??人性”超过一定的阈值,就会让人感到可怕——这就是著名的“恐怖谷”理论。创造这个词的机器人学家森政博预测,有一天会出现能够混淆真人的机器人,让我们完全失去辨别能力。至少在对话层面,这样的AI有望实现,彻底打破旧图灵测试的束缚。在最近与传奇营销天才GuyKawasaki的远程视频中,我做出了一个大胆的预测:在两年内,Guy将无法区分我和我们构建的对话式AI解决方案Kuki。盖伊显然不同意,但我没有动摇,打算循序渐进地辩解。结合这次对话,我计划向您公开报告并解释我为什么对这样的预测充满信心。从本质上讲,为了实现人类相信视频通话的性能,AI必须获得五项关键的实时技术:类人化身类人语音类人情感类人行为神经网络(GANs,DeepFake所依赖的底层机器学习技术),化身方案近年来取得了长足的进步。早期的动作捕捉需要演员穿着特殊的服装,但整个拍摄和调整过程的成本很高,只有《阿凡达》这样的大制作才能负担得起。但现在,仅靠iPhoneX和免费的游戏引擎软件,就足以让动作捕捉“走进寻常百姓家”。许多在线网络服务使得创建低分辨率深度伪造图像和视频变得容易,迅速促进了这项技术的民主化。但如果任其发展,这项技术也有可能对人类社会产生巨大影响。事实上,这种进步也催生了一个新的产业。不少主播开始将自己的脸和表情实时转化为动物形象,甚至出现了“Lil'Miquela”这样的AI意见领袖。就在上周,EpicGames(《堡垒之夜》和虚幻引擎的开发商)宣布了MetaHuman创造者,很快每个人都可以免费创造出无限接近真人的“假脸”。生成类人语音的技术也在迅速发展。亚马逊、微软和谷歌都提供云文本转语音(TTS)API,可以灵活地使用这些API来生成基于神经网络的越来越逼真的语音效果。此外,我们还可以轻松访问各种自定义语音风格工具,这些工具由真人演员根据一定数量的例句进行建模。与今天的高精度语音识别类似,语音合成将随着计算能力和训练数据的增强而不断改进。仅靠令人信服的AI声音和面孔还不足以产生价值——它必须与生动的表情相匹配。事实证明,仅需一个前置摄像头,计算机视觉技术就足以分析并生成丰富的面部表情。已经有几个API可以让您分析文本内容并理解相应的情绪。NTTData等实验室甚至展示了可以实时模仿人类手势和表情的解决方案;MagicLeap的MICA可以提供令人印象深刻的非语言化身表情。当然,现有的人工智能还很难弄清楚真正自主的精神和情绪状态,这方面的研究还有很长的路要走。为了避免“恐怖谷”问题,AI必须能够表现出与面部甚至肢体动作一致的“姿态”,并根据对话过程动态触发。南加州大学ICT实验室的Shaprio项目和众多语音和图像初创公司的探索,在为游戏角色提供同步的唇部和面部表情方面取得了开创性的成果。这样的系统可以通过头像转换文本表达,分析情绪,并通过既定规则在库中调用适当的动画,同时结合真实人类活动的视频进行持续的机器学习训练。随着研发的进步和机器学习的发展,这类程序动画有望在两年内完全无缝衔接。类人对话中最生硬和最困难的部分是大多数聊天机器人仍然难以通过基本对话。到目前为止,深度学习+更多数据+更多计算能力的模式,与语音合成、计算机视觉等成功领域相比,在自然语言理解方面还没有取得有意义的突破。人形AI的idea很吸引人,吸引了3.2亿风投;但至少在接下来的几年里,除非它的核心要素被“解决”,否则一切可能还只是天方夜谭。随着化身技术真正取得长足进步,人们的期望也会随之提高;而由于虚拟助手的模拟面孔比不上灵活的大脑和情商来表达,失望也是如此。因此,现在预测聊天机器人何时能达到人类水平还为时过早。令人沮丧的是:今天的机器智能甚至没有通过基于纯文本的图灵测试。也许更重要的问题应该是:我们是否有必要想出这种类人形式的人工智能?在媒体互动角色、AI医疗助手、培训甚至教育等领域取得的这些成就,其收益真的大于潜在的风险吗??类人AI一定要无限接近人类,还是应该像很多业内人士一样,尽量避开类人的坑,消除“恐怖谷”效应?