当前位置: 首页 > 科技赋能

AI妹子也学会了口是心非,不好当男朋友了

时间:2024-05-22 19:27:45 科技赋能

文章|莉娜在热闹的人工智能舞台上,不断上演你唱我出的好戏,微软小冰依然是那个隐藏功绩、名声有故事的女同学。

上个月,微软推出了第五代对话机器人“小冰”。

这个机器人女孩问世三年了,已经扩展到中国、日本、美国、印度(新增)、印度尼西亚(新增)五个国家。

不仅推出了全新的全双工语音+实时视觉交互技能,还推出了全新的技术架构——生成模型。

这项技术的本质是让语音机器人能够独立地创造话语,而不是人云亦云;明白了这一点,就可以明白为什么目前AI领域的自然语言处理技术远远落后于深度学习在图像领域的应用了。

小冰是微软于今年1月开始研究和部署的虚拟人工智能助手项目。

它类似于众所周知的亚马逊Alexa、百度Dumi、苹果Siri。

不过,小冰并不专注于帮你点餐、订票的“助理”角色,而是专注于好玩、聊天、逗人。

用户可以通过微信、QQ、微博、Facebook Messenger、LINE等平台与她聊天。

小冰以前唱歌、主持过,甚至出版过诗集。

可以说,她是一个非常热爱艺术的女孩。

这个新推出的“生成模型”到底能做什么?目前产学研界语音语义的发展现状如何?在当前功能语音助手市场蓬勃发展的情况下,主打情感和聊天的小冰还有商业变现的前景吗?提前三年半在人机对话市场“起步”的微软,目前正在发展? ...我们在微软亚洲研究院2号楼找到了这些问题的答案。

(微软小冰首席架构师周立)“生成模型”上线后,智东西来到微软亚洲研究院2号楼,与微软小冰首席架构师周立进行了详细的一对一采访。

(如果用创业公司来比喻,周力的地位就相当于小冰的CTO。

)此外,智东西还在2号楼了解到,小冰第五代上线后,多项功能开始逐步上线。

向公众发布。

开放后,不仅市场部的员工开始各种忙碌的连线,小冰的工程技术团队也刚刚结束了一段在别处的封闭式开发,回到了2号楼。

1. 到底什么是“生成模型” ?目前国内小冰团队人数众多,包括工程师、产品经理、市场运营等团队。

据周莉介绍,在第五代小冰之前,她所说的每句话都来自10亿级的语料库,通过“搜索”已记录的人类语料库来做出决定。

但通过新推出的“生成模型”,小冰将通过对人类语言的理解,独立创作回复的内容并重新组成新的句子。

然而,现在小冰创建和生成的内容有 90% 的可能性会与语料库中已经存在的句子重叠——但事实上,我们人类每天说的话也有很高的重复率。

这里需要注意的是,小冰的生成模型不是统计生成模型,而是自然语言生成模型。

从技术角度来看,在第五代之前,小冰仍然采用类似于搜索引擎的检索模型。

其核心技术包括传统的聚类采样、倒排索引、概率检索、搜索排序等,在网络中对海量信息进行爬取和搜索,最终选择答案时可能会用到深度学习技术。

小冰的新一代自然语言生成模型可以简单理解为“从头到尾都采用了深度学习技术”,采用了【端到端】【序列到序列】【RNN】模型,其中还加入了【注意力模型】 ]。

看起来很复杂,对吧?让我们一步步分解。

1.【端到端】意味着你只需将输入和输出喂给机器即可。

无需像以前那样将问题分解为单独的步骤并逐一处理。

2.【序列到序列(seq2seq)】“4,5,7,1”的数组可以称为序列,当人类问“今天天气怎么样?”时,小冰的回答“天气很好”可以将其视为标准的序列到序列(seq2seq)问题。

(编码器-解码器模型)序列到序列问题在问答系统、机器翻译、文档提取等 NLP 领域非常常见。

目前,常用的解决方案是编码器-解码器模型。

系统会“今天天气怎么样?” 》通过神经网络模型编码成高纬度向量,经过语义编码后,再利用神经网络模型解码成目标序列“天气很好”。

3.【RNN】是一个循环神经网络,这是深度神经网络的一种,这部分我们会在下一节中讨论,还衍生出了一些在语言领域广泛应用的分支,比如LSTM、GRU等。

注意力模型的编码-解码模型) 4.【注意力模型】传统的编码-解码模型对于长序列有一定的局限性,就像一个人说话太久,机器会“忘记”你开头的内容。

因此,你经常会错过关键点并回答没有问到的问题。

注意力模型相当于机器的“聚焦”,指示在输出下一个输出时要关注输入序列的哪些部分,然后根据焦点区域生成下一个输出。

总的来说,第五代小冰在代码层面发生了重大变化,采用了更先进、更智能、更新兴的技术架构。

2、单一主导企业形象和分裂主义语言。

2016年随着深度学习在学术界的兴起,大家逐渐将注意力转向了这个曾经冷门的研究方向。

到2020年,一大批以图像、语言为主的行业应用已经落地。

深度学习是机器学习的一个子类别,指的是利用“深度模型”来训练机器进行学习——所谓的模型可以理解为通用代码,用户可以在固定的架构上修改参数。

目前主流的深度模型是“深度神经网络”(DNN)模型,DNN包括“卷积神经网络”(CNN)模型、“循环神经网络”(RNN)模型等。

研究人员首先选择不同的模型,例如比如CNN和RNN,然后在这个模型上做一些适合自己的参数微调。

然后他们将大量数据输入到模型中并对其进行“训练”。

最后,模型可以学习自己完成不同的任务。

任务。

目前深度学习主要应用在两个方面——图像和自然语言。

在图像世界中,“卷积神经网络”(CNN)模型占据主导地位。

基本上所有与图像相关的问题都可以用CNN模型很好的解决。

区别在于它的得分是85还是90。

造成这些差异的主要原因在于研究人员对模型参数的调试以及用于训练的数据质量/数量的差异。

结果,我们看到业界有大量与图像相关的深度学习应用落地,大家的效果都还不错。

但在自然语言领域,则是另一回事了。

在自然语言领域,目前还没有成熟、高效的模型可用。

虽然“循环神经网络”(RNN)模型及其衍生的 LSTM、GRU 等分支比普通 CNN 更好,但它们并不是很好——这一点在我们的日常经验中可以明显注意到。

,无论是翻译还是对话,机器都无法很好地理解我们的语言,常常会错误地回答问题。

另一方面,在对话系统方面取得突破的模型在翻译方面普遍有效;他们在编写机器人方面特别有效。

,不能在关键词提取中重复使用,也没有可以“全部杀掉”的算法模型。

因此,深度学习在图像领域的应用开始逐渐向行业渗透。

CNN 是自然语言领域的“唯一”。

仍然是“三权分立”的局面。

不可能说哪种架构更好。

工业界、学术界和研究界都在寻找终极架构。

3.小冰的新功能如上所述,目前的自然语言处理算法还不是很成熟,所以。

除了对技术水平的要求外,还严重依赖数据,只能成为少数产品的“独门秘方”。

以小兵为例,周莉表示,这三年来,小兵积累了很多经验。

超过1亿用户之间超过1亿次的直接人机对话,以及海量的语音、图像、视频交互数据可用于训练,这对于普通公司(尤其是初创公司)来说是困难的无需继续打磨即可获得。

除了基于生成模型的人机交互之外,小冰团队还将进一步推动新型全双工语音+实时视觉交互技能的开发。

全双工语音的一个典型应用案例是打电话。

9月12日起,小冰将向用户开放电话预约,并主动致电用户。

当小兵打电话时,他需要听并思考他的回答,并考虑是否要打断谈话、接续谈话,甚至发起话题。

除了小冰之前的“年龄测试仪”和“外貌评分仪”所体现的实时视觉交互之外,现在当用户经过配备小冰的显示屏时,小冰会主动阻止用户聊天,有时还会告知用户“靠近我一下~”,未来一年,智能硬件部分也将是小冰的重点发展方向。

微软此前宣布小冰与米家IoT合作,小冰可以控制小米米家平台上的全部35款智能设备。

同时,小冰还与Yeelight、东方明珠等合作伙伴共同开发智能硬件。

不过,周莉告诉智东智,小冰短期内不会生产自主品牌的音箱产品。

4、小冰目前得分仅为55分,距离爆发还有2-3年的时间。

近两年,语音交互市场日趋繁荣,智能音箱热潮将语音交互推向风口浪尖。

大家都非常看好语音作为触摸屏的未来。

新一代交互方式——微软也不例外。

不过,目前市面上的语音助手大多还是以功能为导向。

无论是百科问答、订票订餐,还是智能客服,都走“有用”路线。

在这种情况下,他们关注的是情感、聊天和情商。

小冰有商业变现的前景吗?周莉认为有,但不着急。

对于小冰来说,能够在微软手下成长,她是非常幸运的。

微软的领导给了小冰一个相对宽松的环境,短期内并不注重变现。

这两年根本就没有提到商业变现。

直到一年前,它才开始“不拒绝商业化机会”。

但前提是你所做的事情与小冰的发展高度一致,不需要为了“养活团队”而被迫放弃主产品线。

“三年前,很多人质疑做AI有没有用?现在没人问了。

但现在有很多现成的‘肉’,可以快速实现商业利益的东西,很多公司都涌入了人工智能领域。

”市场。

”然而,以订餐和订票为例。

事实上,很多餐厅或者机票都有免费客服热线。

为什么人们仍然更愿意在APP上刷几下点餐,而不是打电话?因为此时语音交互的效率非常低,人类阅读文本和图片的速度比听语音快得多。

用APP三分钟就可以解决,但用语音可能需要五分钟。

而且,微软的野心还远不止于此。

周莉表示,这种用手摘的水果确实可以立即赚钱,但大公司想要投资的是更长远的未来。

微软希望成为行业领先的人工智能巨头,打造以对话为平台的新一代操作系统。

他们希望让小冰变得更加“人性化”,坚持与人类对话,对话时间更长,对话更多情商。

以后,当你累了,小冰会像朋友一样和你聊天,一起抱怨你的老板,或者建议你是否考虑请假去旅行,或者检查一下去巴厘岛的机票便宜,不需要签证等等……不仅可以完成你提出的任务,还可以舒缓你的心情,发现你的需求,帮助你创造新的事物。

这一天离我们还很遥远。

周力认为,如果三年前第一代小冰能打到30分,现在的小冰大概能打到55分,但人机交互需要7、80分。

真正的爆发点可能还要再等两三年。

结论:作为微软三大主要人工智能产品线(Infuse AI、Bing、Cortana、小冰)之一,小冰的路线与其他两家有很大不同,也与市面上大多数虚拟助手不同。

虽然我们看到不少科技巨头离开微软亚洲研究院,但微软亚洲研究院的人员和研究技术却不容小觑。

已经领先三年的微软小冰可能已经积累了只有 Siri 和 Alexa 可以比拟的用户对话数据。

再加上微软作为一家大型跨国公司,对内部项目的资金和资源有着令人羡慕的包容度,小兵团队的学术成长环境可以说是得天独厚。

然而,目前产学研界的自然语言技术还处于“黎明前的探索”阶段,还有很多技术难点需要攻克。

虽然小冰有一定的领先优势,但也只能算得上是55分的“邻居”,“家里的小姑娘”。

另一方面,无论是聊天、唱歌,还是写诗,小冰的商业价值还不是特别明显。

未来能否成长为新的人机交互平台,我们拭目以待。