当前位置: 首页 > 科技赋能

对于 Alexa 王国来说,理解正在进行的人类对话是圣杯

时间:2024-05-22 15:48:48 科技赋能

Zhidixcom (公众号:zhidxcom)海中天简介:George Anders从20世纪90年代开始关注亚马逊,为美国刊物文章撰写多篇亚马逊相关文章。

最近他出版了一本书《你可以做任何事》(你可以做任何事情)。

George Anders 发表了一篇介绍 Alexa 的文章,谈论了 Alexa 的发展及其面临的挑战。

通过这篇文章,我们可以看到一个不一样的Alexa王国。

以下为文章节选,精简版:2019年8月31日,四名亚马逊工程师提交了一份专利申请文件,最终成为Alexa,一个可以处理世界上最大、最复杂任务的人工智能系统。

数据集:人类语音。

工程师只需要 11 个单词和一张简单的图表就可以解释其工作原理。

一名男性用户在安静的房间里说道:“播放《Let It Be》,披头士乐队。

”一台小型台式机回答道:“没问题,约翰。

”然后它开始播放指定的歌曲。

自此,家庭语音AI成为亚马逊的一大业务,也逐渐成为竞争对手的重要战略战场。

谷歌、苹果、三星和微软都投入了数千名研究人员和商业专家来开发易于使用并允许我们与他们交谈的设备。

Wittingo 是一家为银行、大学、律师事务所和其他机构开发语音应用程序的公司,其首席执行官艾哈迈德·布齐德 (Ahmed Bouzid) 认为:“到目前为止,我们所有人都不得不屈服于技术,例如打字、敲击和滑动。

现在新用户界面屈服于我们。

”自 2016 年推出以来,Alexa 设备已售出数千万台,在美国语音 AI 设备市场中,尽管竞争压力日益加大,亚马逊仍占据了总销量的 70%,而苹果和 Apple 也售出了数百万台。

微软很快就会推出自己的产品,该公司的目标是抓住三个市场机会:家庭自动化、家庭娱乐和购物。

目前,亚马逊无意从制造设备(即智能恒温器、照明)的公司中获得收入。

未来,我们可以想象亚马逊会与企业达成收入共享协议或选择其他支付方式,这三个市场中规模最小的是年支出超过 50 亿美元的家庭自动化市场和美国零售业。

去年,亚马逊的销售额约为 4.9 万亿美元,目前,亚马逊通过销售价格在 50 至 50 美元之间的机器来赚钱,最低端的 Dots 售价仅为 50 美元,而带有视频屏幕的高端 Echos 售价为 50 美元。

一些公司正在开发与 Alexa 兼容的硬件和服务。

例如,第一资本(Capital One)向银行客户销售 Alexa 支付系统;总部位于多伦多的 Ecobee 生产 Alexa 智能恒温器,用户只需说几句话就可以调高或调低室温。

Ecobee 首席执行官 Stuart Lombard 表示:“我们的客户生活非常忙碌。

”现在,该公司 40% 的 Alexa 设备销售收入来自海外。

Ecobee已经成立10年了,Alexa设备是该公司增长最快的产品线。

Stuart Lombard 补充道:“顾客必须穿过拥挤的交通才能回家,他们必须喂孩子,他们必须换尿布,以及各种各样的其他事情。

我们让他们不用手就能完成这些事情。

他们可以“当语音遇到人工智能时,语音人工智能面临着巨大的技术挑战,因为我们说话不有序,我们会干扰自己,我们的思想会动摇,我们会以奇怪的方式使用语言。

,点头,咕哝,并假设我们的话有道理,而实际上却没有道理。

数千名亚马逊员工正在研究这个问题,其中包括位于西雅图、桑尼维尔、加利福尼亚州、剑桥和马萨诸塞州的研究中心。

不过,这对亚马逊来说还不够。

该公司最近为 Alexa 的多个职位招聘了员工,涉及十多个部门,其中包括一个机器学习专家职位。

在剑桥办公室,Alexa首席科学家Rohit Prasad接受了媒体采访。

他解释了为什么他的团队需要这么多人。

“你问题的每个方面都让我发笑,”普拉萨德说。

经过几秒钟的反思,普拉萨德解释说,他已经研究语音技术 20 年了,在这段漫长的时间里,他的大部分时间都对进展缓慢感到沮丧。

但在过去的五年里,巨大的机遇出现了。

创建真实且高效的语音人工智能是一项复杂且难以克服的任务。

在过去的几年里,语音科学家一直在试图解决一件事:理解令人困惑的表达方式的含义。

起初,表达方式有点混乱,很难理解其中的含义。

通过机器学习等新方法,我们使用不同的策略来取得进展,比赛一开始是不完美的,机器人从不完美开始,然后通过临时猜测来完善它。

关键是消化大量数据并从早期错误中吸取教训。

Alexa 与用户相处的时间越多,它收集的数据就越多,它可以学习的数据就越多,它就会变得越聪明。

进步越大,机会就越大,而这个过程需要大量的人力。

这是普拉萨德的解释。

普拉萨德说:“让我给你举个例子。

如果你问 Alexa:‘阿黛尔的第一张专辑是什么?’答案应该是“19”。

如果你说:“玩吧。

” Alexa 足够聪明,知道要播放那张专辑。

“如果你在中间添加一些其他单词会怎么样?如果你问 Alexa 这张专辑是哪一年发行的,售出了多少张,会怎么样?用命令“播放它”替换问题。

早期的 Alexa 无法处理它。

现在技术它可以跟随思维,至少有时,它知道“它”指的是“19”,这是一个重要的进步,这得益于之前无数次的交流和机器学习。

学习可以从失败中学习。

系统知道用户不想听哪些歌曲,以及在之前的对话中首次提到该音乐的时间,然后您必须收集数据并调整模型。

Glass 表示,这种类型的机器学习方法已被广泛接受,但要使其发挥作用,需要大量数据,而大学研究人员很难获得这些数据,而由于 Alexa 的崛起,亚马逊现在可以接触到大量的人类数据。

-机器语音交互信息。

2016 年,Alexa 推出了一个包含大量歌词的庞大数据库。

有了这个数据库,当用户要求播放一首歌词中有“把我的雪佛兰开到堤坝”的歌曲时,系统就知道用户想要听 Don McLean 的歌曲《American Pie》。

Prasad 正在推广一个新项目,重点关注新方法的灵活性,特别是当用户撤销原始请求时系统使用的“信号短语”。

”是非常不同的。

一群人说:“不,不,不。

” 另一群人说:“取消吧。

第三组说的是“等一下,实际上我想要的是……”,但有一些变化。

Alexa 不必解读每个表情。

借助大量的示例和半监督机器学习技术,系统可以找到大量可能的负面言论标签,并可以在请求更改后挑选出特定的新请求。

为了让 Alexa 成为更好的倾听者,亚马逊 AI 专家首先使用大量数据训练该系统,使其成为更好的演讲者。

,他们对机器合成的女声进行了优化,让节奏更加完美,这样才能刺激用户继续使用。

如果使用传统方法,一般会记录大量的人声片段,然后利用该技术来合成语音。

它可以产生更自然的声音,但它不能低声说话,不能讽刺,不能调整,而人类经常这样说话。

为了让 Alxea 能够处理从主动对话到平静背诵的所有事情,亚马逊机器学习。

该算法采用了不同的方法,用专业评论员的声音来训练系统,这些评论员的声音从焦虑到担忧不等。

亚马逊有一家名为 Audible 的公司,是一家有声读物出版商,这家公司提供了很大的帮助。

有很多话要说,有些人是语音人工智能的狂热用户,而这些人无法在平板手机上轻松打字。

Gavin Kerr 是 Inglis 的首席执行官,该公司为残疾人提供住房和服务,该公司已在八个家庭中安装了 Echo 和 Dot 设备。

如果测试完成,加文·科尔希望将它们安装在多个居民身上,这些居民将成为该公司的所有客户。

“它给居民带来了难以置信的好处,他们可以生活得更舒适并获得独立,”克尔说,他与数百名患有硬化症或其他衰弱疾病的人一起工作。

有些人卧床不起或坐在轮椅上,对难以够到墙上的恒温器深感苦恼。

“他们的身体很难适应温度,”克尔解释道。

“他们可能在 72 度的房间里,前一小时可能感觉太热,下一小时又感觉太冷。

”因为他们的行动能力有限,所以他们很难做到这一点。

让自己舒服一点,如果没有全天候的帮助,他们会过得更艰难。

只需稍作修改,Alexa 软件就可以使用特定的语音提供服务。

有一位四十多岁的男子想离开长期护理机构,回到社区的日常生活。

“他告诉我,‘我无法使用 Alexa 语音命令,’”克尔回忆道。

“我问他,‘你能说什么?’然后我们修改了软件,以便他可以按照他想要的方式用声音控制设备。

现在,如果他想打开厨房灯,他会说“妈妈”,如果他想打开浴室灯,他会说“约翰”。

”Inglis 为他自己的 Echo 用户提供培训,培训只持续四个小时,而且许多新用户将Echo从包装盒中取出后,包装上会告诉用户一些常用的操作指令,例如播放音乐、设置闹钟、更新购物清单等,用户可以调用智能手机上的Alexa控制面板并进行操作。

Alexa 总经理 Rob Pulciani 每周(有时更频繁)都会查看最能告诉他信息的统计数据。

Alexa 和 Dot 用户最常用的表达方式 一般来说,列表中最常见的表达方式是想要音乐、新闻、天气信息、交通信息和游戏,其中一个请求迅速攀升:“Alexa,帮帮我。

”放松。

”当用户提出这样的请求时,系统会播放声音来安抚用户。

可能是鸟儿的鸣叫,可能是海浪拍打海岸的声音,也可能是夜间行驶的货运卡车的声音。

如果用户愿意,这些类似噪音的环境声音可以播放几个小时。

2016 年,当 Alexa 平台上出现类似的应用程序时,普契尼认为这只是一个笑话。

但这些应用很快就吸引了大量用户。

压力大的成年人听这些声音入睡,父母则用它们作为摇篮曲来安抚古怪的婴儿。

在发现这一趋势的几周内,普契尼和他的同事们正在调整 Alexa 的内容结构,以便当新用户询问系统他们可以尝试哪些新“技能”时,他们可以很快找到一些放松的东西。

声音。

持续对话 谷歌、苹果、微软、亚马逊的AI平台各有优势。

Google Assistant 在搜索命令方面表现最佳。

苹果的 Siri 和微软的 Cortana 还有其他优势。

至于Alexa,它的购物指令特别好。

语音AI想要赢得最后的胜利,就必须与用户进行沟通。

这种交流持续了几分钟,而且非常真实。

这项任务是艰巨的,机器必须足够强大,能够判断人类说话者的意图,甚至识别不明显的请求。

当朋友说“我已经好几个星期没去健身房了”时,人们知道他的意思可能是想谈论压力或自尊。

对于AI软件来说,这种意图很难理解。

如果突然改变话题,AI就很难跟上。

为了与下一代人工智能和语音研究人员建立更牢固的联系,亚马逊一年前邀请了数十所大学的工程专业学生来开发语音机器人。

亚马逊要求机器人能够完成 20 分钟的对话。

在 11 月截止日期之前取得最大突破的学校将获得 50 万美元的奖金。

我花了一周的时间测试了近五个机器人,每次都从一个简单的问题开始,然后发展到一个聪明的开放式陈述,这只是一个意见,有许多可能的回应。

一切开始顺利。

机器会问你:“你看过最近上映的电影吗?”我说:“是的。

我们看了《隐藏人物》(隐藏人物)。

”这部电影讲述了 NASA 早期的故事 接下来,聊天机器人模仿报纸对这部电影的评论,说:“我认为《隐藏人物》在实际数学方面有点浅薄。

”我对这部电影没有这样的感觉,看来这个说法对人工智能程序没有用。

语文还是很好的。

谈话很快就失去了动力,但至少之前的美妙时刻还在。

不幸的是,没有任何聊天机器人程序能够胜任这项任务。

最让人困惑的是,机器说:“你喜欢路边就餐吗?”但在测试过程中我们谈论的是网站。

几天后,我询问普拉萨德对社交机器人的看法,早期的失败并没有让他感到困扰。

“这是一个非常重要的领域,”普拉萨德说。

“如果达到这个水平,Alexa 将非常聪明。

这将非常难以达到。

这将比围棋或国际象棋更难。

在那些游戏中,可能的走法很多,但我们知道什么最终目标是。

如果是对话,你不知道对方想要达到什么目的。

“如果 Alexa 可以解决这个问题,我们实际上就可以和它交谈。