当前位置：首页 > 科技赋能

渡鸦音箱评测：代表百度AI技术尊严的DuerOS，用户体验真的能过关吗？

时间：2024-05-22 18:22:34 科技赋能

在今年世界大会三个多小时的主论坛中，百度为Raven演讲嘉宾预留了一半的时间。

这个造型极为抢眼的四色立方体暂时取代了无人驾驶汽车，成为李彦宏随身携带并带到乌镇互联网大会的唯一“百度技术杰作”。

与其他重量级AI硬件厂商相比，百度推出这款音箱绝对不算早。

在阿里巴巴、小米、京东等巨头已经摇旗呐喊的智能音箱市场，恐怕只有百度知道这款迟来的、并不便宜的音箱能否说服消费者。

渡鸦音箱渡鸦H，市场价格人民币如何衡量呢？对于一个普通音箱来说，音质一定是重中之重；对于智能音箱来说，标准要复杂得多。

然而，各个厂商最想听到的并不是“音质差”而是被骂“弱智”。

尽管在某种程度上，截至目前，这个名字在任何说话者身上几乎都是一样的（用过的人都知道）。

但在一定范围内，由于语音交互系统的核心不同，不同厂商的智能音箱性能确实存在较大差异。

也就是说，在素材、音质、语音交互体验、内容资源等多个评价维度中，后两者更为关键且关系密切。

而号称All in AI的百度，虽然很早就开始将DuerOS（语音交互开放平台）嵌入到其他大大小小的品牌的硬件产品中，但自家硬件的诞生或将继续吸引DuerOS 。

硬件业务充当“样板”。

是的，这是首款让大众直接测试百度AI技术软硬能力的消费级产品。

用井鲲的话说，百度想通过这个音箱告诉大众什么是不与成本和市场竞争挂钩的用户体验，以及为什么DuerOS是真正的行业领导者。

“无论是外观、声音、内容还是交互，Raven都是音箱产品的标杆，有很多竞品是很好的，因为市场会越来越大，但在音箱市场，我们想要以用户体验为突破点，也应该像iPhone一样定位“软”就是做AI时代的Android，“硬”就是做音箱行业的iPhone，百度的胃口不小。

但这款音箱能否承担起“重任”，下面的评测也算是Raven H正式上市前的一个“小考验”，由主机和触控两部分组成。

触摸就是你手上的点阵屏。

可单独拆卸，作为远程??触摸板控制主机。

例如，当你去厕所时，你可以用这个小屏幕来控制卧室的扬声器。

作为第一款获得Raven音箱的立式音箱，对于新媒体来说，我们一开始并没有被它鲜艳的色彩和“奇怪”的外观所迷惑（据说直男很喜欢它）。

但拿在手上反复摩擦后，我突然明白了“想做音箱行业的iPhone”的雄心。

这种名为 Kalix 的橱柜材料具有特殊的触感（光滑，有颗粒感），不同于常用的普通五金塑料或网状材料。

四种颜色的组合是基于色彩科学中的德国工业标准色彩RAL系统。

这种特殊的触感和着色工艺据说是Raven团队与比利时著名化学材料供应商Solvey的医生合作的结果。

该计划仅在几个月后就敲定了。

还有这种酷似乐高玩具的奇特造型，很大程度上是瑞典著名消费品设计公司Teenage Engineering的作品。

Raven的产品经理一直给我们灌输“美学、艺术至上”的产品理念，但我们知道，与市面上其他音箱相比，肯定有不少的设计费和材料费。

另外，如果这是一款非常漂亮的音箱，但它的“智商”和“功能”都低于市场平均水平，你是宁愿买这样的装饰品，还是选择一个“穿秋裤”但价格相对便宜的音箱？低的？便宜的通用音柱扬声器？所以，重点来了，“用户体验”才是我们最关心的。

也就是说，这次测试也是对我们对DuerOS的一次测试。

为了全面“拷问”Raven音箱语音交互系统的各个层面，我们还邀请了天猫精灵、小米音箱、Rokid（若琪）和叮咚音箱来执行从“语音识别”到“语义识别”的任务。

理解”。

”、“问题反馈”（包括多轮对话、可提供的技能和服务数量）等维度对这四位演讲者进行横向评价：从左到右分别是叮咚演讲者、天猫精灵、Raven音箱、Rokid、小米音箱的远近场语音唤醒捕捉声音是智能音箱开始执行你的指令的第一步，如果这款音箱能够有效过滤环境噪音，准确捕捉远处的声音。

较小的声音和命令，那么它就能继续“理解”你的命令并提供合理的反馈。

在这一步中，我们首先在保证唤醒音量一致的前提下，从远近测试了4个扬声器。

环境（只有耳语），我们唤醒了距离不到1米、3米和5米的四个扬声器。

第二轮，我们把音箱播放的音乐调到分贝，在距离音箱不到1米和3米的地方醒来。

结果如下：从这个结果来看，市场上各大厂商产品的远场识别水平线基本一致。

但有一个明显的问题。

Ding Dong 音箱和 Rokid 都只是通过闪烁的灯光（没有声音）来提醒用户“被唤醒了”。

然而，当站立时（明显高于说话者），我们看不到Rokid的闪烁。

（灯光）或者你背对说话者的角度，有时我们很难知道说话者是否已经被唤醒。

1、远近场语音识别：也是基于不同的距离维度（小于1米、3米、5米）。

在相对安静的环境和一致的提问音量的前提下，我们分别向5位发言者提出了两个非常基本的问题。

问题：（1）北京天气怎么样？（二）李彦宏是谁？ 5个扬声器的表现如下：这个结果也没有显示出每个扬声器背后的语音交互系统之间的语音识别存在明显差异。

2、中英文混合语音识别虽然各说话人都宣称可以进行“中英文混合识别”（温馨提示：他们单独识别英文的水平几乎为0），但识别效果显然还是有细微的差距。

我们问了以下问题，只能说，不要对国内的音箱播放你想听的英文歌抱太大期望： 1.我想听Justin Bieber的歌 2.我想听Alexander Jean的歌曲3.我想听你什么意思4.什么是张量流？ 5.我尝试了几首不是贾斯汀·比伯和泰勒·斯威夫特演唱的英文歌曲（结果……很不理想）。

结果如下：显然，作为一个IP大、点播率高的海外歌手，贾斯汀·比伯和泰勒·斯威夫特的歌曲不出所料地很容易识别，几乎五位发言者都准确地认出了这两位的英文名歌手。

但其他歌手则远非理想，比如亚历山大·让。

虽然他们的歌曲在虾米音乐（阿里巴巴）和百度音乐（百度）的曲库中，但音箱无法识别该乐队。

作为贾斯汀·比伯的热门歌曲，《What do youmean》的识别准确率普遍较高。

然而，在5位发言者中，对于其他不太受欢迎的外国歌手的作品，无论发音多么简单，所有发言者的识别率都较低。

至于一些英文专有名词，比如Tensorflow……别让国内的人难堪。

这就像要求Google Home说中文一样，绝对不能强迫。

3、仅对句子中的单个关键词进行语义识别：如果语音识别的准确率差不多，那么说话者交互体验的差距可能会在语义识别上逐渐显现出来。

成功捕获你的声音并将这些模拟音频信号数字化（语音识别）后，关键的一步来了：分析文本信息，“阅读”信息，然后给出正确的反馈。

这里的“基于单个关键词”是指句子中一般只有一个主语，没有形容词（范围限定词）。

说话者识别并分析单个关键词后，就能给出准确的答案。

例如：A是什么，B怎么样，我们来点C吧。

我们问了5个问题，都是这样简单的句子结构：1.刘强东是谁？ 2.设置闹钟 3.播放周杰伦歌曲 4.相声 5.想听娱乐新闻结果如下：所有问题均反馈正确。

其中，罗基德对“刘强东是谁？”的回答稍微简单一些，而其他发言者的答案似乎是从百度或其他百科全书中复制的。

对于“设置闹钟”的问题，天猫精灵、小米音箱、渡鸦可以进行“多轮问答”，这意味着他们可以对具体时间进行二次确认。

事实上，除了语音和语义识别的准确性之外，说话者能否对问题本身提供反馈还涉及到其背后内容资源的丰富程度（内容布局你就知道了）。

其中，当被问及“一些娱乐新闻”时，天猫精灵的回答明确表示，“娱乐新闻”主要来自微博，而渡鸦的娱乐新闻主要来自百度搜索，其他发言者的新闻并未说明具体来源。

。

至于“来点相声吧”的问题，这些演讲者的内容来源几乎全部来自喜马拉雅。

4、句子中涉及多个关键词的语义识别对于关键词较多、句子相对复杂的问题，每个说话者的“理解能力”存在明显差距。

我们问了以下5个问题，得到的反馈各不相同： 1、刘强东的妻子/妻子是谁？（我还问“刘强东的女朋友是谁？”） 2、爱因斯坦什么时候提出相对论？（相对论是什么时候提出的） 3.我想听励志歌曲（我想听励志中文歌曲） 4.我想听国内科技新闻 5.我只想听歌曲周杰伦、孙燕姿和陈奕迅。

通过增加问题的复杂性，我们得到了一些非常有趣的反馈。

无论是“老婆”还是“老婆”，渡鸦音箱和小米音箱都能给出正确答案，而京东旗下的叮咚音箱会瞬间回答“章泽天”和“我不在乎这种”闲话”在另一个时刻。

……而说到“女朋友”，只有叮咚音箱给出了正确答案。

值得注意的是，虽然“女朋友”是一个错误的事实，但对于我们人类来说，出于本能，我们会回答与“妻子”相同的答案。

至于“相对论”问题，Raven音箱表现更好。

除了技术原因，百度产品经理还认为，这与公司的搜索和百科基因有很大关系。

他说，“只要涉及到知识问答这样的问题，百度的威力就会显露出来。

”另外，小米的表现也比较不错。

大多数限制音乐范围的问题都表现不佳。

在有限的音乐范围内，只有渡鸦和天猫精灵给出了正确答案。

然而，当涉及到有限范围的新闻时，“全军覆没”。

值得注意的是，对于最后一个问题，Raven 的表现确实有点令人惊讶，因为识别和理解多个关键词是非常困难的。

我们听到的Raven连续演奏的歌曲，确实是依次是“周杰伦”、“孙燕姿”、“陈奕迅”的歌曲。

至于为什么能做到这一点，百度对机器动力的回复显得简单粗暴：“这是百度自然语言处理技术的一个创新点，也是一个创新的产品功能。

” 5、知乎专栏多轮问答一位名叫“我比笑”的AI产品经理表达了这样的观点：自然语言分析技术已经逐渐不再是各类广义智能助理产品的核心竞争力，识别用户意图后提供的服务已经开始成为对话机器人差异化的核心。

这里的“后续服务”包括“多轮对话体验”。

他认为，在识别出用户意图后，为了帮助你在多个可行选项中进行选择，语音交互系统最终应该通过多次交互来执行你的明确指令。

以我们对5个音箱的体验来看，除了天猫精灵上的“设置闹钟”、“询问股价”、“购物”、“充话费”等简单的多轮对话设置外，很少有设置可以提问关于进行多轮对话（在这里，它意味着连续响应，不需要每个命令都有“唤醒词”）。

不过，Raven音箱在音乐单领域的“多轮问答”中表现还算不错。

例如，说“我想听体育歌曲”后，扬声器开始播放音乐，您可以再次唤醒它（说“小杜小杜”），然后提出请求——“播放中文”。

此时音箱默认“你想听中国体育歌曲”，然后执行命令。

对于以下问题，经过我们测试，第二次唤醒后，可以针对上一个问题进行第二次“窄范围设置”，但其他音箱暂时无法做到这一点。

不知道作为用户的您是否认为这是一个必要的对话过程。

当然，如果是混合领域的多轮问答，比如“今天北京天气怎么样？” “帮我查一下北京到上海的机票”，这些对话涉及到技术、内容资源等多个维度，所以暂时市面上有售。

市面上几乎所有的音箱都无法达到这样的效果。

6、反馈处理——说话者功能的丰富性我们刚才提到了，每个说话者对问题的回答不仅关系到系统能否有效识别和分析你的指令，还有一个非常重要的因素——说话者的功能演讲者内容资源和语料库能支持你想要的功能吗？换句话说，就是音箱背后的生态实力是否足够强大。

我们从用户常用的三个维度列出了一个简要的功能列表。

每个企业能够实现的功能很大程度上取决于自身厂商的生态基因。

但需要注意的是，这一定是智能人机交互产品核心竞争力的一个重要维度——“后续服务”（上文已经提到）。

显然，从功能丰富度和背景基因来看，初创公司会存在一些劣势。

对于大厂家来说，各有各的优势。

比如阿里巴巴的天猫精灵和京东的叮当更擅长O2O功能，并且可以连接小米（本身就拥有庞大的硬件王国）和Raven智能硬件（DuorOS起步较早）的数量看起来更多感人的。

综上所述，根据我们对音箱“语音交互体验”维度的评测，刚刚推出的Raven音箱实力不容小觑，在“多轮对话”方面甚至明显更胜一筹。

也就是说，DuorOS在Raven音箱中提供的交互体验在一定程度上验证了百度的技术实力。

但我们需要明确的是一款音箱能否赢得市场。

除了交互体验之外，音质、价格、交付能力（产能）以及可连接的硬件数量也将是检验产品的重要维度。

对于Raven来说，通过了互动体验之后，距离面向市场还有很长的路要走。

上一篇：全球首款支持谷歌“Daydream”VR平台的头戴式显示器诞生

下一篇：盘点可穿戴硬件！使用Google Glass看世界杯

渡鸦音箱评测：代表百度AI技术尊严的DuerOS，用户体验真的能过关吗？相关文章