当前位置：首页 > 科技赋能

这支蛰伏了三年的创业团队想做语音交互时代的“应用商店”

时间：2024-05-22 12:05:52 科技赋能

文章|移动互联网时代，智能手机已经成为我们的“随身物品”，我们每个人都是“手机人”。

我们通过应用商店下载各种应用程序来满足我们多样化的需求。

可见APP服务对我们来说非常重要。

在语音交互入口下，我们的人机交互方式也将从现在的触摸屏转变为语音。

同样，我们也需要一个语音“应用商店”来承载各种语音技能，满足我们多样化的需求。

海智智能是一家开发语音交互入口下的“应用商店”和“APP”的初创公司，专注于语义理解并提供第三方Bot开放平台和技能开发工具。

Bot可以理解为聊天机器人，或者虚拟助手，可以实现人机交互，提供满足人们需求的各种内容服务。

近日，智喜东西与海智智能CEO谢殿霞就语音交互入口进行了深入对话。

且看这家主攻语义理解的创业公司，在深藏三年之后，铸就了怎样的一把利剑？您如何看待聚光灯下的语音交互行业？喧嚣之下，又会做出怎样的选择？ 1、谢殿霞，一个在硅谷起步的创业团队，是一个非常健谈的人。

有时问问题，他能滔滔不绝，再加上一阵爽朗的笑声，真给人一种“谢大侠”，人间英雄的感觉。

”一种感觉。

他带着一丝调侃的语气讲述了和CTO丁力一起创业的故事。

谢殿霞在北大读书时，成立了一个有几百人的“北大爱乐俱乐部”，其中就有一个后来，2011年从北大毕业后，他到方正技术研究院工作，2006年，他在硅谷再次遇见了“丁力”，一直在思考如何将知识系统化。

让知识流动产生更大的价值，多年的工作经历让丁力从学术界到研究生一直从事知识图谱领域的研究和实践。

经过几个月的协商，下半年，两人决定围绕语义理解创业，深耕家居市场，开发Bot应用。

同年获得联创永轩冯涛天使投资。

谢殿霞回忆说，促成这次创业的因素有很多。

首先，4G已经开始普及，传统智能硬件才刚刚开始。

未来，机器人和智能硬件将对语音交互有巨大的需求；第二，随着深度学习的发展，语音识别的准确率大大提高，使得语义理解在满足条件的情况下是可靠的；第三，传统知识图谱价格昂贵，且无法完整、新颖、准确，而谷歌在2017年就推动了知识图谱技术的发展；第四，虽然语义理解很难做到，但通过边界的定义，可以让产品在用户的容忍范围内做出来。

随着上述条件的成熟以及对未来智能硬件市场的看好，谢殿霞和丁立变毫不犹豫地选择了自然语言处理（NLP）和知识图谱（KG）方向。

当时他们乐观地认为市场会在一年左右回暖，但他们的预期并没有如期而至。

上半年是海智智能的低谷期，智能硬件等业务发展并不如预期。

虽然其技术也被运用在一些机器人上，比如仙二机僧，但整个行业生态系统还没有发展起来。

一次偶然的机会，海智智能介入智能客服、智能分析师等业务，作为当前生存的变现渠道。

随着亚马逊Echo在国外的成功，下半年国内智能音箱市场也出现回暖。

不少企业开始寻求与海智智能的合作，其业务收入也随之增长。

目前，海智智能团队约有50人，其中一半是研发人员，一半是产品人员。

2、NLP+KG打造技能平台。

那么海智智能是做什么的呢？如果把语音交互分解的话，大致可以分为以下几个过程：拾音唤醒、语音识别、语义理解、语音合成。

大家熟悉的科大讯飞做的是语音识别部分。

它处理的对象是声音，并将声音转换为文本；而海智智能则负责语义理解部分。

它处理的对象是文本，理解文本的意图，并调动相应的服务。

谢殿霞将这种能力称为Bot（智能助手）或Skill（技能）。

“Bot的本质是构建一个领域的知识图谱，通过人们能理解的语言与人进行交流。

”在技??术路线上，海智智能采用知识图谱+自然语言处理相结合的方式构建Bot平台和技能插件。

（海智智能机器人引擎）简单来说，Bot可以理解为手机里一个完整的“应用商店”，里面包含各种内容和服务。

只有通过应用商店才能下载您想要的内容。

获得您想要的服务。

Skill就像应用商店里的一个“APP”。

它是单一技能服务，但维度比触摸屏更高，并且是语音控制的。

比如智能音箱中的“查天气”、“百科问答”都是技能，很多技能都汇聚到一个Bot平台上，这就需要知识图谱和NLP（自然语言处理）的支持。

谢殿霞表示，语义理解是一个非常困难的部分。

只有限制了语义理解的边界，才能做出用户可以承受的产品。

通过限定特定场景、特定用户、特定问题三个边界条件，海智智能选择了家庭场景。

与家居对应的产品有冰箱、空调、电视、音箱、机器人等；用户可能有夫妻、老人和孩子；问题从早上起床时开始，音乐、新闻、天气、旅行、食谱、讲故事等等。

围绕这条线，经过三年打磨，海智智能在音乐、百科、诗歌、音频资源（喜马拉雅、蜻蜓、荔枝）、天气等方面建立了完整的知识图谱，并深耕家庭场景，形成了50个多种技能插件。

海智智能的Bot平台被称为“第三方Bot开放平台”。

首先，这个平台不仅提供整个Bot的输出，还提供个体技能的输出。

在此基础上，开发者可以进行自己的个性化优化。

其次，它不仅对开发者开放，也对B端平台开放，比如百度DuerOS平台、Spichi的DUI平台。

最后，它还提供了开发工具，降低技能开发成本，让工程师甚至普通人都可以开发自己的技能。

具体来说，比如，如果您是一个菜谱内容提供商，拥有数万条文本菜谱，通过海智智能平台的开发工具，您可以在短时间内将其转化为知识图谱，形成基于Bot的技能。

目前，该平台仍处于内测阶段。

近10家厂商通过海智智能的平台开发了技能，涉及政府、新闻、旅游客服等。

谢殿霞坦言，他们只深入研究语义理解的细分领域。

如果要形成闭环，就必须采取开放的合作模式。

同时，他们也愿意开放，甚至向有商业竞争的竞争对手，共同拓展技能平台市场。

我们开始做吧。

目前，小米电视、小米AI音箱、海尔冰箱、康力友兰机器人、张小河机器人、仙儿机器人等均使用了海智智能的技能插件。

比如最近推出的小米AI音箱就采用了海智智能。

17个技能插件。

此外，百度DuerOS平台、Spichi DUI开放平台、小米水滴平台都是其合作伙伴。

3、“独创”盈利模式在语音交互行业面临变现问题的当下，海智智能是否盈利，又将如何创收？谢殿霞表示，海志现金流为正，目前年营业额达数千万。

但他也谈到在智能家居技能方面采取免费模式，比如与小米的合作。

前提是小米有足够的流量，能够继续使用应用商店的分成模式，才有可能获得预期的收入。

对于话务量较小的用户，可以采用授权模式，按设备或通话次数计费。

但如何才能通过免费来赚钱呢？海志的收入从哪里来？最后，谢殿霞透露了目前的核心利润来源。

目前，智能客服业务和智能分析师B端业务构成其主要收入来源。

他进一步提到，自己以前是做语义理解，搭建机器人的Bot平台，但生态系统没有发展起来，公司业务也没有按预期增长。

该技术必须应用于当前“脚踏实地”的项目中。

一次偶然的机会，他们去年涉足智能客服领域。

当时有一个潜在的合作项目对智能客服有很大的需求，对原有的智能客服并不满意。

通过技术评估，海智智能发现，通过其平台的开发工具，可以提供一套简单实用的智能客服技能。

这给了谢殿霞一个启发。

他们可以利用 Bot 的功能来提供智能客户服务。

智能客服确实是当前技术应用的迫切需求，但现有市场的玩家并不具备技术实力，因此谢殿霞去年就开始了相关业务。

目前，他们还在为另一个大客户打造智能客服。

该项目已基本完成。

预计该业务将在未来一两年内快速发展。

通过其商业模式我们发现，海智智能虽然定位于打造家庭Bot平台和技能插件，但这个市场仍处于早期阶段，目前盈利模式尚不明确。

反而对智能客服、智能分析师的需求更大。

业务成为其主要收入。

海智此次的选择，代表了他们对技术落地的新思考，也为公司拓展了更多的生存空间。

不仅让人感叹，目前市场上众多的Bot公司是如何生存并盈利的呢？或许除了光鲜亮丽的Demo展示之外，技术还必须应用到需求量大、能够解决的实际问题上才能生存。

4、提供标准工具，打造个性化产品在打造产品时，我们必须面对一个问题：如何打造差异化产品？如何提升用户体验？对于用户体验，谢殿霞认为，首先界定边界非常重要。

只有深耕对某个场景的语义理解，才能提供用户可以容忍的技术服务。

其次，海智智能三年前就开始从事知识图谱的积累。

目前在音乐、百科等领域积累了丰富的知识图谱，这也极大提升了语义搜索能力；此外，海智的Bot管理工具可以与人类结合，让人类参与进来，从而提高差异化。

具体来说，海智智能通过对话模板来使用NLP级别的机器学习。

人们编写少量对话模板，然后海智通过平台学习和理解它们。

谢殿霞认为，这种方法比端到端学习方法更具可解释性，在现场有更大的优化空间。

因为算法最终并不能解决所有问题，一个领域的数据量不够大，无法解决NLP中的问题。

针对这个问题，可以提供一个足够强大的工具，让Bot领域的专家和工程师介入这个过程，通过算法和人工相结合，提高Bot的管理能力。

另一个问题在于差异化。

他表示，目前海智之间的合作主要分为两类。

一是像与海尔的合作。

海智提供整套Bot/Skill解决方案，连接硬件、语音识别、语音合成，并落地海尔。

海尔还可以通过其平台的开发工具来设置和创建个性化产品。

小米的合作是另一种模式。

小米有自己的Bot平台，海智通过开放的API（应用程序接口）将自己的技能插件导出到小米的技能平台。

前者的输出就像在手机上输出一个“App Store”，而后者的输出就像在App Store中输出一个“APP”。

即使不同厂商输出相同的技能，随着用户的使用和数据的训练，它们也会适应并呈现出个性化的差异。

此外，人类还可以干预不同的场景。

5、语音交互的痛点是场景化的个性化服务重新回到语音交互的主要入口，尤其是今年火热的智能音箱市场。

他提到，语音命令并不是语音交互的核心痛点。

例如，在设置冰箱温度时，遥控器足够方便，但语音交互的准确性并不高。

那么语音交互的痛点是什么？他认为语音命令和语音控制只是锦上添花。

例如，海尔打造的冰箱的核心不是听音乐或查看天气，而是基于厨房场景提供个性化服务。

当你想做菜的时候，是用手机搜索菜谱还是直接问冰箱更方便呢？做饭的时候猪肉和杏仁可以一起放吗？当你想减肥时，如何制定营养饮食体系呢？这款冰箱的语音交互相当于私人营养师。

它将比你的电脑搜索和APP查询更加高效。

可见，谢殿霞眼中的语音交互核心是Bot，为各个场景提供智能助手，连接各种服务。

服务的打磨和体验取决于边界内知识图谱和NLP技术的进一步完善。

谢殿霞也认为，家庭场景迫切需要智能音箱。

它们可以为用户提供的价值包括早上闹钟、新闻、交通状况、菜谱、音乐、故事等，是典型的MVP（最小可用功能）。

不过，由于文化和家庭环境等因素，智能音箱在中国可能不会像在美国那样成功，但会逐渐发展起来。

预计今年智能音箱市场将达到100万台，明年将达到千万台。

谢殿霞理解的智能音箱是基因机器人的MVP。

他相信只要有电的地方就可以进行语音交互。

本质上，Bot不仅可以是音箱，还可以是冰箱、空调、电视等，它本质上是构建一个领域的知识图谱，通过人们能理解的语言与人进行交流。

对于语音技术在家庭场景的落地，他更看好智能电视，其次是智能音箱。

他表示，目前出货的电视都是语音交互电视，剩下的就是如何实现语义技能。

这就是海智智能等人开发Skill平台的机会所在。

结论：语音技能的崛起如果说当前流行的智能音箱、智能电视等推动了智能硬件的快速发展，那么未来智能硬件中“技能商店”和“技能”的需求将会大幅增长。

谢殿霞认为，以人们的日常服务需求为例，需要8万种技能（技能）才能满足，而发展最快的亚马逊Alexa只有1.5万种技能。

技能只有达到更高的临界点，而Bot和人沟通才能满足人的需求。

在这种情况下，行业需要开放，大家可以共同努力去做整合。

语音交互将是人机交互的重大变革。

上一篇：[深入] VR 即将到来的第一年， VR游戏依然不是主角

下一篇：VR-AR可穿戴手套CaptoGlove亮相E3 2018

这支蛰伏了三年的创业团队想做语音交互时代的“应用商店”相关文章