当前位置: 首页 > 科技赋能

对话 出去问问CTO:作为中国的科技公司,要面对哪些现实

时间:2024-05-20 01:56:42 科技赋能

用尖端技术推动新时代的到来,往往在B端首先爆发,看似默默滋润着事物。

其背后的科技公司通常不会像To C互联网公司那样很快被用户记住。

他出身于硅谷科技界,深受巨头青睐。

然而,因为立志推动人机交互新时代,他在这八年里把头埋得越来越深。

它在消费者端保持一定的知名度,但却被误认为是一家智能穿戴公司。

事实上,公众很少看到的B端才是这家科技型公司的真实面目。

你可以说他出道时正值巅峰,甚至可以说他毫无存在感。

但越来越多的人成为他的用户。

在中国,占新车四分之一的大众集团配备了他的车载语音交互系统;在新浪新闻App中,AI虚拟主播每天为用户提供当天新闻的语音播报,而其背后的技术也来自于他;疫情期间,你接到的防控挂号电话可能是他的语音机器人打来的。

客观地说,中国真正的科技公司并不多,因为从商业实现的简单程度来看,做技术的人不如做产品的人,做产品的人不如做产品的人。

创造用户的人不如创造流量的人。

的。

作为中国科技独角兽之一,科技初创公司出门问问不同于那些跳上安防浪潮的机器视觉AI公司,利用某些技术进入特定市场。

他想做的不是简单地取代工具,而是亲自定义下一代人机交互。

正是这种宏伟的愿景,让出门问问在过去的八年里似乎在不同的领域跳跃,同时也实现了产品和技术的全球落地。

产品类型涵盖ToC可穿戴设备到ToB车载设备。

它不再专注于特定的行业和产品形态。

它已成为为数不多的集品牌、电子商务、销售和ToB解决方案能力于一体的科技公司之一。

公司。

所以看起来很不一样。

显然,要真正利用技术推动普遍变革,挑战必须是全方位的。

然而,当出门问问的每一代产品放到交互场景中时,得到的不仅仅是技术的积累,还有2B领域的商业落地。

近日,极客公园与出门问问CTO雷鑫进行了深入交流。

雷鑫这个硬核技术人,讲述了很多关于“做中国科技公司”的真实想法,在这里分享给大家。

以下为极客公园CTO专访内容:出门问问CTO雷鑫|照片由公司提供。

让巨头值得信赖的是,车载技术是出门问问在To B领域开发的第一个落地场景。

今年开始,出门问问的车载语音交互系统已在奥迪A4L、新迈腾、帕萨特、捷达等多款新车型上得到应用,预计今年累计安装量将达到1万辆。

看到智能出行的趋势后,出门问问在2018年开始探索新的业务线,从具有语音交互功能的智能汽车后视镜开始——“出门问问魔镜”。

当时,大众集团也在寻求从传统汽车制造商向车联网和自动驾驶转型。

当他们看到“未未魔镜”背后值得信赖的语音交互技术后,最终向出门问问投资1.8亿美元,从而促成了更深入的战略合作——成立车载语音合资公司大众Wevoi。

目前,出门问问已完成D轮融资,估值超过10亿美元,成为中国科技独角兽之一。

团队投入:多人花费近三年时间打磨出一套满足极高汽车级语音交互标准和安全要求的车载语音解决方案。

事实上,出门问问的成长之路并不缺乏巨头的关注和支持。

今年,谷歌希望将可穿戴设备引入中国市场,并推广其可穿戴操作系统Android Wear。

碰巧出门问问已经为Moto等智能手表开发了TicWear操作系统,并为Google Glass和Android Wear推出了本地化的语音搜索交互应用。

极客公园:汽车是你进军2B领域的第一个赛道。

为何携手大众并获得1.8亿美元D轮融资?雷鑫:智能汽车被认为是语音交互的重要实现场景之一。

我们当时就认为,随着汽车向智能化发展,语音交互一定会成为打造智能闭环汽车的重要组成部分。

大家可以看到,出门问问一直把技术放在场景中,因为只有在大场景下推动新交互从萌芽到成熟,才能成为下一代交互的主要推动者。

出门问问车载语音交互系统已落地中国市场多款主力车型 |极客公园公司提供图片:构建车载语音交互系统是一个很大的挑战吗?雷鑫:挑战特别大。

当我们刚开始做车载项目时,我们不仅要从零开始,而且初始投资远远大于项目收益。

同时,在工程方面,我们需要为大众集团提供深度定制的解决方案,这与行业现有的标准化产品也有很大不同。

但这是下一代交互的典型场景。

如果你不参与其中,你就不会了解其中的知识。

当你真正做到了技术和场景的匹配之后,后续项目的投入产出比的效率模型就会变得越来越有效。

情况正在好转。

Geek Park:你们构建汽车语音系统的方法有什么独特之处吗?雷鑫:我们团队的性格一直是不怕“自虐”,这样才能真正用产品来提高技术和场景的匹配度,达到预定的性能指标。

我们整个过程花了三年时间,最终在车载语音交互技术能力方面取得了行业领先。

极客公园:智能后视镜项目现在好像已经停产了,那么获得公共投资是唯一的意义吗?雷鑫:当然不是。

事实上,说到车内交互,冷启动是最困难的。

大家都知道出门问问的TicWatch智能手表,但是车载系统不能基于手表的想法,因为手表是2C产品,是一个大闭环,很容易标准化,但是车载系统系统仍需与车企密切合作。

具体车型对技术参数的要求不同,这给我们的技术带来了巨大的考验,实现的复杂度也很高。

我们的后置智能后视镜是基于我们在车辆语音交互方面的技术和数据积累,对于前装车辆安装来说是一个有用的积累。

出门问问为奥迪A4L提供车载语音交互技术|极客园供图:2C和2B产品交付标准不同,车载是你B端业务的开始。

您从这个项目中最大的收获是什么? ?雷鑫:大众集团的项目是一个非常好的实施案例。

其新车产量占全国总量的四分之一,在质量控制方面拥有业界公认的声誉。

我认为,在赢得公众认可后,雯雯在智慧出行的趋势下,在嵌入式语音交互领域建立了行业领先的技术优势和壁垒。

这将有助于后续拓展汽车及其他市场。

极客公园:巨头对您的第一笔投资不是大众,而是谷歌。

您和李志飞都是谷歌的技术专家。

谷歌投资你是因为它是你的老雇主。

您是否碰巧将硅谷文化转移到了中国?雷鑫:一半对一半。

谷歌决定投资我们,其实和我们之前的背景没有关系,但是我们的文化确实和他们很相似。

我们都尊重硅谷文化,都是一群相信技术的人。

谷歌更看重的是我们的技术优势以及对他们可穿戴业务的技术补充。

当时我们已经建立了比较完善的软件算法团队和技术积累。

我们还拥有优秀的硬件设计和研发团队,对供应链有稳定的控制。

他们认为我们是Google Assistant在中国的最佳替代品,Google愿意投资我们。

科技公司需要用“锤子”来找“钉子”。

在C端用户眼中,出门问问和智能穿戴可以划等号。

因为他做了手表、音箱、耳机等一系列消费产品。

但事实上,AI语音技术才是其核心命脉。

当然,技术必须附着在实体产品上,才能推动下一代人机交互的到来。

这很好地解释了为什么Motomobu在语音APP推出后,将其自主研发的操作系统TicWear安装到Moto智能手表中;为何在发布会上一口气推出多款产品,因为技术离不开产品。

出门问问制造手表和其他硬件,最终目标是引领下一代更好更快的人机交互。

智能手表只是第一个方面。

不仅是To C的智能穿戴,出门问问还利用非硬件产品来增强用户的人机交互感知。

比如最近上线的小文秘书和魔声工坊也都在密切关注用户价值和商业化进展。

当然,出门问问也越来越专注。

如果说技术是锤子,落地场景是钉子,出门问问就需要聚焦几个关键赛道,用力敲击“钉子”。

例如,在智能穿戴场景中,出门问问推出了小文秘书,基于语音交互帮助用户接听电话。

它可以让语音机器人智能接听所有未接来电并分析来电意图,解决大量骚扰、重复来电。

问题。

最近升级的小文秘书推出了个性化语音制作功能。

基于出门问问个性化TTS,支持多级定制。

用户可以输入至少15句真人语音音频内容,生成看起来像真人的专属合成。

影响。

这样,用户就可以用自己的声音接听来电,避免了AI助手造成的熟人之间的社交鸿沟。

在改变人机交互体验方面,出门问问还推出了基于第四代语音合成系统MeetVoice技术的专业AI音频内容制作一站式解决方案——摸音工作室。

用户可以高效、便捷地利用AI语音技术,模拟具有清晰个性特征的真人声音,创作AI音频内容,让文字随着声音从纸上跳出来。

目前,用户可以通过点击新浪新闻App频道中的“音频”图标收听国内外各个领域的新闻。

为了解决配音的专业问题,出门问问升级了多音字模型,多音字整体准确率达到99.52%以上。

针对新闻、官方文件、法律条文等对文章类型准确性要求较高的内容,摸音工场设计了创新的交互形式,成为AI音频时代的文字编辑器。

同时,出门问问在AI配音、公众号音频化、歌唱合成、情感合成等方面也处于行业领先地位。

Mobvoi Moyin Workshop基于第四代语音合成系统MeetVoice。

|照片由公司提供。

极客公园:您认为资本对于技术人的诱惑还不够大吗?雷鑫:我一直觉得真正的科技公司不应该是投机的。

只有你不投机,人们才会相信并支持你做更有价值的事情。

这也是看待技术的一种方式。

极客公园:但是你是否感觉作为一家科技公司,你的产品线越来越多,业务也越来越重?雷鑫:首先,我们肯定要做一家语音交互技术公司。

事实上,在中国做一家科技公司需要克服很多障碍,而且变得越来越困难。

我们的产品和业务之所以覆盖面这么广,其实很大程度上得益于中国独特的环境。

极客公园:怎么说呢?雷鑫:其实我们也想只用算法和软件技术来定义下一代人机交互,而不是把它搞得那么重,就像我们公司成立时在微信公众号上开发的语音助手小程序一样。

首次成立。

但很快我们就发现,仅靠软件和算法无法让我们实现那个崇高的未来。

极客公园:但是AI领域其实有很多公司只做软件和算法?雷鑫:我们的定位和他们不一样。

从我们成立的第一天起,我们就一直在努力定义下一代人机交互,让新的交互深入人心。

虽然做AI算法或者软件解决方案的模式很轻,但仍然可以让公司获得一定的现金流,维持轻资产的运营模式。

但如果只有算法和技术,没有场景落地的产品,我们就会受制于人,很难掌控下一代人机交互体验。

极客公园:您最近发布了TicWatch Pro、TicPods ANC等产品。

可穿戴设备现在对QQ来说扮演什么角色?雷鑫:我们主要考虑的是实现更好的人机交互。

唯一的办法就是在一些可能的场景下成熟起来,让新的交互成为主流。

想要推动交互技术的普及,硬件载体非常重要。

可穿戴业务是Wenvo的根基,所以外界会称我们是一家智能可穿戴公司。

当我们刚做智能手表时,我们看到非手机终端设备慢慢改变了用户的交互习惯,交互技术的发展趋势与我们的判断基本一致。

尤其是手表和语音交互的结合,我们认为有很大的机会。

2020年5月25日,出门问问发布了新一代智能手表TicWatch Pro |图片由公司极客公园提供:老用户都知道,你们是第一个将自主研发的语音识别和分析引擎内置到TicWear系统中,为用户提供语音搜索和交互功能的。

在很短的时间内,我就吸引了很多极客粉丝。

以此为基础,我们随后开发了自己的智能手表品牌——TicWatch?雷鑫:是的。

我们一直觉得不想做硬件的软件不是好软件。

软件和硬件的结合可以实现极其完整的体验。

因为只有真正进入场景,才能真正推广这个东西,而不是只是一个待嫁的技术,很少有人知道怎么用,它注定无法形成趋势。

如果我们只是被动地等待,我们就失去了创办这家公司的意义。

极客公园:所以你是说科技公司不能只做自己擅长的事情,等待时机的到来?雷鑫:我们的技术追求是用一切可能的方法来实现我们擅长的、认同的。

TicWatch为我们赢得了销量和口碑,打开了C端市场的认知度。

我感觉每卖出一块手表,就离即将到来的时代更近一些。

与其等着别人把市场推向成熟,只做自己最舒服的事,等着别人欣赏你,不如自己开始创造。

这不是“手不沾泥”就能轻易实现的。

极客公园:您后来尝试了很多产品,比如智能后视镜、智能音箱、智能耳机等。

这是同样的想法吗?雷鑫:是的。

例如,耳机对于我们来说是一个非常具有挑战性的产品。

因为我们最大的创新是语音交互,像耳机这样小的设备的电池寿命会非常有限,所以必须要做超低功耗的语音交互。

关于这方面,我们首先要做信号处理,声音进来后降噪。

第二个是语音唤醒。

为了在低功耗芯片上长时间监听这个唤醒词,我们默认使用“嗨小文”来唤醒手机语音助手。

三是我们独家创新的“快捷密码”,如音量调节、播放暂停等,让您无需说出唤醒词即可用语音控制设备。

就连苹果的耳机都还没有这个功能。

极客公园:你有没有想过为什么苹果不这样做?雷鑫:其实大公司都是比较保守的。

有些技术如果没有完成99%,他可能不敢使用。

我们创业公司不能太保守。

在创新理念上,我们是比较开放的。

我们在一些创新的实施上也更加激进。

至于我刚才提到的快捷密码功能,我们觉得从技术上来说我们可以达到很好的体验,而且对于用户来说,他们觉得这个功能非常有用,需求量很大,所以我们是第一个利用它的。

,率先将创新技术运用在可穿戴TWS耳机上。

我想科技公司都面临着“拿锤子找钉子”,所以一定要敢于碰钉子。

即使有些事情锤子错了,钉子错了,但尝试对于科技公司核心能力的成长来说是非常重要的。

极客公园:每次碰钉子,都会有成本。

初创公司的资源有限。

如何同时保持核心技术的增长和领先?雷鑫:每一次尝试都是围绕语音交互技术展开的。

目标是提升核心语音技术的性能。

尝试之后,必须积累一些有价值的技术和数据,并与其他业务和产品共享。

极客公园:其实语音领域的竞争一直都很激烈,没有人能够纯粹依靠技术赚钱。

你也有跌倒的时候吧?雷鑫:其实值得吸取的教训还是蛮多的,特别是面对国内巨头的自由开放和补贴竞争进入。

在如此恶劣的环境下,所有技术人都很难梦想通过一项独特的技术,总是能让人们幸福。

顾客蜂拥而至。

但事实上,很多事情并不是绝对黑白分明、对错的。

有时候,没有路的时候,就必须走路。

最重要的是对自己诚实。

说到教训,我们其实应该更加专注。

这种关注并不意味着我们不应该根据环境变化积极尝试新的场景。

但我们必须更加坚决,要么不做,要么做了,我们就要全力以赴,让这个技术和业务成为业界最好的之一。

同时,我们也希望鼓励行业伙伴加入我们。

比如我们不仅推出了自己的TicPods智能耳机,还在vivo、一加等品牌的TWS耳机上商业化了我们的TWS耳机算法和解决方案TicHear、热词唤醒、快捷密码等技术。

TWS耳机市场的激战正如火如荼地进行。

出门问问推出真无线耳机算法TicHear,为同类产品提供技术解决方案 |图片由公司提供。

人机交互时代即将到来。

虽然智能音箱在国内C端战场失利,但出门问问凭借软件硬整合的能力找到了自己的发展道路。

他们与台湾远传等运营商达成合作,为企业客户提供高度定制化的智能音箱产品,其出货量远高于过去ToC市场。

凭借AI语音技术的积累和积累,出门问问帮助此类客户打造AI大脑,打造端到端的智能音箱、智能手表等产品。

在这个过程中,软硬件结合的能力发挥了很大的优势。

技术和产品团队仅用了四个月的时间,就为远传建立了本地化的生态系统,并提供软件、硬件、人工智能、用户运营平台和统计工具,帮助其通过自建渠道进行销售,甚至将产品再次带到B让银行和保险公司成为他们的客户。

To B市场打开了AI语音交互的大门。

出门问问认为,人机交互时代即将到来。

在很多B端场景中,语音交互与智能硬件的结合正在改变组织的生产力。

例如,在餐厅,员工不需要携带手机。

出门问问TicWatch智能手表可以通过语音交互帮助他们解决仓储、考勤等诸多问题。

目前,出门问问的B端业务占比相当大,并且还在快速增长。

或许,C端用户还没有明显感觉到新的交互时代即将到来,因为太多的前沿领域先是从B端爆发出来,然后慢慢蔓延到C端市场。

也许有一天,用户会突然意识到人机交互已经无处不在。

极客公园:您认为担任CTO这八年里,给您最大的成就感是什么?雷鑫:给我最大的成就感是,出门问问在过去的8年里,积累了一套完整的语音交互技术栈以及软硬件结合的能力。

我想我们能做到“行业第一”确实不容易。

极客公园:出门问问为何多次强调软硬件结合的优势?雷鑫:因为软硬件结合的优势,通过软件、硬件、算法的快速融合给我们带来了产品创新效率。

这对于苹果、谷歌、微软等有能力将软件和硬件结合起来的公司来说是非常具有挑战性的。

毕竟大公司在跨部门协作方面相对不灵活。

因此,对于初创公司来说,这是他们能够快速创新、突破的一个点。

极客公园:出去问问“软硬结合”的独特之处是什么?雷鑫:实际上要求公司有完整的软件算法团队和技术积累,同时也有优秀的硬件设计和研发团队,对供应链有稳定的控制力。

我们的技术研发团队现在有近3人,我们通常以3人的开发单元工作,以保持敏捷的开发流程。

在工程技术方面,也以Google标准为标准,维护硅谷工程师的自由氛围。

极客公园:创业8年来,您如何评价自己在推动“下一代人机交互”方面取得的进展?有什么根本性的变化吗?雷鑫:从公司成立到现在,出门问问对AI语音交互时代越来越有信心。

但你也发现,未来产业的发展、产业趋势的形成,并不一定会先发生在C端。

很多时候,C端的产品体验必须好5倍才能成为爆款,而B端只要好50%,就已经具有绝对的价值。

所以,B端的认可让我们看到这个必然的趋势正在到来,但我们所期待的时代不会在C端市场瞬间爆发。

极客公园:我知道你在海外有很多忠实的粉丝。

对于初创企业来说,冲出内地、谋划全球化并不容易。

你是怎么做到的?雷鑫:首先我对我们的技术充满信心。

技术国际化要做的事情有很多,包括海外市场不同标准的认证、本地化服务、语言支持等。

与技术创新同样重要的是语音交互使用场景的不断探索。

从接受程度来看,海外市场更欢迎具有创新能力和前沿技术的产品,而国内市场则更倾向于有竞争力的价格和优秀的基础体验。

极客公园:您认为理想的状态应该是怎样的?无论是2C可穿戴设备还是2B汽车,问问一直在做全球化的AI公司。

比如我们和Insta的合作,帮助他们打造了第一台声控模块化运动相机,解决了长期困扰广大视频创作者的摄影风噪问题和操作痛点。

因此,我们多年来坚持在技术层面迭代优化AI语音技术,以不断提高核心技术壁垒为目标。

参与不同的硬件、不同的场景,其实可以让我们在面对B端的需求时具备多方面的能力,能够快速解决问题,提高生产力。

极客公园:在这家公司工作了8年,经历的困难和不确定性是挺难受的,对吧?你是怎么活下来的?雷鑫:我认为技术人应该把手放在土壤里,真正推动和推动行业向人机交互方向发展,所以“敢做、愿意做”非常重要。

八年的道路虽然漫长而艰辛,但我们取得了很多成就,赢得了艰难的汽车市场。

我觉得做科技公司最幸福的事情可能不是用一项技术直接变现“巅峰就是出道”,而是看着自己的技术变得越来越强大、越来越通用,并且技术可以用在更多的地方。

场景等应用到现场是一个满意度不断提升的过程。

所以,真正的科技公司必须对目标负责,哪怕为了这个目标不惜改变所谓的理想路径,哪怕过程有曲折,也必须走到那里。

这个过程肯定是相当辛苦的,但同时也是非常有成就感的。

同时,我们相信科技的善行,希望用我们的科技让人类的生活变得更加美好。

比如我们涉及医疗卫生、社会福利、科技战疫等领域。

这也是微桥的科技情怀和初衷。

极客公园:从CTO的角度来看,未来十年人工智能或者语音技术有哪些值得行业和用户期待的发展和应用?雷鑫:作为CTO,我希望带领团队开发具有挑战性的技术和产品,力争成为行业第一,让每个人都能获得成长和成就感。

除了继续打造具有创新功能的软硬件产品外,我们还需要探索更多的渠道来实现业务增长。

虽然未来两三年人工智能发展仍会出现瓶颈期,但从未来五到十年来看,应该会有跨越式发展。

想要做大做强,就必须将技术标准化、模块化、工具化,才能实现高效的规模化落地。

未来十年,QQ将聚焦语音交互技术,聚焦车载和可穿戴场景,持续打磨,将核心技术应用到新型人机交互系统和设备中,实现定义下一代的愿景的人机交互。