当前位置: 首页 > 科技赋能

破译科大讯飞语音生态梦想

时间:2024-05-22 18:06:42 科技赋能

让机器听、说、理解、思考,是未来人机交互的发展方向。

语音作为最有前途的人机交互方式,可以进入我们生活的各个角落。

凡是有人类活动的地方,就有对声音的需求。

科大讯飞能否实现语音生态梦想?现在互联网行业有一句话,只有搭建平台才能繁荣。

我觉得做生态和做开放平台是一个意思。

据我了解,科大讯飞(以下简称科大讯飞)的生态结构应该包括以下三个方面:一是语音的特点决定了语音行业需要构建更好的生态系统。

这是因为语音可以进入社会生活的各个角落。

凡是有人类活动的地方,就有对声音的需求。

即使在未来,机器与机器之间也需要语音进行交流,从能够听、说到能够理解、思考。

语音并不是一个单一的产品,围绕它可以衍生出很多应用。

第二,要搭建一个平台,让更多的人从自主创新中受益,所以未来应该打造一个合作共赢的生态系统。

基于此,我们开放了科大讯飞语音云平台,为平台上近5万名创业者提供核心技术,提供云端各种资源存储和后台分析能力,甚至打通后续变现能力。

所要打造的生态系统必须具有相当大的成长空间,能够为合作伙伴带来新的价值。

第三,建设生态系统就像培育一棵大树。

树的根系非常重要。

科大讯飞希望发挥语言语音行业引擎的作用,不断创造新技术。

从语音合成,到科大讯飞语音云,到语音文本识别,到口语评测,到翻译,再到自然语言处理和图像人脸识别技术,每一步都证明科大讯飞有资格扮演工业引擎的角色。

语音生态系统包括这样一条链条:硬件研发-软件研发-语音方案研发-集成方案后的产品生产-面向C端用户的软件开发-C端用户使用。

同时,C端用户的使用将信息从产品传递到语音,再到软件,再到硬件。

在整个参与过程中,由于信息的流动而产生价值。

价值从何而来?这就是科大讯飞语音云平台目前正在做的事情,就是分析用户数据,打造用户画像,指导科大讯飞的商业化。

这是一个垂直的生态链。

我认为,在中国各个行业的发展过程中,未来必须有一批自主创新的企业在生态系统中的价值链中占据领先地位,这样我们的行业才能持续健康成长。

希望未来科大讯飞能够引领价值链关键环节,通过不断的源头创新,拓展这个生态圈。

优化核心技术科大讯飞对整个行业生态的贡献,首先是科大讯飞内部,就是为广大To B客户提供最好的技术支持。

中国前10大电子企业中,有8家在使用科大讯飞的技术。

纵观各个领域,目前国内已有多家领先企业在使用科大讯飞的语音技术。

创业初期,我们也曾走过弯路。

当时,我们投入了大量的精力开发了一款电脑桌面软件“畅言”,试图将手写输入的随意性、键盘输入的准确性和语音输入的高效性完美结合起来。

然而,该产品并没有受到好评。

但并不成功,市场反馈也不尽如人意。

之后,我们尝试用语音合成技术来解决海量的动态信息,找到了当时极其火爆的合肥和上海的音频站,并成功进行了试点。

但结果是产品还是卖不出去。

屡经挫折后,我意识到科大讯飞直接聚焦消费市场有些理想化,于是我重新调整思路——让有渠道、有市场、有技术的大公司直接面对消费者。

我们准备像英特尔一样。

同样,专注于做好iFly内部工作。

也就是说,科大讯飞只负责开发引擎、语音合成和语音识别芯片,而应用集成则由下游开发商或客户自行完成。

年初,科大讯飞顺利通过华为的技术测试,成为后者的语音合成技术供应商。

不久之后,中兴通讯、新泰、神州数码等大企业的语音技术服务订单纷至沓来。

这是科大讯飞企业发展史上具有里程碑意义的事件。

此后至当年年底,科大讯飞迅速发展了近50家稳定的TO B客户。

之后我们通过与美国Nuance公司合作进入语音识别技术领域。

后来我们觉得科大讯飞的自主研发技术可以逐渐超越我们的竞争对手,所以在2009年,我们告诉Nuance我们不再与其合作,因为我们要独立开发自己的产品。

两年后,科大讯飞在该领域的技术已经超越Nuance。

当时我们更多的是技术支持企业。

基于用户通过电话查询账户信息的特点,多家银行相继推出了电话银行服务。

但随着客户服务成本越来越高,银行希望用户的一些简单询问能够由机器代替人工解答,以减少客服人员的投入。

国内第一个有这个需求的人是工商银行总行。

当时,科大讯飞的技术满足了银行的要求,成功中标。

为了推广该技术,我们还组织了语音应用产业峰会。

我们邀请了来自金融、证券、运营商等行业的代表以及行业内的信息化专家参加论坛。

这个论坛主要围绕两件事展开。

一是讨论语音技术发展现阶段,二是为使用我们语音技术的企业(如工商银行、中国移动)提供一个向其他行业伙伴介绍经验的机会。

了解我们的语音技术在这些公司的应用。

这些公司也很乐意分享一些基于语音技术的创新项目。

在行业内传播开来后,我们也定期印制期刊并发送给这些企业。

主要内容包括科大讯飞的应用案例、语音技术的现状、语音技术在哪些行业产生了哪些新应用等。

这些企业的老板看到信息技术专家的意见后,会想:我的行业是否也可以利用科大讯飞的语音技术来降低成本,产生价值,或者创造一些新的效益?我们的客户主要定位于大中型企业,因为科大讯飞提供的技术往往门槛较高,企业需要花费大量资金购买科大讯飞的技术才能开发自己的应用。

在构建科大讯飞生态系统时,我们更加注重用户的使用习惯和技术匹配。

技术达到了什么程度,能够打动什么样的用户群体,这需要非常现实的认识和不断的探索。

当然,真正难突破的是源头技术的创新,其次是应用的创新。

这就好比,如果没有3G、4G等基础通信技术发展的支撑,就不会有现在移动互联网对传统产业模式的颠覆。

但很多人并没有思考未来创新的真正源泉在哪里。

打造基于趋势的平台。

在提供核心技术的基础上,我们更进一步,搭建了云平台,为所有创业者提供发展平台。

有一个原因。

今年以来,互联网应用逐渐兴起,我们收到了大量中小企业和开发者的反馈。

他们想使用科大讯飞的技术,但使用成本太高。

这并不难理解。

一般来说,企业开发应用程序之前,需要花费30万元购买硬件,30万元购买平台,再加上其他成本。

没有一万元的预算,是不可能创业的。

不过,这项投资对于中小企业和企业来说非常重要。

对于开发商来说,这太贵了。

一年后,我受到以下启发:用户打开水龙头就可以接水,但不一定要自己建造一个小型水厂。

带着这样的想法,科大讯飞借助互联网搭建了云平台。

除了核心技术的运用外,平台还可以降低创业者的初期发展门槛。

产品开发出来后,他可以直接依托科大讯飞语音云平台对外提供服务,无需前期投资服务器。

对于我们自己来说,通过云,我们可以自己学习、自我进化。

背景数据越多,我们的识别准确率就越高。

当我们建立这个平台时,我们不知道用户数可以达到目前的近6亿,下载量可以达到目前的9亿以上。

年底,我们正式发布了科大讯飞语音云和语音输入法的试用版。

当我站在会议现场演示时,我非常紧张,担心会出现问题。

因为我们团队当时没有太多搭建平台的经验,所以输入法的性能并不稳定。

上线前曾出现过网络超时等问题。

不过好在我们的平台技术人员为此熬了四五个通宵,通宵也没有白费,当天的演示非常成功。

发布会结束后,科大讯飞的用户数量增长非常快,这是我没有想到的。

但几天后,客户流失率开始直线下降,幻想突然破灭了。

我开始担心用户不再关心语音,开始怀疑产品能否长期被用户使用。

后来我们分析了原因:用户可能只是因为好玩才下载的。

从让每个人都觉得有趣到让每个人都受益,这对我们来说是一个巨大的飞跃。

我们开始注重产品的实用功能,比如打电话、发短信、听音乐等,从那时起,用户的日常使用量就慢慢增加了。

科大讯飞是一家传统的TO B公司。

其主要客户为中兴、华为、联想等电信设备商和终端厂商。

它缺乏向互联网用户开放的经验。

Voice Cloud发布后,很长一段时间用户量并不多,仅半年时间就积累了数据。

它有几万用户,我最初的预期是一天能增长几万用户,这是一个巨大的差距。

为此我们进行了调研,发现不少用户反映该输入法的识别率根本不好。

他们看到网络一直在转,但数据结果就是出不来。

这是语音技术准确性的问题。

当网络畅通时,比如在实验室或者特定的衍生场景,语音识别效果非常好。

但在大规模应用时,我们缺乏如何保证准确性的经验,也没有对移动网络条件进行优化。

这对于我们来说是一种技术上的折磨,当时也是非常震撼的。

但我相信语音应用一定是未来手机交互最重要的方式,所以我们一步步优化了产品。

使用一段时间后,用户告诉我科大讯飞的产品比以前好很多了。

我听后非常高兴。

在过去的10年里,通过iFly内部,我们培养了多名开发人员。

通过语音云,我们在2年内发展了5万多个合作伙伴。

科大讯飞正在从单一核心技术提供商向基于云的开放平台企业转型。

合作共享共赢平台建立后,科大讯飞将向上下游开发者开放平台。

所有拥有核心技术的开发者都可以将自己的技术放到这个平台上。

例如图像识别技术。

我们与香港中文大学唐晓鸥教授及其研究团队合作,将人脸识别技术应用到科大讯飞语音云中,将识别准确率提高到99%以上,比肉眼识别更准确。

唐晓鸥是这个领域的顶尖专家。

精准人脸识别技术、实时人口流动状况技术、照片自动人脸设备分类技术等都是汤晓鸥及其团队的科研成果。

我们还与哈尔滨工业大学在自然语言处理技术方面进行合作,推出了“哈尔滨工业大学科大讯飞语言云”。

哈尔滨工业大学“语言技术平台LTP”是一个为开发者提供自然语言处理技术服务的平台,包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等自然语言处理技术服务。

已被国内外多家研究机构和企业使用。

其中百度、腾讯、华为、金山、中国科学技术信息研究院等多家大型企业和科研机构均为付费用户。

目前已成为国内外最具影响力的中文加工基础平台。

我相信人工智能是未来能够出现真正颠覆性产品的领域。

我对这个领域的发展始终保持警惕,所以今年我们专门推出了“科大讯飞超脑计划”。

该项目汇聚了来自语音语言国家工程实验室、清华大学、加拿大约克大学的10余位人工智能领域顶尖专家。

在意识到机器能听、能说之后,我们的梦想就是让机器能够理解和思考,而且它的知识不是人类灌输的,而是通过不断学习获得的。

事实证明,合作伙伴的先进技术可以与科大讯飞云平台的核心技术形成互补。

开发者可以基于这个平台不断推出各种新的应用,而且它们之间还可以相互关联。

我们每个月的科大讯飞语音云沙龙都会邀请一些创业者来分享他们的经验。

例如,在教育领域。

现在,每天有数以万计的教师和学生使用我们的教学产品。

教师的课件内容可以分享给科大讯飞,其他创业者也可以在平台上分享和使用。

年底与外研社合资成立北京外研社教育科技有限公司。

外研社在国内大学英语教材市场占有率超过60%。

向大学生推广英语教学应用后,教师、学校、出版商以及更多推广教学应用的第三方机构都可以使用这个平台。

音乐也是如此。

目前国内唯一连接三大运营商的音乐搜索和音乐发布平台是科大讯飞打造的。

目前拥有9000万用户,其中付费用户数千万。

黄梅戏等地方剧目可以通过我们的音乐平台向各大运营商推广。

制作音箱、玩具等产品的合作伙伴可以直接将黄梅戏运用在自己的个性化产品中。

在我们的平台上,大家可以互相促进,合作共赢。

聚焦爆发点在上下游开发者加入生态系统之后,我认为我们有必要在系统中打造几个在不久的将来能够爆发的关键领域:第一,智能手机领域。

除了我们自己的主导产品科大讯飞输入法和灵犀助手之外,我们还形成了以科大讯飞、运营商、手机厂商为核心的生态系统。

我们希望更多的人加入。

手机平台是基于宣传引导用户冲动消费的平台。

相信科大讯飞、中国移动和各家手机厂商的战略联盟将获得最大的份额。

我们的语音云用户基础和创业项目数量在行业中遥遥领先。

科大讯飞输入法排名已经在2018年超越了QQ输入法,在2018年超越了百度输入法。

根据近期12大应用商店语音助手下载排行榜,前5名中,我们的超过了其他4家的总和二是教育领域。

我们与基础教育出版行业的领头羊人民教育出版社合作,共同开发和推广教学平台、在线学习、电子书包等一系列数字化产品;与北京师范大学合作共建基础教育质量检验协同创新中心,推出教育评价云。

总之,我们和出版社、大学形成了良好的合作体系,这个体系也向教师、第三方合作伙伴和企业家开放。

三是智能家居领域。

与北京、广东当地广播电视台、三大运营商以及海信、长虹、TCL等国内六大电视品牌合作。

我们不仅让用户通过语音更方便地看电视,还向创业者开放,他们可以在上面开发儿童学习、故事频道等应用。

科大讯飞与中国移动联合推出的智能语音助手灵犀3.0已经可以控制智能家居设备。

年轻人装修房子、购买家具时,只要按照我们推荐的型号购买空调、微波炉、窗帘、电饭锅等物品,那么家里的所有物品都可以用手机控制,他们甚至可以在路上打开电饭锅。

提前把米饭煮好。

基于中国移动无线音乐基地的大量正版音乐资源,我们与其联合推出科大讯飞智能音箱。

然而,在当前蓬勃发展的智能家电行业中,各厂商的产品存在接口各异等问题,且没有明确统一的行业标准。

如果产品来自不同品牌,就很难建立完整的智能家居系统。

未来,语音将进入智能家居的各种设备。

如果设备、语音、大数据相关的接口能够连接起来,创业者就可以共享一个统一的平台,否则就会被层层壁垒所阻挡。

创新受阻对于整个产业生态系统的建立非常不利。

2019年,科大讯飞的重要任务之一就是推动中国智能语音行业标准的落地。

早在3年前,我们就牵头成立语音产业联盟,与运营商、电视厂商、科研机构、语言技术研发公司、高校等共同搭建上下游产业交流平台,受到了广泛好评。

得到工业和信息化部的大力支持。

支持。

四是汽车领域。

例如,奔驰汽车在速度超过每小时公里时会发出很大的噪音。

这个时候就只有科大讯飞的技术才能顺利使用了。

目前我们已与奔驰、宝马、一汽等国内外汽车厂商,以及国内外多媒体厂商、导航厂商、甚至整车厂商形成体系,加速智能化的深度应用车载终端语音。