当前位置: 首页 > 科技赋能

云之声数据标注团队!我们如何教机器人说话

时间:2024-05-22 11:50:44 科技赋能

“如果一台机器能够很好地模仿人类在某些现实条件下回答问题,以至于提问者长时间误认为它不是机器,那么这台机器就可以被认为是机器了。

”机器。

它会思考。

” ——阿兰·图灵 人机对话是人类最初的人工智能设想,也一直是人工智能领域的目标之一。

尽管我们经常听到“这道题我还没学会”,但不可否认的是,人工智能已经基本做到了“会说话”。

那么,机器人如何学习呢?这就需要提到在人工智能需求下诞生的一个新职业,这也是人工智能背后的“隐形人”——数据标注专家。

众所周知,我们在教孩子们有关海豚的知识时,需要给他们看海豚的图片,告诉他们自己是海豚。

久而久之,他就记住了海豚的特征。

当他去动物园看到海豚时,他知道那是海豚。

类比机器人,为了让机器人“像人一样说话”,我们首先要教它学习。

经过大量的学习,它可以区分事物。

在人工智能领域,教机器人学习需要大量的训练集和测试集。

通俗地说,训练集就像我们学习时做的练习集,测试集就像我们考试时做的试题。

测试集和训练集中的数据必须是支持算法的注释数据,将收集到的原始数据转化为算法可用的数据的过程称为“数据注释”。

即对采集到的文本、图片、语音数据进行整理、排序、表征的过程。

数据标注专家成为为人工智能发展提供重要且持续的“数据燃料”的人。

云知声拥有庞大的数据标注团队从事数据服务工作,唯一的数据标注团队还在云知声位于厦门的东南总部。

团队成员几乎每天都戴着耳机,默默对着电脑7-8个小时。

这里的寂静真是比声音还要好!数据标注是一项重复且乏味的任务。

如果把人工智能比作一座金字塔,最上面的是人工智能应用(如机器人、无人驾驶汽车等),最下面的是数据服务。

数据服务不仅是人工智能的基础,也是不可或缺的一部分。

数据标注工作真的像工厂里的流水线作业吗?仅仅是对数据的重复标注吗?云知声数据标注团队负责人徐健表示,目前人工智能领域对数据采集和标注的需求巨大。

大,数据采集后,首先对数据进行清洗,然后进行数据标注。

注释要求尽可能详细、清晰。

在最终审核阶段,对标注数据的正确性、准确性、完整性等方面进行审核。

现实情况是,数据质量会影响算法效果。

一旦标注者出现错误,也会影响机器的错误。

目前主要包括语音、图像、文本、视频数据的采集和标注。

云之声每天涉及到的就是语音注释。

与智能产品的语音交互类似于我们与人的日常对话。

生活中,你可能会突然问身边的人:“小云,现在几点了?” ,“现在是3点15分”,“小云”是唤醒词,“现在几点了”是命令词,唤醒词和命令词都需要采集。

为了即使有背景噪音或轻微的方言口音也能准确识别,有庞大的数据训练集来支持。

每个语音命令都需要收集至少一个人的语音数据。

需要列出所有可能的句子,收集尽可能多的人的不同说话方式,涵盖地区、性别、所有年龄段。

比如我们的PandoraA1客房智能管家在查询酒店服务时有多种表达方式,比如“提供哪些服务”、“包含哪些服务”、“提供哪些服务”、“提供哪些服务”等同时,还会有严格的性别、年龄段、口音采集比例,以保证最终的准确识别。

每个采集的词句都必须准确标注,采集的语音必须满足相应的技术要求,标注时间必须精确控制在毫秒以内。

数据标注的速度决定了AI产品的开发速度,因此提高标注效率非常重要。

为了配合数据标注团队的工作,厦门展厅里还隐藏着一个神秘的声学实验室,可以说是整个公司最安静的地方。

声学实验室的主要目的是收集原始声音数据。

为了贴近产品的实际使用场景,整个装修布局与家居场景保持一致。

实验室采用吸振隔音墙。

房间之间由墙壁隔开。

墙壁、天花板与外部房间之间没有刚性连接,与外界完全隔离。

墙体内的吸音材料主要由多孔玻璃纤维板组成,具有良好的吸音能力。

除了吸音材料外,声学实验室周围还设置了窗帘,可以充分扩散声音,使整个空间的声场均匀。

分散式。

地面采用地砖和吸音地毯,将实验室与建筑基座隔开,无反射、无回声。

声学实验室配备齐全,标准麦克风、高保真扬声器、声卡……应有尽有。

徐健表示,为了让设备在实际应用场景中达到最佳效果,在声学实验室采集时必须模拟真实环境,需要覆盖不同的噪声、信噪比、距离和角度。

为了保证支持远距离语音的语音产品在出厂前的效果,在前期采集阶段必须考虑到产品在实际应用中会遇到的不同距离、不同角度的噪声干扰和声音效果。

例如,我们的一些设备支持5米距离的说话人识别,这就需要录音机在距离录音设备一米、三米、五米的地方记录数据。

同时会设置0°、-30°、-60°等不同角度。

设备覆盖集合。

在采集过程中,往往根据场景的需要添加音乐噪声、电视噪声、办公室噪声、室外噪声等,以模拟真实场景的噪声干扰。

人工智能的发展催生了数据标注这一新职业。

随着人工智能的大规模应用,至少在未来五六年,人工智能将像一个等待数据喂养的婴儿。

数据标注专家给冰冷的机器赋予了新鲜的“生命”,教给它们我们的知识,让它们变得“温暖”。