被大学开除、被Facebook拒绝的语音行业领军人物丹尼尔·波维(DanielPovey)将加盟中国小米(以下简称丹),出任小米集团首席语音科学家。他将在北京组建独立研发团队,并向集团副总裁、技术委员会主席崔宝秋汇报。对于丹的加盟,崔宝秋首先赞扬了丹的工作精神,并表示:“很高兴丹能够参加今年的小米开发者大会!”Dan也在个人推特上公布了这一消息。年底,我将启程前往北京,组建一个小团队,开发新一代“PyTorch-y”Kaldi。在加入小米之前,他拒绝了Facebook。今年8月,丹因学生闹剧被约翰霍普金斯大学解雇。DanPoveyFacebook立即向DanPovey抛出了橄榄枝,Dan接受了。不过,Facebook表示,在学校事件调查完成之前,暂时只能给丹6个月的“合同工”合同,待调查结果公布后再决定是否正式聘用。丹拒绝了,讽刺地说Facebook的所作所为让他感到“似曾相识”。丹后来在他的个人主页上表示,他计划在一家中国公司工作,“也许在中国的大学兼职”。消息一出,国内学界颇为振奋,纷纷猜测这位大师的去向。现在,DanPovey的新工作终于官宣:这家中国公司就是小米。丹是谁?语音界的传奇,Kaldi的发展撑起了语音识别开源软件的半边天。不在演讲方向的读者可能对DanPovey并不熟悉。在演讲界,丹可以说是一个传奇人物。Dan是演讲界的知名人物,LinkedIn信息显示,他自2012年起担任约翰霍普金斯大学助理研究教授。在加入约翰霍普金斯大学之前,他曾在微软和IBM担任研究员。扫一扫知乎上的讨论,发现丹教授在学生中的知名度非常高,他的一堆“标签”甚至圈粉了路人。他以前的学生说:“丹是我见过的最纯洁、诚实、善良的研究员,不仅学术水平优秀,而且在编码方面仍然走在前列。当他受到启发时,他写了代码日和一个晚上,只靠一个土豆过活。”工作狂:丹是个工作狂。据说他每天工作超过14个小时。除了回复邮件,他还在写代码;热心:关心学生,主动维护服务器,出门开会合住旅馆帮助贫困学生,甚至还经常给无家可归的人捐钱;Pure:他的理想是“干掉”Nuance(一家早期知名的语音识别公司),免费提供语音识别工具给大家。这让他在不太好的巴尔的摩呆了7年,一心一意地开发和维护Kaldi;在Kaldi的论坛上,几乎每一个帖子都能得到回复,Dan的邮件回复几乎是有求必应。…DanPovey以领导Kaldi的开发而闻名,Kaldi是一种在Apache许可下免费提供的开源语音识别工具包。Kaldi旨在为语音识别开发者提供灵活和可扩展的软件,支持线性变换、MMI、boostedMMI和MCE判别训练、特征空间判别训练和深度神经网络,并且已经提供了TensorFlow集成。关于Kaldi名字的由来,据说Kaldi是传说中发现咖啡的咖啡神的名字,Dan希望这个套件能像咖啡一样简单、方便、普及。如今,Kaldi已经成为使用最广泛的开源语音识别工具包之一,许多语音识别团队都依赖于Kaldi。自2011年发布以来,该工具包已被下载超过20,000次,合着论文被引用超过1,000次。可以说,Kaldi撑起了语音识别开源软件的半边天。Kaldi的影响是巨大的。它是第一个完全用C++编写的基于加权有限状态和理论的语音识别开源软件。其模块化和高扩展性的设计、详尽的文档、完备的开放教程,也是它受到广大开发者喜爱的主要原因之一。目前在业界作为标准工具被广泛使用,包括学术界的MIT、CMU、GHU、剑桥大学,中国的清华大学、上海交通大学等,以及业界的Microsoft、Google、IBM、Facebook等,它的推出也很棒。推动整个语音识别领域的发展。有趣的是,DanPovey还是剑桥大学语音识别工具包HTK的作者之一,他是领导HTK工具包开发的PhilWoodland教授的学生。经过几年的发展,Kaldi集成了比HTK更多的技术。老师开发了第一代语音识别开源软件,学生开发了第二代语音识别开源软件。一场学生闹剧导致语音专家被解雇:教授深夜闯入,只为夺回服务器。语音行业老大愤而离去,拒绝脸书转投中国。一场闹剧式的解雇风暴。事情发生在5月7日午夜,当时丹·波维手持一把断线钳,试图在漆黑多风的夜晚闯入被抗议学生占领的约翰霍普金斯大学行政大楼,夺回CLSP(语言语音处理中心)以保持对服务器的控制。约翰·霍普金斯大学学生占领GarlandHall外景此前,行政大楼GarlandHall已被学生占领长达34天的静坐抗议。他们把窗户封死,用铁链锁上大门。但丹维护的CLSP服务器就在大楼里,在他试图向学校申请进入大楼维护服务器未果后,他决定停止抗议。丹以工作狂着称。他的学生陈果果在知乎上说:“接触丹这么多年,感觉有两点不能碰,一是时间,二是服务器。”陈果果说:“Dan另一个不能接受的是服务器的不稳定,Dan在很多事情上都比较宽容,但是如果有人滥用服务器的资源,就会收到Dan非常严厉的警告。Dan觉得数据和计算资源对于整个CLSP来说,是非常非常重要的资产,需要随时提供给CLSP的每一个人,相信这也是Dan会在这次事件中尝试夺回服务器的原因避免数据及其资源丢失。”据当地报纸报道,那天晚上,丹在其他六名“社会游手好闲者”的陪同下,拿着钳子游行到大楼,费力地试图剪断抗议学生绑在门上的铁链,并重新控制服务器。丹被抓了在视频中被学生推出大楼但他失败了。随后发生了肢体冲突,丹被学生推出大楼。丹在他的网站上解释说,强行进入大楼是由于研究服务器,位于学生占用的建筑物中。“收回服务器”事件发生后,丹先是被停职,随后在8月8日,他又被学校以“危害学生安全”为由开除。丹发布了解雇信,并表示他将提前离开。他在自己的网站上为自己辩护说:“也许我丢了工作,但至少我还有尊严和独立思考。”他说他被解雇是因为他是一名白人男性,而抗议的学生是少数族裔。他在个人主页上的声明中写道:“对于美国人和美国的各种机构来说,似乎没有什么比被指控种族主义(或相似主义)更可怕的了。这导致了我们在这里看到的荒谬。事实:这样的一个庞大的机构被几个被施了魔法的孩子瘫痪了。”他说自己有很多出路:“我告诉我的朋友,如果这对我没有帮助,我会去中国或俄罗斯。但我想告诉大家,无论发生什么,我都不会道歉,不会退缩向下。”在公开信中,他写道:最后,留下几句鲍勃·迪伦的歌词:我不后悔我所做的任何事我很高兴我战斗过,我只希望我们被学校开除,在拒绝了Facebook之后,为什么小米?这么大牛为什么会选择小米?10月23日,小米在人工智能媒体开放日活动中分享了Dan的收获。Povey被约翰霍普金斯大学开除后,小米人工智能部语音组组长看到Dan在推特上“拒绝脸书”的帖子,转发给了小米集团人工智能部总经理叶航军博士。负责国际招聘的同事立即联系了丹。收到回信后,叶航军博士就小米的战略布局和技术问题与其进行了交流。随后,小米技术委员会主席崔宝秋与丹进一步沟通,成功将其挖到小米。崔宝秋曾对媒体表示,丹选择小米的原因有三。一是小米的AIoT生态,二是小米对自研技术和人才的重视,三是小米对开源的拥抱。其中,小米的开源战略是吸引丹的关键点。崔宝秋说,他在给丹的三张PPT中,专门介绍了小米对开源的拥抱。其中一张PPT谈到了未来的计划,其中之一就是联合中国的互联网公司和科技公司,向世界宣传中国的开源力量。丹强调了那句话,说这就是他想做的。此外,从小米的业务来看,雷军曾提出,小米未来五年的“双引擎”是手机+AIoT,其中AIoT是AI和IoT的结合,可见人工智能在未来5年的重要性。小米的整体战略。小米在人工智能领域取得了辉煌的成绩。公开数据显示,2016年至2018年,小米在人工智能领域申请专利684件,位居全球第11位,成为全球领先的人工智能新势力。同时,小米在声学、语音、视觉、自然语言处理、知识图谱、机器学习六大方向都有相应的研发团队。目前在语音方面已经推出了落地产品,在技术上也取得了突破。比如在前不久备受业界关注的“AISHELLSpeakerVerificationChallenge2019Far-FieldVoiceSpeakerRecognitionChallenge”中,小米语音团队采用了多维数据增强+经典识别模型+的融合方式深度神经网络嵌入。近场配准Track1和远场配准Track2任务均获得全国第一。重视语音技术研发的小米与语音识别巨头的强强联合,将会产生怎样的影响?对此,有网友认为,“从长远来看,有助于小米提升科研实力,期待小爱同学和小米未来在AI领域的发展。”
