文章|去年10月,马云成立阿里巴巴达摩院,三年斥资1亿元人民币研究前沿技术,并对其提出三点要求,“比阿里巴巴活得更久”、“服务至少20亿人”世界人民”、“面向未来,用科技解决未来问题”。
近九个月来,阿里巴巴达摩院陆续宣布来自全球各地的技术专家加盟;宣布正在开发的AI芯片Ali-NPU;研发量子电路模拟器“太章”,率先实现81个量子比特(40层)的模拟;应用于上海地铁站的语音购票等消息,但整个达摩院(顾名思义)仍然隐藏在云端。
阿里巴巴达摩院首次公开亮相,是近日在杭州举办的一场技术分享会。
来自阿里巴巴达摩院不同部门的四位专家学者分享了他们的研究成果和实际应用。
智希希还作为第一批媒体受邀参加。
可以看到,达摩院的技术布局中,不仅有现在使用的语音识别、机器视觉、机器翻译等技术,还有量子计算等中长期未来的技术。
在应用场景上,达摩院的技术也广泛应用于阿里巴巴的业务中,解决实际问题,例如阿里巴巴国际贸易的机器翻译、淘宝广告自动生成的视觉生成等。
1、推动机器视觉围绕人的落地,物体、空间。
阿里巴巴达摩院机器智能技术实验室高级算法专家谢玄松分享了计算机视觉在工业中的应用,主要关注人(医学视觉)、物体(工业视觉)、空间。
(城市大脑)、设计(视觉生成)从几个维度展开。
谢旋松表示,围绕人、物体、空间做一些机器视觉的目的是帮助人们提高效率。
与城市大脑和医学视觉相比,AI技术如何应用??到场景多、问题更复杂的行业,以及视觉生成技术如何提高人类效率,更吸引智能物联网的关注。
产业愿景是产业落地的一个大领域,有很多场景。
哪些场景可以实现技术落地?谢玄松指出,机器视觉要投入实际应用需要三个条件:一是诊断内容能够用肉眼区分,有足够的正常和故障样本,对漏报有一定的容忍度。
这个场景非常适合机器来做,比如监控铁路螺母是否松动。
第二种用肉眼很难检测到,可以根据情况用机器视觉代替。
第三类是故障样本很少,但事故后果严重。
在这种情况下,可以利用机器视觉来辅助人工检查。
定义边界后,您可以寻找将实施该技术的场景。
例如,阿里巴巴可以基于视频分析自动监控钢圈的安全性,实际测量准确率达到95%以上。
再比如通过目标检测和行为分析,可以监控生猪疫情等。
温馨提示,前段时间阿里云用AI养猪养瓜,在互联网圈也很火。
通过行业场景落地,谢旋松总结道,要深入行业,在明确需求、明确问题上下功夫;我们要关注数据,分析各种场景下数据的特征;要把问题简单化,优先考虑简单有效的解决办法;并且要长期投入,不断迭代优化方案。
视觉生成利用AI技术结合用户和场景需求生成图像、视频等内容,如广告图像的生成与设计、广告视频的生成、游戏图像的生成等,从而提高效率人类的工作。
阿里巴巴最初是一家电子商务公司,广告需求在淘宝商家中广泛存在,尤其是在双十一等购物节期间。
阿里巴巴专门构建了一个设计知识图谱,通过视觉生成来生成广告效果图。
最典型的应用就是鲁班系统在淘宝的应用。
谢轩松表示,双十一天猫、淘宝上大量的横幅图片大部分都是系统自动生成的。
例如,去年双十一期间,人工智能产生了2.5亿张图像,累计产生图像数量达到10亿张。
作为设计师,看到这个结果你会感到惊讶吗?除了图像生成之外,谢轩松表示,自动/半自动生成视频和图文内容是一种趋势,也是另一个蓝海。
例如,在电视剧场景中,AI可以识别视频场景中的人物、对话、动作等。
识别场景后,它可以在适当的位置插入相关对象。
现场,他展示了“天猫国际”的嵌入式广告和淘宝产品的视频生成。
当然,广告只是其中一种应用,但电商平台的需求太大了。
谢玄松还告诉智东智,视觉生成的实现是各种技术的综合应用。
它将借用最基本的识别和分类能力,并且还使用序列。
它还将利用增强技术的能力,进行像素生成和元素丰富。
利用一些概念性的能力,最后对整个系统有一个测试流程,使其满足用户的需求。
2、量子计算的中长期布局 量子计算是时下热门概念之一,因为量子计算机一旦取得突破,其计算能力将远远高于经典计算机,从而带来一场革命在计算能力方面。
不过,这种现象短期内不会出现。
这很难发生。
正如阿里巴巴达摩院量子实验室量子科学家徐华所说,通用量子计算机的发展还有很长的路要走。
在不久的将来,我们期待能够解决特定问题的量子芯片和模拟量子系统的量子芯片。
量子计算数据是阿里巴巴中长期的重要技术。
由于量子计算太过晦涩难懂,所以本次分享更多的是科普性质。
我们可以对几个常见的概念给出解释:量子计算,它是基于量子力学的。
基本原理(核心是量子叠加+量子纠缠),利用量子逻辑实现信息处理的计算技术,对应的机器就是量子计算机。
量子纠缠是指对于一对或一组粒子,如果某些粒子的量子态依赖于其他粒子的状态且不能独立表达,则认为这对或一组粒子处于量子纠缠状态。
量子通信的主要应用是量子纠缠。
近日,中国科学技术大学也声称率先实现了18个量子比特纠缠。
量子霸权是一个经常被提及的概念。
意味着对于某个具体问题,量子计算机可以解决,而经典计算机无法解决。
2016年,谷歌团队在随机量子电路输出采样这一特殊问题上,理论上提出49个物理量子比特可以实现量子霸权。
今年3月,谷歌提出了72位芯片解决方案。
随后在5月份,阿里巴巴量子实验室团队基于阿里巴巴的计算能力实现了81量子比特的模拟。
不过,徐华总结道,当前量子霸权的象征意义大于其实际意义,因为它不是一个可以单独解决的通用计算问题,只能被视为技术发展过程中的里程碑。
阿里巴巴的量子计算研究方向涉及物理层、系统层、应用层。
它希望提供具有全栈能力的解决方案,为客户提供量子计算能力。
其中,今年上半年推出的“太章”模拟器是量子实验室的代表项目。
它是经典的量子电路模拟器。
通过对模拟任务的有效分解,利用阿里巴巴强大的计算平台,完成了此前在超级计算机上不可能完成的模拟量子计算的任务,实现了谷歌计划获得“量子计算”的目标。
“霸权”硬件的仿真。
但徐华在现场也表示,量子模拟器最终还是受到计算能力的限制。
量子模拟需要持续的投入来帮助量子电路设计和量子算法研究,但从更长远的研究角度来看,数百台量子比特超级计算机无法对其进行模拟。
近日,中国科学技术大学声称率先实现了18量子位纠缠。
智希希还与徐华交流了这一成果的实质性意义。
他表示,多个量子比特的纠缠非常有意义。
量子纠缠有一个置信水平。
99%和99.99%之间有很大的区别。
如果置信度非常高,达到99.99%以上,就更接近实现逻辑位。
例如,如果组合50个逻辑位,其计算能力基本可以达到当今超级计算机的计算水平。
3. 机器翻译 机器翻译是阿里巴巴国际化的生命线,是利用计算机将一种自然语言转换为另一种自然语言的过程。
这项技术已有 60 年的历史,但直到最近 30 年才变得可用。
阿里巴巴达摩院机器智能技术实验室研究员葛妮雨分享了他们对机器翻译技术的探索与应用。
她称机器翻译是阿里巴巴国际化的生命线,因为阿里巴巴的国际电商、即时通讯(钉钉)、旅游(飞猪)等场景都有大量的翻译需求。
与谷歌一般的神经机器翻译不同,阿里巴巴的机器翻译更侧重于国际电商、即时通讯、旅游等领域,采用神经网络机器翻译(NMT)、统计机器翻译(SMT)等多种模型的结合。
翻译目前涵盖21种语言、48个翻译方向。
葛妮雨介绍,阿里巴巴机器翻译服务+业务场景目前日均调用量达7.5亿次,全年翻译字符数超万亿,应用于电商平台、物流、支付、云计算等领域。
关于机器翻译的具体实现,她谈到了小语种机器翻译和非标准中文翻译的具体案例。
以阿里巴巴国际站为例,30%的用户使用西班牙语、俄语、土耳其语等小语种;前三季度,俄罗斯在华购物占海外网站消费总额的52%,下单率达90%。
到中国;但约96%的卖家对小语种无能为力。
为了匹配各个业务场景的特点,阿里巴巴融合了多种不同的技术,取长补短,定制场景翻译。
具体来说,我们会针对小语种抓取语料,建立电商知识库,构建小语种与汉语的双语平行语料库,通过人工排序规则进行小语种的机器翻译。
另一件是非标准中文机器翻译之争。
为了最大化搜索效果,淘宝上的商家会输入很多单词,但并不是句子。
标题平均长达30个字,不自然、不符合语法,这对机器翻译来说非常具有挑战性。
葛妮雨的团队将用户搜索和交易产品结合起来,利用这些自动生成的大量精准语料对商家冗长的标题进行优化和缩写,并通过模型不断自动优化,实现产品信息的翻译。
此外,她还介绍了图像翻译方面的一些探索。
传统方法直接使用机器翻译进行字符识别。
阿里巴巴第一步是识别图像,获取内容描述,然后进行字符识别(OCR)。
通过OCR+图像内容描述,一起进行机器翻译,提高图像内容的翻译效果。
4、推动语音识别在行业中的应用 语音识别是将语音转换为文本的常用技术。
目前,各语音识别公司声称通用语音识别的准确率达到95%以上。
但在细分场景和特殊领域,这个识别率会大大降低。
阿里巴巴达摩院机器智能技术实验室高级算法专家雷明分享道,得益于更强大的算力和更真实的数据,语音识别正在快速发展,行业正在成为创新主流。
目前,谷歌、微软、百度等均采用通用识别技术。
与他们不同的是,阿里巴巴专注于行业语音识别、物联网语音识别和新零售语音识别。
目前应用场景越来越复杂,对语音识别的要求也越来越高。
随着模型越来越复杂,语音识别的效率越来越低;随着数据量越来越大,训练时间也越来越长。
长期以来,迭代速度越来越慢;而且模型越来越大,直接部署在物联网端变得困难。
针对这一情况,阿里巴巴于去年11月推出了DFSMN模型,与之前的模型相比,语音识别错误率降低了20%,同时效率提升了2倍。
它可以应用在物联网设备上,这项技术于今年6月推出。
开源。
从具体应用来看,阿里巴巴的语音技术已广泛应用于家庭、车辆、公共场所。
比如家用智能音箱以及上汽荣威RX5上的车载语音交互技术。
在公共场景中,阿里巴巴今年上半年在上海地铁站推出了语音售票机,采用语音与视觉多模态结合的方式帮助乘客快速取票。
另一个案例是今年武汉云栖大会推出的语音点餐机,通过语音交互高效获取服务。
此外,阿里巴巴的语音技术还应用于法庭庭审中,记录速记庭审信息。
据雷明介绍,阿里巴巴智慧法庭庭审已覆盖近百家法院、多个法院,并已应用于杭州互联网法院。
结论:达摩院以解决实际问题为导向。
通过与阿里巴巴达摩院四位专家的分享和交流,我们感受最深的是,达摩院的科学研究不是“空中楼阁”,而是真正面向解决实际问题,其研究成果目前正在正在阿里巴巴各业务线逐步落地。
此外,在实现技术解决实际问题的过程中,无论是语音识别、机器翻译,还是机器视觉,阿里巴巴都在尝试综合应用多种技术来解决实际问题。