当前位置: 首页 > 科技赋能

对话英特尔戴金泉! BigDL开源一年后,AI走进寻常百姓家

时间:2024-05-22 17:35:04 科技赋能

文章|莉娜,不知道你是否也有这样的感觉。

人工智能和深度学习领域似乎每周都会取得一些突破性的学术进展。

人工智能时代似乎下一秒就要降临世间。

然而,回顾自己的工作和生活,感觉自己距离深度学习还很远,连八杆子都打不过。

事实上,工业级机器学习/深度学习系统是一个非常复杂的大数据分析管道。

算法研究只占其中很小的一部分。

围绕它还有一系列的数据采集和数据处理过程。

这些人不是科学研究人员。

我们关心的事情,也是大数据工程师关心的问题。

因此,深度学习研究人员和大数据的普通用户之间存在脱节。

为了进一步缩短深度学习研究人员与实际使用深度学习的大数据工程师和分析师之间的距离,英特尔在一年多前开源了 BigDL 项目,让用户可以轻松简单地在大数据集群中执行任务。

深度学习应用(可以用SQL编写深度学习应用),该项目受到了AWS、京东、万事达等众多行业用户的欢迎,是Intel推动人工智能技术平民化/民主化的“重量级武器”深度学习。

”。

(英特尔高级总工程师、大数据技术全球CTO戴金泉)为了进一步了解BigDL项目的神奇之处,以及BigDL在开源这一年里所取得的诸多进展,智喜喜近日专程前往来到英特尔上海总部与多家媒体讨论这个问题,该项目负责人、英特尔高级总工程师、大数据技术全球CTO戴金泉进行了详细采访:1.深度学习与大数据的差距。

用户在实际生产过程中,生产数据通常存储在大数据分布集群中,规模可能有数万台计算机,但一般的深度学习框架无法支持对存储这些数据的集群进行直接操作。

往往需要单独搭建一个由十几台计算机组成的集群,不断地将数据从大集群复制到小集群进行计算,非常耗时。

其劳动密集型、资源浪费成为深度学习实施的一大障碍。

而且,在实验室中,用于深度学习实验的数据往往是经过清洗和预处理的“干净数据”,可以直接被研究深度学习的专家学者使用。

但实际生产过程中却并非如此。

如上所述,工业级机器学习系统是一个非常复杂的大数据分析管道,而机器学习算法只占其中很小的一部分(比如上图中的黑匣子),还有很多其他的数据采集??、数据清洗、特征提取等环节,需要工程师一步步完成。

因此,如何直接在数据存储的地方进行深度学习应用和数据预处理成为实际生产过程中遇到的考虑因素。

2.让深度学习更加贴近大众。

BigDL研发的初衷就是为了解决上述问题。

由于BigDL是大数据框架Spark生态系统的一部分,因此可以与现有大数据平台无缝集成,允许企业在同一集群上直接执行深度学习应用(例如实时图像搜索、人脸识别等)数据存储的地方。

识别),还可以对该集群进行数据清洗、特征提取、图分析等数据预处理工作。

对于个人来说,可以利用现有的软件工具直接调用Spark工作流等大数据工具中的深度学习应用。

例如,导入一个可以识别狗的AI模型后,直接编写SQL语言就可以在数千万张图片中找到“狗”的照片,无需重新学习AI相关的编程语言。

对于企业来说,可以直接在存储数据的同一个Hadoop/Spark集群上运行深度学习工作负载,并利用深度学习进行数据分析,使数据处理更高效、更易用。

例如,万事达卡正在利用BigDL进行用户商户趋势分析,并利用深度学习来投放有针对性的促销广告,以提高促销的准确性。

而且,这个框架很受云服务厂商的欢迎——毕竟他们拥有最大的计算机集群。

对于AWS、阿里云、微软云、京东云等为客户提供深度学习平台的云服务厂商来说,可以让深度学习在集群上运行得更快、更高效,更受用户欢迎。

而且,这些云服务厂商的网站上还提供了各种教程来帮助用户在自己的云平台上使用BigDL。

目前,BigDL不仅可以与现有的大数据生态系统无缝集成,还支持TensorFlow(TensorBoard)、Caffe、Torch等一系列现有的深度学习框架,可以支持大量先进的算法和模型输出3.经过两年多的研发,团队跨越中美两国的BigDL项目正式开源2018年12月30日在Github上发布。

这意味着该项目现已免费向用户开放,戴金泉表示,他们也收到了很多社区用户为这个框架贡献的代码,用于BigDL的优化和迭代。

截至上周,Intel共发布了BigDL的四个主要版本(0.1.0~0.4.0),支持Spark 1.5~2.2、Scala 2.10~2.11以及Python 2.7、3.5~3.6。

戴金全告诉智东智,BigDL项目经过一年多的研发才正式开源。

最初只是因为英特尔在实际生产过程中发现了大数据处理深度学习的问题,所以一个小团队开始探索原型。

到目前为止,整个BigDL项目规模有20、30人,团队分布在中国和美国。

由于该项目既包括大数据相关技术,也包括深度学习相关技术,涉及的技术跨越多个领域,包括大规模分布式系统、深度学习框架、算法模型、分析和数据模型等。

在数据生态系统中,英特尔恰好是重要的技术领导者。

戴锦泉本人也是Spark Committer,参与了Spark本身的开发贡献。

接下来,戴金泉和他的团队将研究如何进一步提高BigDL的易用性并降低深度学习的应用门槛,包括集成更多的深度学习算法和进一步优化框架。

结论:科技巨头推动深度学习的民主化。

无独有偶,谷歌最近推出了 Cloud AutoML 工具,它可以让你在短短几分钟内生成所需的机器学习模型,而无需编写任何代码。

如果将Google Cloud AutoML生成的深度学习模型导入到Intel BigDL框架中直接使用,堪称一键深度学习应用,人人都可以成为AI大师。

谷歌的 AutoML 和英特尔的 BigDL 都是为了促进深度学习的民主化而创建的。

它让有资源的大公司不再垄断,小公司或个人没有特别优秀的AI技术人才。

,而且你还可以把机器学习为己所用——这是很多科技巨头都在大力推动的一个方向。

未来,人工智能可能会成为我们工作和生活中不可或缺的工具。

它像Word和Excel一样易于使用,每个人都可以拥有AI的力量。