当前位置: 首页 > 科技观察

微软为Spark开源了深度学习库MMLSpark

时间:2023-03-16 17:09:00 科技观察

微软为ApacheSpark开源了一个深度学习库MMLSpark。MMLSpark可以与MicrosoftCognitiveToolkit和OpenCV完美集成。微软发现,尽管SparkML可以构建可扩展的机器学习平台,但大多数开发人员的精力都花在了调用底层API上。MMLSpark旨在简化PySpark中的重复性工作。以UCI的成人收入人口普查数据集为例,使用其他项目预测收入:如果直接使用SparkML,需要对每一列单独进行处理,并整理成正确的数据类型;MMLSpark只需要两行代码:model=mmlspark.TrainClassifier(model=LogisticRegression(),labelCol=”income”).fit(trainData)predictions=model.transform(testData)深度神经网络(DNN)不逊色在图像识别和语音识别领域对人类来说,但是DNN模型的训练需要专业人才才能做到,而且与SparkML的集成也不是一件容易的事。MMLSpark提供了一个方便的PythonAPI来轻松训练DNN算法。MMLSpark可以轻松使用现有模型进行分类任务,在分布式GPU节点上进行训练,并使用OpenCV构建可扩展的图像处理管道。以下3行代码可以从MicrosoftCognitiveToolset初始化DNN模型以从图像中提取特征:cntkModel=CNTKModel().setInputCol("images").setOutputCol("features").setModelLocation(resnetModel).setOutputNode("z.x")featurizedImages=cntkModel.transform(imagesWithLabels).select(['labels','features'])model=TrainClassifier(model=LogisticRegression(),labelCol="labels").fit(featurizedImages)MMLSpark已经发布到Docker在Hub上,使用以下命令在单机上部署:dockerrun-it-p8888:8888-eACCEPT_EULA=yesmicrosoft/mmlsparkMMLSpark是在MIT协议下授权的。