Netflix内部的Python框架Metaflow正式开源,可以加速机器学习模型的部署,与工程师一起构建和管理相关的数据科学项目。Metaflow是Netflix开发的“人性化”数据科学框架。它也是其机器学习基础设施的重要组成部分。提供统一的架构栈接口,兼容PyTorch、Tensorflow、SciKit等当前主流的Python数据科学框架。Learn相互兼容,可用于加速数据科学工作流的构建和部署。数据科学家可以使用Metaflow来提高从经典统计到深度学习的各种数据科学相关项目的开发效率。作为全球最大的在线视频网站,Netflix在影视剧剧本分析、视频制作调度优化、损失预测、定价、翻译、大规模发行网络优化等业务的方方面面都使用了机器学习技术。等待。在过去的两年里,Metaflow已经应用于Netflix内部数百个涉及自然语言处理和运筹学的相关项目的建设和管理。据Netflix的软件开发工程师介绍,Metaflow最初是为了帮助那些希望通过Python代码表达业务逻辑,但又不愿意在软件工程上花费太多时间的数据科学家而开发的。效率。这些软件工程令人头疼的问题包括考虑对象层次结构和封装问题,或者处理与项目本身无关的难以理解的接口。Netflix的数据科学家可以通过Metaflow快速判断原始模型在生产环境中是否会失败,从而提前纠正错误,缩短部署时间。Metaflow已经能够将项目部署时间的中位数从4个月减少到7天。此外,Metaflow是一个云原生框架,可以充分利用云服务在存储和计算方面的灵活性。亚马逊云服务AWS还为Metaflow提供基础设施支持和其他内置集成存储和机器学习服务,支持对AmazonS3中的所有Metaflow数据和代码进行快照并将其用作数据湖。Metaflow还捆绑了一个能够以10Gbps加载数据的高性能AmazonS3客户端。对于开发人员而言,Metaflow可以利用来自AWS的更多计算资源在笔记本电脑上显着加快开发速度。Metaflow不会修改每个状态下的代码或库,从而更容易在本地和远程执行模式之间转换以及排除错误。目前,最新的Metaflow2.0版本已经在GitHub上线,并获得了1900多个Stars和121个Fork。GitHub相关项目地址:PythonDataScienceFramework──Metaflow
