【.comExpressTranslation】推荐系统用于从零售到新闻到媒体的各个行业。如果您之前使用过流媒体服务或电子商务网站,它们会根据您之前观看或购买的内容提供推荐,那么您就使用过推荐系统。由于可用数据量巨大,许多公司都将推荐系统作为主要的收入驱动因素。然而,找到合适的推荐算法对于数据科学家来说可能非常耗时。这就是为什么Microsoft提供了一个GitHub存储库,其中包含Python中的最佳实践示例,用于使用Azure机器学习服务构建和评估推荐系统。什么是推荐系统?推荐系统有两种主要类型:协同过滤和基于内容的过滤。协同过滤(通常用于电子商务场景)识别用户与他们评价的类别之间的交互,从而推荐他们以前没有见过的新类别。基于内容的过滤(通常由流媒体服务使用)识别有关用户配置文件或类别描述的特征,以便推荐新内容。这两种方法也可以组合成混合方法。推荐系统使客户在商家网站上停留的时间更长,他们与更多的产品/内容进行交互,并推荐客户可能购买的产品或内容。下面,我们将描述这个存储库是什么,以及它如何帮助数据科学家解决构建和实施推荐系统的难题。简化数据科学家的流程推荐算法GitHub存储库提供构建推荐系统的示例和最佳实践,以Jupyter笔记本的形式提供。这些示例详细说明了我们对五个关键任务的了解:数据准备:为每个推荐算法准备和加载数据。建模:使用各种经典和深度学习推荐算法来构建模型,例如交替最小二乘法(ALS)或极深度分解机(xDeepFM)。评估:使用离线指标评估算法。模型选择和优化:调整和优化推荐模型的超参数。运行:在Azure上的生产环境中运行模型。recoutils中提供了几个实用程序来支持常见任务,例如以不同算法支持的格式加载数据集、评估模型输出以及拆分训练/测试数据。一些最先进的算法被实现用于自学或在企业组织或数据科学家自己的应用程序的上下文中定制。下图显示了存储库中可用的几种推荐算法。我们一直在添加更多推荐算法,请前往GitHub存储库查看最新列表。下面更详细的介绍推荐算法库是如何解决数据科学家的痛点的。1.评估推荐算法的不同选项非常耗时。RecommendedAlgorithmsGitHub存储库的一大优点是它提供了一组选项,显示哪些算法最适合解决某些类型的问题。它还提供了如何在不同算法之间切换的粗略框架。如果模型性能不够准确,需要更适合实时结果的算法,或者最初选择的算法不是所用数据类型的最佳算法,数据科学家应该切换到不同的算法。2.为推荐算法系统选择、理解和实施新模型可能代价高昂。从头开始选择合适的推荐算法并为推荐系统实施新模型的成本可能很高,因为除了大量的计算能力外,还需要足够的时间来进行训练和测试。推荐的算法GitHub存储库简化了选择过程,通过节省数据科学家在测试许多不适合其项目/场景的算法方面的时间来节省成本。结合Azure的各种定价选项,这降低了数据科学家的测试成本和企业的部署成本。3.更高级的算法实现起来非常困难。当被要求构建推荐算法系统时,数据科学家通常会寻找更常用的算法,以减少选择和测试更高级算法所需的时间和成本,即使这些更高级的算法可能更适合项目/数据集。推荐的GitHub存储库提供了一组最适合特定场景的著名和最先进的推荐算法。它还提供了最佳实践;如果遵循这些最佳实践,则可以更轻松地实施更高级的算法。4.数据科学家不熟悉如何使用Azure机器学习服务来训练、测试、优化和部署推荐算法。最后,推荐算法GitHub存储库提供了有关如何在Azure和Azure机器学习(AzureML)服务上训练、测试、优化和部署推荐模型的最佳实践。事实上,有几个笔记本描述了如何在AzureML服务的存储库中运行推荐算法。数据科学家还可以将他们创建的任何笔记本提交给Azure,只需很少改动或无需改动。AzureML可用于与AI模型开发相关的广泛任务,例如:超参数调整跟踪和监控指标以改进模型创建过程扩展和扩展计算,例如DSVM和AzureML计算将Web服务部署到AzureKubernetesServiceSubmissionPipeline原标题:BuildingRecommendersystemswithAzureMachineLearningservice,作者:HeatherSpetalnick
