当前位置: 首页 > 科技观察

机器学习如何应用于业务场景?三个真实的商业项目

时间:2023-03-17 19:04:11 科技观察

在国富如和这些年的教学过程中,很多同学都提出了一个问题:如何将机器学习应用到真实的商业世界中?文章和教程被炮轰,但关于机器学习项目在企业中的“脉络”总是缺失的。今天,杨老师将介绍我们最近收集的三个真实的企业机器学习项目,让同学们更好地理解机器学习和数据科学在实践中是如何工作的。01.扫描eBay是否有假冒商品或被盗商品。这个项目来自于我们美国部门的反馈。这是一家娱乐行业的企业。由于保密协议,老师不能透露企业名称。他们有一个专门的分析团队,负责在eBay等购物网站上搜索带有客户品牌的被盗或假冒商品。在eBay上数以百万计的列表中,只有一小部分是企业感兴趣的。于是分析团队推出了爬虫算法,对包含相关关键词的网页进行爬取,并将网页图片存放在特定的文件夹中。每天,该团队都会登录相关门户网站对图片进行爬取和审核,以确定是否侵犯了公司的版权。这是一个非常昂贵但无聊的过程。由于看图片的人工成本,所以很贵。无聊的是,观看工作本身并没有太多的技术含量,但非常耗费人力。但是这个问题可以通过一点点机器学习来改善很多。尴尬的是,现在很多很多讨论计算机视觉的文章,都集中在一些“不专业”的问题上,比如猫vs狗,汽车vs摩托车,手绘数字等等。但在这个项目中,我们必须在图像中寻找侵犯版权的行为。决定使用哪种机器学习算法来解决问题通常很复杂,这个项目也不例外。一方面,我们有很多数据被标记为侵权或非侵权,在这种情况下很容易看出这是一个监督分类问题。那么,我们想过尝试神经网络算法吗?另一方面,由于门户的设计,检索负面信息非常耗时(它不存储图像,仅存储链接),因此我们只有有限的数据集。此外,一个企业的标志经常与其他企业的标志一起出现在图像中(版权侵权通常是微妙的),并且足够深的神经网络很有可能识别出相似标志的存在而不是单个公司的标志(就像神经蚊帐通常可以识别所有犬种,而不仅仅是德国牧羊犬)。在这种情况下,关键是训练一个较浅的卷积神经网络用于对象检测而不是分类。这会阻止网络学习徽标的一般特征并强制它学习徽标特定的特征。(这两个词用英文显然更准确,所以就不给翻译了)CNN(卷积神经网络)本身的算法已经很成熟了,所以这个项目的关键是生成训练目标检测的训练集。它需要包含来自原始训练集的大量图像,这些图像以不同的角度和排列,具有各种倾斜和对齐方式,每个图像都有一个围绕我们要检测的对象(徽标)的边界框。在花费相当多的精力完成了训练集上的工作后,本项目的后续工作也顺利完成。02.预测零售店是否会被盗这个项目来自我们合作的一家公司,是一家跨国零售连锁公司(也是基于保密协议,这里不能给出公司名称)。因为这家公司的分店遍布全球,包括一些不太安全的地区。因此,需要构建一种算法,根据历史盗窃事件生成盗窃风险评分。由于业务性质,该公司认为盗窃风险会随着周边地区的犯罪活动而增加,而不是由于商店的任何特定特征(易碎窗户等)。该算法工具的目的不是直接防止盗窃,而是评估如何在商店组合中分配固定预算以减少盗窃损失。因此,算法的输出一定是更新每个安全设施的好处,或者推荐更新哪些安全设施,有点像推荐引擎。与我们上一个例子类似,找出问题的关键是最大的挑战之一。分析团队首先尝试生存分析,定制Cox比例风险模型以接受多个事件。虽然它很好地洞察了各种安全设施的保护,但它在识别地理因素方面做得很差,而地理因素是客户想要识别的重要因素。最后,分析团队决定为客户想要识别的每个因素构建单独的分类器(使用XGBoost),每个时期都有固定的训练集日期范围,以说明长期预测更有可能高估的事实长期风险问题。接下来,将这些因素输入回归模型以计算每家零售店的估计损失,并使用此指标(结合地理指标)生成具体建议。03.向1.5亿访问者推荐内容InfiniteScroll,一般称为无限滚动模式,对于有很多相似项目要显示的页面,可以使用无限下拉来防止用户点击下一页获取更多内容。比如今日头条,打开后可以一直向下滚动,滚动到页面底部时,会加载更多的新闻。之前和我们美系有长期合作的一个网站改成无限滚动模式,但是很担心滚动到底部后接下来显示哪篇文章。一开始,他们的分析团队提出了一种与强化学习非常相似的方法——从10篇最受欢迎的文章中选择一篇或随机选择。不幸的是,这个想法并没有给他们带来他们所希望的转化率,无限滚动条大大减少了他们的广告点击次数(尽管这对用户来说是更好的体验)。后来,分析团队使用词嵌入和用户嵌入构建了一个协同过滤推荐引擎,为用户提供符合他们兴趣的文章,而不仅仅是最流行的文章。这个项目最大的挑战不是选择哪种算法的问题,而是处理海量数据的问题:必须保证系统非常快速地返回推荐——这就是无限滚动体验的本质。另一个挑战是数据埋点和备份,因为每个用户行为都有很多特征可以提取,所以有必要找到一种方法来存储这些信息,同时又不会成倍地增加存储成本。分析团队决定按站点、类别和用户信息拆分模型,以减小嵌入矩阵的大小。还部署了各种降维技术以使其更易于管理,并密切监视系统以确定理想的备份截止日期。小结通过以上三个项目,同学们可以发现,在很多情况下,算法选择和调参并不是企业机器学习项目最重要的阶段。客户需求、数据类型、计算速度、预测使用,甚至数据库优化都会影响项目的成功。