【.com原稿】我分享的主题是数据驱动的决策辅助和产品智能。主要涉及我在数据科学探索和数据驱动创业公司StitchFix的商业模式、业务流程、参考特征和推荐算法方面的经验。数据科学探索的心得体会数据科学可以从谷歌收购的大数据竞赛平台Kaggle开始。Kaggle是一个大型数据科学家社区。成立于2010年,专注于数据科学和机器学习竞赛。在C端,迅速吸引了大量数据科学家和机器学习开发者的参与。在B端,Kaggle的模型也对接了一大批优秀的公司,探索各种现实商业问题的算法和解决方案。而其基于社区的招聘服务和代码共享工具KaggleKernels也是社区运营的核心竞争力。人们常说Kaggle是玩转数据的平台,ML开发者一展身手,一举成名。如果你刚开始学习数据科学,想找工作,可以先参加一些Kaggle上的比赛。如下图所示,有两个Kaggle练习题:回归分析预测房价。分类问题。回归分析预测房价。这是对美国中西部一个只有大约100,000人的大学城的预测。数据给出了79个解释变量,如质量得分、形状(规则/不太规则/很不规则)、居住面积、路面(碎石/柏油路)等。通过这些解释变量的分析,可以预测房价.如图所示,Y轴是销售价格,X轴是从1-10的质量得分。可以看出,当质量得分增加时,售价也以递增的速度增加。分类问题。这是给谷歌的视频打标签,使用Youtube-8M作为训练数据,视频在百万量级,每个视频对应3-5个标签,标签总数约4000个。从给定的训练中抽象出一些模型设置并移动到测试集。问题的输出是对于每个视频,可以预测一个标签列表,标签可以根据置信度排序。在Kaggle数据竞赛中,数据经过预处理,基本变成了行列的表格数据。因此,可以节省大量的原始数据预处理。下图展示了基本的数据科学流程:一开始,我们需要收集原始数据(CRM、历史交易等),以及网站分析或跟踪用户APP行为,并根据这些跟踪跟踪用户行为点。之后对原始数据进行预处理,也叫数据清洗,因为原始数据会有很多冗余、重复信息、缺失变量和错误。基于清洗后的数据集,可以进行一些探索性分析和机器学习。数据科学和数据产品的使用在数据科学探索和分析方面,纸尿裤和啤酒是经典案例。许多分析师会对产品信息进行分类并监控产品的相关性。一般来说,大部分商品的相关性很低,在0.1左右,啤酒和纸尿裤的相关性在0.3左右。针对这一奇怪现象,分析人士进行分析发现,很多爸爸晚上去超市给宝宝买尿布的时候,都给自己买了啤酒。这样,超市在出货的时候,可以把关联度比较高的产品放在一起,方便顾客选择。所以对于数据科学来说,可以通过数据分析和建模得到一些有说服力的信息,便于辅助决策。另一种是生成分析和智能数据产品:分析数据产品。如果你了解北京目前的实时交通状况,你可以在网上找一些数据源,对这些数据源做一些数据可视化和交互分析。通过这种方式,数据产品可以呈现数据并定期更新数据内容,是一种分析型数据产品。智能数据产品。例如,基于机器学习的搜索引擎和广告推荐系统都可以定义为智能数据产品。数据科学家分类数据科学家可以分为两类:Analytics和MachineLearning,但也有很多人同时兼顾这两种角色并在两者之间切换。分析更多的是问题导向,比如购物平台用户在上班时间和下班后的消费习惯差异。最初可以对整体的综合信息进行分析,然后在结果的基础上做更详细的分析。可以根据城市、地理位置、用户使用的客户端对用户进行分类细化。这里的整个过程是交互式的,就是不断提出新问题,通过分析解决,再提出新问题,最终目的是辅助决策。机器学习主要是指标驱动,比如提高用户在广告平台上的转化率。转化率是指从用户点击广告到产生转化或用户访问网站并下载应用程序的时间。通过应用新模型或改进现有系统的当前参数来改进指标。最终目标是生成智能产品。当然,还必须考虑规模和自动化。StitchFix的商业模式和商业模式StitchFix的商业模式StitchFix的商业模式与Netflix早期的商业模式非常相似。2004、2005年前后,Netflix的商业模式主要是用户可以制作自己想在线观看的视频。建立这样一个队列后,Netflix会将电影发送到用户家中。StitchFix采用的是直邮模式,不过是电商+直邮+推荐。现在,StitchFix是一家在线个性化服装推荐公司。用户注册后,系统会推荐一些衣服送到家里,用户可以根据自己的兴趣和喜好决定是否购买这些衣服。StitchFix主要解决用户的以下购物痛点:我们大多数人的生活都很忙,没有时间去购物。一些用户可能希望发现新的穿衣偏好或一些穿衣体验。很多追赶时尚潮流的人都想尝试不同的场景等等。StitchFix的商业模式如下图所示。StitchFix的业务流程是从用户的角度来看:从用户的角度来看,用户需要填写一份个人风格问卷。调查问卷涉及购买衣服时通常考虑的问题,例如颜色、价格、尺码等。StitchFix会收集用户的个人风格问卷,结合算法和造型师推荐进行推荐。之后,用户会收到五件不同的衣服,可以在一个方便的地方试穿并与其他衣服搭配,他们宁愿保留它们也不愿将它们寄回。StitchFix在推荐衣服或匹配人货时,采用的是人机协作的方式,不单纯依靠机器算法,也不单纯依靠人工。优势互补,达到1+1>2的效果。如下图,人机协同推荐衣服:通过算法:可以对大量库存SUK进行筛选和排序,这是人工难以实现的。库存达到顶峰时,将高达数十万甚至数百万。筛查很费时间。可以根据试穿模式从大规模数据中找到适合每个人的模式。可以发现,某款颜色的衣服可能在某个年龄段的用户中卖得特别好。系统可以进行降噪,不同的造型师选择不同。如下图所示,是人与算法的协同工作:构建人与算法的协同系统,使两者互补,真正实现1+1>2。人类可以处理系统中的非结构化数据,比如文本数据、照片等,也可以和用户进行情感交流,比如造型师和用户之间,情感交流多了,大家就会有更多的信任。也可以有更多的创意,让算法不被边缘化。如上图所示,左边是计算机,右边是人。计算机可以处理相对繁重的重复计算。此外,计算机的短期记忆和长期记忆是人类无法比拟的。人类可以很好地处理非数据结构,美化照片,建立更好的人机关系。灵敏度也可以处理,比如像这样一句话:Putthemicrophoneonthegroundwithabookonit。大家都知道“上面”就是地面,但是这样的场景机器很难学习。StitchFix数据团队概况及职责如下:StitchFix数据团队概况:StitchFix团队约80人,主要分为客户、推荐、库存和数据平台四个小团队。数据平台团队的大数据架构和自动化分析流程支撑其他三个团队,与业务单元一一对应。客户团队主要做精准营销、需求预测、用户画像、客服分析。需求预测主要考虑用户的稳定增长、需求的季节性和订阅用户。推荐团队主要从事人品匹配、用户造型师匹配、HumanComputation和造型师行为分析。当用户提出请求时,造型师将与用户匹配。HumanComputation主要是研究造型师在虚拟环境中的行为,比如一些历史购买或退货数据,并基于这些数据采样,构建一个虚拟环境供造型师选择服装。在已知购买和退货的情况下,受控显示造型师信息。同时,研究了不同呈现情况对造型师成功率的影响。造型师行为分析通过日志分析造型师的实际选择行为。库存团队主要做库存预测、基于算法的清仓和贴标。库存随时都在变化。仓库里有库存的商品,还有从库存发到用户家里的商品,留在用户家里的商品,还有用户没有购买的商品。因此,有必要对库存进行预测。还有产品的标签,有了标签数据,可以做更好的匹配。StitchFix的智能物流智能物流——仓库配送StitchFix采用单一仓库发货,单一包裹。如下图,是仓库选择发货:StitchFix有五个仓库。当用户发送请求时,首先选择仓库。选择仓库时要考虑运费、交货时间、库存匹配等。仓库在不停地卖货,所以库存会不断消耗,不同的库存和用户维度是实时变化的。智能物流-造型师匹配如下图所示,是用户造型师匹配表:根据交易记录,用户对造型师的评价,两种材质的匹配。它将考虑到用户和造型师的属性。如果用户是妈妈,它会尝试推荐一位也是妈妈的造型师。智能物流-人货匹配如下图所示,是根据用户特征和过往的产品交易。建模:人货匹配可以理解为更传统的机器学习算法,一种方法是协同过滤。协同过滤不使用用户特征和产品特征,只需要用户和过往产品交易的特征。另一种方法是根据用户特征和产品特征进行建模。StitchFix的用户特征部分有用户问卷;产品特征部分通过逻辑回归、支持向量机、深度神经网络学习得到。下图展示了用户问卷的特征:图中可以看到,对于一个用户,他的数据会被收集,包括年龄、地点、职业,还有用户的体型、颜色偏好等等.StitchFix还设计了一个风格彩虹概念,将每个用户的风格和喜好放在一个七维空间中,包括经典、浪漫、波西米亚、前卫、闪亮、休闲和制服。此外,还可以根据交易历史获得隐式大小。比如用户规模从小到大。在不同的范围内,模型会预测一些隐含的大小,将用户放在相同的范围内。如下图,就是产品特征:产品特征是通过深度神经网络学习的。通过分析图片,将每个产品的图片放入深度神经网络,产生一些流程,针对每个产品流程计算产品相似度。矩阵,以便可以使用邻近法进行推荐。StitchFix的推荐算法在算法方面,StitchFix主要是在开源库的基础上自行研发。这种模式更像Facebook。如下图所示,StitchFix的主要算法是Mixed-effectlogisticregressionMixed-effectlogisticregression:在矩阵中,每一行代表一个用户,每一列代表一个产品。还有用户特征,产品特征,还有一些匹配的反馈。然后通过建模预测这些数据,这是一种具有混合效应的逻辑回归。推荐算法的挑战对于推荐算法来说,最重要的指标是什么?例如,使用交易数据和购买率?Na?ve的解决方案是忽略造型师和模型交易数据的选择。交易数据是每个用户,每次邮寄的物品和产品,购买了哪些,退回了哪些。这样做的好处是可以用传统的机器学习来解决问题,交易数据量不是很大。但是,如果我们真的使用这种方法,就会遇到很多问题。比如删除数据:当用户有特殊要求时,如果用户不喜欢无袖,造型师就不会推荐。这部分数据不会体现在交易数据中。对于这样的用户,没有办法估计这些产品的价值。用户推荐的成功率。购买率不一定是一个很好的排序指标。下面两张图是两件衣服的购买率对比:图中可以看到第一件的覆盖率比较低。大圈是所有用户组。在所有的用户群体中,只有极少数的用户选择了这款产品,因为这款产品比较前卫,虽然受众少,但是他们知道该选谁,购买率非常高。第二件比较中性百搭,任何人都可以穿,但造型师不知道买家是哪些顾客。所以选择的用户圈子覆盖面大,但是在覆盖率高的情况下购买率低。如下图所示,如果以购买率作为指标,则需要将第一项排在第一位:为了做到这一点,需要注意一个很重要的因素,即会出现选择偏差造型师的选择过程。要解决这种偏差,可以使用Heckman两阶段模型。总结本文主要分享数据科学的一些经验和StitchFix的一些关键技术。如果读者对数据科学感兴趣,我建议三个词:兴趣、实战、分享。爱好:仰望一座高山,虽达不到,却心向往之。实践:千里之行,始于足下。分享:与其一起快乐,不如一个人快乐。以上内容根据王建强老师在WOTA2017“大数据应用创新”专场的演讲内容整理而成。前推特美国总部技术总监,中国科学技术大学管理学学士,博士。2008年获洛瓦州立大学统计学博士学位。曾任科罗拉多州立大学统计系客座教授,美国国家统计科学研究所与美国农业部联合培养博士后,惠普公司资深科学家实验室,以及Twitter数据科学家广告组。多年数据分析与建模经验,涉及需求预测、供应链管理、广告点击率预测、广告排名、推荐算法、统计预测模型等领域。对数据科学教育、互联网广告和新兴零售模式感兴趣。【原创稿件,合作网站转载请注明原作者和出处为.com】
