2000年,谷歌首次将传统的AB实验引入到互联网产品改进的评估中,测试多少搜索结果更适合显示在搜索结果页面上。虽然这次AB实验因为搜索结果加载速度的问题而失败了,但是这次AB实验是一个里程碑,标志着在线AB实验的诞生。此后,AB实验在互联网公司的优化迭代中得到广泛应用。据统计,Airbnb(市值:1000亿美元)每周有超过1000次实验,Facebook(市值:10000亿美元)每天有超过10000次在线实验。一个公司在线AB实验的数量,也在一定程度上反映了公司的规模和数据驱动文化的成熟度。本文将介绍AB实验的典型应用场景和部分经典案例,帮助读者通过案例更直观地了解和理解AB实验的原理和价值。01AB实验应用场景AB实验已经应用到产品优化的各个环节。在众多的应用场景中,三种类型是非常典型的。1、推荐场景信息流推荐、电商购物推荐、音乐推荐、视频推荐等都属于推荐场景。推荐系统中的推荐算法,尤其是广泛应用的深度学习等模型,本身就具有很强的黑盒属性。一个特征、一个模型、一个算法、一个参数优化之后,用户体验如何,是否在朝着想要的目标方向发展,不能简单地通过经验来判断,只能通过AB实验才能知道。不使用AB实验进行评估,很难有其他手段来验证新推荐策略的效果。在这个场景下,AB实验和推荐系统是齐头并进的,有推荐系统就必须有AB实验。2、运营场景运营活动包括各种运营活动中的场景推广(吸引新用户,激活老用户)、红包、优惠券、短信等。通常,此类活动可以带来即时的用户增长或交易量增长。更重要的是,评估这些投资是否在长期内带来了总体积极的RIO。现实中,很多活动带来的增量是短暂的,用户的长期留存效果往往低于自然流量的长期留存。没有AB实验的量化,很难说出这些活动的真正长期利益。3.UI设计和交互场景在UI设计和交互场景中,按钮、颜色、样式、字体等选项太多,每个人的喜好不同,产品内部很难达成共识,甚至更多。不用说,它面对的是不同的用户群体。哪种方案最好,只能通过实验量化才最有说服力。在使用AB实验之前,UI设计师经常面临各种挑战。有人说字体太大,有人说字体太小。任何人通常都很难拿出令人信服的证据。而且有时候因为变化太细微,肉眼很难分辨,比如Bing的标题颜色的UI实验。采用AB实验后,大家不会因为自己的审美而产生争议,只需呈现AB实验的数据结果即可做出决定。这三类场景非常有代表性,代表了产品优化过程中的三个典型问题,即算法优化的黑盒属性、长短期综合收益ROI、感性决策。当然,AB实验的适用场景并不仅限于这三类。基本上,满足实验基本条件的产品问题,都可以通过AB实验来解决。表1总结了常见的实验类型,以及推荐的AB实验实施程度。注意,这只是一般情况下实际应用中结合各种实际情况给出的相对推荐等级,仅供参考。表1不同实验类型的AB实验建议度从产品开发流程来看,基于AB实验的研发流程与传统产品研发流程相比具有全方位的优势,如表2所示。表2产品优势基于AB实验的开发流程02AB实验应用案例本节通过几个案例介绍AB实验在实际应用中的作用和价值。1、必应案例2012年,一位必应员工建议改进广告展示方式,将标题下方的第一行文字合并到标题行中,形成一个长长的标题行。由于这个计划一开始不太被看好,所以优先级不高,搁置了6个月。后来由于代码难度低而实现,并发布给真实用户进行评估:随机向部分用户展示了一个新的标题布局,它记录了用户与网站的交互,包括广告点击和由此产生的收入。实验开始几个小时后,触发了“收入过高”警报,表明新标题布局的广告产生了过多的收入。这种“好得令人难以置信”的警报非常有用,因为它们通常表示严重的违规行为,例如收入被记录两次,或者网页上只显示了一个广告,其余的都被破坏了。然而,对于这个实验,增加的收入起到了作用,Bing的广告收入增长了惊人的12%。这在当时仅在美国就带来了超过1亿美元的年收入增长,而没有影响关键的用户体验指标。这个实验非常有效,以至于在很长一段时间内重复了很多次,结果是收入大幅增加。这个实验的价值不仅在于实验本身的成功,更在于展示了在线AB实验的几个关键问题。直觉和经验往往很难评估一个想法的价值。本来可以创造超过1亿美元的简单变化被推迟了半年。小的变化可以产生大的影响。一个程序员从几天的工作中产生1亿美元的投资回报率是极其罕见的。很少有实验能产生大的影响。Bing每年有超过10,000次实验,像这样的简单改变带来巨大收益,这也是近年来唯一一次。友好、强大、易于获取的实验工具是低成本实验的基础。Bing工程师可以访问微软的实验系统EXP,这使得科学评估变得容易。总体评价标准非常明确。在这个实验中,收入是OEC的关键点。只关注收入是不够的,还可能导致广告满天飞,无疑会影响用户体验。Bing使用OEC来衡量收入和用户体验指标,包括每个用户的会话(流失与收益)和其他几个组成部分。关键是在营收大幅增长的同时,用户体验指标并没有明显下降。Bing的实验相关团队由数百人组成,负责将单个OEC指标每年提高2%。这2%是每年所做的所有实验的效果总和。大多数改进都是在逐个实验的基础上进行的,大多数改进都是次要的,有些迭代甚至会产生负面影响。对于产品来说,重要的不仅仅是业务指标,更重要的是产品性能。2012年,一位Bing工程师改变了JavaScript的生成方式,大大缩短了发送给客户端的HTML代码长度,从而提升了性能,AB实验也显示出惊人的指标提升效果。Bing进行了跟踪实验评估对服务器性能的影响,结果表明,性能提升也显着提升了关键用户指标,比如服务器加载服务时间减少了10ms,由此带来的收入增长部分性能提升足以承担工程师一整年的成本。2015年,随着Bing搜索性能的提升,当服务器在不到一秒的时间内返回第95个百分位数(即所有查询的95%)的结果时,一些人质疑性能提升是否值得。Bing的团队进行了后续研究,关键用户指标仍然有显着改善。虽然对收入的相对影响有所降低,但Bing的收入在这段时间里有了巨大的提升,每1ms的性能提升比过去更有价值,每4ms的收益提升可以支付工程师1年薪。很多公司都进行了性能实验,结果表明,性能的提升是至关重要的。在亚马逊,一项100毫秒的减速实验将销售额降低了1%。Bing和Google演讲者在2009年的联合演讲揭示了性能对关键指标的巨大影响,包括不同的查询、收入、点击、满意度和点击时间。减少恶意插件也可以提升产品体验。虽然广告是一项有利可图的业务,但如果用户安装包含恶意插件的免费软件,这些恶意插件就会污染网页上的广告。使用恶意插件的用户不仅在他们的页面上投放了多个广告,而且往往是低质量、不相关的广告,导致用户体验不佳。微软对380万潜在受影响用户进行了AB实验,结果表明,当实验组通过控制权限减少恶意插件的使用时,实验组用户的所有关键指标都有所提升,包括每个用户的访问次数.此外,用户搜索更成功,点击有用链接的速度更快,年收入增加了数百万。2、谷歌案例谷歌在2011年启动了一项改进其广告排名机制的实验。改进后的模型经过了开发工程师的测试,他们进行了数百次AB实验并进行了多次迭代。有些实验跨越所有市场,有些则针对特定市场,以更深入地了解广告客户的影响。功能上的巨大变化,再加上AB实验的帮助,最终让谷歌将多项功能巧妙结合,提升了广告用户的用户体验。Google以更低的广告成本获得更好的广告效果。2016年,谷歌测试了搜索页面链接的颜色。当时有不少用户反映,在输入单词或词组时,大部分用户会看到10个链接,链接名称为蓝色,URL为绿色,部分用户看到的链接名称为黑色。这不是谷歌第一次对链接颜色做AB实验。非常重视搜索结果页面颜色的谷歌,经常为数亿互联网用户实时测试多种颜色的效果。早些时候,谷歌开始测试不同深浅的蓝色,共测试了41种蓝色,最终筛选出表现最好的指标,而选择这种蓝色,每年给谷歌带来的收益将超过其他蓝色。2亿美元的收入。3.奥巴马竞选案例2012年,奥巴马数字团队从网页到邮件,无一例外地优化了竞选筹款策略的方方面面。在20个月的时间里,该团队进行了大约500次实验,最终将捐赠转化率提高了49%,将注册转化率提高了161%。他们曾经策划过一次促销活动,以赢得支持者与总统共进晚餐的机会。对于在线表格的设计,团队尝试了一种采用精简文本格式的表格和一种带有总统形象的表格。AB实验结果表明,后者使参与抽奖的捐赠人数增加了6.9%。4.亚马逊案例2004年,亚马逊在其主页上发布了信用卡促销信息。虽然这项业务的每次点击收入很高,但点击率却很低。该团队通过将优惠移动到用户添加商品后看到的购物车页面来运行AB实验,该页面显示了一个简单的数学计算,突出显示了如果用户使用该优惠可以节省多少。因为将商品添加到购物车的用户有明确的购买意向,所以报价会在正确的时间点显示。AB实验表明,这个简单的改变让亚马逊的年利润增加了数千万美元。Amazon的GregLinden创建了一个模型,该模型根据用户购物车中的商品显示个性化推荐。当用户添加商品时,系统会推荐类似的商品。林登觉得这个测试模型看起来很有前途,而一位营销高级副总裁坚决反对,声称这会分散人们的注意力,无法下单和付款。因此,林登被禁止对该问题进行进一步研究。尽管如此,他还是进行了AB实验,结果这个功能以巨大的优势胜出,最终推出了购物车推荐功能。目前,国内主流电商平台都复用了该功能。5.抖音案例抖音是字节跳动旗下一款创意短视频社交软件。字节跳动非常重视AB实验。其实验平台每天新增约1500个实验,服务400多家商家,累计完成70万次实验。从产品命名到交互设计,从改变字体、弹窗效果、界面大小,到推荐算法、广告优化、用户增长,抖音将AB实验应用到每一个业务、每一个决策。外界很关心“抖音”这个名字的由来,其实是AB实验的结果。当年字节跳动做短视频产品的时候,有很多候选名字。字节跳动将产品原型换了不同的名字,使用了不同的Logo,在应用商店做了AB实验,在保持预算、位置等条件一致的情况下,衡量用户对产品名称的关注度、下载转化率等指标。AB实验帮助字节跳动获得了名字的排名,当时“抖音”排名第一。后来,根据其更符合长期认知,更能体现Logo造型的特点,确定了“抖音”这个名称。充分进行AB实验是一个可以在很大程度上补充信息,消除很多偏见,反映客观事实的过程。进入抖音App,可以看到3个视频推荐流,一个是基于位置的“同城”标签,一个是基于关注关系的“关注”标签,一个是“推荐”"选项卡基于兴趣推荐列。使用哪个标签栏作为用户进入时的默认内容,用户体验更好,产品核心指标表现更好?通过AB实验,对照组用户默认输入“关注”,实验组1用户默认输入“同城”,实验组2用户默认输入“推荐”。最后比较各组的实验数据,选择哪个用户在Groupmetricsperform比较好。通过实验结果发现,有的用户喜欢默认关注,有的用户喜欢默认推荐,有的用户喜欢同城推荐。怎样才能达到最佳效果?这个问题也可以通过AB实验来验证。实验可以这样设计。首先,根据用户的特征和历史偏好,分别计算进入“关注”和“推荐”两个标签的权重值。比如有的用户关注量大,内容丰富,历史数据显示,他们也更喜欢观看自己关注过的内容。在这种情况下,“关注”标签栏将获得更高的权重并成为默认标签栏。如果用户关注的对象较少,更愿意通过平台推荐发现一些新鲜事物,这种情况下,“推荐”标签栏会获得更高的权重。实验可以设计成以下几组。实验组一:默认进入“推荐”标签。实验二:默认进入“同程”标签页。实验三:根据用户每个标签栏的权重来确定进入策略。控制组:默认进入“关注”标签。6、淘宝案例电商网站淘宝每天也在进行各种实验。在正常情况下,我们并不知道我们正在接受实验。就像链接https://detail.tmall.com/item.htm?spm=a230r.1.14.14.498e4a519c23Vi&id=610851809895&ad_id=&am_id=&cm_id=140105335569ed55e27b&pm_id=&abbucket=2字段abbucket=分配给实验组users2被分配到对照组。在移动互联网时代,我们每天都在使用各种网络软件产品,进行各种产品的实验。事实上,每个产品用户每天都在对自己使用的产品做AB实验,但用户在一次实验中只会得到一个特征,不能同时得到对比的特征,而用户所在的群体分配给是完全独立的。随机的,用户不知道这个实验。这种随机性和不可感知性也在一定程度上保证了AB实验的客观性和可信性。
