1。AB实验的定义AB实验也称为受控实验(ControlledExperiment)或控制实验。AB实验的概念来源于生物医学的双盲试验。在双盲试验中,患者被随机分为两组,在他们不知情的情况下给予安慰剂和试验药物。性能上是否存在显着差异来判断受试药物是否有效。2000年,谷歌工程师将这种方法应用到互联网产品测试中。此后,AB实验变得越来越重要,逐渐成为迭代科学的互联网产品运营和数据驱动增长的重要手段。从Apple、Airbnb、Amazon、Facebook、Google、LinkedIn、Microsoft、Uber等国外企业,到百度、阿里、腾讯、滴滴、字节跳动、美团等国内企业,在各种终端(网站、PC等))应用程序、移动应用程序、电子邮件等)正在运行大量的AB实验。这些公司每年进行数千到数万次实验,涉及数亿用户。测试内容涵盖了大部分产品特性的优化,包括用户体验(颜色、字体、交互等)、算法优化(搜索、广告、个性等)优化、推荐等)、产品性能(响应速度)、吞吐量、稳定性、时延)、内容(产品、信息、服务)生态系统管理体系、商业收益等。因为AB实验引入互联网公司,应用场景主要是大规模在线测试,所以也称为在线AB实验或在线对照实验(OnlineControlledExperiment,OCE)。在一个常见的在线AB实验中,用户被随机均匀地分成不同的组,同一组的用户在实验过程中使用相同的策略,不同组的用户使用相同或不同的策略。同时,日志系统根据实验系统对用户进行标记,记录用户的行为,然后数据计算系统根据带有实验标记的日志计算用户的各项实验数据指标。实验者通过这些指标来了解和分析不同策略对用户的影响,是否满足实验前的假设。如图1-1所示,图中的流程图总结了AB实验的经典模式。▲图1-1AB实验流程将图1-1所示的流程应用到产品迭代中,即让两个或多个用户组同时访问不同功能和策略的产品版本。这些参与实验的用户群是从整体用户中随机抽取的,一般只占整体用户的一小部分,不同用户群的属性和成分相同或相似。首先通过日志系统和业务系统收集每组用户的行为数据和业务数据,然后根据这些数据指标分析评估出更好的产品版本,最后推广给所有用户。以图1-2为例,我们试图通过AB实验找出哪种颜色的banner点击率更高:A组保持浅色banner不变,B组采用深色banner,并分析哪种颜色更能吸引用户的注意,提高用户的点击率。如果实验表明深色横幅的点击率更高,则向所有用户推广深色横幅位置。当然,在实际应用中,AB实验的效果评估一般不会这么简单。比如,除了点击率,其他指标也需要综合考虑。▲图1-2AB实验测试哪个颜色banner位置的点击率更高2.AB实验的种类从不同的分类角度来看,AB实验有不同的种类。从实验实施的产品形态来看,AB实验可分为App型、PC型、网页型等;从实验代码运行机制来看,AB实验可分为前端-端页面类型、后端服务类型等。从实验对象来看,AB实验可以分为用户类型、session类型、页面类型、元素类型等。从实验服务调用的方式,AB实验可以分为SDK类、接口服务类等。从实验内容来看,AB实验可以分为交互类、算法类、内容类、工程性能类等,这些是常见的分类方式AB实验。当然,AB实验的分类不限于以上分类,可以根据实际情况采用不同的分类方法。无论AB实验的类型如何,都应符合分流→实验→数据分析→决策的基本流程。本文节选自《AB实验:科学归因与增长的利器》(ISBN:978-7-111-70713-4),经出版社授权发布。
