当前位置: 首页 > Web前端 > HTML

关于A-B测试这个东西

时间:2023-03-28 11:34:55 HTML

A/B测试,听上去像是在A和B两个选项中选择一个。但是判断的标准是什么,如何实现,从来没有想过。刚好最近在做数据分析工作,有点接触,Mark。A/B测试的起源A/B测试其实起源于学术层面的“随机对照试验”。作为一种方法论,这种对照试验由来已久:1747年,为了治疗坏血病,英国皇家海军的外科医生詹姆斯·林德设计了一项实验。他测试了六种不同的配方,包括苹果醋、大麦水和橙子。最终发现新鲜橙子是最好的补救措施,尽管当时并不清楚橙子中维生素C的作用。1835年,医学史上第一次“双盲实验”在纽伦堡实现。一位名叫弗里德里希的公共卫生官员开始与当时流行的顺势疗法进行一场赌博:将25瓶顺势疗法生理盐水和25瓶蒸馏水分发给50名双盲受试者。最后8个人声称有治疗作用,但在揭盲后发现有3个人喝的是蒸馏水,弗里德里希赌赢了。1944年,曼哈顿计划的首席科学家奥本海默在制造原子弹的过程中,用三种方法试验了如何分离铀235,成为整个计划中最关键的环节之一。1960年代,大卫·奥格威用一种对照试验的方法来验证广告的有效性——写了两份不同的文案,要求报纸各印一半,同时在文案中留下邮政编码和免费样品的地址,然而,样式是不同的。最终会根据实际的样品需求量来观察哪种文案效果更好。可见,随机对照试验作为一种方法论,在现代科学和商业的发展中发挥了重要作用。它本质上可以通过控制单个变量来寻找最优解,已广泛应用于工程、医学、教育和商业实践等诸多领域。我们今天要讲的A/B测试,其实就是随机对照实验在互联网领域的具体应用。A/B测试,互联网巨头的标配2000年2月27日,谷歌搜索部门的一名工程师进行了互联网时代的第一次A/B测试——他想知道搜索结果的每一页显示了多少项.最佳,当时默认为10。实验设计为0.1%的搜索流量每页显示20个结果;另外两个0.1%分别显示了25和30个结果。本次测试在直接结果上并不成功——由于技术故障,实验组页面加载速度明显慢于对照组,最终导致实验相关指标下降。但谷歌得到了一笔意外之财——他们发现即使加载延迟0.1秒也会显着影响用户满意度。很快,Google就将缩短响应时间列为重中之重。从这个实验开始,A/B测试在谷歌迅速流行起来。2013年,今日头条起名时,创始团队没有集思广益,没有投票,也没有老板做决定。而是通过科学实验,通过数据来确定今日头条的名字。先整理出AppStore各种免费榜前10名;然后按照名字分类(朗朗上口的白话、内涵的感情、模拟特殊的声音、公司名称+目的等),分析各种类型,分析得出朗朗上口的白话效果最好。然后针对设计名称,按渠道进行A/B测试,确定先验效果相似的投放渠道,分别投放。界面功能的标识一模一样,统计各频道的用户下载量、活跃度等核心数据指标,最后测出《今日头条》效果最好。张一鸣还说——“就算你99%确定一个名字比另一个好,你考了又有什么关系?”在Facebook,CEO扎克伯格曾公开宣称:“在任何给定的时间点,不会只有一个版本的Facebook在线运行,而是超过10000个,我们的实验框架可以检测和感知用户最细微的行为差异随时。”增长离不开A/B测试在了解如何科学地进行A/B测试之前,我们需要对“什么是A/B测试”有一个定性的认识。相信大部分人对A/B测试的理解是这样的:两套产品方案,让50%的用户分别访问两个不同的方案,观察谁的数据效果更好。这样的描述并没有错,但是它忽略了A/B测试的本质。那么A/B测试的本质是什么?自然界中达尔文雀进化的例子已经告诉了我们答案:达尔文雀是生活在加拉帕戈斯群岛的多种密切相关的雀类的统称。它们之所以被称为达尔文雀,是因为达尔文发现它们体型几乎相同,只是喙的形状不同,种类多达十几种,分布在群岛的不同位置。研究结果证明,这几群雀鸟属于同一种鸟类,因为群岛不同地区的环境差异,让它们进化出了最适合当前环境的喙。达尔文雀的选择性进化是自然界A/B测试的一个活生生的例子,而这个例子也揭示了A/B测试的本质:A/B测试是在一定条件下选择最优者的过程。在这种情况下,我们也可以发现A/B测试最重要的三个特点:1)A/B测试是多计划并行的,而不是传统上公认的A和B两种方案:就像达尔文的雀一样多达18个喙的种类同时进化。2)A/B测试只有一个变量:达尔文雀的进化只影响了喙的一部分,其他部分没有变化。3)必须遵循一定的规则或特定的环境:只有在群岛自然环境的影响下,它们才能进化出适合当前环境的喙。正如达尔文雀通过进化出更好的新形态来适应当前的自然环境一样,A/B测试也是在当前环境下为用户寻找最合适的产品方案的过程。A/B测试时我们会犯什么错误?当我们了解了A/B测试之后,回顾我们之前所做的所谓“A/B测试”以及验证产品假设的过程,我们可以发现很多不够严谨的地方。让我们在这里列出它们:只有两种方案。我们已经知道A/B测试其实就是多计划并行。很多时候,我们其实对一个产品假设有各种各样的争论,但我们通常受惯性思维的驱使,认为这个假设是“非对即错”,正确的方法是“非A即B”。我们应该多思考我们的业务,列出足够合理的假设,然后去尝试。先发布一个新版本,与上一个时间段的旧版本进行数据对比。这种检验假设的方法不能称为“A/B测试”,缺乏严谨性。犯这种错误是因为惯性思维让我们大脑中通常会有这样的认知:产品的两个不同版本的用户一直都是同一群人,他们会有相同的需求场景和行为倾向。这种认知最大的漏洞就是时间。显然,不同时间段的用户行为是不同的,用户行为反映的数据自然也会不同:双十一之前和双十一之后,用户的消费倾向是不一样的;夏天前后,用户的作息会有所不同;上一版产品有很强的运营活跃度,而这一版没有,用户对产品的关注度会发生变化……即使我们控制了产品本身的运营节奏,时间周期性引起的用户关注度行为变化往往难以预测和量化,这对产品数据的严谨性提出了极大挑战。因为A/B测试不受这些因素的影响,所以可以在行业中得到越来越多的应用。在两个或多个地方修改产品并对其进行A/B测试,只看整体指标我们已经在达尔文雀的案例中提到过,A/B测试的特点是只用一个变量进行测试。因为在这种特定的情况下,我们很容易推断出A/B测试引起的产品数据的变化,一定是这个单一模块的策略调整引起的。一旦一个产品页面/流程修改了两个以上的地方,如果只看整体数据,页面/流程数据变化的原因将无从查起,因为你不知道是哪个模块导致的数据完全改变,以及每个模块的播放方式。积极的影响,或消极的影响。但这并不是说我们不能同时修改业务流程中的多个地方。相反,在实际的产品和业务迭代中,因为业务本身的需要,不可避免地会出现这种情况,需要一个解决方案。由于一个A/B测试实验只能有一个变量,我们可以这样想:一个业务流程上调整了多少地方,那么在这个业务流程上同时进行相应数量的A/B测试实验时间。这些产品流程上的每一次策略调整,都被拆分成独立的A/B测试实验,可以分别观察同一个整体指标的变化,提取出每个实验的最优解。每个实验的最优解组合就是整个产品模块的最优解。A/B测试的真正价值首先最直观的一点是,A/B测试可以真正做到数据驱动,帮助企业科学决策。在传统的经验主义运作模式下,无论业务领导者多么有能力,也难免有失败的时候。但作为一种事前验证的手段,A/B测试的价值不仅可以帮助企业准确评估哪种解决方案更好,还可以评估好多少,为决策提供量化参考。第二点也是科学决策的另一面。A/B测试可以帮助企业规避风险。如果将一个有错误特性的新版本全面推送给用户,可能会影响数千万,甚至数亿用户的体验,后续挽回损失的成本也将是企业难以承受的。A/B测试可以通过分流一小部分流量来进行,将负面影响控制在实验范围内,防止错误的决策造成更大的损失。“A/B测试本质上是帮助我们提高选择和判断的准确性,提高决策效率,降低成本。”第三点,从企业发展的长远角度来看,A/B测试对企业来说是一种复利的方式。增长的新标准配置,使企业的每一个决策都尽可能带来正向收益,不断循环,最终实现指数级增长。一家公司,从初创公司到独角兽再到成为行业巨头,往往是整个过程中最惊艳的部分:这家公司需要在每一个重要节点做出正确的选择。一不小心,哪怕只是一个失误,也可能让原本飞速发展的公司走下坡路。道理不难理解,难的是没有人能预见未来,只能根据现有的信息尽可能做出判断。A/B测试是将消费者行为数字化,利用数据对行为进行量化反馈的过程,对企业预测趋势大有裨益。A/B测试的重要性日益凸显,价值也变得十分清晰。挑战当然有,但当企业真正掌握了这把成长之剑,企业的成长之路就会豁然开朗。参考内容达尔文雀相关介绍:https://zh.wikipedia.org/wiki...