|
A/B测试:创新始于试验
![]() |
A/B测试:创新始于试验作者:王晔 开 本:32开 书号ISBN:9787111617761 定价: 出版时间:2019-02-01 出版社:机械工业出版社 |
图2-6 按照预约步骤分别计算得到转化率结果
2. 对测试结果进行情景化的解释
A/B测试中需要避免的一个问题是习惯性地将测试结果当作一个整体来看待。一般而言,从某个固定的测量维度来评估测试的结果是没有错的,这样做通常可以避免在多个维度中挑选*符合“需要”的数据,而故意忽视不符合假设的结果。但同样,只单纯考虑一个维度也意味着脱离了情景来看试验数据,而有时候这些不同的情景可能会完全改变你对 A/B测试结果的解释。
举例来说, 2013年 Airbnb对搜索页进行了改版设计。对于 Airbnb而言,搜索页是业务流程中*基础和重要的页面。因此,能否准确地确定改版的效果是非常关键的。在图 2-7中可以看到搜索页改版前后的变化:新版更多强调了房源的图片( Airbnb为房主提供专业的摄影师以获得这些图片)及标记了房源所在位置的地图。
Airbnb为改版项目投入了许多资源,设计人员预测新版肯定会表现得更好,定性研究也表明确实如此。尽管不直接向全部用户发布新版可能意味着大量的利益损失,但 Airbnb还是延续其“试验文化”,推进了针对搜索页的 A/B测试以评估改版的真正效果。
旧版新版
图 2-7 新 /旧版本的 Airbnb搜索页
在等待了足够长的时间后,A/B测试的结果反馈出新版并没有带来更多的预约。这当然是令人难以接受的,所以 Airbnb的业务分析员决定从情景出发,将数据细分到不同的情景中来判断究竟为什么改版没有达到预期的效果。事实证明,问题出在 Internet Explorer(IE)上了:如图 2-8所示,除了来自 IE的访问以外,新版在其他主流浏览器上的表现都是优于旧版的。这个分析帮助 Airbnb发现了真正的问题:产品改进很有价值,但是代码实现存在 Bug。在修复相关的问题后,源自 IE的数据也有了超出 2%的增长。
这个案例除了告诉我们在做 QA的时候要尤其注意 IE以外,也强调了从多个维度对测试结果进行解释的价值。你可以根据浏览器、国家 /地区、用户类型等多个维度分解数据来源进行分析。但需要注意的是,不要为了找到“有利”的结果而刻意去分解数据。
图 2-8 新版设计的 A/B测试结果分析
A/B测试是产品研发过程中强有力的决策工具,能够帮助大家更有效地进行产品优化迭代。从不同的情景中去理解测试的结果是非常重要的。你应该尝试将数据分解到不同的维度,然后去理解不同维度下产品的效果。但是需要注意的是,A/B测试的目的在于优化产品决策,而不是为了单纯提高某个优化指标。优化单个指标通常会导致为了获得一定短期利益的机会主义决策(比如强行逼迫用户去点击他们不想点的东西)。
*后,验证你所使用的测试系统是否如你所期望的一样工作。如果 A/B测试反馈的结果有问题或者是过于理想,你都应该仔细核验它。
2.1.4 A/B测试是优秀企业的标配
从某种角度来说,企业实力和其实施 A/B测试的能力紧密相关。如图 2-9所示,行业龙头因为聚拢了大量创新人才,在 A/B测试方面走在前列。
图 2-9 公司实力与 A/B测试试验频率的关系
. Google每年运行超过 1万次的 A/B测试;
. 脸书的 CEO亲自参与众多 A/B测试的实施;
. 领英(Linkedin)将 A/B测试作为产品研发上线过程中的基本流程; . Booking.com通过大量试验实现超过同行业 2~3倍的转化率;
. 携程、今日头条将试验流程和 A/B测试作为企业的文化或制度;
. 摩拜单车、 WeWork、衣二三等明星共享经济平台,通过 A/B测试快速拉开了与竞争对手的距离。
不仅是互联网明星公司,A/B测试开始在各个行业快速普及,并逐渐成为标配,如图 2-10所示。
图 2-10 成功使用 A/B测试的明星企业代表
2.2 深入解析 A/B测试
2.2.1 A/B测试的定义
前面的章节中介绍的几种场景有助于帮助我们直观理解 A/B测试。在医学的临床试验中,为了验证新药的效果,把病人随机分成若干组,分别施予不同剂量的新药、已知有疗效的药物、安慰剂等不同的治疗措施,并通过数据分析判定不同组的治疗效果,从而确定新药是否有疗效以及和已知药物的疗效的对比情况。在达芙妮岛的雀鸟进化研究中,随着环境的变化,雀鸟们会发生随机的基因变异,进而导致它们的鸟喙发生大小和形状的变化,严酷的自然选择会把适应环境变化的基因保留下来。
下面我们来系统地定义 A/B测试。在互联网产品迭代实践中的 A/B测试是指:为了验证一个新的产品交互设计、产品功能或者策略、算法
的效果,在同一时间段,给多组用户(一般叫作对照组和试验组,用户分组方法统计上随机,使多组用户在统计角度无差别)分别展示优化前(对照组)和优化后(试验组,可以有多组)的产品交互设计、产品功能或者策略、算法,并通过数据分析,判断优化前后的产品交互设计、产品功能或者策略、算法在一个或者多个评估指标上是否符合预期的一种
试验方法。
2.2.2 A/B测试的特性
1.预测性
A/B测试是一种预测手段,而且是一种科学、精准、具有统计学意义的预测手段。
在产品、策略迭代过程中,我们往往无法预测产品、策略全量上线的效果如何,或是担心因此带来预料之外的损失。 A/B测试恰好提供了通过小流量试验预测全量上线效果的能力,这种预测并不是“裸奔”性质的臆测,而是有科学的统计数据作为支撑的科学预测,也只有这样的预测才能从真正意义上降低产品、策略迭代过程中的风险。同时, A/B测试的统计数据也为产品迭代过程提供了很好的量化指标,可以帮助决策者准确衡量产品技术团队的产出成绩,在团队、人员的激励上提供科学依据。
2.并行性
A/B测试的并行性是指两个或者多个版本同时在线,分别提供给多组用户群体使用。并行性是 A/B测试的本质特征之一,也是 A/B测试的基本条件之一。如何理解并行性的重要性呢?我们不妨假设,用没有并行性的试验方法去判断 2个版本的效果差异,会产生什么问题:
这种试验方法通常是让全量用户在不同时间段体验不同版本的产品或者策略。由于不同时间段的试验环境是不一样的(如外卖、打车订单量会受节假日、天气等因素的剧烈影响),无法把环境变化导致的指标变化和产品迭代导致的指标变化区分开。
因此,忽视并行性也就失去了 A/B 测试的根本意义,两组没有统一维度的试验数据也就失去了提供决策参考的基本价值。这点我们在后文中还会用一个例子进行说明。
教材 高职高专教材
在线阅读
- 最新内容
- 相关内容
- 网友推荐
- 图文推荐
上一篇:当代媒介素养十讲/高萍/21世纪通识教育系列教材
下一篇:高等土力学第二版
零零教育社区:论坛热帖子
[家长教育] 孩子为什么会和父母感情疏离? (2019-07-14) |
[教师分享] 给远方姐姐的一封信 (2018-11-07) |
[教师分享] 伸缩门 (2018-11-07) |
[教师分享] 回家乡 (2018-11-07) |
[教师分享] 是风味也是人间 (2018-11-07) |
[教师分享] 一句格言的启示 (2018-11-07) |
[教师分享] 无规矩不成方圆 (2018-11-07) |
[教师分享] 第十届全国教育名家论坛有感(二) (2018-11-07) |
[教师分享] 贪玩的小狗 (2018-11-07) |
[教师分享] 未命名文章 (2018-11-07) |