APP推广合作
联系“鸟哥笔记小乔”
BAT都在用的方法,详解A/B测试的那些坑!
2018-05-30 15:10:38


If you are not running experiments,you are probably not growing!

——by Sean Ellis


Sean Ellis 是增长黑客模型(AARRR)之父,增长黑客模型中提到的一个重要思想就是“AB实验”。


从某种意义上讲,自然界早就给了我们足够多的启示。为了适应多变的环境,生物群体每天都在发生基因的变异,最终物竞天择,适者生存,留下了最好的基因。这个精巧绝伦的生物算法恐怕是造物者布置的最成功的AB实验吧。


 

将目光转到互联网世界,AB实验的受重视程度正在空前提高。



01我们来看两个著名案例


案例1 :奥巴马宣传团队用AB实验帮其获得更高的支持率


2008年,奥巴马在竞选中胜出,出任美国第44任总统,这离不开其个人人格魅力,但他的竞选宣传团队的作用也是不可忽略的,在总统竞选页面上,他的团队就用AB实验在16种方案中找到了最佳方案,将竞选页面"change"的转化率提升40.6%。


(图1)


 

(图2)


实验这样设计的:图一中的图片或视频与图二中的不同文案按钮任意组合,形成4*4共16种不同方案组合,每个方案都获得一定比例的流量,观察一段时间后,从中选择转化率最高的方案,推广到全部用户。


最终如下方案胜出:



其团队事后给出的解释是:视频播放给用户很大压力,且当时的网络环境不能保证播放效果,故视频不如图片,且美国人崇尚家庭文化,一副温馨的全家福图片能拉近与选民的距离。至于按钮文案,则是因为美国选民的独立思考意识高,“join us”、“sign up”等文案让人感觉非常简单粗暴,有煽动的嫌疑,所以大家更接受平和一点的“learn more”。


案例2 :Facebook用AB实验挽救了20%的亏损


2012年,Facebook的产品vp Sam Lessin在扎克伯克的大力支持下,亲率30人团队花费大半年时间开发了一款新的版本。在上线前邀请的一些外部用户与内部员工的评价中,新版本酷炫时尚,比老版本好看的多。如图:


(上图为老版)


(上图为新版)


Facebook不愧是一家世界一流的互联网公司,重大的迭代一定会进行AB实验。他们先分配1%的流量给新版本,然后逐渐增多到2%,5%......实验的结果出乎大家意料,新版本在用户参与度、在线时长、广告展示数、营收等四个核心指标的表现上严重落后老版本,刚开始大家觉得可能是用户不习惯,但随着新版本流量放大到12%,观察的时间也拉长到3个月,但情况同样很糟,新版本直接导致了20%的营收下降。最终Facebook壮士断腕,让所有用户回滚到老版本,这才恢复了之前的数据。


而在国内,一家知名的大学生社交网站因为看到了正在进行小流量实验的B方案,就直接copy并快速全流量上线,结果你们都知道的。到现在,这家网站已经彻底沦为了三流互联网产品。



由此可见失败的产品方案不可怕,可怕的是没有经过AB实验就直接上线的公司制度和文化。


我们再来看国内一线公司内的一个AB实验case吧!



如上是不同的引导卡片样式的AB实验,最终结果样式2比样式1的CTR提升24.8%。



02 你的团队是否有这样的问题?


1、不经过AB实验就直接全流量上线,成员在上线后拼命找数据证明自己正确,即便证据牵强,只要向外发布声明都千篇一律##指标又提升了##,众人纷纷点赞。要知道Google、Facebook、Microsoft做AB实验的经验是——90%的新设计都不如线上版本。及时你的团队也很牛,但也不至于把谷哥、face哥、微软哥吊打吧?

2、你的团队非常有想法,但大家各执己见,谁也不能说服谁,导致团队决策变得很困难。




团队的改变从第一个AB实验开始——谁的方案好,谁的方案能推全,与其吵吵吵,不如布置个AB实验,用数据来PK。

下文为你详细解释下AB实验的基本概念和常踩之坑。



03 什么是AB实验?


举个例子,你提出了一个产品改进方案(假设叫B),但不确定是否效果比线上版本(假设叫A)好,于是就将线上用户1%的流量分到B,99%的流量分到A,持续观察一段时间,如果B比A好,就将B推到100%的流量,如果A比B好,那就重新修改你的设计方案,重新再做实验。而如果不做AB实验直接上线新方案,如Facebook的例子,新方案甚至可能会毁掉你的产品。这里的方案可能是一组算法、一组文案、一组运营活动、一组UI样式,同时实验的并不一定是AB两种方案,很可能是ABCDE...实验。



04 AB实验会遇到的问题


AB实验的实现当然不会像上面的例子一样简单,比如你会遇到下面的问题:


1、如何确保1%的流量与99%的流量用户群特征分布是一致的?

2、如果在实验的过程中有新的方案想法C,能否直接发布到线上同时实验?

3、如何同时并行所需总流量超过100%的多组实验?

4、如何选取指标衡量AB方案,如果多个指标数据表现不一,怎么决策?

5、如何确定方案B与A的指标数值不同是随机误差造成还是统计可信的?

......


AB实验的基本原理是“控制变量法”。


设指标数值=F({隐变量列}、{显变量列(含方案变量)})。一个指标的数据表现是由函数F和多个变量取值共同决定,所以指标衡量结果不能简单归因于方案的差异,特别是其中还有很多我们永远无法知道的隐变量在施加影响。


那么我们是否要知道F和所有的变量才能下结论么?还有更加简便的方法。我们可以确保两个方案中其他的变量保持一致,那么A、B方案的指标结果差异就只能归结为版本的差异。AB实验就是利用控制变量法的思想,保证各个产品方案针对同质人群(特征分布相同)、同一时间进行实验,确保了除方案变量外其他变量一致,故能判定指标差异是方案不同造成的,从而选择出优胜版本全流量上线,实现数据增长。


AB实验的作用很大,但是AB实验的实现并不简单,往往会踩坑无数。



05 AB实验的坑有哪些?


1、人群不同质


AB实验需要切分流量到不同方案,如果不能正确切分,使得分到不同方案的用户群体特征分布一致,那么实验将没有任何意义。为了便于理解,我们来看一个例子:


如果我们要对人群G做一个AB实验来找到发放什么礼品才能使用户的注册转化率更高?A、B分别代表发放不同的奖品BB霜与剃须刀,G由子群G1与G2构成(G1、G2分别代表女生、男生,且各占50%)。按照同质用户的要求,分给这两方案的用户流量中男女比例必须与总体一致,也即女:男=1:1。

这时,发生了一些意外......


实验中分给方案A的群体不幸都是G1(女生),分给方案B的群体是G2(男生),最终一种奖品比另外一种奖品有更高的注册转化率,比如A高于B,那么这时能下结论“奖品A比奖品B更受用户喜欢,应该给所有用户发放奖品A”么?


肯定是不能的。这个决策相当于认为女生喜欢的就是男生喜欢的,根据实验结论,你应该对所有的用户G都发放注册转化率更高的礼品A。试想下男生领到BB霜时他们内心是何种感受?



这里的问题就是不同方案分得的人群是不同质带来的。上述举的例子为了便于理解,故比较绝对,实际过程中遇到更多的是A方案、B方案都是男女混合的群体,但是比例却与总体1:1的分布不同,这样同样带来错误的实验结论。


所以设计合理的分流算法,确保分流到每个方案的都是同一特征分布的人群是AB实验结论可信的前提。达尔文AB实验系统经过一年多的探索,已形成一套相对可靠的分流算法。



2、实验不同时


在上面的例子中,如果方案A与方案B都是分到同一特征分布的群体G,那么数据一定具有可比性么?不一定。还是用极端的例子帮助理解。假设第一天,A方案分到100万个用户流量,B方案分到0个用户流量,第二天A方案分到0个流量,B方案分到100万个用户流量,从整体看,这两天的A方案与B方案的累计实验流量都是100万,且人群是同质的,实验结果应该可信,但事与愿违,如果这是一个社交网站,实验是为了观察不同产品版本A和B下用户的主动加好友数量,则A方案明显优势大很多,毕竟用户多了一整天的时间去添加好友,这种情况下任何时间截面数据B都处于劣势,且这种劣势并不是方案不同造成的。同理,一个博客网站,如果对比不同方案下用户的博客开通率、撰写率,也可能犯同样的错误。

另外一种情况是,在一些特殊日子中,用户的活跃度会暂时性增高,如果A方案的作用时间刚好是节日,方案B的作用时间非节日,那么显然这种比较对于B方案是不公平的。


上文提到的公式:“指标结果=F({隐变量列}、{显变量列(含方案变量)})”,隐变量、显变量中很大一部分跟时间相关,时间不同,这些变量的取值也不同,从而就破坏了控制变量法的前提,得不出正确的实验结论。


最后列举一个我们参与的一个case让大家感受下:




样式1的文案:《葵花宝典》带你轻松使用XXX
样式2的文案:哪些功能最热门,我来告诉你

由于早期未规范实验管理规范,两个样式的实验并非同时开始:
1、样式1,在4月7日的10:00开始实验
2、样式2,在4月7日的0:00开始实验

最终统计的表现不一:
如果看4月7日10:00之后进入实验的用户数据,样式2比样式1的CTR只提升了大约0.3%,符合实验同时的前提条件,因此结论可信;
但如果看4月7日全天的数据,样式2比样式1的CTR提升了大约1%,这个不符合我们提到的实验同时做的条件,结论不可信;

此处也告诉我们:
1、进行对比的各个实验版本(上文的样式1与样式2)一定要同时开启实验
2、实验过程中不能随意修改每个版本的流量,这也会间接导致上述问题


3、没有AA实验的意识


AA实验是AB实验的孪生兄弟,有的互联网公司也叫空转实验。AA指的是实验中的各个方案都是一致的。这么做的目的是啥?这是为了测试埋点、分流、实验统计的正确性,增加AB实验的实验结论可信度。


设命题1为:“如果实验的埋点、分流和统计都没有问题,那么AA实验中各个方案的数据表现一定一致”,若命题1成立,则其逆否命题2:“如果AA实验中各个方案的数据表现存在显著差异,则实验的埋点、分流和统计肯定至少一项有问题。”也必定成立。


严格意义上讲AA实验的通过并不能证明上述三项(埋点、分流、统计)绝对没有问题,但是AA实验不通过一定能证明上述三项至少一项存在问题。


所以具备AB实验素养的团队,一定会在AB实验前布置AA实验。



4、实验反转


假如一个实验布置到线上第一天,方案A比方案B好,能否代表第二天,第三天的数据表现还是如此?


用户进入到新方案中,很可能因为好奇而表现的更加活跃,但随着时间推移,逐渐趋于冷静,数据表现回到本该有的水平,如果实验观察期设置的过早,则容易得出错误的结论。反过来也如此,有的改版用户很不习惯,但用了熟练之后发现比老版更便捷,数据会逐渐回暖。


另外一方面,做实验的样本量太少,也可能出现反转,抛100次硬币和抛100万次硬币正面的频次很可能不一样,根据大数定律,随着随机实验的次数增加,随机变量的频次分布趋向于其概率分布。在这里,假设实验的第一天只有100个用户进入,由于样本量太少,实验结果的随机性太强,随着天数增加,实验样本也增加,实验结果可能会反转。


一般情况下,我们不建议样本量小于1000用户的产品进行AB实验,因为实验结果很难得到保证。


5、延滞效应


记得我们在上化学实验课时,老师一定是先让你把试管洗干净吧?这么做可不只是为了卫生。待实验的化学药剂如果与试管中残留的药剂混合,则实际实验的则是这种“被混合的药剂”,实验结果当然不可信。上述说的问题就是carry over——延滞效应。



同样在互联网产品实验中,也存在这样的问题。举个例子,编号为00001-10000与编号10001-20000的用户之前被分到不同的实验方案(A和B)进行实验,这个实验结束后团队开始要进行一个新的实验,如果没有特殊处理,则可能00001-10000及10001-20000的用户也是被分到两个方案中(A1,B1),此时实验结果可信么?00001-10000的用户之前经历过方案A,现在全部落在了方案A1上,10001-20000的用户之前经历了方案B,现在全部落在了方案B1上,也许在做第一个实验前两个用户群是同质的,但做了第一个实验后,这两个群体已经不同质,要进行第二个实验则必须采用一定的算法将两个用户群重新打散,获得 一个新的编号排列,再切分出两个同质人群进行第二个实验,或者重新拿出新的号段出来实验,比方20001-30000,30001-40000。


以上列举的只是一些常识性的坑,实际过程中还会遇到更多.....


在国内的顶级互联网公司BAT中,AB实验已非常普遍,百度同时有上千个AB实验并行,阿里巴巴和腾讯也有自己的AB实验系统用以支持多业务大规模并行的AB实验。


“如何把AB实验文化根植到公司的基因中去?”,时代正在向所有的互联网公司发出提问。



作者:范磊

来源:友盟数据服务(ID:umengcom)

本文为作者授权鸟哥笔记发布,转载请联系作者并注明出处。


文章推荐:


给应用商店页面做A/B测试的七种方法

正确A/B测试的10大误区

A/B测试失败原因解秘:概念 ≠ 执行


运营那些事儿
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
运营那些事儿
运营那些事儿
发表文章43455
确认要消耗 羽毛购买
BAT都在用的方法,详解A/B测试的那些坑!吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接