很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
大家在日常工作中是否会遇到以下问题:
1)产品经理提出一个竞品没有的功能,即便感觉自己引领了行业,但老版:“这个功能竞品都没有为啥要做?”好不容易说通了老板,到了开发大佬评审时:“这功能对用户好像没用啊,要想说服开发,又要经历一轮苦口婆心,心累!
2)新功能经历灰度发版后,上线之后数据增长下跌是否是因为这次功能或策略导致,要想拆分清楚,分析师小伙伴又要经历一次抽丝剥茧。
3)我有两个想法,但不确定哪个对用户更有效,如何能进行验证……
我们每天的工作都要处理各种各样的决策,而人们决策的方式会偏好自己习惯或者熟悉的方式,但往往结论与其相悖,要想以实际效果来驱动业务。
这就需要一个科学、并行、可操作的方法来验证每一种策略的可能性,这种方法就是我们今天要讲的A/B测试。近几年来随着用户增长,精细化分析概念的普及,作为核心方法的ab测试也仿佛成为了互联网圈小伙伴们必须掌握的基础技能之一。
Google、facebook、linkin、快手、字节等国内外大厂都把ab测试结果作为推动业务发展的基础。但ab测试方法具有一定的使用门槛,对于业务人员需要具备统计学、平台操作等相关知识;对于平台人员需要具备统计学、平台设计、数据采集、系统搭建以及异常问题处理等相关知识,乍一听起来,好像有点难度。别慌,听我慢慢给大家逐一阐述。
AB测试的定义是指为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。
这条定义有几个关键词,同一时间、组成成分相同,随机访问,目的是尽可能的避免其他变量对实验产生的影响。看完这条定义,不知大家是否有些似曾相识。
我们初中上物理或生物课的时候,老师介绍过一种方法——控制变量法。控制变量法是指把多因素的问题变成多个单因素的问题,只改变其中的某一个因素,从而研究这个因素对事物影响,分别加以研究,最后再综合解决的方法。
该方法最早被设计出来是在进行科学实验时把多因素问题变成单因素问题来研究对事物的影响,目的是为了减少方差。
下面我们来举个例子说明一下控制变量法和ab测试有多么的相似:
例1:某兴趣小组做了个实验,研究问题是种子生长情况收到什么因素影响,提出研究假设:种子生长情况是否收到洗涤剂影响,实验设计如下图:
例2:例如某app打算优化一下签到功能,研究签到功能的点击率受什么因素影响,假设:签到点击率是否受到文案的影响,实验设计如下图:
我们从实验流程角度来看两组实验:
是不是操作流程、设计理念有异曲同工之妙。虽然控制变量法已经被创造了百十年,但这个“古老”的方法也是后期设计实验、设计平台以及数据分析上的一个基本依据。
那么ab测试在实际运用的过程中有哪些优点呢?
1.说服力:
我觉得这个优点是首当其冲的,有些时候无论是产品、运营提的想法总会被开发diss,这需求有用么?嗨!有没有用上实验,用数据说话。这套操作下来简直是无形中给我们负责提需求的小伙伴们强有力的支持,长此以往,我相信开发大佬们也会对我们“言听计从”的。
2.降低风险:
ab测试强调先验性,实验确定对用户有效果才会上线,避免了传统操作需上线以后观测数据的方式,对用户影响小的多,降低了“伤害”用户的风险
3.符合科学原理:
ab实验经过了科学的实验设计、科学的用户抽样、运用科学的统计方法及数据分析得出的结论并采用逐步全量进行上线的方式
4.口径统一:
实验组和对照组同时生效、同时展示、采用同样的指标口径进行计算,避免了后期实验结果上因口径不同导致的分歧
ab测试是一种对比分析方法,通过样本对总体的估计,来识别出哪个版本对整体效果最好。下面我们一起看一下要学会ab测试方法需要哪些基础知识。
流量层
可以理解为平行时空,每层人总数是一样的,通过算法进行随机打散,让同一个人在不同层有不同的顺序和标号以便进入到不同实验,规避掉实验上多因素造成的数据偏差,之所以引入流量层的作用是为了解决实验多而流量不够的问题,每层都可以运转实验,结束后流量释放。
正交&互斥
正交&互斥是存在于流量层上,即实验用户同层互斥、不同层正交,通俗来讲就是实验已经占用的用户在同层不会被其他实验占用,但该实验中的用户在其他流量层会被占用,正交&互斥原则是实验设计时基本原则,为了避免实验与实验间互相影响。
均值:表示一组数据集中趋势的量数,在一组数据中所有数据之和再除以这组数据的个数,ab实验中涉及的均值为人均值和转化率,例如人均点击次数、ctr等,在ab测试里作为一个观测指标展示
方差:是指各数据与其均值的离差平方和的平均数,反应每个数据与均值的离散型或者波动性,在ab测试中是计算临界值的一个基本数据。
假设检验:又称统计假设检验,其作用是用来判断样本与样本,样本与总体差异是由抽样误差引起的还是本质差别引起的一种方法。
例如:汽车引擎新排放标准是平均值<20ppm,现某公司抽取10台汽车样本,其引擎排放水平为 15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9,判断该公司汽车是否符合新排放标准?
若要看排放是否符合标准,首先要建立原假设:排放不符合标准;其次要构造统计量进行相关数据的对比;再次要确定这10台汽车与标准是否具有显著差异,若无差异,最后得出结论。
所以综上假设检验通常需要以下步骤:
1.提出猜想,设定原假设和备择假设
2.构造统计量,根据样本计算相关数值
3.确定显著性水平,进行数据检验
4.得出结论
常用的假设检验的方法有:z检验、t检验、f检验、卡方检验,我们可以根据下图来确定什么检验方式适合自己:
其中t检验和z检验为ab测试所使用的检验方式。
正态分布:正态分布是描述连续型变量值分布的曲线,表现形式为中间高两边低,可根据一组数据的均值和方差求得,根据其均值、中位数和众数的大小关系有以下几种表现形式:
若均值(μ)为0(y轴),标准差(σ)为1,则该分布又称标准的正态分布,其在横轴区间(μ-σ,μ+σ)内的面积为68.268949%,横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%,横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。也就是说在这三个置信区间内的概率分别是68.27%、95.45%、99.74%,该概率又成为置信水平。
置信区间:是指用样本均值估计总体均值时允许的误差范围。例如我们要统计全人类的体重,因为无法统计每一个人,但是我们根据规则随机取各个国家1万人的体重求其均值μ,假定做了100组实验,就会有95组实验包含μ,5组不包含。用数学公式标识则为P(μ−1.96nσ<< span="">M<< span="">μ+1.96nσ)=0.95
p值:即发生某件事情的概率,是用来判断假设检验结果的一个参数,若p值很小则证明原假设发生的概率很小。因样本是从总体中随机抽取,所以不能确定样本的表象差别是否通过抽样误差引起,故需要从统计学角度来判断此次抽样是否有统计学意义,其数据解释如下:
显著性差异是说明对比的数据不是来自于同一总体,而是来自于具有差异的两个不同总体,例如大学生和小学生的在学习能力上的对比,就是有极显著差异。
显著性水平α:是在原假设为真时拒绝原假设的概率,根据具体需求选择双侧检验还是单侧检验,详见下图:
p值和显著性水平α的关系如下:
1)若P<< span="">=α,那么拒绝原假设
2)若p>α,那么不能拒绝原假设
通常情况下单侧检验取0.05或0.01为拒绝域的临界值,这表明作出接受原假设的决定时,其正确的可能性是95%或99%
统计功效:备择假设成立时,正确的拒绝原假设的概率,我们用下图来说明下什么是统计功效。
红色线是原假设下分布情况,红色区域在原假设分布下为拒绝原假设的概率,其中z值为临界值,统计功效就是该临界值在备择假设的分布下,统计量大于z的概率,即上图绿色区域,公式为1-β。
上面我们知道了以上ab测试所需要的基本概念,那如何运用到实际ab测试中呢。
我们举个例子来看下:
背景:某天a公司产品部门要优化push文案策略对用户点击率的影响
产品经理小a在其公司下的ab平台创建了一个实验,分2个实验组开启实验,
假设:实验版本比对照版本好
实验时间:周期21天,21天后观测效果如下:
根据上表数据,具体推演流程小伙伴们可以根据前面的知识点自己思考一下~
上面梳理了ab测试的原理、优点以及一些相关的基础概念,如果要实际操作还是需要一个平台来承接,那么一个ab平台都需要具有哪些功能呢?我对比了一下市场上的产品给大家剖析一下。
市场上提供ab测试相关功能的公司主要有:
国内:
1.云眼https://www.eyeofcloud.com/)abtester(http://www.abtester.cn/)
2.吆喝科技(http://www.appadhoc.com/)
3.智道助手
http://sjmyz.zhidzhushou.com/lp2.html?utm_source=5&utm_medium=sembaidu&utm_term=sem_baidu_data_lz&utm_campaign=bdpcdata9044
4.数极客
https://www.shujike.com/product/abtest.html
5.云测(https://www.testin.cn/)等
国外:
1.Vwo(https://vwo.com/)、
2.Optimizely(https://www.optimizely.com/)
3.Omniture
https://www.adobe.com/marketing-cloud.html
我分别用吆喝科技、Optimizely 进行一个简单的“竞品分析”,分别从功能框架、使用流程上来对比一下国内外ab测试产品设计上的差异情况
1)功能框架:
吆喝科技应该是国内提供ab测试首屈一指的大厂,其具体功能如下:
optimizely公司是2010年创立,美国的一家资深提供ab测试服务的公司,功能丰富,自主化操作很强,对于不同场景的兼容也是别具一格,是非常值得大家学习和参考的一个产品,具体功能框架如下:
2)使用流程:
页面展示:
使用流程:
吆喝科技实验流程以引导式的交互方式进行,整个流程相对较“顺”,单从操作角度上而言门槛不是很高。
而Optimizely相对来说比较自由,但每一个操作配置都需要进行代码集成,操作流程较国内而言相对较多,具体如下:
页面展示:
上图为截取的部分配置页面
操作流程:
如果是一次新的操作,Optimizely需要提前配置好指标、受众人群、属性、功能等,每个操作流程都会展示很多配置需要集成在sdk里,对于使用者来说初始化过程有一定成本,不过对于开发者确实比较友好,只需要复制粘贴一段段代码即可,如果有人能提前把相关信息配置好,那用Optimizely进行ab测试还是比较香的。
经过对两个产品的对比,ab测试的功能也就一目了然:
AB测试是数据驱动增长的核心方法,本文的目的在于能以“通俗易懂”的方式给大家普及一些基本概念,让ab测试的使用和理解不在有“门槛“,全文分别从原理、基本概念以及相关平台建设的角度进行叙述。
但因篇幅有限,相关知识点无法更全面的为大家展开,感兴趣的童鞋可以进行留言,后续相关的文章我也会逐一为大家解答,若文章内描述有错误的也欢迎大家指正。希望大家读完后可以多多思考多多探讨,让ab测试真正能为企业增长作出贡献。
备注:
1.以上功能框架是根据各产品的功能说明文档进行整理,仅供参考,若与实际有差异请于笔者联系,及时修正
2.流程图并非标准流程图,只对比了主要流程进行的流程示意图
-END-
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)