APP推广合作
联系“鸟哥笔记小乔”
数据分析必须懂的假设检验
2017-05-09 13:17:00

假设检验,也就是大名鼎鼎的AB Testing。俗话说得好,再优秀的产品经理也跑不过一半AB测试。

抽样

数据分析中,虽然数据越多越齐越好,可是受限于各类因素的制约,我们并不能获取全部的数据。比如Excel的性能限制,比如数据库不支持大文件导出、或者是无法全量进行的用户调研等。

抽样是一种应对方法,通过样本来推断总体,抽样结果提供的仅仅是相应总体特征的估计,「估计」这一点很重要。

抽样有很多方式,样本首要满足随机性。比如进行社会访谈,你不能只选择商场人流区,因为采访到的人群明显是同一类人群,反而会遗漏郊区和乡镇的人群,遗漏宅男,遗漏老人。

互联网产品中,抽样也无处不在,大名鼎鼎的AB测试就是一种抽样,选取一部分人群验证运营策略或者产品改进。通常筛选用户ID末尾的数字,比如末尾选择0~4,于是抽样出了50%的用户,这既能保证随机性,也能保证控制性。

毕竟抽样的目的是验证和检验,需要始终保证用户群体的完全隔离,不能用户一会看到老界面,一会看到改进后的新界面。以上也适用于推荐算法的冠军挑战,用户分群等。

至于放回抽样,分层抽样,在互联网的数据分析中用不太到,这里就略过了。

点估计

既然我们已经知道如何选择一个样本,接下来需要从样本推断总体。

列举一个场景。产品和运营人员每周都会进行一次用户调研,调研随机抽取30位用户对产品进行打分,分数0~10。根据历史数据计算出平均7.5分,标准差为1分。

现在的问题是,用户调研能否反应一些产品的状况?比如发布新版本,或者做了营销活动后,怎么判断是正面影响还是负面?假设本月产品经理们发布了一次新版本,这次调研抽取30位用户平均评分是7.3,究竟是正常的波动还是做糟糕了?

在统计学中,把总体的平均值标准差等称为总体参数,把样本的种种指标称为点估计量。s是样本标准差,σ是总体标准差。n是样本,N是总体。

点估计在原有的符号上加横线表示,比如样本均值,念做x拔(打出这个字符麻烦,我简称为拔了)。

x拔是样本均值,现实中不可能保证每次调研的数据都是一致的,假设将抽样过程一而再,再而三的进行下去,那么调研获得的平均分也是波动的。此时,样本均值x拔是一个随机变量,称它的概率分布为x拔的抽样分布。

每次抽样得出的不同均值,必然会有一个期望值,E(x拔) = u,E(x拔)就是所有大量抽样的可能值的均值。对简单随机抽样,我们可以认为其数学期望等于u总体均值。当点估计量的期望值等于总体参数时,称为无偏估计。

当样本量占总体5%以上时,有求样本标准差公式如下:


当样本量占总体5%以下时,公式可以简化成:


利用上述的两个公式,可以计算出样本的标准差。回到用户调研的问题,它的总体均值为7.5,因为调研的用户量肯定小于总体5%,于是能求出样本的标准差为0.18。

上述数学期望和标准差的计算适用于所有总体,可如果想要知道具体的概率呢?比如分数小于等于7.3的可能性?如果是10%,那么说明这是稀少的情况,产品的改版未必尽如人意。如果是90%,说明这是数据的正常波动。

x拔作为概率分布,也非为正态分布和非正态分布。根据统计学中的中心极限定理,当样本数足够时(n>30),x拔的抽样分布可近似于正态分布。

只要是正态分布就好办了,把问题转换成标准正态分布的概率求解。调研样本评分x=7.3分,标准差σ为0.18。总体均值u为7.5分。


z = (7.3-7.5)/0.18 = -1.11。于是P(x<=7.3)=P(z<=-1.1) = 13.3%。上述结果说明,本次抽样得到7.3分(或者更低)的概率为13.3%,产品人员或许可以相信,这次改版并不好。

通过抽样估算总体,它的概率计算是以样本标准差作为依据的,换言之,如果样本标准差变化,则概率一定变化。而样本标准差和样本容量n息息相关。如果调研用户数是100位,那么哪怕其他数字没变化,最终概率也会变成2.2%。这是样本容量增加,均值的标准差减少了误差。

区间估计

点估计是用于估计总体参数的样本统计量,我们不可能通过点估计就给出总体参数的一个精确值,更稳妥的方法是加减一个边际误差,通过一个区间值来估计。

上文的用户调研案例,已经知道了总体均值和标准差。可是它的总体均值也只是通过历次调研作出的假设,并不能反应产品所有用户的评价。一个更实际的应用是,如何通过一次调研来计算用户的总体评价。这是反其道而行之。

通过调研的历史数据,已经知道了用户打分的标准差是1。最近产品人员进行了一次大规模的调研,访问了200位用户,得到样本均值7.5分。现在需要计算总体均值的区间。

通过点估计公式,可以得出样本标准差为0.07。在正态分布的经验公式中,已知任何正态分布的随机变量都有95%的值落在均值附近1.96个标准差以内。因此x拔的值一定有95%落在均值u的1.96个标准差以内。

此时,1.96个标准差等于1.96*0.07 = 0.13。利用总体均值的区间估计公式:


将数据代入:


这里多出了一个新的符号Zσ/2,称之为置信水平,之所以除2是因为正态分布左右对称。它代表的是「随机变量都有95%的值落在均值附近1.96个标准差以内」,即均值有95%的概率落在这个区间内,也叫做95%置信水平。推广开来,也有90%置信水平,99%置信水平等。

1.96是95%置信水平的Zσ/2值,我在上文已经求出边际误差为0.13,最后加入平均值得到答案7.36~7.64,于是可以说,通过调研样本均值估计,总体用户的打分有95%的概率在7.36~7.64之间。我们把[7.36,7.64]叫做置信区间。

大家可能也已经猜出来了,为了获得更高的置信水平,必然会得到更宽的置信区间。比如我假设一个置信区间是[7,8],那么它的置信度肯定无限接近100,因为它几乎囊括了所有的可能。如何选择置信水平和区间,是数据分析中的要点之一。

区间估计中还有一种常见情况,即σ未知,上文的案例我们知道了总体的标准差,如果标准差也不知道呢?毕竟案例也只是以历史调研数据假设了标准差,未必反应了用户真实的情况。于是再给出一个新的问题,访问了200位用户,得到样本均值7.5分,标准差为2,那么总体均值是多少?

通过样本标准差估计总体标准差,总体均值是以t分布(上文对应的叫做z分布)的概率分布为依据。t分布假设抽样总体满足正态分布,但是非正态分布中,也是能用t的,效果不错。

t分布依赖一种叫自由度df的的参数。与标准正态分布曲线相比,df越小,t分布曲线愈平坦;df愈大,t分布曲线愈接近正态分布曲线,当df=∞时,t分布曲线为标准正态分布曲线。区间估计公式如下:


公式没有大的变化,总体标准差σ变化为样本标准差s,置信水平由t概率表计算。t概率的区间分布,需要自由度和置信水平两个参数。自由度=样本量-1,案例中的自由度为199。然后使用Excel的TINV( )函数计算,当置信水平为95%时,TINV(0.05,199)=1.97。代入公式:


得到区间[7.22,7.77],在总体标准差未知的情况下,可以通过样本均值7.5和标准差2计算总体均值有95%的概率落在7.22~7.77之间。

假设检验

在熟悉掌握点估计和区间估计之后,深入学习假设检验。

何为假设检验?假设检验是对总体参数做一个尝试性的假设,该尝试性的假设称为原假设,然后定义一个和原假设完全对立的假设叫做备选假设。假设检验就是通过样本数据对两个对立假设进行检验。

假设检验有一套成熟的方法论。从参数看,即可以计算平均数,也可以计算比率。从样本看,可以划分为单样本和双样本。单样本是从总体中抽取一部分进行样本均数和总体均数的比较。用户调研就是一个典型的单样本。从假设的条件看,有单侧检验(仅大于或小于的可能性)和双侧(仅不可能,包含大于和小于两种情况)检验。

数据分析中更多的情况是两组样本的比较,譬如男女用户的差异、用户群体的差异、以及产品AB测试的好与坏。因为篇幅原因,案例将重点放在双样本检验中,单样本检验熟悉点估计和区间估计后不难。

回到最开始的案例,当通过调研发现用户对产品评分下降了,接下来得讨论怎么做。产品经理们说:用户都傻兮兮的,它们对产品改版无法作出有效的判断,所以打分不算数,应该用一套更好的判断方法。

这时以产品改版后的活跃相关指标作为标准,其中一半用户不做改变,还是原始功能,成为对照组。另外一半用户体验新功能,为改进组,然后根据一段时间后的表现来判断改版好与不好。

活跃指标怎么设立很大程度影响如何用假设检验。既可以用均值法,即用户平均使用时长,或一段时间窗口内的平均活跃用户数来衡量,也可以用比例法,即某一时间内的活跃率。两者对应不同的公式,这里以平均活跃用户数举例。

假设检验首先需要设立原假设和备选假设,这里很容易犯错。在许多假设检验中,都以备选假设为出现点,它是希望得到支持的结论。因为之前用户调研的评分是下降的,于是检验更希望「拒绝」活跃上升或不变,从而得出下降的结论。

原假设H0:活跃提升或不变;备选假设Ha:活跃下降。如果样本结果得出拒绝H0的结论,那么可以做出Ha为真的推断。

不同的样本量和总体方差使用的检验方法不同,下图是不同情况下使用的检验方法。样本是否大于小于30是因为中心极限定理,在大样本量,且总体方差未知时,使用t检验还是z检验均可,因为t分布近似于z分布。我们使用z检验做双样本均值。


将用户分割出两个群体体验产品功能,原始对照组和改进组都有50000用户。对照组的七日平均活跃数u1=8500,标准差为s1=1250,改进组的七日平均活跃数为u2=8300,标准差s2=1240。当总体标准差未知时,有公式:


计算出z=25.399,远大于1.96,p值无限接近0,几乎不可能发生,也就说明改进组的活跃上升或者等于是个极小概率事件,我们拒绝了原假设,接受了备选假设。若还想深入的查看活跃究竟下降了多少,使用双样本均值计算置信区间:


两个样本均值之差的95%置信区间为[183.566,215.433]。也就是说七日平均活跃数有95%的可能性下降了183~215之间。

假设检验的难点在于诸多知识点和业务的结合使用,限于文章的篇幅,我省略了不少概念点,这块需要大家多练习,比如用曾经文章的练习数据,计算上海和杭州的数据分析师工资均值是否相等,金融的工资是不是比电商的高。实际分析中不会有那么复杂的计算,我知道大家公式看晕了,不论Excel、R或者Python都有简便的函数使用,只要知道结果的符号意义就行了。

作者:秦路
来源:秦路(ID:tracykanc)
运营那些事儿
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
运营那些事儿
运营那些事儿
发表文章43456
确认要消耗 羽毛购买
数据分析必须懂的假设检验吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接