APP推广合作
联系“鸟哥笔记小乔”
警惕!数据分析的陷阱?
2021-08-09 10:27:01

我们上篇内容,给大家梳理了数据分析的一些荣耀和骄傲时刻,包括数据分析的重要性、数据分析产出价值、数据分析经典案例汇总。相信大家对“数据分析”的价值以及重要性有了相应的、立体的、全面的认知和自己的感悟思考。(详情请看:数据分析的荣耀与骄傲)然而,我们在日常工作中,你一定听过运营或者产品等人员会说“要拿数据说话”“用要数据来讲故事”等等的话语。可见数据越来越受我们每个企业或者业务线人员的重视,也成为我们在实际工作的最为重要的参考以及决策支持。


但此时,很多的数据分析人员往往太过于去关注数据或者分析方法论等,尤其是对于刚入门的,在解读数据过程中,受到数据来源、采集方法、统计口径、分析方法、业务经验、思考方式等因素影响,就会出现一些容易忽视的“陷阱”,以致于得出的结果很可能出现偏差。所以,重视数据分析是好的,但也千万不能掉进数据分析的“陷阱”里。


那么,本文我们将从业务层面的视角,来探讨和梳理在数据分析过程中几个可能常见“陷阱”,目的是主要给刚入门的、产品、运营等提供一些有益经验分享,帮助大家在实际工作场景中遇到这些情况的时候,可以尽量规避一些不太注意的“陷阱”。

一、不了解数据来源,不确保数据的正确性

在数据分析中更注重的是分析,而并不是数据本身,这就造成了数据分析最大的陷阱:不了解数据来源,不确保数据的正确性,就开始分析了。因此,数据分析的第一步就是了解数据来源,确保数据准确性。


比如,一个考勤软件的App在做渠道投放,上线了新版的落地页。上线了一段时间数据稳定后,业务人员从数据发现,此某个渠道的落地页点击率、转化率等数据相比其他渠道的投放的效果高出很多,从数据中,可以看到说明这个渠道来的用户效果很好,以后就要加大这个渠道的投放。然而,突然接到技术人员的反馈,在数据埋点的时候不小心埋错了,导致统计数据出现问题,这个渠道的数据是其他两个渠道总和!


因为错误的数据,得出了错误的分析结果,并且还做了后续错误决策。由此可见,有效数据分析的前提,是对正确的数据做分析。尤其是在小公司的人员,没有强大的数据团队,可能就会借用各种各种第三方的统计软件来做数据埋点,此时首要确认数据的正确性,去梳理数据来源。

二、需求不匹配,分析目的不明确

梳理了数据来源,确保数据的准确性,是前提。那么接下来就是需要明确分析目的,分析目的明确了,后面的各种统计数据和分析方法以及分析结果才有意义。当明确目的后,才有后续的分析思路。


比如,一个考勤软件的App的业务人员提出转化率较低,是否有优化的空间的需求。然而我们并没有进一步的确认是哪个环节转化率低,就开始直接拉取数据进行分析,其实业务人员说的是新用户会员成单的转化率,是不是来源不精准,能否优化渠道或者停止投放,而我们得到的需求不明确,沟通的时候也未能进一步的明确分析目的,就是直接拉取各个环节的转化率,导致拉取的数据与原始问题不匹配。


因此,根据业务方的需求,首先要明确为什么要做数据分析,要解决什么问题,也就是分析的目的。然后针对分析目的,搭建分析框架,选择分析方法和具体分析指标,以及明确抽取哪些数据,用到哪些图表等分析思路,只有对分析目的有清晰的认识,才会避开为分析而分析的误区,分析的结果和过程就越有价值。

三、未清理数据,数据采集出现偏差

在了解数据来源、确保了准确性、明确分析需求后,下一步就是数据采集和数据清洗了,这也是最容易出问题的环节,有些问题甚至非常隐蔽难以发现。因此,数据本身没有观点,分析时不能预设观点,只倾向于那些能够支持自己的观点的数据,并在数据清洗中,合理的识别数据容量大小、剔除脏数据。


注意选择性偏见或者幸存者偏见。总体样本中,任意一个群体样本的平均值,都会围绕在这个群体的整体平均值周围。基于这个原理,我们便可以采用随机抽样的方式来对整体样本中的一个小群体进行分析,得出的结论是会比较接近真实情况的。但是你采集数据的过程是否是真的随机。


比如,在一个考勤软件APP应用升级期间,通过衡量用户的日活、留存率、活跃企业数等指标,来判断用户对新版本的喜欢是否优于老版本。但这里实际就隐藏了选择性偏见,因为新版本发布时,第一批升级上来的用户往往就是最活跃的用户。这批用户在这些指标上,本来表现就是优于一般用户的,因此指标数据更高并不能说明更好。


注意数据样本容量不够。我们在分析某特定的用户行为数据时,可能用户使用很少的情况。或者是在提取数据的过程中,增加了很多的限制条件或者多种用户行为或属性进行交叉后,得到很少的用户样本。此时,得出的分析结果未必可信。因为大数定律,只有当数据量达到一定程度后,才能反映出特定的规律。但是样本容量多少才算合理,通常只能是具体问题具体分析。


比如,在一个考勤软件APP应用新上了学习打卡的新功能,但由于前期无预算做推广,导致新功能只有在小部分老用户群体中曝光,因此,从数据中来判断此功能并不受欢迎。但这里实际就存在数据样本容量不够,并不能说明问题。因此,遇到这种情况,建议可以把时间线拉长,这样可能会获得足量的样本。还有一种做法是,将不重要的限定条件去掉,也可以增大样本数。


注意存在脏数据。脏数据是指严重不合理或对于实际业务毫无意义的数据,通常是由程序bug、第三方攻击、人为等原因造成的。这种数据对指标的准确度影响较大。


比如,我们要分析在一个考勤软件APP中各个企业类型打卡规则的分布情况,而用于分析用户打卡视角中,有较多是个人打卡并不是我们要分析的目标群体或者有人的工种的特殊性,就会造成打卡规则的分布不规则的情况,容易造成对用户喜好的误判。因此,对脏数据的清洗和处理,也是数据分析人员日常工作中非常重要的一部分。在分析具体业务时,也要针对特定业务,过滤掉异常数据,来确保拥有比较好的数据质量。


四、指标不合理,数据具备时效性

清洗完数据后,下一步就需要明确分析的数据指标,进行数据分析,其数据分析的结果通常是各种各样的指标,每个指标都有自己的统计逻辑,反映的事物的某些方面的本质。


比如,很多时候我们会使用平均值来描述一组数据的集中趋势。我们在制定业务阈值时,也经常会参考平均值。但是,有些业务场景不适合使用平均值。就像变化比较大,存在极端值的数据,或者是对最终结果影响不一致的数据。这种时候,你就要考虑其他指标,如加权平均值、百分位数、小数值合并后再求平均值。


因此,在进行数据分析时,如果不能选择正确的指标,也可能会走入误区,从而得出错误的结论。数据是具备一定的时效性,不同情况下的数据,一些曾经的数据可能不再适用,需要找到新的数据指标。

五、套用方法论,分析结论不严谨

明确好数据分析指标,接下来就是通过各种数据分析方法来分析数据,得出结论,支持业务决策。数据分析方法论是对一个数据分析项目的整体工作起到指导作用的思路模型。然而,在数据分析学习时或许习惯了各种解题套路,但实操时其实并不存在通用的分析套路。不同的行业、不同的业务,不同的阶段,哪怕用的是同一种分析方法结论都应有所区别。


比如,在实际工作场景中,数据分析需要对数据表现作出快速判断,进而指导运营决策,并不像学术研究那样严谨,不需要在每次分析前都去验证样本群体是否符合某种统计分布等,实际工作中,考验得更多的是对业务的理解的把握能力。所以,在开展数据分析工作过程中,不能完全依赖过往的类似案例以及分析方法,而应重视业务的理解。


因此,每一次分析,应该结合业务场景中思考,更不能被各种套路方法论给束缚住,也不能简单依赖过往的类似案例。

六、轻视业务,与实际场景脱节

数据不等同与实际场景,实际场景往往比数据更加复杂,分析时需要了解具象化的场景,而不是抽象的数据,数据分析初学者极易犯的错误,只懂工具不懂业务不能真正理解业务需求。好的分析人员需要既懂工具又懂业务,也要多去一线了解业务运作,帮助解决业务运营中遇到的各种问题。


比如,结构化思维模型、KANO分析模型、RFM模型、四象限模型……这些经典且广泛应用的模型。来积累丰富的数据分析模型库以应对各种业务场景。


因此,数据分析人员结合实际业务场景,需要具体问题具体分析,服务于业务的应用。及时与企业各部门沟通,共享数据分析的成果,这样才能体现数据分析的真正价值。所以作为数据分析人员,要结合业务需求,保持独立思考的心态,大胆假设,小心求证,警惕和避免走进数据分析的陷阱。

七、总结

实际工作生活中,还有很多需要我们注意的关于数据分析的事项,这里就不一一开展,本文只是从业务层面的视角梳理了关于数据分析各个环节中可能存在的引发误导的一些陷阱。


数据分析的常见陷阱:


不了解数据来源,不确保数据正确性


需求不匹配,分析目的不明确


未清理数据,数据采集出现偏差


指标不合理,数据具备时效性


套用方法论,分析结论不严谨


轻视业务,与实际场景脱


总之,我们需要逐步积累经验,有效地利用数据,避开以上数据分析“陷阱”,就会分析的越来越准确。需要我们注意的是:以往成熟的分析方法论以及经验固然实用,但随着大数据时代和5G的到来,企业的数据体量不断扩大,业务需求不断变化数据分析的环境也不断变化,要实时更新知识和工具库也要警惕和避免踩中上面这些数据分析的陷阱,尤其是对刚入门的。

-END-

小飞象木木自由
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
小飞象木木自由
小飞象木木自由
发表文章55
互联网从业6年,公众号木木自由:专注数据分析实战案例经验以及方法论的总结!
确认要消耗 0羽毛购买
警惕!数据分析的陷阱?吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接