-- NO.11 --
数据分析的下限,取决于逻辑归纳。与其说提高分析质量,不如说提升逻辑归纳能力。逻辑归纳,需要拥有良好的逻辑思维,并结合领域知识形成该领域的分析方法。而领域方法,进一步归纳则能够成为通用了方法论。关于数据分析,本文将从逻辑思维和分析方法2个角度进行解读,其中分析方**介绍数据分析前的准备以及数据如何为我们创造长期价值。逻辑思维,是在认识事物的过程中借助概念、判断、推理等思维形式反映客观现实的理性认识过程。借助逻辑思维,能够确立执行方向,减少方向的偏移度以及分析的误差。原始的数据并没有太多的价值,它是已经发生的事实或者结果。从中发掘价值则是数据分析的目的。在数据分析中,其过程是与逻辑归纳相近的,过程如下:只有具备了良好逻辑思维,才能更好的帮助我们数据分析。在训练自己逻辑思维时,首先要保证信息的完整性,其次才是讨论准确性。如果陈述和提问不够清晰,后续论证是没有意义的。
初步了解了逻辑,接下来将与各位分享4种思维方式以及其运用方法,分别是目标、结构化、推理、逆向思维。目标思维,作用是明确目标的定义及完整性,校准执行的方向。从逻辑论证的要素来看,目标只是一个论点,而判断论点是否有效、正确,则需要细究其论据和论证方式。将目标映射至三要素并进行结构化拆解,会变成我们熟悉的需求4要素,再次延伸又会变成5W2H法。
熟练运用目标思维,不仅能帮助我们分析问题,还能运用于生活的许多方面。在陈述问题时所使用的KWIC方法,其实也是逻辑要素的延伸:信息越全面,沟通的成本越低,后续的论证质量才能更高。目标思维强调的是方向,结构化思维强调的是拆解和延伸。在上一节中目标的拆解和延伸使用的就是结构化的思维,它能够帮助我们将无序、散乱的信息进行聚焦、归纳、分类。问题树,是大家较为熟悉的方法,也是我们常使用的“脑图”。它是一种以树状图形来分析存在的问题及其相互关系的方法,也是逻辑树的一种类型。在逻辑树中,每一层都是下一层的总结概括,同树干内的延伸范围相同,不同树干的延伸范围相互独立。在使用问题树时将一个已知问题当成树干,然后根据相关问题增加树干或树枝,它能够帮助我们更全面的找到相关项。设置第一条树干时有两种方式,自上而下以及自下而上。自上而下其实是以终为始,通过最终的目标进行拆解;自下而上则常见于头脑风暴,当缺少拆解思路时,我们可以将信息完全罗列,并对其进行归类逐层向上聚合。在拆解时,我们应注意树干间的平衡,假设某个树干上的树枝过多或过长,其上层的拆解维度可能是不正确的。在逻辑树的使用场景下,公式法不太关注细分场景以及整体漏斗。在进行细化分析时结合场景、操作流程,对公式进行进一步的细化。在活动中分析成交时,会使用访问人数、点击购买按钮人数、成交人数去分析漏斗。但漏斗数据往往是不完整的,这会影响推断的准确性。结合场景、操作流程并输出公式进行数据分析,会比漏斗更为直观。以下载app后用户的注册流程为例,通过上图,可以拆解出以下公式:
b、微信注册人数=进入注册页面人数+浏览其他页面引流进入人数-进入注册页面人数*跳失率-登录人数-点击手机号登录注册人数c、手机号注册人数=进入注册页面人数+浏览其他页面引流进入人数-进入注册页面人数*跳失率-登录人数-点击微信登录注册人数-进入手机号登录页面人数*跳失率-输入手机号未获取验证码人数-获取验证码未输入人数-输入验证码未登录人数公式罗列清楚后,代入数据就能够了解是哪个数据和我们的预期不同,然后再根据数据优化我们的交互。这两种结构化方式,其实不太适合用于数据分析,但能够帮助我们梳理思路便于全局思考。二分法不适用于数据分析的原因是,世界不是非黑即白的,它很难将某个数据指标的值枚举完毕。四个象限能够很好的用于任务分类,关于“重要”和“紧急”的程度,我们也可以使用坐标轴的值进行标记,但如果要细究哪个元素影响了”重要“和”紧急“的值,矩阵法就难以承载了。确认论点,结构化论据,下一步是论证。在论证中运用推理思维能够帮助我们迅速找到问题的异同点,从而发现它们的规律。推理主要使用的方法是归纳、演绎、类比法,而在推理过程中还贯穿着对因果的辩证。
归纳法,指从特殊(部分样本)到一般(全量样本)的过程,通俗的说是从个别的经验归纳出普遍规律的方法。它更偏感性思维,其推理方式不够严谨,常用于开拓思路。在产品工作中我们会遇见许多使用归纳法的情景,如:“很多用户都需要这个功能,所以我们应该尽快实现。”这实质上是以偏概全的方法,一旦有一个用户不满足这个前提,这个结论就无法成立。这里并不是说如果有用户不需要这个功能需求就不承接了,而是要增加更多的衡量维度,如样本数量、样本占比、投入产出比等。在输出结论之前需要判断样本是否足够有代表性,判断是必然事件还是随机事件。这也是为什么数据分析需要长时间的收集样本并观察数据,样本量太小会使其代表性不足,观察周期太短会被数据的波动所迷惑,很容易让我们做出错误的判断。演绎法则与归纳法相反,是从既有经证实的普遍性结论,推导出个别性结论的一种方法,常见的表现形式是逻辑三段论。假设大前提为真,小前提为真,那结论一定为真。演绎法追求的是前后一致,不自相矛盾,但大部分人都倒在了第一步,即大前提本身是不成立的。不成立的原因是,大前提并非经证实的普遍性结论,而是通过归纳法输出的结论。要避开归纳法的陷阱,我们则需要对其因果进行辩证。
因果辩证,同时适用于演绎和归纳法,它们都是由因及果的过程。近期互联网保险的营销活动由于监管原因,无法使用现金及优惠券奖品促进成交,一定程度上减少了活动的数量。拆解完毕后先不进行辩证,而是先对因果关系进行枚举:3)这个原因一定会引起这个结果吗?是否有其他的原因?在上述的案例中假设原因和结果都为真,套入第3点做出以下提问:1)使用现金及优惠券奖品,一定会使成交效果更好吗,是否有其他的方式?2)不使用这2种奖品,活动一定不能做吗,是否有其他的奖品?3)活动没法做,一定不能促进成交吗,是否有其他的方式?看到这里,我们会发现这些原因只是结果的必要不充分条件。我们应先对结论提出假设,并设计实验或采取其他的手段验证假设,最终验证后的结果才是真正的结论。聚焦,是以终为始,问题树中的“自上而下”拆解是其表现形式之一。发散,是因为从正向思考变为逆向思考,思考习惯的改变能够开拓我们的思路,并帮助我们补全逻辑。从用户出发并没有错误,从商品出发能帮助我们补全分析的维度。
同样是活跃度降低,”进入“这个词会从入口出发,分析其流量情况。从”跳出“出发,则会从交互、设计层面出发分析。
这里的逆向主要是为了开拓思路,并不是说要直接给予用户奖品。在开拓思路后进一步延伸,方案可以调整为,给予用户部分奖品,成交后再给予另一部分。校正方向,使用目标思维;分解问题和提出假设,使用结构化思维;逻辑推理用于论证,而逆向思维则用于补全我们的逻辑。
良好的逻辑思维,结合领域知识能够帮助我们快速形成不同领域的方法,并解决问题。数据分析前的准备过程,在我看来比实际的分析更为重要。假设目标是错的,我们就不应该执行。而目标不同,分析类型和分析内容也不同,同时执行多个方向,很容易使自己陷入混乱。数据分析,能帮助我们了解业务运行状况,并从中发现问题、优化问题。其次,还能够帮助洞察下一个增长点。但数据分析的意义,往往在数据产生之前。我们应围绕产品目标,进行产品设计以及运营策划。如果最开始的目标及指标设置错误,后续的工作将难以为继。目标是结果,而指标是对结果分拆的具体要求,是对目标的衡量。假设我们的目标是提升年度成交金额,那衡量这个目标的方法是什么呢?根据衡量的方法我们才能定向的设置调整产品设计及运营策略。如果缺少可衡量目标的单位和方法,目标会难以达成。而围绕目标设置数据的采集方案,可以大大节省数据过滤和清洗的时间。甚至于在明确指标后再最开始就设置好分析模型,通过监测模型中的数据情况更及时的发现问题,做出更高质、高效的决策。辨别了目标和指标,下一步则是运用结构化思维进行拆解、延伸。在拆解之前,需要对自己提问:拆解出的指标目的是什么?根据目的我们才能有倾向性的分析。根据指标目的,可以分为结果指标、过程指标以及观察指标。结果指标用于衡量目标,过程指标用于体现如何完成。观察指标则指的受影响指标,其是否会受到自变量(结果指标)的影响,导致上升或下降。在上图中,基于成交订单数,设置过程指标为订单平均金额及商品分布能帮助我们了解完成的方式。上图的用户付费率,可以监测成交订单数上升,是否带动用户付费率的上升,从而判断是局部还是整体上升;而成交深度及ARPU/LTV则可以帮助我们考察下一个增长点是什么。在设置结果指标时,除了核心指标,还应辅以制衡性指标,它的目的是希望核心指标完成的更为健康。核心指标和制衡性指标所延展的过程、观察指标是不同的。完成了目标和指标的设置,接下来是对每个指标进行细化分析,分析类型包含:描述性分析、预测性分析和规范性分析。类型不同,作用也不同。数据报表能够帮助我们描述事件发展的情况,但很难解释某种结果发生的原因和未来可能的趋势。它更偏向结果性的描述,此前的结果对此后是不具备太多参考意义的。表现形式:用户相似度及物品相似度计算、用户购买饱和度、用户成交影响因子预测性分析可以理解为对结果和变量的关系进行预测的过程,包含相似度、相关性分析、回归分析等。相似度多用于推荐算法,通过计算用户的相似度和商品相似度从而推荐给用户。而相关分析用于预测变量的关联性,如用户的成交会受什么因素影响。实证性分析,指是什么,偏向于客观;规范性分析指应当做什么,偏向于主观。在实际使用过程,上述的4种分析类型常常会被混合使用,混合使用时应明确不同类型我们应采取的分析维度。数据分析是有顺承关系的,先采集事实,再根据事实或者预测,提出我们的假设。逐步灰度地验证假设,最终才输出我们的结论。不能将主观猜测强加于事实之上,已经发生的结果并不一定是未来的结果笔者此前面向的数据分析,常常是“一锤子买卖”,花了很大的力气采集数据却没有了下文。为了使有用功更多,下文将从用户和收益2个维度分享数据如何为我们沉淀长期价值。这一步是为了让我们知道完成指标的用户是谁,常常以产品的会员体系作为切入点。会员体系越清晰,分析效果越好。
本节将以电商产品为例,和各位分享如何基于用户的延伸分析。身份特征,可以从自然属性、社会属性向下细分,包含用户的性别、年龄、职业、教育等。渠道属性,指用户的注册时间、注册平台、注册来源等。决策类型,主要分为决策周期、品类偏好、促销偏好、对象偏好,这是用户分析中常常被忽略的一方面。决策周期中的首次访问,指的首次触及该商品的时间。结合次数、时长以及成交时间,从而了解用户的决策周期。品类偏好,结合品牌和历史成交单数,能够帮助我们获悉品牌、价格综合对用户的影响。而成交品类、商品、单数则是帮助我们理解其品类购买深度及路径,用于进行关联推荐和评判用户的价值。促销偏好,结合品类和折扣金额了解用户的敏感度,能更好的提高其转化率。对象偏好,同样是了解购买深度及路径,不过维度不同。
在用户层面的分析,此前接触的一些朋友都非常热衷于使用RFM模型,在使用过程中也应“因地制宜”。品类深度、对象深度是影响决策类型的因子,当它们在购买路径时则聚焦于次序。
根据次序,制定运营的发力点,再遵循用户的购买路径制定转化路径。
在用户分布相对稳定的前提下,应顺从用户的购买规律而非倾力于另一条主线。一专多强的前提是专,只有聚焦优势品类或主题建立了优势,才能为其他的方向供应炮弹。前面解决的问题是:他是谁,买什么以及怎么买。最后一点,则是增长观察。
购买路径聚焦于次序,增长观察聚焦于深度。购买的次序是运营的主线,购买的深度用于精细化运营。了解用户在品类和对象的购买深度,再辅以ARPU与LTV的比对,从用户的剩余潜力寻找平台增长点的方式。在一次交流会上,前辈阿翘对我提问:“你所负责的产品,用户画像是怎么样的?”当时我把平台用户的地域、年龄、性别等分布介绍了一番。紧接着他提问:“根据这样的画像你能够做什么呢?”再后来,我才学会了把数据聚合成特征,把特征集合成模型。基于对用户的认识建立模型,以上一小节的决策模型为例。将决策类型、品类偏好、对象偏好、促销偏好4个因子的关联,并辅以用户的基础信息进行组合。这样一来冰冷的数据也被赋予了情感化的表达,无论是产品设计、交互设计、产品运营都会变得容易的多。建立起用户模型,才能够更好地进行情感化设计、精细化运营。
收益,常用成交或ROI进行衡量。那我们怎么判断与收益相关的行为呢?有关程度又有多高?
关于收益及影响收益的行为,二者都属于无序分类变量,此类数据的分析方法是卡方校验。卡方检验,用于统计样本的实际观测值与理论推断值之间的偏离程度,如果卡方值越大,实际观测值与理论推断值偏差程度越大。反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。在实际分析时,会先进行假设,并通过计算判定其假设成立的概率从而反推其不成立的概率。假设关注与成交行为无关,成交率应不随关注行为变化而变化,或数据抖动较小。当我们计算出卡方值时,可以初步判定由于卡方值较大,实际观测值与理论推断值差异较为明显,原假设关注与成交无关成立的可能性是比较小的。而到了判定可能性具体的程度,则是根据P值(用于判断判定假设检验结果)进行校验,P值越小,原假设关注与成交无关的概率也越小。由于其自由度等于1,结合卡方值再查询卡方分布表可得P<0.01,所以原假设成立的可能也越小,即关注与成交有关的概率非常大。在实际使用时,同样的也须兼顾样本和观测时间周期,样本包含准确性和数量,观测时间周期则用于分辨其抖动性。这2者较为基础也就不过多描述了。相关性分析,用于代表相关程度,只能说明有关但并不能说明因果性。对变量之间的依赖关系进行定量关系及因果关系的研究,我们还会使用回归分析进行计算。但由于计算方式并非本文的重心,在此也不过多的赘述了。本小节,也有较多的概念并未在本文提及,此部分将附在文末。
个人认为数学方法是非常重要的领域知识,很多时候不是不会数据分析,而是不知道使用什么方法分析。因为不曾见过,所以也未曾往陌生的方向思考。
遇到这样的问题时,先运用逆向思维确认分析目标,其次再进行结构化的拆解,再逐层学习分析时应该使用的方法。若时间宽裕,还是建议阅读统计学相关的书籍。耐下性子阅读,工具书的收益会比大部分同领域的文章都大。这篇文章写完,前后花了大半年时间的《产品经理的能力模型》专题也就结束了。开设公众号的初衷是因为0-2岁的产品经理受到的毒害太多了,想写一些比较朴实的文章。其次也想借着写作提炼自己的知识,沉淀自己的方法论。下一个阶段,公众号将更垂直于产品运营。也由于今年的重心是学习,本就不快的发文频率可能会再次减缓,也请多多担待。参考资料
https://zhuanlan.zhihu.com/p/94070722https://blog.csdn.net/weixin_34203832/article/details/88687669https://blog.csdn.net/snowdroptulip/article/details/78770088https://www.cnblogs.com/mahailuo/p/10932026.htmlhttps://baike.baidu.com/item/P%E5%80%BC/7083622?fr=aladdinhttps://www.zhihu.com/question/20045543https://www.jianshu.com/p/bbe0c702b5ad
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)