一、分析五步法

这个简单的数据分析五步法，基本能够应对日常工作中至少80%的常见数据分析问题。而剩下的20%的场景，可以在这个基本的分析方法论上扩展出来，我们会在后面的内容中探讨。

1.1 五个基本步骤

首先，我们来一次讲解着5个基本步骤，分别是：

汇总
细分
评价
归因
决策

1.1.1 汇总

这一步我们关注的是指标，也就是大家常见的那些DNU、DAU、GMV、ROI等等。只要是说到数据分析的内容，一定会提示数据分析“要明确目标”。因此，这个重要性我们倒是不需要赘述。

目标当然是所有指标中最重要的。但只有目标还不够，我们还需要其它的辅助指标。就比如ROI，是投入和产出两项算出了ROI；而GMV，也可以用用户数乘以平均每用户的GMV计算出来。这样，我们就把一个目标的计算，拆分成了更多相关指标的组合。并且，这些指标更基础，我们可以通过一些运营手段影响这些指标的变化趋势。

这部分没有什么理解的难度。只不过，我们要找出指标之间的计算关系，由此逐渐找到所有我们需要关心的指标。在现在的互联网产品运营当中，从来不会缺少需要看的指标，已经多到了眼花缭乱的地步。但只有那些跟目标相关的指标，我们才需要关心。

1.1.2 细分

这一步相当于给指标增加了一个或者若干个维度。最简单的维度应当算是时间了。比如，我们按天看UV的变化趋势；又或者，我们看不同页面带来的GMV是多少、看不同用户分群中的GMV分别是多少等等。如果我们理解前面的指标只是一个数字的话，增加了维度之后，它就变成了一列数据；增加了两个维度之后，它就变成了一张表格，以此类推。

就像指标的现状一样，我们也可以轻松找到许许多多可以用来拆分指标的维度。比如前面提到的日期和人群，还有拉新上的来源渠道，活跃上的流量来源和转化路径等等。再将这些维度进行排列组合，就能产生出一大批庞杂的拆分维度，多到根本看不过来。

因此，在细分之前的关键环节就在于区分维度的重要程度。

如何区分呢？

我们要按照是否可操作来区分这些拆分维度的轻重缓急。比如：前面提到了看APP中的不同页面带来的GMV。但是，如果我们没有必要的技术手段或者运营工具，来为那些GMV更高的页面分配更多流量，也不能降低那些GMV较低的页面的流量，那么按照页面拆分这种方法对于我们没有任何操作空间，更不要说操作之后的优化空间了。

如果是这种情况，我们就应当认为来源页面这个维度，只是个“看看就好”的维度，而非关键维度。

另一个例子是用户分群，特别是当我们希望从外部的投放引流获得更多高质量的新增用户，以此来拉动增长的时候。在这种时候，我们总是希望首先对现有的高质量用户进行用户画像，并确定一些能够标识高质量用户的特征，再通过这些特征在投放的时候吸筛选出高质量的用户。

这个道理是讲得通的，但遗憾的是，外投渠道不能提供十分精准的人群定位，只能提供人口统计学和内容偏好等粗粒度的划分。这其中还隐含着，我们暂时认为投放渠道对于用户的标记是十分精准的，没有考虑出现标记错误的概率。

因此可以看出，在拉新这件事上，我们对用户分群的操作是受限的——并不是完全不能，但十分受限。而用户分群更大的利用空间在于促进活跃，也就是在我们自己的用户群体中进行切分。

比如，在增长案例中常见的，在相同页面的相同位置放置不同的文案或者图片素材进行版本间的A/B Test，那么具体展示哪个版本就是一个可以自由操作的维度，因为一旦发现哪个版本更好，我们可以很快采取行动，替换掉其它表现不好的版本。因此展示版本这个维度很适合用来切分指标。

如果说【汇总】的部分只是个监控的话，在【细分】的步骤中，就已经体现出一些分析的感觉了。在【细分】这个步骤中，我们需要找到那些真实可操作的拆分维度，以便让我们的分析结论能尽快落地。但这部分还留下一个问题，就是如果存在多个可操作的拆分维度，那么它们之间理应是有区别的。

比如：我们可以简单地替换图表和文案，但我们也可以煞费苦心地给产品迭代一个大版本。

如何在分析的过程中体现并衡量这种操作的复杂度呢？这个就要说到【评价】的问题。

1.1.3 评价

在【评价】的步骤中，我们要用到【汇总】步骤中的那个作为目标的指标，以它作为评价的唯一标准。如果我们的目标就是简单的GMV，甚至更简单的PV和UV，那么到了【细分】的步骤之后，我们基本就可以开始下结论了，但是在实战中并非如此。我们的目标可能是一个复合目标——在拉高GMV的同时，还要控制成本；在拉高PV的同时，还需要提高GMV；或者直接是一个ROI这样的复合指标。

在这个时候，我们就不能只关注目标这一个指标了，而要关注复合指标。例如：我们的目标是在拉高GMV的同时控制成本。为了进一步简化问题，我们把成本具体地定义为：促进老用户产生GMV的成本和获得新用户产生GMV的成本。因为通常在运营中，拉新与促活的手段是不同的，这与【细分】部分的原则对应，即：是否存在操作空间以及操作空间的大小。

之后，我们就可以分别按照拉新和促活的不同纬度，对产生的GMV和投入的成本这两个指标分别进行细分了。例如：在拉新方面，我们有外投百度关键字、有外有广告联盟、还有与其他APP的合作换量；而在促活方面，我们在APP上的ABCD四个Banner上设置的A/B Test。

那么对于新用户的部分，我们就可以分别针对百度关键词、广告联盟和合作APP这三种方式，评价每投入一块钱的成本分别可以得到多少新增的GMV。通过这种评价，我们就能简单地在不同的拉新方式中，选择更优的方式，并在已有的方式中调整更优的成本投入。而对于老用户的部分，我们同样可以针对ABCD四个Banner各自的A/B Test，评价不同的展示版本中每投入一块钱可以产生多少GMV。

简而言之，在【评价】这个步骤中，我们需要把【汇总】部分的指标分成两类——最终的目标，与实现目标的手段。比如在前面的例子中，投入的成本就是实现GMV提高的手段。因此，每一块钱的成本投入，我们都需要以产生的GMV来评价它。这时，要实现GMV提高的目标，可选择的手段就比较多了。

比如，针对老用户促活，我们可以：

保持成本投入不变，更换更容易带来GMV的图片和文案，来提高投入的每一块钱带来的GMV（优化效率）；
保持每一块钱带来的GMV不变，（在限制范围内）追加成本投入。

这两种方式，都有意识地忽略了GMV可能带来的价值。如果我们将这部分价值考虑进来，它就能抵消掉一部分投入的成本，那么备选方案还会更多。

总之，在前面这个例子中，由于我们的拆分维度本身比较简单，只考虑了APP中的Banner和外部拉新的方式，因此比较容易通过数据中的一些标记进行细分。但是在实战中，还有些情况是我们无法进行明确地拆分的。

比如在用户交互中，产生一个GMV的路径需要经过几个环节的跳转，或者就像前面那个例子中的ABCD四个Banner，如果用户点击了其中的两个甚至三个Banner，那么我们如何拆解呢？这个问题就是下一个步骤【归因】了。

1.1.4 归因

【归因】这个步骤就是“最后一公里”了，也就是我们常说的剖析“为什么”的过程，之后便可以得出结论并进行决策。

在前面的步骤中，通过案例能清楚地看到，我们已经得到了一些可以直接对比的量化指标了。在这种情况下，其实我们不需要在【归因】的步骤中做什么特殊的操作，可以通过数值的比较直接下结论。但是如果我们遇到了细分的问题，也就是多个环节或者方法之间无法进行明确地拆分时，应当怎么办呢？

在日常的数据分析中有几种常用的归因思路：

比如，我们继续使用前面提到的案例——用户**依次**点击了ABCD四个位置才产生了GMV：

**首次互动归因模型**：也就是用户第一次做某件事，在数据中通常表现为时间最早、顺序号最小等等。那么我们给A记100%，B、C和D记0%。
**最终互动归因模型**：也就是用户最后一次做某件事，对应的在数据中就表现为时间最近、顺序号最大等等。那么我们给D记100%，A、B和C记0%。
**线性归因模型**：也就是平均分。那么我们给ABCD分别记25%。
**加权归因模型**：也就是给多个促成因素分配一定的权重，例如A和B各记30%，C和D各记20%。正因为多出来一个权重的维度，需要一定的设计；并且计算权重也可以作为一种分析的过程。关于权重也有几种常见的设置办法，比如首末两项最重要而其它向中间递减，或者按时递减等等。

当然，在选择归因方式的时候，也会结合具体业务的特征，来考虑行为的先后顺序、停留时间长短等情况，对于分析目标的贡献或影响。

1.1.5 决策

最后就可以决策了。但经过了前面的几个步骤逐渐消除了不确定性，决策反而是最简单的一步了——就是找出那个表现最好的版本、表现最好的位置、表现最好的拉新方法而已。

而当我们有一些新的idea时，同样可以作为A/B Test中的一个版本，加入到这套评价体系中，进行综合评价。

1.2 应用案例

这套方法论不仅针对日常工作中的专项分析，在一些已经固化成型的方法论中，也可以找到这套基础方法论的影子。

我们来看几个已经成型方法论案例：

1.2.1 A/B Test实验

首先我们要看的案例就是A/B Test。在A/B Test的过程中，首先我们要确定实验的目的，也就是我们要通过实验提高和优化的是哪个指标。之后，我们以实验中的不同版本作为细分维度，以指标是否实现作为评价标准，对实验结果进行评价。如果在实验的过程中确实遇到了需要归因的问题，则还需要考虑如何进行归因。

当然，随着业务的复杂度不断发展，A/B Test的难点已经不在于比较和得出结论的过程，而在于如何设计实验才能在更短的时间内、耗费更少的用户流量、进行更多的实验并得到有效的结论。这也是所有这方面的平台和工具的起点——Google的著名论文《Overlapping Experiment Infrastructure: More, Better, Faster Experimentation》论述的核心内容。

1.2.2 用户分群

用户分群是一个常见的运营手段，但如何确定分群的准确度，以及如何在后续的使用中持续地维持准确度，确是一个数据分析问题。在基于特征的用户分群过程中，首先要确认的是，我们希望获得具备怎样特征的用户群体。

之后，当我们想找到符合这个特征的用户时，就可以使用TGI（Target Group Index，目标群体指数）来衡量找到的用户群体是否对这个特征有倾向性。例如：如果我们想找到喜欢搞笑短视频的用户，并且以点赞行为作为“喜欢”的定义，就可以使用TGI的大小来评价我们找到的用户群体是否确实对搞笑短视频有所偏好。

具备了这种分析机制之后，我们就可以通过各种手段来对用户进行分群了，之后针对不同的分群方式就可以计算出多组TGI值，我们需要的就是那个TGI值最大的子群，并选择那个得到这个子群的分群方式。

反过来说，关于用户分群还有另外一种场景：我们已经得到了一个用户群体，并想要研究这个群体具备怎样的特征。这时，同样可以使用TGI作为目标，以TGI的大小来衡量分群对各种特征的倾向性。

1.2.3 经典管理模型：BCG矩阵

在经典的BCG矩阵中，隐含的一个关注目标是整体利益，而手段是资源的优化配置——也就是要将企业中有限的资源，投给更具潜力的业务，以便获得企业层面的整体利益最大化。

为了对这个目标进行深入研究，在BCG矩阵中，按照两个维度对这个指标进行了拆分，形成了一个二维矩阵。在通常的画法中，横向代表相对市场占有率的高低（通常是指相对于行业Top 3），而纵向代表了市场增长率的高低。相对市场占有率和市场增长率，就是创造利益的手段了，占有率高且增长迅速，自然能更多获利，而利益自然是最终目标。

因此，由于手段带来的利益是不同的，在拆分出的四个象限中，不同的业务就有了自己的“宿命”——有的维持，有的追加资源，有的减少资源，有的直接放弃。

二、方法论的优化

根据前面对于方法论的整体描述，有三个点，可以对这套方法论进行优化。

本文系作者：林先生授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

关键词

运营分析

方面分析

分析方法论