APP推广合作
联系“鸟哥笔记小乔”
你是如何被“大数据”洗脑的?
2018-07-09 23:11:00

正文开始之前,请大家先看一个案例:

 

一家公司希望了解自家产品的用户画像,于是他们在产品包装上印上自家小程序的二维码,然后想办法促使用户去扫码(比如扫码查真伪、扫码学习食用方法等)。一旦用户扫描二维码,公司就能从后台了解他们的基本信息,比如下图就是对用户年龄分布的统计结果:



(PS,出于保密需要,这里暂且放一张P过的图来示意)

 

现在请问:哪个年龄段的人才是该产品的典型用户?

 

对于这个问题,我一共听到过三种答案。


第一种认为是30—39岁。如果你问他为什么,很显然,因为那部分柱子最高...

 

第二种认为是25—29岁。因为虽然它高度只是第二,但它的年龄跨度只有5岁,仅仅是30—39岁跨度的一半。

 

第三种则认为18—29岁都是,道理跟第二条类似,不再多解释。


那么,究竟哪种答案才更加正确呢?

 

我估计大部分人都会选第二种或者第三种吧?

 

最开始我也是这样解读的,认为该产品的典型用户就是“年轻人”。(若按照国家统计局的标准,也就是15—34岁的人)

 

不过说实话,这个结论还真挺让我惊讶。因为若根据我的常识来判断的话,它的典型用户应该是年纪稍大点的中年人才对。

 

该产品属于健康食品,主打“排毒”“减肥”“降三高”“治便秘”“抗酸”的功效(你先别笑它卖点太多不够聚焦,又不是走电视广告的路子),而这些功能属性,除“减肥”以外,我相信不少人都会跟我一样——若用常识来判断,它们应该更偏向中年人。

 

然而,数据结果却与常识判断相互矛盾...这时候,你到底该相信数据还是相信常识呢?

 

这是我最近在一个项目中遇到的一个问题,这个问题也的确让我纠结了一段时间。因为一方面有人说“数据是不会撒谎的”,而另一方面又有人说“做调研,常识才更加重要”...

 

不过,当我想起以前看到过的一段故事之后,问题就变得相对明朗了。



1.二战的故事



在二战期间,盟军的战斗机在战斗中损失惨重,于是盟军总部秘密召集了一批物理学家、数学家来专门研究“如何减少空军被击落的概率”。

 

当时军方统计了所有返航飞机的中弹位置,发现机翼部分中弹比较密集,而机身和机尾的中弹比较稀疏,因此当时普遍的建议便是:应加强机翼部分的防护。

 

然而,统计学家沃德却提出了一个完全相反的观点,他认为应加强机身和机尾部分。

 

沃德教授说:“所有的样本都是成功返航的飞机,也就是可能正是因为机翼遭到攻击,机身和机尾没有遭到密集的攻击,所以才使得这些飞机能够成功返航。”

 

后来又经过一系列有力的论证后,军方果真采用了他的建议。事后也证明这的确是无比正确的决策,有效降低了空军被击落的概率。



这个故事讲的就是所谓的「幸存者偏差」(Survivorship bias)

 

幸存者偏差是指:当取得资讯的渠道仅来自于幸存者时,此资讯可能会存在与实际情况不同的偏差。(因为死人不会说话)

 

那它跟之前用户画像的例子有什么关系呢?

 

关系很大。

 

虽然数据是不会撒谎的,但它只能展示出有数据(幸存者)的那部分信息,而无法展示没有数据(阵亡者)的那部分信息,它是片面的。

 

翻译到之前那个案例:如果仅凭扫过码的用户数据来判断产品的用户特征,其实是忽略了那些使用了产品但没有扫码的用户的数据。毕竟,不是所有用了产品的人都一定会扫码。

 

而这里有很多可能的因素会影响结果,比如:

 

1)不同年龄段的人拥有不同的扫码习惯——可能年轻人更愿意扫码,而中、老年人大部分都没有扫码习惯。

 

2)扫码的人不一定是产品的用户——也许是年轻人买了该产品送给长辈,然后自己去扫了码。

 

3)说服人们扫码的文案也会有影响——假如你说“扫码享优惠”,那最终扫码的可能就更偏向于那些“精打细算”的用户,而不是所有用户。

 

总之,永远不可能得到完整的数据样本。

 

因此,回到文章最开始的问题——哪个年龄段的人才是该产品的典型用户?

 

准确的答案应该是:无法仅通过该数据就得出结论。

 

是的,到目前为止,我依然更偏向于相信常识——认为中年人才是它的典型用户。(估摸着至少也是30岁以上)



2.洞穴之喻



柏拉图曾在《理想国》的第七篇中,讲了一个著名的比喻——洞穴之喻(Allegory of the Cave)

 

设想有个很深的洞穴,洞里有一些囚徒,他们生来就被锁链束缚在洞穴之中,他们背向洞口,头不能转动,眼睛只能看着洞壁。

 

在他们后面砌有一道矮墙,墙和洞口之间燃烧着一堆火,一些人举着各种器物沿着墙往来走动,如同木偶戏的屏风。当人们扛着各种器具走过墙后的小道,火光便把那些器物的影像投射到面前的洞壁上。

 

由于这些影像是洞中囚徒们唯一能见的事物,他们便以为这些影像就是这个世界真实的事物。



在现实生活中,数据就像该比喻中印在壁洞上的影像——它试图利用低维的事物,去给人们描绘一个高维的东西。如果将洞壁的影像进行数据化处理,哪怕技术再先进,收集的数据再多,都难以让洞穴人感知到一个真实的世界,因为他们看到的世界都被“降维处理”了。

 

而另一方面,常识又是什么?

 

不可否认的是:常识跟数据一样,都是片面的。并且每个人的常识都不尽相同,质量参差不齐。

 

不过这里想说的重点是:相比于数据,常识能从更多得多的角度去分析一个事物。

 

因为人类的大脑很奇妙,它能把很多看似无关的事物联系在一起。而这一点,是任何计算机都很难以数据的形式做到的。

 

举个最简单的例子:人们可通过观察“一根筷子折得断,十根筷子折不断”的现象,悟出一个与之毫不相关的道理——团结就是力量。而同一个现象如果交给计算机去处理,那最后的结果就肯定只能与“材料”“扭矩”和“力度”等相关...



再比如迈克·亚当斯曾做过的一项研究,他发现:美国大学生期中考试临近时,奶奶去世的可能性是平时的10倍,而期末考试时是平时的19倍。(数据来自各高校收到的请假邮件和推迟交论文的申请)

 

若单看数据,你也许会认为学生的学术压力会对奶奶的健康造成影响(的确有科学家对此做过研究...);但若用常识去思考,那就很简单了——为躲避考试,学生们编造了“奶奶去世”的请假借口。



这就是常识与数据的区别——常识是多维的,数据是单维的。



3.数据不骗人,但它会坑人



数据真正的价值并不在于其统计或计算结果,而在于人们能对其做出正确的解读。不过这很困难,尤其当你面对的是残缺的数据。

 

就像我以前举过的一个例子:


据《2017社会大学英雄榜》显示,国内登上胡润百富榜的2000多位资产超二十亿的富豪中,有一半的人都是低学历。(PS,低学历是指本科以下的学历)


请问:从这条新闻中你能读出什么结论?

 

我想肯定有很多人会认为:学历的高低跟收入的确没什么关系。

 

然而,这种解读是错的。

 

正确的解读方式是什么呢?

 

应该是:中国在2016年末大约有13.8亿人口,其中本科及以上的只有3800万,本科以下则有13.42亿——低学历的人本来就比高学历的人多得多(35倍),而它们进入榜单的人数基本相同。因此,拥有高学历的人进入百富榜的概率,是低学历的35倍。

 

在这个例子中,所有的数据都是真实的。但如果你只看到一部分数据,而没有看到其他数据,那就很容易被数据给坑了,得出错误的结论。

 

当然,要想得出更加准确的结论,这里还需挖掘更多的数据。比如:


富豪们的年龄分布。毕竟不同年龄段人群的学历分布是不一样的;


所属行业的分布。毕竟不同行业对学历的要求与相关程度是不一样的;


在这些富豪中,高学历的收入与低学历的收入的总体对比情况...


嗯,如果你不是专门学统计的,相信在加入这么多因素之后,一定会崩溃掉...不过你也不用慌,因为大部分情况下,你根本就没有机会能知道这么详尽的数据。

 

包括以数据著称的新零售。为什么大部分新零售项目仍然在亏钱?其实就是因为它们的规模还没有达到一定的量,数据的维度依然比较单一,“算”出来的东西依然不够精准,所以效率的提升也就很有限了。



4小结一下



文章读到这里,你也许会在心里嘀咕:小云兄你写这篇文章,是不是想告诉我们数据是没有用的呢?如果数据的结果都不够准确,那什么才是准确的呢?

 

首先,这里并不是说数据没有用,即使它是片面的。

 

所谓的要客观看问题,并不是指你一定要掌握了所有数据之后才能下定论,而是要在下定论之前,尽量多方面了解一些数据和信息,无论它们本身多片面。

 

多了解一点,犯错的几率就会小一点,多看到一面,你离客观的真相就更接近一点,这就是进步。


千万不要试图一下子解决所有的问题,或者以为一下子就得到准确的答案,因为这本身就是一种错误的价值观,或者说痴人说梦。(所以你也不用纠结“什么才是准确的”了,根本就不存在)

 

知道自己还有不知道的,并在问题中不断前进,这才是真正科学发展的思想。

 

相反的,如果仅凭单方面数据就武断得出结论,并且笃定得不行,那无论数据样本有多大,你的结论和真实情况都很可能是天差地别的。



品牌圈圈
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
品牌圈圈
品牌圈圈
发表文章91
一个营销人的日常分享。
确认要消耗 羽毛购买
你是如何被“大数据”洗脑的?吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接