很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
即使拿到一手烂牌,也要打出一串王炸。这是场无限游戏,努力成为牌桌上最后一名玩家。
内部交流│7期
做数据分析如何
从囚徒困境到合作的进化
data analysis
分享人:周海鹏
所以今天,小飞象非常荣幸的邀请到了快用云科创始人兼CEO,创业老兵周海鹏,最近十年创业,一直在大数据技术、数据分析、数据应用的各个方面工作。服务过很多世界五百强企业(金融、房产、零售、医疗),对相关行业的背景、数据分析、数据智能和数据应用方面都有详细的了解。
将会为大家分享《做数据分析如何从囚徒困境到合作的进化》的相关内容,分为四部分:
1、线下环境观察和零售选址案例
2、什么是所谓的“囚徒困境”
3、数据工作领域的囚徒困境
4、如何有效的解决囚徒困境?
做一个对世界充满好奇的人!在分享之前,我们可以先思考几个问题:
★你认为/了解过“囚徒困境”是什么?
★你结合自身经历,是否在工作中也遇到过“囚徒困境”?
在分享的过程中,建议全程认真听,带着思考来听(去看),希望通过本次分享,帮助大家剖析一下“囚徒困境”和“纯粹理想情况下的解决方案”,并给做数据分析的人员提供一些思路,有任何问题都可以随时交流哦!
正式分享
在进入正题之前,我先讲一下咱今天分享的核心思想,我在一个大数据公司创业,做了好几个产品,从统计分析平台,到广告监测平台,再到用收集到的数据为移动设备打标签,最后到用这些数据进行商业分析,帮助客户增收降本。在这十年的工作中,我发现一个非常重要,但是很困难的职业----数据(商业)分析师。
作为一个技术人员,我曾经以为数据分析师只要会写SQL,就可以做数据分析,但是随着工作年限的提高,我发现,做好数据分析的难度远高于我的想象。我从互联网上查找了一些关于“数据(商业)分析师技能要求”的文章,发现要想当好数据(商业)分析师,需要具备的能力可能远远超出技术人员的想象(如下图所示)
从这个图中,我觉得优秀的数据分析人员,简直就是个神的存在。从我常年在数据方面的工作而言,一个优秀的技术人员,可以很好的掌握这里面几项技术已经相当不错了。
那么,数据分析师如何成长成为这种神一样的存在呢?我认为,除了技术性因素外,还有一个组织问题:数据分析师在企业内承上启下,和多个部门、组织和个人打交道,在组织里起到组织核心的作用。从“社会学”角度观察,不同组织之间,容易出现“本位主义”,越大的组织,越容易陷入“囚徒困境”中。
所以,我今天想剖析一下“囚徒困境”和“纯粹理想情况下的解决方案”,并给数据分析师提供一点个人建议:数据(商业)分析师,应该以“帮企业更好、更快决策”为目标,寻求和下游(数据工程师团队)、左右(其他合作部门,例如销售、供应链团队等)、上游(老板)通力合作、保持有效沟通,减轻学习的负担,加快自身进化,最终成就了自己,也促进了企业发展。
接下来,以某全球零售餐饮连锁企业选址的方法论为例,来讲讲在这个通过数据分析选址的项目中,出现的“囚徒困境”是如何解决的?
某全球零售餐饮连锁企业,在中国市场开一家火一家,除了特有的餐饮文化和严格的复制标准,还有一项在连锁餐饮界引以为豪的竞争力——选址成功率,几乎百分之一百的选址成功率!肯德基经营成功的首要三大因素必然是选址、选址、选址。
“选址”对于连锁经营实体的重要性不言而喻,但同时也是长久以来所有实体连锁的痛点,而且对于目标客群和商业模式并不清晰的便利店/超市连锁而言,选址的难度更高。
传统的选址作业流程主要靠人工调研和实地考察,大量及长时间周期的人工作业,使得选址开发的流程过长,同时人工作业模式也存在太多的不可控性。
漫长的门店开发流程,单纯依靠人工管控,对于进度的管理和追踪的难度极大。而与人口相关的各类数据,如目标门店区域的到访量、到访年龄比例等情况需靠长时间的人工现场采集,成本高,而且极易出现核心数据缺失的状况。
同时,手动作业处理数据不及时等因素导致信息滞后,结果缺乏相应的参考价值。下图是PIE指标体系和应用。
我们知道选址,在商圈数据调研的时候,会走访很多线下网点,还要采集很多线下环境数据,例如人口数据。我们可能可以从高德、百度获得这样的热力图,虽然看着非常焕丽。但是在精细的选址中却没有鸟用。
原因:在精细的选址中,业务方需要知道某个大楼、小区,甚至是小区的东门还是小区的西门人多。但是我们无法从这种图里获得具体的人口数字(或者指数)。
所以,数据不标准,现场调研的数据和地图数据无法绑定在一起。
场景:数据分析师发现地图上某个区域的流量特别大。他会找数据工程师进行排查:请帮忙查一下“某酒店”,流量为什么这么高?
数据工程师会反问:具体是哪个区域?能不能给我一个经纬度列表。
分析师可能没有工具获取经纬度列表,因此这个问题就耽误了,后续的分析会遇到意想不到的坑。
不要小看这个Hash ID,它让该企业第一次有了把所有数据放置到一个标准度量体系中的方法。彻底解决了前台团队、后台数据团队、分析师团队、数据智能团队之间沟通的沟壑。
在选址过程中,可能很多分析师都用过POI数据,如上图,客户提出了新的挑战。客户想估算出这个区域里人口的购买力指标,所以想用当前区域里房价来进行折算。但是,这个区域里,只有几个小区有房价数据,剩下的5、6个没有办法填充,造成这个指标一直参差不齐。
客户提出了新的挑战。客户想估算出这个区域里人口的购买力指标,所以想用当前区域里房价来进行折算。但是,这个区域里,只有几个小区有房价数据,剩下的5、6个没有办法填充,造成这个指标一直参差不齐。
所以,数据缺失多、数据精度比较差,无法对商圈进行标准的画像。
大家需要客观接受一个现实,就是这个世界离广泛、真实、准确的数据化,还差的远。在这种条件下,要多个团队(有巨大差异化的同事),进行合作、探索、挖掘数据的价值,就要给出一个有效、标准的框架和解决方案。
这套数字化的方法,让每一个网格都可以有一套标准、通用的标签,可以想象,原来不同团队需要在显示器前,大家一起看地图解决的问题,可以进一步转换成计算机自动进行计算的问题。
数据准备的差不多以后,想标准化评估一个区域,也是很难的,我们看上图,这种打分表,在选址团队中很常用,的确起到了一定作用。但是请注意,这个打分表是很主观的,而且无法精确量化。
所以,评估难,这种打分表,在选址团队中很常用,的确起到了一定作用。但是请注意,这个打分表是很主观的,而且无法精确量化。
选址工作,是该企业成功的一个**。但是,随着企业的发展想三四线城市发展,如何快速评估一块区域,越来越不能靠调研员各地探访了。客户急需一种标准化的方法,来进行评估度量。前线调研员需要和总部分析师一起,构建起一种沟通和评估的标准,这样,选址调研才能标准化、规模化。
在选址评估上,客户也在转变,从原来的“线下调研员给一个门店,评估一个门店”,转换成“在城市所有网格里”智能搜索出潜在门店的模式。
我们进行门店选址模型探索。产出的模型,在上海市进行搜索,经过现实开店数据验证,在推荐的网点400米内,有80%的可能性有一家在运营的门店。解决进入同类型、同等级新城市冷启动问题。
公式:F(某网格开店成功概率) = 0.14*某网格购物中心个数1.24+0.101*某网格购物中心营业额0.88+0.08*某网格火车站流量1.2+……
虽然选址是一个数据分析和智能的冷门方向,但是要做的工作也有很多。在数字化企业的构建过程中,数据分析师一个非常重要的角色。他需要把很多工作串接在一起,得到对企业有价值的结论。但是现实的条件是残酷的。我给大家的建议,是边沟通、边解决问题,而且要时刻注意能不能做到数据标准化、算法智能化、应用简单化。让企业的上下游同事都可以认可数据采集、加工、分析的方法,最终让大家在数字化的世界中解决业务决策问题。
个人认为如何高效推进工作的方法总结:
标准化的数据架构(网格)
标准化的内容架构(标签)
标准化的评价架构(算法)
综上,我们了解的选址的案例,那到底什么是“囚徒困境”呢?
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
美国著名的科学家罗伯特·阿克塞尔罗德在1970年代向棘手的“重复囚徒困境”难题发起了冲击,并最终取得了重大突破。在他的研究之前,我们发现古往今来的众多学者对于人类能否跳出“囚徒困境”的诅咒都充满了悲观的看法,可是一战西线堑壕战里“圣诞停火”这种奇迹的出现,又证明人类在没有权威的情况下,其实是具有自发形成合作关系的可能性的。
阿克塞尔罗德利用当时刚刚兴起的计算机技术,沿着“计算模拟”这条不同于归纳和演绎的新研究路径,举办了三场对后世影响深远的“重复囚徒困境博弈策略的计算机锦标赛”,几十个出自世界各地不同学科专家之手的博弈策略作为比赛选手,在既定规则下彼此展开了激烈的对决。这三场比赛的结果直接指向了合作产生的本质,“圣诞停火”的秘密就藏在这三场比赛的背后。
试验的过程挺让人吃惊的:不同对手,经过激烈对抗,每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。最佳确定性策略被认为是“以牙还牙”。
这里要解释一下:以牙还牙不是字面意义上的,呈现死循环的报复,而是,有一定概率以德报德,以德报怨,但是,如果对手持续作恶,那么可以被激发的愤怒,也有一定概率相应的报复。这个试验说明了一个深刻的道理:以善意对待对手,推进整体合作的进化,是可以让大家走出囚徒困境的。
最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。在现实中,可以解释为:要尽可能善意的对待别人,不要抱怨、更不要给别人造成麻烦。
但是,成功的策略必须不是一个盲目乐观者。要保持报复的可能,始终合作肯定不会获得最后的好结果(因为“下流”策略将残酷地剥削这样的傻瓜)。在现实中,一味的对邪恶妥协,只会造成彻底的囚徒困境和崩溃。
成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。在现实中,我们要容忍别人的偶然的错误,给与一定的宽恕是挽救合作的必然条件。
最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(“友善”的策略必然不嫉妒,也就是说“友善”的策略永远无法得到高于对手的分数)。
正如背景部分描述的,数据工作领域里,数据分析师处于核心地位,在不同组织的协作中,容易出现“囚徒困境”。
数据质量是数据分析、数据科学、甚至是AI的基础,为什么提高不了数据质量?假设先排除搜集端的问题,后续数据清洗是一个非常重要的工作。普遍情况是,工程师不懂业务、分析师普遍不懂技术,两个团队又容易陷入到第二个陷阱中。
几天后,分析师和工程师团队,总算把例行任务上线了,发现数据库性能上不去,工程师提出方案改成Spark执行,但是分析师不会Spark,又要排期。
上面只是罗列了一些“囚徒困境”的实际场景,两个团队之间,在需求沟通、数据质量控制、最终数据加工方案上,很容易遇到各种各样的问题。本质上这些问题就是:技术不懂业务、业务不懂技术,鸡同鸭讲,能讲通吗?那么我们如何走出来呢?
回到现实条件下,客观的看待阿克塞尔罗德的试验,虽然他指出了走出囚徒困境的解法,但是,这个试验的条件相对简单,而且试验的次数可以是几千几万次,而对于现实工作,我们如何在有限条件下走出囚徒困境,是需要各找各的办法的;另外,也要依托一些先进的产品,想办法降低摩擦,找到双方友善、宽容的合作方案,不陷入囚徒困境。
文档,在传播需求,达成共识的过程中,起到非常重要的因素。在数据产品中,文档是一个不太起眼,但是非常重要的环节。它应该有这样的功能:
1.在文档中可以直接嵌入数据,包括数据的链接、字段,可以让读者快速读取数据、字段定义等,当然,最好还能包含数据的作者、业务含义等描述。可以尽量降低沟通的磨蹭。
2.文档需要有版本管理,可以进行对比。数据工作是一项繁琐、严肃的工作,文档随意更改、变更、丢失,对于构建一个完整的数据系统是致命的。
之前在一些群里,看到数据分析师讨论学习哪些技术,比如Spark、SPSS、SAS,我个人觉得这些技术工具值得学,但是更重要的是要从业务的角度入手。
1.数据(商业)分析师的职责,不是和数据工程师抢饭碗,而是帮助老板、企业研究数据,基于数据做决策,因此,更要以业务的视角去理解、使用数据。
2.工程师们,如果只想从事技术工作,需要更好的做好技术性的支撑,例如确保数据系统可靠性、易用性,做好不同系统之间的整合工作。要及时、有效的从搬数据、抽取数据中解放出来。
随着技术的发展,基础的数据平台会越来越多,数据分析师不太可能全部学会,更不要说精通。那么,一个业务逻辑,数据(业务)分析师如何让技术团队看懂、翻译自己的工作,就非常有讲究了。但是非要让别人看懂、翻译吗?我们数据分析师团队,能不能直接操作大数据平台呢?
1. 数据加工本身可以被抽象成语义,经过不同的编译过程,理论上就可以翻译成SQL语句、Spark程序等等。数据分析师对数据的整理、建模,尽可能不用工程师帮忙,这样可以尽可能的降低重复劳动、减少工作的误差、浪费。
2. 数据工程师,可以腾出时间去处理数据平台的其他工作,做好不同组件的整合,做好数据加工的性能优化。
-END-
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)