很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
大家好,我是大家的怪力少女——赵壮实。
经过了近2个多月的学习,我们终于来到最后一篇:数据治理。
数据治理是一个大话题,在数据界会是一个越来越?的话题。不信,请看百度指数。
我对比了近一年来,全国全端关于「数据治理」和「数据分析」两个关键词的搜索情况,我们可以明显发现,在数据分析如此「家常化」的今天,数据治理也在慢慢出圈了。
壮实预测,未来市场上将会有一大波围绕数据治理的RD、PM、OP的岗位供给数据人才。(有点dy张诗童的味道了。。)
为什么这么说呢。这个很好理解,在早期互联网迅猛发展之时,大家一股脑儿地注重速度,注重数据分析;但是当大家发展地差不多的时候,就会比谁的数据更安全,谁更效率。
好嘞,话不多说,我们来谈谈今天的议题——数据治理。
如果你感兴趣的话,没准能作为一个新的职业方向。
数据治理定义:
Data governance is a data management concept concerning the capability that enables an organization to ensure that high data quality exists throughout the complete lifecycle of the data, and data controls are implemented that support business objectives. The key focus areas of data governance include availability, usability, consistency, data integrity and data security and includes establishing processes to ensure effective data management throughout the enterprise such as accountability for the adverse effects of poor data quality and ensuring that the data which an enterprise has can be used by the entire organization. —— 维基百科
数据治理是对数据资产管理行使权力和控制的活动集合。—— 国际数据管理协会(DAMA)
从上面的定义,我们可以得到两个比较关键的信息:
数据治理服务于组织。
数据治理表现为管控数据生命周期中的数据高质量,包括:数据可获得、数据可使用、数据一致性、数据安全。
好的,说完定义,我们来看看现实:
从上图可以看到,数据治理可以包括产品、技术侧的治理,也可以包括数据安全。
从壮实的角度来说,数据治理是一个很大的词语,简单来说,可以理解为:一切为提高生命周期内,数据质量的解决方案。(准度、精度、量度)
目前,无论是在数据产品侧还是在数据技术侧都是探索阶段,就产品来说,如图所示,产品侧比较常见是以下三种:
1.元数据管理:比如管理了多少数据资产(任务、维度、指标、报表),什么来源、什么主题、来自于什么数据源,流向了什么数据应用。
2.数据资产管理:有价值的元数据可以变为资产(热度),数据资产用什么方式对上层应用提供服务,这些对外服务是如何管控的,谁使用了数据,用了多少数据,是否应该用图形化的方式进行统计和展现。
3.数据资产治理:
无价值数据展示。这时候就要盘一盘,发现了多少条问题数据,处理了多少条问题数据,是否应该有一个不断更新的统计数字来表示。
治理工具。如使用什么样子的工具有助于发现问题、解决问题 。
治理排名工具。如数据质量问题逐月减少的趋势,是否应该用趋势图展现出来。数据质量问题根据部门、系统的排名,是否应该加在数据质量报告中,提供给决策层,帮助客户进行绩效考核。
总之,壮实认为,不要为了治理而治理。我们做数据治理工作,一定要从需求&痛点开始,就想办法让用户直观地看到成果,体验收益。(注意是“体验收益”,不是“感知收益”。)
为什么商业需要数据?是用数据评估任何动作的效果。所以,指标的源头实际是业务同学定义的。但是背后有决定指标定义的商分同学、产生数据的研发同学、服务任何使用数据的数据产品同学。
所以,数据准不准?数据谁来用?谁是数据的最终受益人——业务同学。
两点结论:
业务同学学会数据分析,将会大大提高企业效率。
指标/维度的定义,需要从业务同学中来,再到业务同学中去。
脱离指标维度说数据技术的人,在一定程度上是耍流氓。。。。壮实,今天想谈一谈,业务中如何对齐指标维度。业务对齐指标维度,在数据角度可以从底层和应用层有不同的解法,应用层偏重于指标/维度如何梳理/打通/维护;底层偏重于从分层建模的角度解决。
下面的图,就是阿里老大哥,根据三种表+业务指标划分,提供的一种指标定义和生产的方案。
这个还是行业老大哥阿里的一个图:
这里要理解1对概念。
原子指标:基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词,如支付金额
派生指标:一个原子指标+若干修饰词+时间周期。如最近1天海外买家支付金额。阿里还把派生指标分为三类,但是去别的公司,可能不这么定义。。。
事务型指标:是指对业务活动进行衡量的指标。如新发商品数,重发商品数。
存量型指标:是指对实体对象(商品,会员等)某些状态的统计。例如商品总数,注册会员总数
复合型指标:是在事务型指标和存量型指标基础上复合而成。如UV-下单买家转换率。
关于表可以回去翻一下壮实的第一篇和第二篇文章哦~
以下是阿里老大哥的数据层次图:
因为这里是研发的重点,壮实简要说模型设计原则和流程两点:
分层模型设计原则
1. 高内聚和低耦合,业务相近或相关,粒度相同的数据设计为一个逻辑或者无力模型。将高概率同时访问的数据放在一起。
2. 核心模型与扩展模型分离,核心模型包含常用核心业务的字段,扩展模型包括一些特定的或者少量使用的应用字段。
3. 公共处理逻辑下沉及单一,越是公共数据越要在数据底层封装,避免暴露其处理逻辑,公共逻辑不要多出存在。
4. 成本和性能平衡,适当的数据冗余,但不能多。
5. 命名清晰,可理解。
实施工作流
1.充分的业务调研和需求分析
2.进行数据总体架构设计,根据主题域对数据进行划分,按照维度建模理论,抽象出业务过程和维度
3.抽象整理出相关指标体系
4.使用相关工具或按照相关规范完成指标规范定义和模型设计
5.代码开发和运维
好了,今天的数据治理就到这里了,因为数据治理是解决实际问题,市面上的解决方案比较少见,同学们感兴趣,可以多多探索~
但是,解决从底层到业务同学的数据指标对齐问题,是一个长长久久、长治久安的问题,也是数据治理的一个很重点的问题。
如果你对数据治理感兴趣,可以进行深入的学习,抓住这次治理的风口哦~
-End-
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)