APP推广合作
联系“鸟哥笔记小乔”
网易数据治理工具产品实践
2021-12-16 11:07:11

作者介绍

@云娜

某大厂数据开发平台的产品;

专注数据治理和数据平台的相关内容;

“数据人创作者联盟”成员。




全文一共2800字+,阅读需要10分钟


今天分享的主题是网易数据治理工具产品实践,主要分 4 部分:

第一部分是网易内部一些业务线过往数据治理专项活动的回顾;

第二部分是当前数据治理面临的痛点;

第三部分是针对当前的治理痛点进行产品整体策略的分享;

第四部分是数据治理工具未来的规划。



过往数据治理回顾


首先分享的是网易内部,例如严选、传媒、音乐等在数据治理方面面临的一些问题,然后是针对这些问题做出的产品策略以及初步取得的成效。


对于业务线专项治理背景,都比较相似,一方面是随着业务的发展,严选、传媒和音乐的计算、存储达到瓶颈,但是对于业务方而言很难判断难以判断目前需要继续扩容增加资源,还是对劣质数据进行治理以降低资源危机,但是在这个过程中会面临如何定义劣质资源,怎么处理劣质资源,然后解决危机,因此进行治理成为亟待解决的问题。


另一方面而言,数据的生产链路较长,缺乏数据加工的统一标准,整个团队内有哪些数据,这些数据应该由谁负责,团队内有哪些数据,这些数据通过哪些任务产出,数据是否被业务系统和下游系统有效使用,数据的存在是否有意义,这些问题数据团队都难以准确回答。



针对数据治理方面面临的一些问题,我们制定了以下策略:


第一是具体化到治理责任人,包括表和任务具体到责任人,责任人资产梳理,指定专项治理负责人,对无认领资产下线;


第二是优化存储资源,涉及到无用数据下线,首先要对无用数据规则进行定义,然后基于无用数据进行扫描诊断,然后业务方对无用数据进行确认,最后操作下线,形成闭环分析;


第三是优化计算资源,对每次执行任务消耗的成本进行分析,整理出相关数据之后,业务方会根据数据来优化任务,对无用任务进行下线治理,针对某些只优化了某几个节点的任务形成前后对比分析,来了解优化是否有效,产生价值。


最后是治理效果量化可评估,在存储资源治理时知道下线了多少物理存储,在设置对表生命周期管理时,因为到期进行下线处理后节省了多少存储资源,将治理成效形成可量化的指标。 



接下来是成本度量体系,在业务内部会有账单体系,在体系中明确定义了计算定价和存储定价,面临的问题是如何将计算和存储折算成费用。


从计算、存储的元数据仓库中对表和任务进行清洗和计算,然后将这些任务执行过程中消耗的资源结合账单体系折算成费用,会较清晰的知道调度任务、Query查询消耗的计算成本,数据表存储成本+产出表的计算任务分摊的成本。



针对于以上策略,已经有一些功能落地。


首先是任务和表具体化到责任人,这个责任人可以在列表中筛选自己的任务,如果这个任务没有责任人或者责任人离职,这个任务会转接到业务专项治理责任人,然后是无用数据下线功能,会给对应人员提供入口,让他对无用数据或表确认下线,确认下线后,平台会把下线内容暂存在回收站,到达一定时期后会进行彻底的删除;


接下来是表生命周期,支持对内部表和外部表的生命周期设置,防止某些表应该在一定的时间被删除,但由于没有设置生命周期,而产生冗余的存储。接下来是对离线开发和Query查询消耗的任务成本进行分析,例如任务耗时多久,每次运行产生的预估费用是多少。



然后是针对治理效果的抓手,制定负责人红黑榜,可以知道某项任务下不同人做的好坏程度,然后是对费用和下线情况的指标量化,例如下线了多少任务,节省了多少存储,预估节省了多少费用,在整体上形成清晰的认知。


最后是邮件和内部工具的通知,形成催促的作用,收到通知的人包括项目管理人,他可以知道当前项目下有哪些人还没有完成相关事宜,另一类人是表和任务的真正负责人,他需要知道自己还有哪些任务需要优化,完成治理后可以为项目 节省多少费用。



2 当前治理痛点


当前治理痛点包括:


(1)数据不规范,存在误删风险,表目录定义不规范,对外表生命周期管理,若未校验核对,选择删除目录文件会存在数据丢失的风险;


(2)不被重视,治理动力不足,疲态应对业务需求,只开发不治理,动力不足,人员更替频繁,遗留大量历史数据;


(3)治理非闭环,周期性催促治理周期性被领导催着治理,阶段性治理和资源告急循环往复,缺乏长效治理机制;


(4)治理效果量化指标粗糙,各个负责人下线了哪些数据,节约了多少存储,省了多少费用,无从得知,更加衍生治理的消极心态。



在数据治理方面依然有很多填不完的坑,例如:


(1)存储成本,数据量持续增加,源源不断的带来存储成本;


(2) 计算成本,队列资源持续紧张,任务优化迫在眉睫;


(3)数据质量,加工链路长,任何一个环节都可能带来质量问题;


(4)模型规范,基于ODS、DWD层生成的报表数量居高不下,模型复用率低;


(4)数据安全,管理员成员繁杂,权限太大如何控制,闲置的权限如何回收;


(5)数据价值

数据服务API、BI报表等下游应用系统,引用表的存储和计算成本如何估量,如何通过下游应用量化数据价值。


3 产品整体策略


接下来分享的是基于上面提到的痛点,分享产品的整体策略。在数据治理时采用的整体策略是阶梯化的治理方案,第一明确治理的范围,系统性梳理数据治理


范围,让决策者看见并关注,知道哪些数据应该进行治理;第二量化数据治理的价值,需要一套度量体系+抓手,让一线用户关注并看见问题,形成积极的治理新她爱;第三形成体系化治理,短期运营+长期机制建设,软硬策略兼施,保证落地结果并体系化工具化治理。



第一是明确治理范围,围绕数据的全生命周期展开,从数据生产到管理,包含:成本、标准、质量、安全、价值;包括数据生产,数据消费,数据管理。



第二是量化数据治理价值,基于资产健康分维度,具体涵盖以下五个方面,建立公司/项目/个人视角的数据资产量化评估体系。针对不同的资产健康分采用不同的策略。



第三是体系化的数据治理,针对刚才提到的五个方面明确每个方面需要治理的点,采用相应的手段和优化工具。主要围绕发现问题,解决手段,持续运营持续沉淀三个方面展开。



4 未来规划

最后一部分是数据治理工具未来的规划,愿景是打造成一款全流程、自动化、可落地、高质量的大数据评估和优化工具,成为数据治理的利刃;使命是降本提效,省钱省力。



-END-

分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
一个数据人的自留地
数据人交流和学习的社区,关注我们,掌握专业数据知识、结识更多的数据小伙伴。
确认要消耗 0羽毛购买
网易数据治理工具产品实践吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接