很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
这是我的第36篇原创
之前分享过中台,前两天又分享了数据治理的相关内容。有个同学嚷嚷着让我说一下数据中台。虽然我做过数据中台,但是不算成功,写起来总觉得不太自信。
既然朋友盛情邀请,那就把我的理解整理一下,给大家分享一下。
OK,Let's GO!
在数据领域,从业务方向上可以分为OLTP(联机事务处理)和OLAP(联机分析处理)两个领域。这个名字很拗口,但是也很有意思。
OLTP就是你在本地操作,相对于单机而言,数据记录在本地,就叫单机事务处理,在本机操作,数据记录在服务器上,这叫联机事务处理。
OLAP就是数据存在服务器上,你在本地调用数据进行在线分析,这叫联机分析处理。
OLTP的发展路径其实就是数据库的不断演进,从关系型数据库从单机数据库到高可用版本,到现在的分布式关系型数据库。另外为了满足各种场景下的数据存储和查询,还诞生了NoSQL、MPP、时序数据库等一系列的数据库,大数据行业就此拉开序幕。
OLAP的发展路径也很有意思。一开始只是在业务数据库中建个表,统计一下各种固定报表。后来需要分析的内容越来越多,就开始不断的向前发展,这样也迎来了大数据分析师的黄金发展期。
最早的时候,是没数据仓库什么事情的,OLAP的内容也少,只有少量的固定报表,那时候都是开发人员在业务库直接存储的。
现在很多系统仍然是这样的,比如你采购一个erp、电商平台等,自带的绝大部分报表都与业务系统在一个数据库中的。其实这个时候正式对应系统架构中的“单体架构”。
随着信息系统的不断建设,管理者开始不太满足于固定的寥寥几张报表,他们期望看到更多细节,找到异常,发现问题。这时候,就必须要有一个信息系统去满足他们的需求,DSS/BI系统就顺应而生,几乎同时,数据仓库的概念也一并被提出。
1990年前后,现代化的BI和数据仓库几乎同时诞生。这也无可厚非,这俩天生一对啊。BI就是OLAP的业务应用体系,数仓就是为了支撑BI而生的。数据仓库之父比尔·恩门(Bill Inmon)在1991年写了一本书《建立数据仓库》。对,就是那个inmon、kimball建仓方法论的inmon。
这时候,业务数据和分析数据开始分道扬镳,走上了不一样的道路。业务数据处理(OLTP)向准确、及时、一致的方向不断迈进;分析数据操作(OLAP)向历史静态、聚合、关联、多维的方向发展。
一个典型的问题就是在业务数据库中,你无法回答类似于一个订单的选购、下单、支付、发货、完成的全流程各用了多少时间的问题。当然,你可以通过冗余N个时间戳来解决,但是你无法将所有状态变化的数据统统记录下来。因为OLTP是反应当前的情况。
而OLAP就可以通过全量表、拉链表等方式保存历史状态数据,从而对每个对象进行历史分析。
tips:除了拉链表之外,通常还有全量快照表、增量表和流水表,一共四种形式收集历史数据,这四种情况下次开单篇聊。
数据仓库建设的目的就是为了进行数据分析用的。原则上来说数据仓库中的数据是不允许修改的。所以你看HIVE根本就没有update和delete的功能,很多人非常不理解其中的原因,其实这就是因为HIVE就是为了数据仓库而生的。
数据仓库解决的核心问题其实就是上面说到的,解决历史情况追踪,解决数据分析能力、解决业务频繁变化等一系列问题。
拿inmon老爷子的话来总结一下:
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
我有一篇文章,详细解释了数据仓库的完整建设路径和细节,可以移步了解一下:《点击查看:如何搭建一个数据仓库》
这个像什么?是不是很像系统架构中的微服务?对不对?横向分层,竖向切分领域。跟微服务的理念一样一样的。
数据仓库很好用,多维分析简直能满足老板的一切需要。它能让决策者从公司总体情况,一直下钻到每个业务员的贡献,极大的满足了决策者的掌控欲,同时也给企业的决策带来了坚实的数据基础。
但是,数据仓库也有其非常致命的弊端:所有数据必须经过定义之后才能被使用,所有数据都经过了ETL处理,所有数据都被聚合。
作为数据工作者的你,肯定能理解其中的含义。一旦数据被动过,那就会造成信息丢失。
而在算法时代,这是不可接受的。
因此,在数据仓库发展了20年之后的2010年,Pentaho的创始人James Dixon提出了一个“数据湖”的概念。简单来说,数据湖其实可以理解为一个巨大的ODS层。
任何使用数据的同学都可以直接到数据湖中自由提取数据:
在多维分析报表中钻取到最细颗粒度之后仍然不能解决问题的,就到数据湖中查看最原始的数据,查找根因。
在进行算法设计的时候,数仓中处理的数据已经损失了一部分信息,那就去数据湖中找更详尽、更丰富的底层数据,没准可以找到最佳特征。
数据湖貌似非常完美,能解决一切问题,但是肯定哄不住专业的你。是的,数据湖说的好听,是一个原生态的,任由你汲取的巨型数据源,说的不好听,就是一个数据垃圾堆。不管你管理的多么好都无法改变这个事实。
你现在已经找到了一个异常客户,想找到这个客户在公司业务流中的表现。我们应该会通过CRM与其进行沟通和跟进;通过交易平台与其发生交易;货物是通过ERP进行采购的,通过WMS记录货物存储信息的,通过TMS记录货物运输过程信息的。最后你是在微博中收到了他的抱怨信息,在客服中心的CallCenter接到投诉电话的。
这个时候,你想怎么办?各个系统都是独立建设的,所有数据都在数据湖中,你就是没办法把他们串起来!而且,这还是一条业务线。公司通常都会有N条业务线,每个业务线的系统都统统单独建立一遍,一个客户与公司发生关系的系统越来越多。
这个时候,数据中台就出现了。
图片来自于阿里云数据中台解决方案手册
所以你可以看到,数据中台解决的是什么问题:
实体的打通和画像-OneID;
数据资产的统一构建与管理-OneModel;
数据服务的统一服务-OneService
这三点,共同组成了数据中台的OneData的方法论体系。
OneID是最底层的数据打通,把各条业务线、各个业务系统的相同实体(如客户)进行统一识别。用户端的感觉就是你用一个id,可以通行阿里系所有app。企业端的感觉就是无论用户用什么客户端,通过那个系统与企业发生关系,都能识别成为一个用户;
OneModel是中间层数据的统一建模,这里其实就是数据仓库。只不过不是一个业务线的数据仓库,是整个企业,整个集团的,统一的数据仓库。
OneService是业务层的统一服务提供,其实还是那一套,主数据、即席查询、固定报表、多维分析等等。当然会多一些算法层面的试探,也仅仅是试探而已。
我在之前的工作中,就曾建立数据中台,主要工作内容就是做商品id和用户id的打通,进行全局统一建模,提供统一的商品主数据的编码工作和统一的数据输出。
如果你看过我之前分享的《一口气说透中台--给你架构师的视角-点击查看》,就会发现,这不就是中台架构吗?
如上图所示,其实在上篇文章中,就已经说清楚数据中台是什么了。在数据层面进行多条业务线的服务合并、标准化、统一化,统一抽象,这就是数据中台。每个架构都是要解决特定的问题的,数据中台解决的核心问题就是全局统一,全局标准,全局打通。
所以,不要神话中台,更不要神话数据中台。你没有这个问题,或者说当前最紧急的问题不是中台最擅长解决的,那就不要跟风建中台。那样会死的很惨的。
以上,与君共勉!
数据中台还是太大了,一篇文章说不完。这样吧,我把之前收集的市场上主流的三家数据中台供应商产品建设方案和一份咨询公司数据中台白皮书拿出来贡献给大家。关注“大数据架构师”公众号,在后台回复DATA即可获取下载链接。这可都是辛苦获得的内部资料呀~~~
对了,上次分享了《数据治理体系的建设》,我特意准备了国际流行的《DAMA-DMBOK数据管理知识体系》文件,后台回复dama即可获取下载链接。快去公众号领取吧~~~
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)