APP推广合作
联系“鸟哥笔记小乔”
(上)原理都懂,就是不会建模?来,顶尖数据模型走一波
2021-03-12 20:00:00

前言

兄弟们太猛了!我就要30个“在看”,结果半个小时就点满30个了,到今天,已经快130个了,多出来的是要干啥?吓的我肝儿直颤。。。

那我就写着,您老凑合看?

上次说到一家英国保险公司Direct Line委托IBM做客户中心的项目。结果IBM不知道派过去的人有问题,还是别的原因,给整劈叉了。项目原定要用Teradata的FSLDM模型,结果IBM就是不用,反而自己又整了一套,最后整的是一塌糊涂。

甲方甚至给出了这样的评价:

“以一种毫无章法、毫无根据的方式来复制和粘贴,以扩展该模型,结果破坏了设计集成层,使得EDW难以填充、维护和理解”。

最后的结果呢,IBM移交所有代码,赔了3个多亿。你可能会幸灾乐祸,IBM这么牛的公司,怎么也不会建模啊?

建模

其实数仓建模的方法论,Inmon和Kimball两位老爷子早就已经说完了。后面的各大公司基于两位老爷子的理论,做了大量的实践。

这两位老爷子的理论研究已经非常透彻了,透彻到什么程度?就是他们写的书,到现在依然能拿过来当做教材。什么数据湖、数据中台,其实底层建模理论还是原来的那些。

那么问题来了,到底啥是建模?

其实讲穿了,建模就是对现实世界的抽象

现实世界只有一个,那理论基础也是同源的,具体的应用场景也能找到共同性,那就必然能对某个场景抽象出一个合理的模型套路对吧?

是的。IBM、Teradata等IT巨头早已经把这些模型按照自己的方式抽象好了。

在银行这个行当,IBM有BDWM,银行数据仓库模型,Banking Data Warehouse Model。

Teradata这边的呢,就是FSLDM了。FSLDM全称是金融服务逻辑数据模型,Financial Services Logical Data Model。

除此之外,IBM还针对保险行业细分出IAA和IIW、Sybase也有IWS,这些都是行业经典的数据仓库业务模型。

把模型固化下来之后有啥好处呢?咱回到我经常给大家看的这张图:

业务建模部分的主要任务是把业务流程梳理清楚,这时候会产出各种流程图,方便我们了解业务,最关键的是识别我们要抽象的业务实体。

领域建模这边,就是围绕上面的核心实体,进行主题区域划分。主题区域划分的核心目的是对建设内容进行合理的切分。既要让主题相对独立,又不能建的太多,闹哄哄的没法弄。

逻辑建模这里,就得承上启下,逐步细化了一方面要看底层数据,另一方面要看业务需求。这时候就要把所有的实体和量化内容梳理出来,数据如何从底层一直流到应用层,都得想清楚,设计好。

物理建模阶段,基本上就是机械的工程建设操作了,建表、设计有向无环图,做任务调度。

看完上面的流程,你会发现,FSLDM把前面两个步骤的工作全做完了,第三个步骤的绝大多数工作也都做好了 。

在FSLDM里,整个模型分为三层:主题、概念、细节。一共10个主题域、小3千个实体和1万多个属性。根据第三层细节中已经梳理出来的内容,构建了343个逻辑视图。

这是什么概念?拿着这一堆的模型文件,只需要按照客户的个性化情况稍微处理一下,就能直接推到物理建模的阶段。

这简直是数仓领域的方便面啊,打开盖子,放入适量调料包,喜欢就加根肠,敲个鸡蛋,不喜欢就算。然后加开水泡一下,就好了!

在这里顺便吐槽一下绝大多数互联网公司,几乎没有建模,也没有文档,上去就是干,最后就是一堆的宽表。唉!废了!

主题领域

FSLDM长啥样呢?我带你走一圈哈。
建模的第一步是啥?捋业务,对吧?那银行保险业的业务是啥?选一个最简单的业务“买保险”场景来捋一捋:
买保险需要有几个参与方?投保人、买保险的小哥,还有保险公司。
交易涉及的内容呢?钱,保险产品,有时候还有活动,交易完了还得签个合同。
合同签完了,保险其实才刚刚开始,所以后面会有续保、理赔等一列操作。
OK,我们简单梳理之后,能提取出什么实体?交易双方得出来吧?交易内容得分别列出来吧?交易的核心内容得有吧?
交易相关实体包括:交易双方(投保人、受益人、保险公司、保险代理人);交易内容(保险产品、营销活动、保单);其他交易信息(交易渠道、钱)。
后续的续保、理赔也同理。
这是从买保险的视角看,但是运营一个公司可不止这么简单。
管理保险小哥,得要有绩效管理吧?不能光靠保险小哥啊,还得建立销售渠道。产品不能太单一了,得丰富起来吧?保险是一个强管控的行业,合规得做吧?财务得弄好吧?这里面的业务太复杂了!咋就能整理好?没法弄了!
虽然我参与过某保险的数据治理项目经验,但我也没能力在这里就把整个业务理清楚。太难了!
啥?你让我划分主题域?这个倒还行。前面不是说了么?建模就是对现实世界的抽象么。我们真实反应就好了。
有交易,有理赔,有续保,那就一个交易域,一个理赔域。续保算交易,划到交易就好了。客户域是少不了的,再来一个卖方吧,就是保险公司。产品域得有,保单这边也得有一个。差不多了,保险监管比较重要,再弄一个监管域。嗯,这样就差不多了。
看上去好像很有道理,对不对我们先放一边,咱来看看Teradata是怎么弄的。
Teradata经过对所有核心业务的梳理,在FSLDM里,把最最核心的内容提炼成十大主题域,即:当事人、资产、财务、区域、营销活动、协议、事件、内部组织、产品和渠道。
啥玩意?怎么跟我们想的完全不一样啊?当事人是什么鬼?取个新名字就显得更高大上一些?活动、组织、产品、协议、渠道、区域,我都能理解。
但是为啥要有事件?为啥把资产单独弄出来?财务和区域为啥还要单独有一个域?
没法理解啊!别急,咱把问题先放一边,继续往下看。
从上图我们可以看出各主题域的重要程度。很简单么,跟外面连接最多的,就是核心主题域了。最重要的就是当事人、协议和组织了。
这个很容易理解,刚才买保险的场景大致能对上,就是你买我卖,然后签个合同呗。其他主题域为啥这么分呢?
我们把Teradata和IBM的两个模型的主题域划分对比一下:
你看,是不是区别很大?前面5、6个主题域基本都能对上,后面的主题域划分逻辑就不一样了。
从这个主题域的切分上,我们就能看出来两个模型的侧重了。FSLDM更倾向于穿透到业务,BDWM就更侧重于通用性,所以会有分类、资源项目、条件等看上去含糊不清的主题域。
好,我们现在回想一下之前的一些问题。为什么FSLDM跟我们想的不一样?建模不是要真实反映现实世界么?
是,也不是。
我们怎么评价一个好的模型?
一个好的逻辑数据模型,应该是稳定的,这个没争议吧?
应该是灵活、可扩展的,这个也非常肯定对不对?
应该是规范的,这个是原则性问题。
应该是中性的、通用的。这个怎么理解?
其实很好理解。如果我们在建模的时候,只是顾着当前的业务模式,那最终的结果就是业务不断的变化,数据模型就跟着不断的调整,就像那个追着喂饭的家长,累死累活也喂不进去几口饭。
所以我们建的模型应该把抽象出来的对象尽可能的打散、重组,然后抽象、再重组,直到能够非常通用才可以。
因为只有这样,我们建设的模型,才能为同类型的新业务服务,甚至外延到其他BU。而脱离中性、通用的模型,是不可能稳定的。
简单来说,你不能说今天建一个卖保险的模型。明天你们公司要卖基金了,就支持不了啦,得再建一个。你要说流程不一样,咱可以理解,但是至少交易这个领域应该是可以共用的吧?
举个不是特别恰当的例子:链家当年建的楼盘字典,可不仅仅是给链家用。贝壳就是依托楼盘字典为核心建立ACN的,所有卖房的同行都能用。你以为这就完了么?并不是,租房的也能用,自如用的也是链家的楼盘字典。这就是中性、通用的典型代表。
所以理解了这一点,你再去看看数据中台,是不是也是这个逻辑?一样的!同学!
有一次我蹭了一堂阿里CIO学院的内部分享会,有个同学就提问题了,数据中台的这个One Model怎么这么神奇,能支持上面那么多BU的各种应用,而且业务发展这么快,你们还不需要大改?

那位目测是阿里P9+主持人的回答就是建模,建一个优秀的模型。

所以你看,建模这功夫有多深,从主题域就已经开始体现了。而FSLDM做的就非常高明。

结语

这就结束了?当然没有!这才刚分领域呢!下面还有单个主题域怎么设计、单个实体又怎么设计,不同层级的实体之间咋处理?两个领域之间怎么联系等等,一系列的问题。这已经3300字了,今天先这样。

还是老规矩,点一下“在看”,点的越多,我讲的就越详细。给我点动力,好继续码字呀

次分享的内容就结束了。本公众号目前保持日更3000字,为你提供优秀的数据领域的分享。本篇如果有帮助的话,还请点赞、在看分享一波!

欢迎大家加我微信好友,尽个点赞之交,有需要的可以拉你进数据建模交流群,2021更上一层楼!

推荐阅读

数字化转型案例失利的3大原因 by 彭文华

数仓的建模和BI的建模有啥区别?by彭文华

一口气讲完数据仓建模方法--数据仓库架构师碎碎念

传统数仓和大数据数仓的区别是什么?

传统数据仓库转型最佳目标:Kylin!


更多精彩:

大数据架构师
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
大数据架构师
大数据架构师
发表文章269
历任多家公司大数据总监、大数据架构师,专注于数字化转型领域。
确认要消耗 羽毛购买
(上)原理都懂,就是不会建模?来,顶尖数据模型走一波吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接