APP推广合作
联系“鸟哥笔记小乔”
数据处理全流程解析(如何进行数据处理)
2022-04-21 17:12:55

本文将从数据采集层、数据接入层、数据处理层、数据应用层这四个层次来依序展开,讲述一条数据从埋点产生,一直到最终被加工应用的过程,通过本文的阅读理解,你可以收获:

1、一个完整的数据处理链路;

2、理解数据在不同环节的加工方式;

3、对数据的流转有较为全面的认识;

一个埋点的求生之路——数据处理全流程解析


01 数据是如何被采集的

数据采集是一个完整的工作流程,他需要三个标准的动作来完成:埋点、采集、上报,这也是一组数据从产生到存储必经的三个步骤。

1.1.埋点

埋点的功能是,在适当的位置,以特定的时机,以预定好的规则收集我们需要的数据的一种技术。

一方面,当用户在app中产生动作时,对于我们来说,是不可见的。所以我们需要通过埋点,把用户的行为尽可能全面,准确地记录下来。以便我们后续对数据进行挖掘分析,以可视化的方式,重新复现用户的行为。

另外一方面,除了用户的行为外,很多时候我们还需要分析其他实体的行为,比如对于我们的app来说,会在崩溃的时候发送错误日志,这其实也是一种埋点,用于分析app自身这个实体,其他还有活动,商品等等实体。

至此,我们可以给埋点重新再下一个定义:埋点是对于特定的实体,在适当的位置,特定的时机,以预定好的规则收集我们需要的数据的一种技术。

所以我们需要有一个需求文档,记录埋点的事件、埋点的位置、埋点的上报时机、以及需要收集的数据等。

一个埋点的求生之路——数据处理全流程解析


1.2.收集

一旦埋点被触发,数据便会产生,埋点便会以我们预先设定好的规则去捕获特定的数据。

但程序在运行时所有的变量都是保存在内存当中的,如果出现程序重启或者机器宕机的情况,那这些数据就丢失了。埋点数据的丢失会给我们后续的分析带来困扰。

所以我们需要对内存中数据进行序列化,变成可传输的文件暂存在本地文件。为后续的上报动作做准备。一般的接口返回数据都会封装成JSON格式,比如类似下面这种:

一个埋点的求生之路——数据处理全流程解析


1.3.上报

经过收集的数据从产品被送往数据接入层的动作过程就是上报。只有完成了上报成功并被存储,才能算是对实体进行一次行为的记录。

上报动作会对数据做最终把关:首先,筛查待上报数据,确保这些数据是被允许上传的,然后,按照数据协议的约定,将待上报数据以合适的方式打包,最后,建立与数据接入层的通讯,完成数据包的传送。

原则上我们是希望数据能够被及时准确地上报,但是我们并不是出于时效的需求,而是希望能够被完整且准确地记录而已。所以在开始时,对于大部分埋点,可以将多个数据进行一定的积累后统一进行上报,既能保证产品的性能,又可以减轻数据的服务器和网络负担。常见的上报策略有四种:

一个埋点的求生之路——数据处理全流程解析


当完成这几步操作后,此时数据就已经脱离APP了,开始往数仓的方向流动,数仓承担着接收数据并最终将数据落地到应用的职责。

02 数据是如何被接收的

数据在到达接入层后会经历解包、解析转换、数据清洗、数据存储四个技术流程。只有经过了这一系列的步骤,数据才能够以规整的形式呈现出来,以供下一个环节的消费。

2.1.解包(反序列化)

当两个进程(前后端)在进行远程通信时,彼此可以发送来各种类型的数据。

但无论是何种类型的数据,都会以二进制序列的形式在网络上传送。发送方需要把这个对象转换为字节序列,才能在网络上传送;

接收方则需要把字节序列再恢复为对象。埋点数据在被上报的时候,是以json的格式进行压缩传输的,所以数据在到达接入层后会经历解包(也就是反序列化的操作)操作。

2.2.解析转换

在数据收集的阶段,我们收集上来的数据是按照一定的规则进行拼装的,所以到达了接入层之后,就需要对它进行解析。

首先把它每个字段对应的度量值都提取出来。然后提取出来后的数据还要经过一步转换,因为在解析后的数据类型与之前采集时定义的逻辑类型会存在差异,所以需要按照原先的定义,将每个字段的取值转换为正确的类型和格式。便于后续的处理与应用

2.3.数据清洗

而且当数据量足够大时,必定会产生“不干净”的数据。我们以脏数据来称呼这类数据。脏数据一般是指不真实、不完整、不正确、重复或无意义的数据。在数据采集和接入的过程中,产生脏数据的原因有很多,常见原因如下:

  • 因数据采集组件未被正确配置导致一组数据缺失关键度量而不完整;

  • 因用户产品发生异常导致上报的数据中存在错误;

  • 因用户产品发生异常或网络传输故障导致同一组数据被重复上报。

脏数据往往无法被纠正和利用,数据清洗的目标就是尽可能地消除脏数据,并修复脏数据产生的影响。对于自动化数据产品体系而言,这一过程要通过设置各种识别规则,结合机器学习来完成,必要时也要进行人工干预,以促进自动化体系的完善。

2.4.数据存储

把数据比作客人,如果之前的三个过程是对客人的各种招待(当然也包括将不速之客拒之门外),那么数据存储就是要为客人安排住宿了,数据仓库是实现数据存储的重要技术手段。

根据数据协议和采集规则 的定义,接入层会事先在数据仓库中建立相应的表(Table),然后将接入的每一组数据依次存入表中(每一组数据在表中占据一行)。

这样看来,数据仓库就像一座大型宾馆,每一张表则是为不同体格的客人量身定制的各种不同的房间。将各表以某种时间粒度(如小时、日、周)划分分区,根据上报时间将数据分配到对应的分区中,不仅便于数据的归档存储,更有利于提高数据在今后被提取使用的效率。

最终在处理完之后,埋点日志就变成一条条的明细记录在表中,在多维事件模型中,是以大宽表的形式存在,在维度模型中,则是以事实表的形式存在。这些都是最原始的,未经过数据处理的明细数据,具体要怎么运用它们,就需要进入到我们下一步,数据处理的流程了。

一个埋点的求生之路——数据处理全流程解析


03 数据是如何被处理的

数据接入层所存储的上报数据是最原始的数据形态,是一系列用户行为的明细数据,这些数据往往只是对用户行为等的事实描述,离分析和应用还隔着“处理”这关键的一层。

数据处理层通过两个基础操作:归并和计算,便可针对各种应用场景做各式各样的处理,产生各种类型的数据以供消费。

3.1.归并

归并是指从一张或多张数据二维表中选取部分数据,整理成一份“新”二维表的操作,归并处理主要有以下四种操作,选择、投影、合并、联结:

针对一份数据:

选择(Selection):将一张二维表,以一定的规则按行抽取其中部分数据形成“新”的二维表,列数不变

一个埋点的求生之路——数据处理全流程解析


投影(Projection):将一张二维表,以一定的规则按列抽取其中部分数据形成“新”的二维表,行数不变

一个埋点的求生之路——数据处理全流程解析


针对多份数据:

合并(Union):把两张二维表按行拼接成一份“新”二维表,即纵向扩展,两张二维表所有列上的字段必须相同。

一个埋点的求生之路——数据处理全流程解析


连接(Join):把两张二维表按列拼接成一份“新”二维表,即横向扩展。两张二维表至少有一个相同字段作为连接键。

一个埋点的求生之路——数据处理全流程解析


3.2.计算

这里的计算与数学中的计算概念大致相同,指通过已知数据得到未知数据的过程。在数据处理中,常见的计算操作分为两种:组合计算和聚合计算

组合计算:将二维表的不同列(维度)上的度量值进行横向计算的过程。(可以是数学运算,也可以是逻辑运算,条件运算等)

一个埋点的求生之路——数据处理全流程解析


聚合计算:将二维表的同一列(维度)上的度量值进行纵向计算的过程。(一般用于统计,如计数、求和、求平均、求方差、求极值等)

一个埋点的求生之路——数据处理全流程解析


在经过一系列的归并与计算之后,数据已经被开发人员制作成具有业务意义的指标了。并且在不同的表中储存起来。于是接下来我们就可以对这些指标,进行实际意义上的应用了。

04 数据是如何应用的

在经历了采集、接入、处理这一系列流程后,数据终于到达应用层了。现在的数据虽然已经被制作成指标,但还是以一种不太友好的方式——数据表的方式呈现,所以我们要在提供的数据基础上,制作成各种数据产品,落地到业务,让数据可以真正为业务提供价值。

从发展形态来看,数据产品基本是沿着一条解决问题的逻辑路径在进化的,即发现业务问题→分析定位问题→预测业务问题→智能处理问题。

对应这个路径的数据产品则是:报表型产品(业务报表,DashBoard等)、到分析型产品(OLAP、漏斗工具、路径分析工具等)、再到策略型产品(推荐系统、流失预警系统等)、最后到智能型产品(智能运营、智能营销等)

一个埋点的求生之路——数据处理全流程解析


大数据全景图

前面的几个类型的产品大家都应该是比较熟悉的,讲讲最后一个智能型产品吧。这个也是现阶段业内都在研究与探索的内容。所谓的智能型产品到底是什么呢?

其实他是前一个阶段的产品——策略型产品的一个进阶,并且引入了大量自动化的机制来减少人的操作与决策过程。

比如,你现在有一套传统的营销系统,可以按照自己的分群规则来筛选目标用户,并对设定在固定的是加你节点上,对这批用户进行触达营销。但是如果是智能营销系统的话,他的实现思路可能是这样的。你只要输入你的营销目标及活动相关的参数,比如像双11的促销活动,系统就可以基于以往的海量数据计算出不同品类的商品应该采用什么样的活动方式,对哪些类型的用户推送,在什么时候推送等等。而这一些操作,都不需要人工去干预。可能最终机器只是输出一个最终的执行方案让你点一下是否确认而已。完全释放了运营的人力,机器的数据逻辑取代了运营的经验决策。

但是,目前还没见到有比较完美的实现方案,大部分实现的都是半自动的智能型产品。虽说暂时没有,但不代表以后不可能,至少在可预见的基础,这个功能是完全有可能实现的。

05 写在最后

巧妇难为无米之炊,要掌握好一个数据产品的设计思路,就需要对产品背后的数据处理流程进行深刻的理解,去感受数据在不同处理环节中产生的价值。

赵同学
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
赵同学
赵同学
发表文章20874
确认要消耗 羽毛购买
数据处理全流程解析(如何进行数据处理)吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接