APP推广合作
联系“鸟哥笔记小乔”
一文搞懂!商业数据分析全流程
2023-06-25 15:32:21

商业数据挖掘是一项涵盖了商业问题的提出、数据收集和处理、模型构建和应用等多个环节的复杂过程。

首先,业务分析师或客户提出一个具体的商业问题,这个问题的提出需要基于对业务的深入理解和分析。接下来,需要结合企业或组织的三大资源——高质量的数据、业务知识以及数据挖掘软件,通过数据挖掘技术从大量的数据中提取出有商业价值的信息。最后,将这些洞察力嵌入到实际的业务流程中,用于提升销售收入或利润,降低成本,提高运营效率等业务目标。

为了使数据挖掘过程更加规范化、系统化,出现了一些数据挖掘流程模型,CRISP-DM即是其中的一种优秀代表。CRISP-DM全称为CRoss Industry Standard Process for Data Mining(跨行业数据挖掘标准流程),如图1.2所示,这个流程模型将整个数据挖掘过程划分为六个主要阶段:业务理解、数据理解、数据准备、模型建立、模型评估和结果部署。

CRISP-DM强调,数据挖掘是一个迭代和探索的过程,六个步骤并不是线性的,而是根据实际情况灵活进行的。例如,如果在数据理解阶段发现现有数据无法解决业务问题,可能需要返回到业务理解阶段重新定义问题;如果在模型建立阶段发现数据无法满足建模需求,可能需要重新进行数据准备;如果在模型评估阶段发现模型效果不佳,可能需要返回到业务理解阶段审视问题定义,或者返回到数据准备和模型建立阶段调整模型。

CRISP-DM流程为企业提供了一种结构化的方法来进行数据挖掘和分析,通过每个阶段的专业处理,能够有效地从大量数据中提取出有价值的信息,支持企业的决策,提升企业的竞争优势。

1. 业务理解

业务理解阶段是CRISP-DM流程中的第一步,这个阶段对整个数据分析项目至关重要。正确理解和定义业务问题将极大地影响后续的工作。此阶段的主要目标是对商业问题进行明确的界定,并评估和组织企业的内外部资源,使得可以更好地进行后续的数据挖掘任务。在业务理解阶段,我们需要完成以下工作:

● 确定商业目标

此部分应详细介绍商业背景,明确商业目标,定义达成目标的成功标准。例如,如果是一家电商公司,可能的商业目标是提高用户转化率或减少购物车弃置率。成功标准可能是在一定时间内将转化率提高到某一特定的百分比。

● 形势评估

这是对项目当前环境的全面评估,包括企业已有资源(如数据、人力、技术等)、需求、假定和限制、风险偶然性,以及专业术语的解释。此外,还要进行成本收益分析,以确保项目的收益超过成本。

● 确定数据挖掘目标

在明确了商业目标后,需要转化为数据挖掘的目标,这可能涉及到预测某一特定指标,或是发现潜在的数据模式。同时,还需要定义数据挖掘的成功标准,例如,模型预测的准确率或召回率达到某一特定水平。

● 制订项目计划

根据前述的信息,制定详细的项目计划,包括时间线、责任分配等。此外,还要对可能使用的工具和方法进行评估,例如,可能需要确定使用哪种编程语言,以及是否使用开源库或是商业软件以降低开发成本。

这个阶段的目标是将商业问题转化为数据科学问题,并确定实施方案。每个步骤都需要深入的业务理解和交叉学科的知识。在整个过程中,与业务团队、数据科学团队和其他相关团队的紧密沟通是非常重要的。

2.  数据理解

数据理解阶段是CRISP-DM流程的关键环节,主要的任务是对企业的数据资源进行深入的认识和初步清理。这个阶段能够让分析师对手头的数据有一个全面的了解,为后续的数据准备和模型建立打下坚实的基础。在这个阶段,我们需要完成以下工作

● 收集原始数据

首先需要收集原始数据。这个过程可能包括从数据库中提取数据、获取第三方数据源、或者直接从业务流程中获取数据等方式。数据收集报告应记录详细的数据收集过程,包括数据来源、收集时间、数据量、数据的类型和格式等信息。

● 数据描述

数据描述报告主要是对数据的基本信息进行描述,包括数据的大小、数据的字段含义、字段的数据类型(如数值、类别、日期等)、数据分布的概况等。这个过程有助于我们了解数据的结构和基本特性。

● 探索性分析

数据探索性分析是对数据进行更深入的分析,包括计算一些统计量(如均值、中位数、方差等),绘制图表(如直方图、散点图、箱线图等),检查数据的分布,探索变量之间的关系等。探索性数据分析报告应详细记录这个过程的结果,包括发现的数据特征、数据的异常值、变量间的关系等信息。

● 数据质量报告

数据质量报告主要评估数据的质量,包括数据的完整性、准确性、一致性和时效性等。数据质量问题可能包括缺失值、重复值、异常值、错误的数据类型等。数据质量报告应明确指出这些问题,并给出解决的建议。

在这个阶段,一个重要的原则是:数据质量的好坏往往直接影响到数据分析的结果。因此,对数据进行详细的理解和初步的清理是非常重要的。

3.  数据准备

 

数据准备阶段是CRISP-DM流程中非常关键的一环,主要是在建立数据挖掘模型之前对数据的最后准备。在企业的实际情况中,数据往往被存储在不同的部门、不同的数据库或者数据库中的不同数据表中。因此,需要对这些数据进行整合和转换,以生成符合数据挖掘需求的数据集。在这个阶段我们需要完成下面一系列工作:

● 选择数据

在数据准备阶段,不是所有数据都适合数据挖掘,因此需要确定哪些数据应该包含在数据挖掘中,哪些数据应该被剔除。这个过程可能涉及到对数据的抽样,基于业务知识的特征选择,以及基于统计分析的特征选择等。

● 数据清理

数据清理是对数据进行质量提升的过程,这可能包括对缺失值的处理(如插值、删除等)、对异常值的处理(如修正、删除等)、对重复值的处理等。数据清理报告应详细记录数据清理的过程和结果。

● 数据重构

数据重构可能涉及到生成新的字段和记录,例如,根据已有的数据计算出新的特征(如从日期中提取出月份、季节等)、进行数据的离散化或连续化、进行数据的平衡等。

● 整合数据

在现实企业中,数据可能被存储在不同的数据库或数据表中,因此需要对这些数据进行整合。这可能涉及到数据的合并、数据的连接等操作。

● 格式化数据

最后,需要将数据转化为适合数据挖掘的格式。例如,对于定类数据,可能需要进行独热编码或者哑变量转换;对于数值型数据,可能需要进行标准化或归一化。

 

数据准备阶段的工作量通常占据了整个数据挖掘项目的大部分时间,因为它涉及到的任务复杂并且冗长。然而,高质量的数据准备是建立有效模型的关键,因此这个阶段的工作是非常重要的。

4.  建立模型

建立模型阶段是数据挖掘工作的核心环节,其主要任务是选用适当的模型和算法来发现数据中的规律。数据挖掘模型大体上可以分为数据描述和汇总、细分、概念描述、分类、预测和相关性分析等。以下是建立模型环节的主要工作:

● 选择建模技术

选择合适的模型和算法是这个阶段的第一步。选择的过程中,需要考虑模型的假设和要求(如对数据的分布有无特定要求,是否需要大量的样本,计算复杂度等),以及模型的适用范围。对不同的模型技术进行评估和对比,以确定最合适的建模技术。

● 产生检验设计

为了评估模型的性能,需要设计相应的检验方案。这可能涉及到数据的划分(如训练集、验证集和测试集的划分),以及评估指标的选择(如准确率、召回率、AUC等)。检验设计应详细说明如何对模型的性能进行评估。

● 建立模型

在选择了模型和算法后,需要设定模型的参数,如正则化参数、决策树的深度等。然后使用训练数据来建立模型。建立模型的过程应详细记录,包括模型的具体形式、使用的参数、训练的过程等。模型的适用性概述应说明模型适用的场景和限制。

● 模型评价

建立模型后,需要使用验证集和测试集来对模型的性能进行评估。模型评价应详细记录模型在各项评估指标上的表现。根据评价的结果,可能需要对模型的参数进行调整,或者尝试其他的模型和算法。

这个阶段的目标是建立一个既符合业务需求,又能在数据上表现良好的模型。这可能需要反复的尝试和调整,以及深入的业务和技术知识。

5.  模型评价

模型评价阶段是数据挖掘流程中非常关键的一步,它的目的是评估模型是否达到了预期的效果,并决定是否将模型投入到实际应用中,或者是否需要对模型进行进一步的优化和调整。模型评价通常涉及到技术层面和商业层面的评估,分别由建模人员和业务人员来共同完成以下工作:

● 结果评估

这个阶段的主要任务是评估数据挖掘模型的结果,从技术角度(如准确率、召回率、AUC等评估指标)和商业角度(如模型对业务的贡献、模型的可解释性、模型的实施成本等)进行全面的评价。结果评估应详细记录模型的评估过程和结果,包括模型在各项指标上的表现,模型的优点和缺点,模型的改进空间等。

● 数据挖掘过程回顾

在模型评价阶段,也需要回顾整个数据挖掘的过程,查找是否存在疏忽和遗漏之处。例如,是否有更好的特征可以使用,是否有更好的模型可以尝试,数据清理和准备的过程是否充分等。数据挖掘过程回顾可以帮助我们找到改进的机会,提升模型的性能。

● 确定下一步的工作内容

根据模型的评估结果和数据挖掘过程的回顾,我们需要列出所有可能的行动方案,包括对模型进行优化,尝试新的特征和模型,收集更多的数据等。然后,根据这些方案的预期效果和实施成本,进行决策,确定下一步的工作内容。

模型评价阶段的目标是确保模型的质量,提升模型的实用性,为下一步的工作做好决策。

6.  结果部署

结果部署(Deployment)阶段是整个数据挖掘流程的最终阶段,它将数据挖掘模型的结果实际应用到业务中,从而实现数据挖掘的商业价值。这个阶段涉及的内容可能会根据模型的类型和应用场景有所不同,但一般都会涉及到模型的部署、监测和维护等环节。

● 结果发布

根据模型的类型和应用场景,详细规划模型的发布流程,包括模型的上线时间、上线的环境、需要的资源等。结果发布计划应详细记录模型的部署情况,包括部署的过程和结果,以及可能遇到的问题和解决方案。

● 监测和维护模型

模型在部署后,需要定期进行监测和维护,以确保模型的性能和稳定性。随着商业环境的变化,模型的适用性和效果也可能会发生变化,因此需要建立一套有效的模型监测和维护机制。监测和维护模型计划应详细记录如何进行模型的监测和维护,包括使用的工具和技术,监测的指标,维护的策略等。

● 模型交付报告

这份报告应总结整个数据挖掘的过程,包括数据的收集和准备,模型的建立和评价,模型的部署和监测等。报告应详细记录模型的性能,模型对业务的贡献,以及模型的改进空间等。

部署阶段的目标是确保模型能够顺利地投入到实际的业务中,并通过监测和维护,确保模型的持续效果。

SPSSPRO
公众号二维码
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
SPSSPRO
SPSSPRO
发表文章34
SPSSPRO
让数据分析更简单
确认要消耗 羽毛购买
一文搞懂!商业数据分析全流程吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接