很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
数据分析该如何与算法合作,是个老大难问题。一方面是业务方日益提高的,对模型的幻想。另一方面是大量企业里存在的,数据采集差,缺少足够数据人员,工作目标不清晰等等问题。到底该如何和分析与算法协同增效?今天系统分享一下。
狗不理式:有些公司领导喜欢嫌弃自家数据分析师没本事,总认为“上个模型才牛逼”。于是数据分析师们皆明哲保身,干脆和所有带“模型”俩字的工作划清界限,统统甩给算法工程师。
这么干,当然会坑死算法。
且不说,很多时候领导口中的模型根本就是“SWOT”一类虚无缥缈的东西;
且不说,很多建模目标根本就是:“预测我做什么能成功”一类不切实际的东西。
就单单基础特征筛选工作没人支持一项,就会让算法工程师累死。项目进度慢,最后还是被嫌弃:“为啥你的模型不能100%精准预测!!!”
当然,此类问题常见于传统企业。特别是数字化转型阶段,领导们看了很多高大上的ppt,自以为自己很懂的传统企业。
当狗用式:一些互联网公司对于算法的应用有相对清晰的定位,算法小组的地位也较高。于是走向另一极端:把配给算法组的分析师当狗使。做啥你不用管,你按我说的取数就好了。用无休无止的取数表淹没了数据分析的工作。
这么干,坑的是所有人。因为连数据分析师都不懂算法逻辑,那运营部门更不懂。在茫然无知的情况下,运营部门只能通过简单的数据指标监控,来推测算法效果。并且稍有风吹草动,就开始质疑:“算法不灵了吧!”,“你们悄悄改了啥!”,“就是你们瞎搞!”这些质疑,又会成为部门间甩锅、扯皮的导火索,引发无休无止的内耗。
从本质上看,分析和算法,都是数据的应用。那么灵魂拷问来了:是不是有了数据,钞票就源源不断从电脑里喷出来了?显然不是!数据本身不能包治百病,想让数据发挥作用,得紧密结合业务实际,找好数据能帮上忙的发力点才行。
而业务的实际情况又很复杂,经常是数据和业务行为交织在一起。
比如:
短视频DAU下降,是算法推荐不给力,还是创作者本身质量太差
交易转化率下降,是商品推荐不给力,还是货源本身没有选好
业绩预测不精准,是预测模型不给力,还是业务自己放水了
这时候,业务部门永远可以甩锅:“我们的数据太无能,我们要是有字节的算法就牛逼了”。而数据这边,不管是算法还是分析,都是背锅的。所以最终的破局思路,是数据的同学们团结一致,找好场景,做出成绩,减少背锅,而不是自己人踩自己人。
空口说显得太空洞,下边结合一个具体问题场景看看。
问题场景:某大型制造企业,期望建立“多维度立体式分析模型”,提升招聘效率。问,此时该怎么接需求?
这是个典型的需求不清晰场景。
什么叫:招聘效率?
招聘成本更低?招聘回来以后留存更好?招聘到合适的人?
什么叫合适的人?是否已经有清晰定义?
流水线工人、销售、营销策划、管理人员的“合适”定义是否一致?
流水线工人、销售、营销策划、管理人员的招聘问题是否相同?
以上情况统统不清楚
因此无论是算法/分析,谁接需求,都得先问清上边的问题。当然,在问题定义都模糊不清的时候,让数据分析师站出来沟通更合适。数据分析师和业务贴的更近,更容易理解业务语言,引导业务思路。
业务方进一步给出的回答是:
1、要帮助管理岗位招到更合适的人
2、要发现:XX省市的流水线工人更容易招,我们集中招聘
3、要让整个部门的用人成本,控制在XXX万元以内
那么,是不是可开始建“多维度”“立体式”的模型了呢?
不!远远不到!
有三大问题,制约着项目推进:
1、管理岗位的“合适”定义不清晰。管理人员的考核,远比流水线工人复杂。流水线工人只要考察年龄、身份证、学历几个简单维度即可,考操作技巧也能通过标准化作业考核。管理人员则复杂的多,还有“领导看他顺不顺眼”这种高度个性化、无法量化的考核点。因此不能简单的止步在这里。需要进一步定义。
2、各省市劳动力数据缺失。注意:从现在HR收到的简历里筛选出合适的,和从茫茫人海里锁定哪里的劳动力多,完全是两个问题。因为已经收到的可以统计数据,茫茫人海压根连数据都没有。如果盲目开工,很有可能引发误判。
3、整体部门用人成本与招聘效率,根本就是两个问题。整个部门用人成本,除了新招聘以外,还有在职工资福利,还有离职人员赔偿等等。如果目标是控部门整体成本,那到底哪一块总量最高,哪一块占比最大,哪一块是冗余,哪一块增长最快,要提前一一分析清楚。再看怎么解决。
此时,可以拆出至少五个任务
任务1:定义管理岗位的“合适”(可能为了定义合适,要单独建个业务模型,比如胜任力模型)。
任务2:基于过往面试数据,为管理岗位“合适”做标注,为建模做准备。
任务3:收集各地区劳动力市场数据(劳动力市场发布信息、中介提供信息等)。
任务4:结合过往招聘活动,验证分地区招聘合理性(也有可能求职者虽然是内地省份的人,但是找工作还是跑到沿海省份找,分地区意义没那么大,这些假设都待验证)。
任务5:分析整体用人成本结构与走势,找到成本控制关键点。
这五个任务,主要都是数据分析的活。数据分析理清现状,采集数据,后边算法就能有的放矢。比如:
1、在已有管理岗位“合适/不合适”标注的情况下,结合简历信息、猎头给到信息、招聘渠道信息,对面试人员建分类预测的模型(逻辑回归/决策树),预测“合适”概率
2、在已经有整体用人成本结构、增长原因、发展趋势数据情况下,建预测模型(时间序列/多元回归)判断用人成本是否会超出预期,从而干预决策(不要因为短期缺人就大量招聘,对比给加班费和增加新人成本差异)。
当然,还有第三个合作点:在工作中遭遇挑战,大家一起应对。
面对“模型为什么不准!”终极问题,一定是所有人一起努力。首先要排除的,是外部因素、意外波动、业务主动行为的影响。不要是个问题就往模型身上泼脏水。
比如:
突然有高管变动,引发管理层招聘要求全变
招工来源地发生疫情,人员出不来
行业领头企业突然提高了薪资,拉高了整个行业成本
原定的招聘计划因为各种原因推迟
所有这些因素都会让原先设计的模型不成立或者效果下降。应对这些变化,数据分析要冲在前边,在日常监控数据的时候,就及早发现问题,提示业务风险,提醒所有人关注变化。而不是等着业务打上门来再来扯皮。
算法和分析的工作性质差异,使得这两者合作分工的时候,天生侧重点不同。理想的合作方式,就是:分析扫清业务障碍,算法集中提升效率。大家一起做出成绩。
实际上,如果你工作时间够久,和业务接触的够多,就会发现:大部分直接从业务**冒出来的“建模型”需求,都不靠谱,不是数据缺失,就是目标不清。别是涉及预测问题的时候(分类问题相对好一点)。经过数据分析师转化的需求,反而靠谱很多。有兴趣的话,本篇集齐60在看,下一篇,我们拿更多具体场景,看如何满足“模型”需求,敬请期待哦。
-END-
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)