当前位置: 首页 > 科技观察

数据分析VS算法模型,如何高效分工合作?

时间:2023-03-19 16:52:21 科技观察

本文转载自微信公众号《脚踏实地的学校》,作者是脚踏实地的陈老师。转载请联系地气派公众号。如何配合数据分析和算法,是一个长期存在的难题。一方面是业务方对模式的幻想越来越多。另一方面,大量企业存在数据采集不畅、数据人员不足、工作目标不明确等问题。如何与分析和算法协同?今天系统的分享一下。01狗不理的两个典型错误做法:有的公司领导喜欢嫌弃自家数据分析师的无能,总认为“最后一个模型牛逼”。所以,数据分析师都是明哲保身,干脆和所有的工作用“模型”二字划清界限,全部交给算法工程师。这样做当然会杀死算法。更何况,很多时候领导们口中的模式只是“SWOT”之类的虚无缥缈的东西;更不用说,很多建模目标基本上都是“预测我会成功什么”之类的不切实际的事情。如果没有人单独支持基本的特征筛选工作,算法工程师会累死的。项目进展缓慢,最后还是被驳回:“为什么你的模型不能100%准确预测!!!”当然,这样的问题在传统企业中是普遍存在的。尤其是在数字化转型阶段,领导看了很多高水平的ppt,自认为很了解传统企业。作为一只狗:一些互联网公司对于算法的应用定位比较明确,算法组的地位也比较高。于是我走向了另一个极端:把配给算法组的分析师当成狗。你不用管你做什么,照我说的拿号就行了。数据分析的工作充斥着没完没了的取表。如果你这样做,每个人都会被骗。因为连数据分析师都不懂算法逻辑,运营部门更不懂。在不知情的情况下,运营部门只能通过简单的数据指标监控来推测算法的效果。而稍有风吹草动,他们就会开始质疑:“算法不行!”,“你悄悄改了什么!”,“你就是在胡闹!”这些疑虑会成为部门之间相互指责和扯皮的导火索,造成无穷无尽的内耗。02破局的基本思路从本质上讲,分析和算法都是对数据的应用。于是灵魂拷问来了:难不成有了数据,钞票就源源不断地从电脑里喷出来?很明显不是!数据本身并不能包治百病。要让数据发挥作用,必须紧密结合业务实际。尽你所能提供帮助。业务的实际情况非常复杂,数据和业务行为往往交织在一起。比如:短视频DAU下降,是算法推荐不够强,还是创作者素质太差,交易转化率下降,产品推荐不强,还是货源本身不对选的不好,性能预测不准确,预测模型不强,或者业务本身发布的这个时候,业务部门总可以责怪:“我们的数据太无能了,如果我们有一个字节算法,它会很棒的。”在数据方面,无论是算法还是分析,都是在幕后。所以破局的最终思路是数据同学们团结一心,找好场景,做出成绩,减少责备,而不是踩着自己的脚。空谈看似空洞,下面我们来看一个具体的问题场景。03典型合作场景之一:立项问题场景:某大型制造企业希望建立“多维度分析模型”,以提高招聘效率。请问,此时如何满足需求?这是一个典型的需求不明确的场景。什么是:招聘效率?降低招聘成本?招聘后更好的保留?招聘合适的人?什么是对的人?有明确的定义吗?定义是否一致?流水线工人、销售、营销策划、管理人员的招聘问题是一样的吗?以上情况都是不清楚的,所以不管是算法/分析,谁接到需求都要先问上面的问题。当然,当问题的定义比较模糊时,数据分析师站出来交流更合适。数据分析师更贴近业务,更容易理解业务语言,引导业务思维。业务方给出的进一步回答是:1、帮助招聘更多适合管理岗位的人才。2.了解XX省市更容易招到流水线工人。我们将集中招募他们。3、控制整个部门的用人成本。如果低于XXX万元,是否可以开始构建“多维”、“立体”模型?不!离得很远!04典型合作场景二:任务分解存在三大问题,制约项目进展:1.管理职位“适合”的定义不明确。管理者的考核远比流水线工人复杂。流水线工人只需考察年龄、身份证、学历等简单维度,还可以通过作业技能标准化作业考核。管理者要复杂得多,有“领导看不顺眼”等高度个性化、不可量化的考核点。所以我们不能就此打住。需要进一步定义。2.各省市劳动力数据缺失。注:从HR收到的简历中挑选出合适的,和从茫茫人海中找出哪里的劳动力更多,完全是两个问题。因为已经收到的统计数据,茫茫人海中连数据都没有。如果一味地开始工作,很可能会造成误判。3、用人成本和整个部门的招聘效率,根本上是两个问题。整个部门的用人成本,除了新招聘外,还包括在职工资福利,以及离职人员的补偿等。如果目标是控制部门的整体成本,哪一项总量最高,哪个占比最大,哪个多余,哪个增长最快,应该事先分析清楚。让我们看看如何解决它。此时,至少可以分离出五个任务。任务一:定义管理职位的“适合性”(也许为了定义适合性,需要建立一个单独的业务模型,比如胜任力模型)。任务二:根据过往的面试数据,标注管理职位的“适合度”,为建模做准备。任务三:收集各地区劳动力市场数据(劳动力市场发布的信息、中介机构提供的信息等)。Task4:根据以往的招聘活动,验证区域招聘的合理性(也有可能求职者虽然是内陆省份,但还是去沿海省份找工作,区域划分的意义不大,并且这些假设需要验证)。任务五:分析整体用工成本结构及趋势,找出成本控制的重点。这五个任务主要是数据分析任务。数据分析理清现状,收集数据,后续算法可以有的放矢。例如:1.以已有管理职位标记为“合适/不合适”的情况,结合简历信息、猎头给的信息、招聘渠道信息,对面试者进行分类预测的模型(逻辑回归/决策树)为建立预测“合适”的概率2.在整体就业成本结构、增长原因、发展趋势数据的情况下,建立预测模型(时间序列/多元回归)判断就业成本是否超预期,从而干预决策(不要因为短期人员短缺而大量招聘,比较加班费和新增招聘成本的差异)。当然,还有第三点配合:在工作中遇到挑战时,要共同应对。05典型合作场景三:答疑解惑面对“模型为什么不准!”这个终极问题,大家必须齐心协力。首先要排除的是外部因素、意外波动和业务举措的影响。不要因为模型出了问题就往模型上泼脏水。例如:高管突然变动,引发管理层招聘要求的变化。招聘源头有疫情,工作人员出不来。行业龙头企业突然涨薪,拉高了整个行业的成本。由于种种原因,原定的招聘计划被推迟。制定了招聘计划,没有达到预期,增加了新的渠道/方法。所有这些因素都会使最初设计的模型失效或效果不佳。为了应对这些变化,数据分析必须走在前列。日常监控数据,可以及早发现问题,提示业务风险,提醒大家注意变化。而不是等生意上门再扯皮。06总结算法和分析的工作性质不同,所以两者在合作分工的时候,自然会有不同的侧重点。理想的合作方式是:分析清理业务障碍,聚焦算法提升效率。让我们一起创造成就。其实,如果你工作时间足够长,接触业务足够多,你会发现,直接从业务口中说出的“建模”需求,大部分都是不靠谱的,要么是数据缺失,要么是目标不明确。尤其是涉及到预测问题(分类问题比较好)。数据分析师转化的需求要靠谱得多。