当前位置: 首页 > 科技观察

被踢部落直播课堂第六期:精益数据分析——如何让企业拥有BAT般的分析能力

时间:2023-03-18 10:07:15 科技观察

每一个企业都希望建立一个大而全的大数据平台,但实践证明可持续大数据平台都是通过精益逐步建立起来的数据分析理论。精益数据分析理论是通过建立最小的商业闭环,逐步验证和扩展数据分析平台,最终实现与BAT同等的数据分析能力。其中,核心技术和业务分析目标在不断成长的过程中会遇到各种挑战。今天,易观CTO郭伟先生分享了精益建设在为企业打造大数据平台的思路,以及打造月活5.2亿大数据分析平台的成长历程。主要分享内容如下1.精益数据分析2.常见的精益数据分析场景3.大数据技术框架迭代与拓展4.大数据平台用户精益分析大家好,我是易观CTO郭伟,我很很高兴今天能在这里和大家分享。希望每个人都能有所收获。我今天演讲的主题是精益数据分析——如何让你的企业拥有和BAT一样的分析能力。先简单介绍一下自己:郭伟先生于2016年加入易观,担任易观CTO。组建易观技术团队,完成易观大数据采集、平台、数据挖掘的技术架构和体系,从零开始完成易观。混合云建设、易观SDK升级、易观实时计算平台发布。目前,易观大数据平台每天处理30T数据,252亿条,月活跃用户5.2亿。郭伟先生毕业于北京大学。加入易观前,曾任联想研究院大数据总监、万达电商数据部总经理,并在中金公司、IBM、Teradata等公司担任大数据方向的重要职务。对前沿领域的研究,包括视频、智能WIFI等大数据软硬件数据集成技术有独到见解。1、精益数据分析先说说精益数据分析思想的由来——精益创业(LeanStartup)最早是由硅谷企业家EricRise在2012年8月的《♂》一书中提出的三个关键点:最小可用产品(MVP)、客户反馈和快速迭代。什么是精益数据分析?精益分析的核心是从业务最小的闭环开始,每次都形成业务效果的闭环,实现业务目标,然后在下一步扩展大数据分析的内容,或者建立相关的系统,或者建立相关平台。?优化最小可行产品而不是为其设置硬性指标vs.决策层说“我们要构建一个大数据项目”?与最终客户和业务保持同步vs.“先平台后业务”?业务闭环形成数据分析大数据VS“管理层看仪表盘”?增长率/转型/创新——最大的挑战在于企业文化的变革。前者必须是首选。我10多年的数据业务经验,不要为了大数据而漫无目的的使用大数据,所以即使建立了大数据平台,也不会长久。你必须战略性地构建精益大数据平台。重要的事情重复三遍。不要为了大数据而漫无目的的使用大数据。这样即使建立了大数据平台,也维持不了多久。必须在战略上立足,打造精益大数据平台。不要漫无目的地专注于大数据、大数据,这样即使建立了大数据平台也不会长久。必须在战略上立足,打造精益大数据平台。不要为了大数据而漫无目的的使用大数据。即使建立了大数据平台,也维持不了多久。你必须战略性地构建精益大数据平台。那么如何打造,我个人建议从互联网/移动互联网用户运营入手,因为这方面近几年痛点比较明显,业务闭环更容易找到。众所周知,互联网进入下半场后,过去我们不做任何活动就创造大量新用户的日子一去不复返了。如何进一步运营其中的一些用户,成为了现在主要的业务需求。大家可以看到,中国人口的增长不再是每年百分之几,而是每年零点几。同样,移动互联网用户的增长也在逐渐放缓,所以现在不是如何去拉新,而是看如何通过留住用户来增加用户收入。获客难、用户留不住、价值找不到是当今互联网运营商面临的三座大山。基于精益数据分析的用户生命周期管理是一个重要的抓手:获客时精准营销,提高渠道ROI,成熟用户增加ARPU,用户离开条件时使用各种服务留住他。这需要对用户行为、属性、渠道特征和忠诚度分析进行各种分析。其中,获客、留存、转化是精益数据运营的主要需求。图中列出了需要做的数据分析的各项指标,供大家参考。如何控制大数据驱动业务增长的步伐?我建议分四步进行。第一,对内统一用户和会员(这部分建议由企业自己整理,只有企业自己的数据最清楚);第二部分是建立/外购互联网用户生命周期管理的平台——这个是最快看到效果的,符合精益的思想;第三部分是建立企业大数据平台,连接互联网和内部系统。第四部分是用自己的数字资产建立数据服务或者进一步升级企业的人工智能平台。2.常见的精益数据分析场景分享一些常用的精益数据分析场景。精益数据分析,面向用户,用户生命周期管理的核心方法论是AARCE模型,每一步都会有很多分析要做,我举一个比较常见的场景:寻找优质渠道,改善关键路径转化、挽回流失的用户、提高用户留存率和活跃度是最常见的精益分析模型。对于每个企业的运营和营销部门来说,如果找到合适的渠道,开发用户是一个日常的问题。衡量每个渠道的质量、转化率和保留率是典型的精益数据分析场景。测量渠道时,可以从新增、留存、防溅等角度进行数据分析。大多数通道都会有一些水分。无论是自建还是外包,都有助于企业节省渠道成本。找到更合适的渠道,将直接让管理层感受到大数据的作用。我个人的体会是,数据分析的业务闭环,越是离钱越近的分析越容易被公司认可。光靠渠道发展还不够,还需要提高用户转化率。下面介绍一些常用的指标和方法,供大家参考。这是每个产品经理都会遇到的问题。每条关键路径都需要进行转换分析,看看会发生什么。那些用户留下来,那些用户离开。更重要的是要看这些离开的用户是不是去了竞争对手那里,或者说剩下的用户是不是我们的目标客户群。这就需要各公司建立自己的用户画像体系,为流失的客户提供全景式的用户行为洞察。说到流失,每个公司在做精益大数据分析平台的时候,都会有一个很典型的功能,就是召回流失的用户。一般来说,首先要定义流失的用户-->流失原因分析-->流失的营销活动-->营销活动评估这几个步骤,每一次活动,是否有效触及你定义的人群,是否有效有效形成留存,需要仔细评估。前面我简单地讲了一些场景。其实这样的例子还有很多。每个从业者都需要根据自己公司的场景做一些场景设计。3.大数据技术框架的迭代与拓展先说说精益大数据分析需要填补的技术坑。每一次数据分析其实都是从采集-->验收-->计算-->查询-->挖掘-->服务。先说说我在易观的经历吧。目前,公有云和私有云非常流行。不过我选择了提供商提供的混合云,既有公有云的扩展性,又有私有云的性能保障。现在易观SDK月活5.2亿,日活7800万。这套混合云架构支撑如此庞大的数据规模,每天运行,提供易观内部分析师和外部产品正常运行。到现在已经2年了,强烈推荐做底层架构的小伙伴尝试一下这种混合云的模式。这里只是混合云的一些优势。仅有底层架构是不够的。接收如此大数据的方法需要特别优化。云+端的管控策略尤为重要。如果搞不好,每天上亿台设备形成ddos,你的服务器集群不堪重负。下面介绍一些数据采集和数据接收的策略选择,以及一般数据采集应该具备的那些技术框架和模块,供大家参考。这些框架可以支持数以亿计的月活用户,您可以放心使用。时间不多了,挑两个大数据处理和查询中比较大的坑再说吧。一是我们的内在需求。我们需要选取一些标签特征的用户,看看他们的用户行为特征是什么:比如喜欢看视频的女性95后经常在晚上10:00-11:00打开APP的Top5.数据存储的逻辑结构很简单,一个是用户标签表,用户ID,标签ID;另一个是用户ID、时间戳、APP名称。简单的想法是加入和在哪里订购。但是大家要知道,易观有21.9亿的用户画像,每天有252亿的用户行为,一个月上千亿。一个简单的连接如何解决问题?每个公司都会遇到类似的情况。我的建议是加入!在大数据环境下,不要用join来解决任何问题。先用ES筛选用户,然后将用户行为筛选纵向横向转换成位图,再通过AND或关系计算出***结果。有兴趣的朋友可以另外,我们今天不能深入讲。另外一个是有序转化漏斗的问题,就是我前面举的具体例子。每个人都想知道有多少用户浏览产品-->下订单-->支付。他们必须按顺序来,他们不能先付款,然后浏览,很难用大数据来解决这个问题,因为用户行为会非常大,如何找到一个有序的转化组合,并秒级返回,是一个很有挑战性的问题。前段时间,我还组织了一个OLAP的比赛,很多优秀的人和公司就这个问题来参加比赛,开源组的第一名还获得了10万元的奖金。这里我给出一个简单的思路,供大家参考和学习。我将从2018年7月开始举办这样的比赛,欢迎大家来玩。当然,技术是无止境的,还有一个重要的技术我们会逐步迭代。4.用户精益分析到大数据平台集成的时间不多了。简单给大家分享一下易观内部的大数据平台,希望对大家有所启发。对于数据存储,易观使用HDFS、Spark和Hive,以及presto和greenplum。几个开源大数据存储的对比如下。这里需要强调的是,大家不要只关注大数据存储平台。资源调度平台和数据治理服务同等重要。这个时间不多了,大家可以下线或者搜索我的往期文章了解更多。***也欢迎您访问方舟易观。体验易观的大数据服务,我还是强调一点,大数据分析只是过程,不是结果。只有形成业务闭环的精益分析才是可持续发展之路。图片是我的微信和微博,欢迎大家关注。以下问题是开发者社区小伙伴的提问和分享。Q:东营日报-知道:郭总,现在很多单位都需要大数据,概念比较空洞。你有什么好的想法,无论是技术上还是产品上?您想向您的老板或同事解释清楚吗?A:易观CTO郭伟先生:我觉得大数据真的很容易,一半的精益思想可以给你做个参考。你一定要找到一个业务闭环,你想用大数据解决什么业务问题。前两部分的学习,供大家参考,同时也推荐给大家两本书,一是《精益化创业》,一是?。今天PPT中的很多想法也得益于Eric给我的启发。问:东营日报-知道:非常感谢。我们是一家报业公司。现在领导对大数据比较感兴趣。让我们想出一个计划,但我们不知所措。其实这也是行业的需求。每个行业都有自己的数据。如果被开采和使用,将是一个很好的数据分析,但我们很难做出这样的计划。易观有这样的计划吗?A:易观CTO郭伟先生:有具体需求私聊吧。Q:Data-unicorn-Beijing:私有部署会授权二次开发吗?A:易观CTO郭伟先生:当然可以。Q:王军-北京-hadoop:我是用hbase+phoenix做oltp查询,现在加入一个kw级别的表和一个10w级别的表很慢,要30秒,这个怎么优化?我用hbase+phoenix做oltp,用hiveonspark做olap。olap数据处理后发送到hbase进行查询。现在的问题是oltp查询很慢。尺寸不固定。请问如何优化hbase+phoenix。现在的问题是通过phoenix查询hbase数据比较慢。kw表加入10w表需要40秒。这是绝对不能接受的。键基本上是几个字段的组合。现在把分析出来的数据放到hbase中,需要在hbase中查询。A:易观CTO郭伟先生:你们用Hadoop吗?我建议你试试Greenplum。A:Data-unicorn-Beijing:建议先分析应用场景再选择数据库。如果维度不固定,需要快速查询,mongodb是一个不错的选择。如果是数据处理,比如join,hive的优势更明显,或者hive用来存储,用presto来调用(暂时还不是很成熟,隐藏的问题很多,比如数据类型等)。A:开发一半-小星星-广州:这个不能完全依赖数据库,首先要先排除索引,sql优化等。印象中mysql的数据瓶颈应该在3kw左右,pg多一点。当然要看where条件怎么写,比如or,<>,表达式左边的计算等等,都会使索引失效。【原创稿件,合作网站转载请注明原作者和出处为.com】