当前位置: 首页 > 科技观察

WOT2016卢雪玉:一个小团队如何玩转大数据

时间:2023-03-17 22:32:39 科技观察

大数据之所以能被称为一个时代,源于全社会的集体狂欢。数据来自各行各业,这场革命带来的机遇自然就在各行各业。关注这个市场、伺机而动的人,不关心IT巨头、初创企业,也不关心团队规模是大是小。大数据能给企业带来什么?更多的订单、更低的成本、更快的管理和更新的商业模式。通过利用好互联网大数据,小型创业团队可以快速积累早期创业所需的资源,从而降低创业成本,提高回报率。但是,我们看到,在每一轮技术变革中,中小企业都是最后被照顾的。在这场新革命的席卷下,我们不禁要问小团队,你们的大数据呢?诚然,技术匮乏、人才匮乏、数据匮乏等现实,让小团队陷入了水深火热之中。那么,小团队在大数据时代还有机会吗?“当然。”原小米数据工厂负责人、现任火线数据创始人兼CEO、WOT2016讲师卢学宇不仅在接受中网记者专访时给出了明确肯定的答案,还结合自己在优酷视频系统的亲身实践和小米数据工厂,仔细分析了一个小团队在面对各种问题时应该如何做好技术选型,如何权衡大数据和数据隐私的成本。担心。小团队的大数据挑战近年来,以Hadoop生态系统为代表的数据基础设施发展迅速,大大提高了大数据技术的易用性,降低了很多技术门槛。在卢学宇看来,小团队在大数据方面的挑战主要表现在人才和数据源的短缺。卢学宇表示,为了应对这两个问题,小团队必须在业务上下功夫,立足于核心业务形态,深入挖掘自己的数据。具体应该怎么做?卢雪宇以视频用户数据为例。用户在观看视频的过程中虽然没有太多的互动,但仍然可以挖掘出有价值的高频数据。基于用户对同一数据的拖拽和审核,我们可以做很多事情:挖掘不同用户对视频内容的高点,帮助视频内容运营和内容创作找到用户的兴趣点;了解用户行为,寻找相似用户,根据内容兴趣做用户画像;更好地根据用户在内容上的喜好预分发CDN,根据用户行为做视频推荐……某种意义上,视频推荐比商品推荐更简单。视频作为用户相对高频的行为,意味着我们可以捕捉到更多的用户行为数据,更全面地反映用户的喜好;从应用场景来看,用户是否购买产品可能是一个很大的因素。决定看不看视频是比较小的,做出错误决定的损失也很小。在视频内容分析中,由于视频文本挖掘的维度比较小,文本分析的价值不大。因此,同一种技术在不同业务领域的重要性和发挥的作用是不同的。由于技术能力和专业人才资源有限,小团队必须更详细地了解自己的业务形态,并最大限度地利用现有数据。小米数据工厂大数据平台架构小米目前不仅发展了自己的公司,还投资了多家生态链企业。随着业务的快速增长,业务产生的数据量呈暴增趋势。我们都知道数据越集中,使用价值就越大,于是小米数据工厂应运而生。小米数据工厂主要承担为公司各团队及小米生态链企业提供数据采集、计算、存储等基础能力,以及机器学习和挖掘的工具和方法的任务。除了底层能力,DataWorks还为企业和生态链企业提供了一些特定的基础数据服务,用于小米信用卡的风控和授信评估、广告精准投放、限时用数据打击黄牛。-抢购等。通过数据工场提供的数据能力,企业不仅可以分析业务数据,还可以将数据实际应用到核心业务场景中。围绕Hadoop生态搭建基础平台的小米数据工厂,主要工作是管理数据、元数据、数据权限,管理大量的计算。卢学宇强调,保存数据不是目的,而是要通过计算应用到各个业务领域。小米及其生态链的业务场景丰富,因此整个计算体系复杂。为了更好地满足未来的需求,小米数据工厂围绕Hadoop生态构建底层基础平台。考虑到可扩展性,DataFactory基于Scala诞生,设计为分布式架构。由于小米及其生态链企业的业务场景丰富,整个生态都会涉及到技术选型,比如消息流、批处理、实时计算等技术。HBase、Hive、Spark、Storm、Impala,在不同的场景下都有不同的使用场景。使用Docker解决异构和资源问题为了管理这些复杂的计算框架和模型,在计算执行方面,小米使用Docker来解决不同的环境需求和异构问题,不同于Hive、Impala、Spark、等对接了计算模型,以适应不同应用场景计算不同数据的模型。另外,在不同的业务场景下,同样的计算逻辑可以选择不同的计算模型,使用Docker也避免了资源浪费。比如每天凌晨运行一个计算任务,为了追求吞吐量,可以跑在Hive中;现在需要运行相同的计算模型,无需任何更改即可在Impala中运行。综上所述,Docker不仅解决了环境的异构性,还解决了资源问题。另外,Docker的环境适应性很强,更容易做横向扩展。小米非常重视数据隐私。随着Docker的融入以及自身的安全策略,小米用户数据的隐私和安全也得到了极其严格的控制。小团队的大数据敏捷之路,不能浪费时间去选择热门的科技公司。选择流行的、被大公司验证过的常用技术,一是避免坑,二是常用的技术人才比较好找。按需使用,不要规划太多传统BI通常会构建一个庞大而全面的数据分析模型,然后根据业务需求进行调整。但是小团队的业务发展很快,所以前期不要规划太多,而是根据业务需求细分业务场景,在每个小场景中构建小数据模型,分析用户来构建用户模型和分析产品使用简单的产品模型。另外,小团队要考虑自己的应用场景是以分析为主还是以应用为主,然后选择相关技术,比如Hive、Impala、Presto等;如果主要是面向业务的,就要结合自身的业务和技术能力来看。当数据量不是很大时,没有必要选择HBase这样的集群存储方案。有很多选择。比如MySQL等传统数据库所能支持的数据规模就不小了。根据计算要求和数据规模的组合进行选择。不是超大体量的,没必要选择太大规模的技术选型。选择方便、灵活、易管理的技术大公司在技术和系统使用上首先要考虑集群利用率和吞吐量,小公司则要考虑方便、灵活、易管理。存储:推荐使用HDFS作为主存储,因为很多计算工具使用的存储都是建立在它之上的。对于未来业务的快速发展,具有较好的兼容性;在计算方面:除了常用的基础设施外,在计算用户交互时建议使用一种易于使用的技术:HUE:基于web,可以直接查询Hive在平台上完成,并且使用门槛较低;Presto:适配多种数据源,可以连接各种数据源进行计算和数据分析。因为业务数据和用户行为数据是分开的。在使用Presto等连接器类型的分析工具时,有分析能力的人可以直接使用该工具。我们不需要将不同的数据和ETL一起导入,需要做后续处理。挺过去吧注意数据积累。小团队在前期积累数据的时候,一定要多花点功夫,不能偷懒,尽可能多的、准确的收集数据。不要等到需要的数据才去找数据。一旦你发现你需要的数据之前没有积累;或累积错误;或者数据没有被识别,没有办法区分是哪个用户,就会陷入逻辑孤岛,会很麻烦。例如,我们需要在用户阅读一篇文章时收集数据。这时候我们应该考虑更多维度的采集,至少从用户本身、文章内容、上下文、用户交互事件这四个维度来考虑。收集的数据可能包括文章分类、标题、内容ID、当前文章热度、用户获取文章的渠道等。这样可以让我们更全面的了解用户的喜好,也可以分析清楚用户的路径。即使你不知道将来如何使用它,收集更多更完整的数据肯定会为应用程序增加价值。在目前存储成本低的情况下,收集更多数据的成本并不大。真正贵的是计算,没有数据,成本会更大。大数据是一种工具。对于初创企业来说,在更短的时间内创造更大的价值是企业生存的根本。大数据是一种工具。只有了解大数据的作用,并结合真实的业务数据来满足用户需求,大数据才能真正帮助到你。