当前位置: 首页 > 科技观察

如何快速全面的建立自己的大数据知识体系?_0

时间:2023-03-19 22:19:20 科技观察

很多人看过不同类型的书籍,也接触过很多关于大数据的文章,但是都是零散的,没有系统的,对自己没有起到太大的作用,所以笔者花时间,带来了来自从整体系统的角度,大家理解大数据产品的设计架构和技术策略。大数据产品,从系统和系统思维来看,主要分为五个步骤:针对不同前端渠道埋点数据,然后根据不同渠道采集多维数据,即大数据第一步,没有全量数据,谈何大数据分析;第二步,基于采集到的多维数据,利用ETL对各类数据进行结构化处理和加载;然后是第三步,针对ETL处理后的标准化结构化数据,建立数据存储管理子系统,汇集到底层数据仓库中。这一步非常关键。基于数据仓库,将其内部数据分解为基本相似的数据集市;然后基于收集和分解的不同数据集市,使用各种R函数。该包为其数据集执行数据建模和各种算法设计。里面的算法需要自己设计,有的算法可以用R函数。这个过程涉及最多的产品和操作;这一步做得好,也是很多公司用户画像系统的关键。底层。***根据建立的各种数据模型和算法,结合前端不同渠道的不同业务特点,根据渠道触点自动匹配后端模型,自动展示用户个性化的产品和服务。建立系统的数据采集指标体系建立数据采集分析指标体系是营销数据集市形成的基础,也是营销数据集市覆盖用户行为数据广度和深度的前提。数据采集??分析体系必须包括所有用户活动的触点数据,根据数据分析指标体系,可以对用户结构化相关数据和非结构化相关数据进行分类汇总,形成属性和属性值,用于筛选用户状况,也是发现新营销事件的基础。构建营销数据指标分析模型,完善升级数据指标采集,依托用户全流程行为触点,建立用户行为消费特征和个体属性,从用户行为分析、业务运营数据分析三个维度形成用户行为和营销数据分析。特征分析模型。用户维度数据指标是通过不同维度分析元素与用户全生命周期轨迹接触点的二维交集得到的。目前做大数据平台的企业,在采集数据指标和输出可视化报表中,大多存在几个关键问题:;计算统计输出的数据都是大规模数据,无法支持大规模数据的挖掘和分析;数据无法支撑系统进行用户获取、留存和营销推送。因此,为使系统采集的数据指标能够支撑平台前端的个性化行为分析,需要围绕用户为主线进行画像设计。用户,让每个数据都有用户属性。根据用户连接分散、无序的统计数据。在现有产品界面,为每条统计数据添加标签。点击标签显示每个用户对应的行为数据,并链接到其他统计数据页面。由此可知,以用户为主线建立数据采集指标维度:用户身份信息、用户社交生活信息、用户资产信息、用户行为偏好信息、用户购物偏好、用户价值、用户反馈、用户忠诚度等。根据建立的采集数据维度,可以细分为数据指标或数据属性项。①用户身份信息包括性别、年龄、生肖、居住城市、活跃地区、证件信息、学历、收入、健康状况等②用户社交生活信息维度:行业、职业、是否有孩子、孩子年龄、车辆、房产、通讯状态、流量使用情况……③用户行为偏好信息是否包括网购行为、风险敏感度、价格敏感度、品牌敏感度、收益敏感度、产品偏好、渠道偏好……④用户购物偏好信息品类偏好、商品偏好、购物频率、浏览偏好、营销广告偏好、购物时间偏好、单次购物***量……⑤用户反馈信息维度中,用户参与的活动、参与的讨论、他们收集的产品,他们购买的产品,他们推荐的产品,以及他们购买的产品他们回顾了...基于收集到的多维数据,使用ETL对各类数据进行结构化和加载数据填充:对空数据和缺失数据进行数据填充操作,标记不可处理的数据替换:数据格式标准化替换无效数据:将源数据提取的数据格式转换为易于入库处理的目标数据格式化主外键约束:通过建立主外键约束,对非法数据进行数据替换数据或导出到错误的文件中重新处理数据合并:多用途表关联实现(每个字段都有索引,保证关联查询的效率)数据拆分:数据按照一定的规则拆分交换,排序/修改序号,并删除重复记录。数据处理层由Hadoop集群组成。Hadoop集群从数据采集源中读取业务数据,通过并行计算完成业务数据的处理逻辑,对数据进行过滤和合并,形成目标数据。数据建模、用户画像和特征算法提取与营销相关的客户、产品和服务数据,采用聚类分析和关联分析方法构建数据模型,通过用户规则属性配置、规则模板配置、用户画像标注形成用户画像.数据规则集利用规则引擎实现营销推送和条件触发实时营销推送,同步到前端渠道交互平台执行营销规则,将营销执行效果信息实时返回大数据系统时间。根据前端用户不同的个性化行为,自动匹配规则并触发推送内容根据用户全程活动和行为轨迹,分析用户接触线上渠道和线下渠道的所有行为触点,标记营销用户,并形成用户行为画像,以用户画像为基础提炼总结营销筛选规则的属性和属性值,最终形成细分用户群体的条件。每个用户属性对应多个不同的属性值,属性值可以根据不同的活动进行个性化设置,支持用户黑白名单管理功能。可以预先配置基于不同用户身份特征的活动规则和模型。当前端用户触发配置的营销事件时,数据系统会根据匹配度最佳的原则自动实时推送营销规则,并通过实时推送功能进行配置。推送活动内容、优惠信息、商品信息等,同时汇总前端反馈的效果数据,优化调整推送规则和内容。基于现有的用户画像、用户属性标注、客户和营销规则配置和推送、相似用户特征采集和分库模型,结合客户营销系统的大数据系统将逐步拓展机器深度学习功能在未来并通过系统自动收集数据。分析前端用户的实时变化数据,根据构建的机器深度学习功能模型自动计算匹配用户需求的功能参数和对应规则。营销系统根据计算出的规则模型,实时自动推送高度匹配的营销活动和内容信息。机器自学习模型算法是未来大数据系统深度学习的核心。只有通过系统的大量采样训练,多次数据验证和参数调整,才能最终确定相对准确的函数因子和参数值,从而可以根据前端的实时行为用户。数据,系统可以自动计算出相应的营销规则和推荐模型。除了深度自主学习,大数据系统未来将逐步开放合作理念,对接外部第三方平台,扩大客户数据和行为接触范围,覆盖行为全生命周期尽可能多的了解用户线上线下的轨迹,把握用户行为的触点。只有通过采集数据,扩充客户数据集市和事件数据库,才能深入挖掘客户全方位需求,结合机器自学习功能,从根本上提升产品销售能力和客户全方位体验感知。