当前位置: 首页 > 科技观察

火山引擎工具技术分享:用AI完成数据挖掘,零门槛完成SQL编写

时间:2023-03-18 21:07:37 科技观察

在使用BI工具时,经常遇到的问题是:“没有SQL如何生产和处理数据,我能做挖掘吗?不懂算法分析?”专业的算法团队在做数据挖掘的时候,数据分析和可视化也会显得比较零散。基于流程完成算法建模和数据分析也是提高效率的好方法。同时,对于专业的数据仓库团队来说,同一主题的数据内容面临着“重复建设,使用管理相对分散”的问题——有没有办法在同一主题上同时生产不同内容的数据集?在同一时间完成一项任务?生产出来的数据集能否作为输入重新参与数据建设?1、DataWind的可视化建模能力来了。火山引擎推出的BI平台DataWind智能数据洞察推出了全新的高级功能——可视化建模。用户可以通过可视化的拖拉、连接操作,将复杂的数据处理和建模过程简化为清晰易懂的画布流程。各类用户按照所想即所得的理念完成数据生产和加工,从而降低数据生产和获取成本。临界点。Canvas支持同时构建多套画布进程,实现在一张图像中构建多个数据建模任务,提高数据构建效率,降低任务管理成本;此外,在canvas中集成封装了40多种数据清洗和特征工程算子,涵盖了基础到高级的数据生产能力,无需编码即可完成复杂的数据能力。2、零门槛的SQL工具数据生产和处理是数据采集和分析的第一步。对于非技术用户来说,使用SQL语法有一定的门槛,同时本地文件不能定时更新,导致每次都需要手动重做看板。获取数据所需的技术人力往往需要调度,数据获取的及时性和满意度大大降低。因此,使用零代码数据构建工具就显得尤为重要。下面列举两个典型场景,工作中应用了如何零门槛完成数据处理。2.1【场景一】所想即所得,可视化完成数据处理过程。当产品运营迭代急需不同数据的及时输入和反馈时,可以将数据处理流程抽象出来,通过可视化建模和拖拽算子来构建数据处理流程。如果想按照日期和城市粒度获取订单数量和订单金额,获取每日消费数据前10的城市数据,操作如下:常规数据处理流程,可视化建模处理流程,请技术同学拉取订单的详细数据,包括Orderid/orderamount/userid/orderdatecity等。通过透视操作设置数据为订单日期和城市,指标为总和订单金额和订单id的总和。透视结果按金额排序,然后写入序号进行筛选筛选Top10数据选择数据源,选择库表或上传CSV文件或连接LarkSheet筛选要使用的字段信息,配置你定义的字段名和格式,选择聚合算子,根据日期和城市聚合计算订单数量和订单金额选择Top值算子,取Top10金额输出数据集,数据集可以是应用于风神绘制图表2.2【场景二】快速合并多张表,轻松解决多数据关联计算在数据处理过程中,有多个数据源需要结合使用。通过Excel掌握Vlookup等高级算法难度大,耗时长。同时,当数据量很大时,计算机的性能可能无法完成数据的组合计算。如果有两份数据量比较大的订单数据和一张客户属性信息表,需要根据账单金额和成本金额计算利润金额,然后根据取前100名的用户订单信息到利润贡献水平例行数据处理流程可视化建模处理流程打开两个订单数据后,将数据复制到一个文件中。使用VloopUp在订单和客户数据中找到用户数据,然后将两个数据结合生成新的数据。使用数据透视表计算用户billamount和costamount,然后计算利润金额按利润金额排序获取TopN客户信息可以上传CSV文件/LaskSheet建立数据输入,然后将3/4月订单数据合并成一个数据连接客户信息属性表,绑定客户属性信息并选择聚合,根据客户具体计算账单金额和成本金额,选择计算列,根据账单金额和成本金额计算利润金额,根据获取TopN客户信息利润金额排序3.AI数据挖掘不再遥不可及。而数据分析,需要AI算法加持,挖掘更多数据的隐藏价值。算法组的同学可能苦于不能很好的结合可视化图表使用,没有办法产出好的数据可以快速应用;而普通用户可能会被AI代码的高门槛直接打压。它太浅,价值无法很好地评估输出。这时候,算法挖矿就成了一种奢望。DataWind的可视化建模封装了30多种常见的AI算子能力。用户只需了解算法的功能,并以可配置的方式配置算法算子的输入和训练目标即可完成模型训练。根据配置的其他数据内容快速得到预测结果。下面将以两个典型场景为例,看看如何在不写Python的情况下完成数据挖掘。3.1【入门】不懂Python也能做数据挖掘。用户的日常工作基本不涉及写Python,但是有需要进行数据挖掘的场景。他需要根据已有的高意向客户样本,做客户意向挖掘。至此,可以通过可视化建模构建数据挖掘过程:拖入样本数据和所有数据作为数据输入。拖入分类算法,如XGB算法进行模型训练。拖入预测算子,建立模型与所有预测数据的关系。将实际数据和预测结果与输出数据集相结合,分析总用户数据的意图分布。3.2【进阶】不写Python也能搭建复杂的算法模型。用户需要根据现有数据建立用户复购模型。在模型构建中,经过数据清洗和格式转换后,使用梯度提升树构建预测模型。此时可以按照可视化建模流程建立回购模型:合并行:输出n个算子(图中矩形)到数据表中,按照一致的表头合并成一个通用数据表,有当用户销售数据中没有新增或删除新属性时,此处无需更改。缺失值替换:当属性列中存在空值(null)时,会影响后续的模型计算。使用替换缺失值运算符将空值替换为指定的默认值。如果用户销售数据没有增加或删除新的属性,这里不需要更改。one-hot编码:文本类型的属性不能直接用于模型训练,需要one_hot编码成数字向量。例如:gradientboostingtree:负责拟合训练数据,输出一个可以用于预测的模型(图中没有标注的参数不需要维护人员修改):Aggregation_1:去除预测数据中的重复项和取最大概率。提取字段:提取必要的标签和概率值输出。4.多场景、多任务构建,管理不再分散作为数据分析师,日常工作中会有大量的构建数据集、构建数据仪表盘。但通常从数据仓库中获取的底层表会是宽表。在此基础上,根据不同的场景需求构建不同的数据集任务。在后续的使用中,我们经常会遇到越来越相似的数据集,但是具体的逻辑却无法很好的对比确认。此时,如果所有的数据集逻辑都在一个数据集中配置和生成,那么每个数据集都可以通过任务流程来判断和定义应用。对于这种场景,DataWind的可视化建模能力也可以很好的完成。可视化建模功能支持单个数据集被多个逻辑处理同时生成多个数据集。以订单数据和用户数据的处理为例:如果用户想查看订单的统计数据,那么可以构建订单统计数据集的数据处理流程。有些用户希望看到详细的数据,但是详细的字段需要进行处理和清理。此时就可以构建出订单明细表数据集的处理流程。有些用户想结合用户属性统计用户的订单分布情况,然后构建多表关联结合索引聚合生成用户订单统计数据集。同样的逻辑可以生成一个多表关联下的用户订单明细数据集。这样,通过一个任务和两个数据输入就完成了4个数据集的生成,这4个数据集可以构建一个数据主体域,后续的相关数据可以从这个任务输出的数据集中使用。5.关于我们VolcanoEngineIntelligentDataInsightsDataWind是一个增强的ABI平台,支持大数据细节层面的自助式分析。从数据接入、数据集成,到查询分析,最终以数据门户、数字大屏、管理驾驶舱的形式,以可视化的形式呈现给业务用户,让数据发挥价值。