当前位置: 首页 > 网络应用技术

在PYODPS中申请,这是集体分类之后的第一个数据

时间:2023-03-05 21:18:56 网络应用技术

  1.施用使用情况非常容易在大熊猫中使用。如何在pyodps中使用它仍然不同

  在PYODPS中,您需要使用自定义功能进行数据行。您可以使用应用方法。轴参数必须为1,这意味着它是在线上操作的。

  Apply的自定义功能接收一个参数。它是收集的上一步中的一系列数据。用户可以通过属性或偏移从字段获取数据。

  如果true,则意味着返回结果是序列,否则返回结果是集合。参数指定返回序列或集合的字段名称和类型。如果未指定类型,则将默认为字符串类型。

  在应用程序的自定义函数中,当减少为false时,您还可以使用关键字返回多行。

  我们还可以对函数上返回的字段和类型进行评论,因此我们不需要指定何时调用该功能。

  您也可以使用仅MAP-MAP_REDUCE,并且Axis = 1的应用操作等效。

  如果要在ODP上调用现有的UDTF,则该函数被指定为函数名称。

  当使用用于操作和错误时,您可以使用与现有行的多行输出使用多行以将其用于后续的聚合和其他操作。

  Pyodps中有很多东西最初在Pandas中解决了半天以解决它。

  在Pandas,您可以使用第一行将组出现在Groupby之后。

  例如:

  但是,Pyodps非常爸爸。没有第一个,您只能自己找到一种方法。在这里我添加另一种

  例如:

  首先使用Student_id进行分组,然后与Student_ID和GMT_Create进行分组,最后使用窗口函数nth_value在组中获取第一个值并重命名first_course_id,然后输出其他字段输出

  但这不是要删除第一行,而是要在排序后将所有其他数据列更改为一组数据,也就是说,第一个值的第一个值已取出,因此我们需要要转到Student_id group to Heavy。因此,我们只需要对Student_ID进行分组,然后使用聚合功能根据行(此处选择的连接器选择逗号)来连接其他列,然后使用拆分来分开分为地图函数中的列表以获取第一个表。

  原始:https://juejin.cn/post/709860488627879936