当前位置: 首页 > 后端技术 > Java

3种SQL重复数据删除方法,还有谁做不到?

时间:2023-04-01 23:41:09 Java

在使用SQL提取数字的时候,我们经常会遇到表中有重复值的情况。比如我们要得到uv(独立访客),就需要做去重。在MySQL中,通常使用distinct或groupby子句,但在支持窗口函数的SQL中(如HiveSQL、Oracle等),也可以使用row_number窗口函数进行去重。比如有这么一张表task:备注:task_id:任务id;order_id:订单编号;start_time:开始时间注:一个任务对应多个订单我们需要求任务总数,因为task_id不唯一,所以需要去重:distinct--列出task_id的所有唯一值(记录afterdeduplication)--selectdistincttask_id--fromTask;--任务总数selectcount(distincttask_id)task_numfromTask;distinct通常效率比较低。不适合显示去重后的具体值,一般与count配合使用,计算条目数。使用distinct时,放在select之后,可以对后面所有字段的值进行去重。比如distinct后面有两个字段,那么1,1和1,2这两条记录就不是重复值。groupby--列出task_id的所有唯一值(去重后的记录,null也是一个值)--selecttask_id--fromTask--groupbytask_id;--任务总数selectcount(task_id)task_numfrom(selecttask_idfromTaskgroupbytask_id)tmp;row_numberrow_number是一个窗口函数,语法如下:row_number()over(partitionby<用于分组的字段名>orderby<用于在组内排序的字段名>)wherepartitionbypart可以省略。--在支持窗口函数的sql中使用selectcount(casewhenrn=1thentask_idelsenullend)task_numfrom(selecttask_id,row_number()over(partitionbytask_idorderbystart_time)rnfromTask)tmp;另外,使用表测试来管理distinct和groupby在去重中的使用:--下面的分号;用于分隔行selectdistinctuser_idfromTest;--返回1;2selectdistinctuser_id,user_typefromTest;--返回1,1;1,2;2、1selectuser_idfromTestgroupbyuser_id;--返回1;2通过user_id,user_type从Testgroup中选择user_id,user_type;--返回1,1;1,2;2、1selectuser_id,user_typefromTestgroupbyuser_id;--Hive、Oracle等会报错,但是mysql可以这样写。--返回1,1或1,2;2、1(两行)。只会对groupby后面的字段进行去重,也就是说最后返回的记录条数等于前面这段sql的记录条数,也就是2——没有放置的字段groupby之后但放在select中只会返回一条Record(好像一般都是第一条,应该是不规则的)