3种SQL重复数据删除方法，还有谁做不到？

时间：2023-04-01 23:41:09 Java

在使用SQL提取数字的时候，我们经常会遇到表中有重复值的情况。比如我们要得到uv（独立访客），就需要做去重。在MySQL中，通常使用distinct或groupby子句，但在支持窗口函数的SQL中（如HiveSQL、Oracle等），也可以使用row_number窗口函数进行去重。比如有这么一张表task：备注：task_id：任务id；order_id：订单编号；start_time：开始时间注：一个任务对应多个订单我们需要求任务总数，因为task_id不唯一，所以需要去重：distinct--列出task_id的所有唯一值（记录afterdeduplication)--selectdistincttask_id--fromTask;--任务总数selectcount(distincttask_id)task_numfromTask;distinct通常效率比较低。不适合显示去重后的具体值，一般与count配合使用，计算条目数。使用distinct时，放在select之后，可以对后面所有字段的值进行去重。比如distinct后面有两个字段，那么1,1和1,2这两条记录就不是重复值。groupby--列出task_id的所有唯一值（去重后的记录，null也是一个值）--selecttask_id--fromTask--groupbytask_id;--任务总数selectcount(task_id)task_numfrom(selecttask_idfromTaskgroupbytask_id)tmp;row_numberrow_number是一个窗口函数，语法如下：row_number()over(partitionby<用于分组的字段名>orderby<用于在组内排序的字段名>)wherepartitionbypart可以省略。--在支持窗口函数的sql中使用selectcount(casewhenrn=1thentask_idelsenullend)task_numfrom(selecttask_id,row_number()over(partitionbytask_idorderbystart_time)rnfromTask)tmp;另外，使用表测试来管理distinct和groupby在去重中的使用：--下面的分号；用于分隔行selectdistinctuser_idfromTest;--返回1；2selectdistinctuser_id,user_typefromTest;--返回1,1;1,2;2、1selectuser_idfromTestgroupbyuser_id；--返回1；2通过user_id,user_type从Testgroup中选择user_id,user_type；--返回1,1;1,2;2、1selectuser_id,user_typefromTestgroupbyuser_id;--Hive、Oracle等会报错，但是mysql可以这样写。--返回1,1或1,2;2、1（两行）。只会对groupby后面的字段进行去重，也就是说最后返回的记录条数等于前面这段sql的记录条数，也就是2——没有放置的字段groupby之后但放在select中只会返回一条Record（好像一般都是第一条，应该是不规则的）

上一篇：如何面对互联网卷入的严寒？解锁你的生存技能？

下一篇：Ajax

3种SQL重复数据删除方法，还有谁做不到？相关文章