来源:blog.csdn.net/xienan_ds_zj/article/details/
大家好!我是鸭哥。
在使用SQL提数的时候,常会遇到表内有重复值的时候,比如我们想得到uv(独立访客),就需要做去重。
在MySQL中通常是使用distinct或groupby子句,但在支持窗口函数的sql(如HiveSQL、Oracle等等)中还可以使用row_number窗口函数进行去重。
举个栗子,现有这样一张表task:
备注:
task_id:任务id;
order_id:订单id;
start_time:开始时间
注意:一个任务对应多条订单
我们需要求出任务的总数量,因为task_id并非唯一的,所以需要去重:
distinct
--列出task_id的所有唯一值(去重后的记录)--selectdistincttask_id--fromTask;--任务总数selectcount(distincttask_id)task_numfromTask;
distinct通常效率较低。它不适合用来展示去重后具体的值,一般与count配合用来计算条数。
distinct使用中,放在select后边,对后面所有的字段的值统一进行去重。比如distinct后面有两个字段,那么1,1和1,2这两条记录不是重复值。
groupby
--列出task_id的所有唯一值(去重后的记录,null也是值)--selecttask_id--fromTask--groupbytask_id;--任务总数selectcount(task_id)task_numfrom(selecttask_idfromTaskgroupbytask_id)tmp;
row_number
row_number是窗口函数,语法如下:
row_number()over(partitionby用于分组的字段名orderby用于组内排序的字段名)
其中partitionby部分可省略。
--在支持窗口函数的sql中使用selectcount(casewhenrn=1thentask_idelsenullend)task_numfrom(selecttask_id,row_number()over(partitionbytask_idorderbystart_time)rnfromTask)tmp;
此外,再借助一个表test来理理distinct和groupby在去重中的使用:
--下方的分号;用来分隔行selectdistinctuser_idfromTest;--返回1;2selectdistinctuser_id,user_typefromTest;--返回1,1;1,2;2,1selectuser_idfromTestgroupbyuser_id;--返回1;2selectuser_id,user_typefromTestgroupbyuser_id,user_type;--返回1,1;1,2;2,1selectuser_id,user_typefromTestgroupbyuser_id;--Hive、Oracle等会报错,mysql可以这样写。--返回1,1或1,2;2,1(共两行)。只会对groupby后面的字段去重,就是说最后返回的记录数等于上一段sql的记录数,即2条--没有放在groupby后面但是在select中放了的字段,只会返回一条记录(好像通常是第一条,应该是没有规律的)
程序员技术交流群有读者私信鸭哥我说:想进大厂,但是现在进大厂太难了!因此,鸭哥我特意邀请了一些华为、腾讯、阿里的朋友在群里面,与大家一起交流经验、技术成长。有兴趣入群的读者,可以扫描下方