所在的位置： mysql >> mysql资源 >> 一文讲清MySQL去重的3种方法

一文讲清MySQL去重的3种方法

能治疗白癜风的医院 https://jbk.39.net/yiyuanfengcai/yyjs_bjzkbdfyy/

在使用SQL提数的时候，常会遇到表内有重复值的时候，比如我们想得到uv（独立访客），就需要做去重。

在MySQL中通常是使用distinct或groupby子句，但在支持窗口函数的sql（如HiveSQL、Oracle等等）中还可以使用row_number窗口函数进行去重。

举个栗子，现有这样一张表task：

备注：

task_id:任务id;

order_id:订单id;

start_time:开始时间

注意：一个任务对应多条订单

我们需要求出任务的总数量，因为task_id并非唯一的，所以需要去重：

distinct

--列出task_id的所有唯一值（去重后的记录）--selectdistincttask_id--fromTask;--任务总数selectcount(distincttask_id)task_numfromTask;

distinct通常效率较低。它不适合用来展示去重后具体的值，一般与count配合用来计算条数。

distinct使用中，放在select后边，对后面所有的字段的值统一进行去重。比如distinct后面有两个字段，那么1,1和1,2这两条记录不是重复值。

groupby

--列出task_id的所有唯一值（去重后的记录,null也是值）--selecttask_id--fromTask--groupbytask_id;--任务总数selectcount(task_id)task_numfrom(selecttask_idfromTaskgroupbytask_id)tmp;

row_number

row_number是窗口函数，语法如下：

row_number()over(partitionby用于分组的字段名orderby用于组内排序的字段名)

其中partitionby部分可省略。

--在支持窗口函数的sql中使用selectcount(casewhenrn=1thentask_idelsenullend)task_numfrom(selecttask_id,row_number()over(partitionbytask_idorderbystart_time)rnfromTask)tmp;

此外，再借助一个表test来理理distinct和groupby在去重中的使用：

--下方的分号;用来分隔行selectdistinctuser_idfromTest;--返回1;2selectdistinctuser_id,user_typefromTest;--返回1,1;1,2;2,1selectuser_idfromTestgroupbyuser_id;--返回1;2selectuser_id,user_typefromTestgroupbyuser_id,user_type;--返回1,1;1,2;2,1selectuser_id,user_typefromTestgroupbyuser_id;--Hive、Oracle等会报错，mysql可以这样写。--返回1,1或1,2;2,1（共两行）。只会对groupby后面的字段去重，就是说最后返回的记录数等于上一段sql的记录数，即2条--没有放在groupby后面但是在select中放了的字段，只会返回一条记录（好像通常是第一条，应该是没有规律的）

来源：blog.csdn.net/xienan_ds_zj/article/details/

往期精彩回顾

泛型中的T、E、K、V，还记得嘛？Elasticsearch实现对Word、PDF等文件进行全文检索SpringBoot+Querydsl框架，大大简化复杂查询操作1亿条数据批量插入MySQL，哪种方式最快？预览时标签不可点收录于合集#个上一篇下一篇

转载请注明：http://www.aierlanlan.com/rzgz/345.html

上一篇文章： MySQL自增ID的理解

下一篇文章： MySQL查询语句是怎么执行的总结篇