当前位置：首页文章资讯富士康SQL去重是用DISTINCT好，还是GROUP BY好？

推荐招聘

热招龙华厂区-小时工
小时工
入职奖金
3880元
92528人报名
内部直招
五险一金
空调宿舍
工作轻松
热招龙华厂区-正式工
正式工
入住补助
2980
27029人报名
内部直招
五险一金
空调宿舍
工作轻松
热招成都厂区-正式工
正式工
入职奖金
3600元
47090人报名
内部直招
五险一金
空调宿舍
工作轻松
热招龙华厂区-正式工
正式工
入住补助
1980
28284人报名
内部直招
五险一金
空调宿舍
工作轻松
热招廊坊厂区-正式工
正式工
入住补助
3250
9869人报名
内部直招
五险一金
空调宿舍
工作轻松
热招郑州厂区-正式工
正式工
旺季奖金
8500
46169人报名
内部直招
五险一金
空调宿舍
工作轻松

正文

SQL去重是用DISTINCT好，还是GROUP BY好？

招募专员V管理员/2023-01-18/195 阅读

0118

此篇文章发布距今已超过464天，您需要注意文章的内容或图片是否可用！

原标题：SQL去重是用DISTINCT好，还是GROUP BY好？

我们知道DISTINCT可以去掉重复数据，GROUP BY在分组后也会去掉重复数据，那这两个关键字在去掉重复数据时的效率，究竟谁会更高一点？

1、使用DISTINCT去掉重复数据

我们先看下面这个例子：

SELECTDISTINCTUnitPriceFROM[Sales].[SalesOrderDetail]WHEREUnitPrice>1000;

执行完之后的结果如下：

接下来，我们将这个表里的数据增大到194万条，再重复上面的实验。

--将表SalesOrderDetail插入到一张物理表中

SELECT*INTOSales.Temp_SalesOrderFROM[Sales].[SalesOrderDetail] ;

--通过新增的物理表进行自循环插入3次，将数据增加到1941072行

DECLARE@iINT;SET@i=0WHILE@i<4BEGIN--这里没有将SalesOrderDetailID这个自增长的放在列中，是为了让系统自动填充不同的数字进去，保证唯一性。INSERTINTOSales.Temp_SalesOrder(SalesOrderID,CarrierTrackingNumber,OrderQty,ProductID,SpecialOfferID,UnitPrice,UnitPriceDiscount,LineTotal,rowguid,ModifiedDate)

SELECTSalesOrderID,CarrierTrackingNumber,OrderQty,ProductID,SpecialOfferID,UnitPrice,UnitPriceDiscount,LineTotal,NEWID,ModifiedDateFROMSales.Temp_SalesOrderSET@i=@i+1;END;

SELECTCOUNT(1)FROMSales.Temp_SalesOrder；

（提示：可以左右滑动代码）

如下图，将自增长标识的是换成否后即可插入了。

INSERTINTOsales.Temp_SalesorderSELECTTOP1000*FROMsales.Temp_Salesorder；

数据插入完整后，我们在将上一讲的内容重复一下，看看效果如何？

A.在没建索引的情况下，我们只查询UnitPrice这一列

SELECTUnitPriceFROMSales.Temp_SalesOrder ;

我们看一下执行情况：

接下来是鉴证奇迹的时刻了，我们加DISTINCT在UnitPrice前面试试。

SELECTDISTINCTUnitPriceFROMsales.Temp_Salesorder;

和之前的实验结果一致，在执行时间没有多大差别的情况下，分析时间成倍的减少了。

B.当SalesOrderDetailID取消掉自增长属性后就和普通列一样了。

我们来重复上面的步骤：

SELECTSalesOrderDetailIDFROMsales.Temp_Salesorder

执行完后结果如下：

与上面的UnitPrice没使用DISTINCT情况基本一致。

然后我们给SalesOrderDetailID加上DISTINCT后会怎么样呢？

SELECTDISTINCTSalesOrderDetailIDFROMsales.Temp_Salesorder

我们可以看到如下执行情况：

从上图可以看到，DISTINCT已经排除了1000条记录，但是在执行时花的时间比没加DISTINCT更久了。

通过上述两个实验，我们可以得出这样一条结论：在重复量比较高的表中，使用DISTINCT可以有效提高查询效率，而在重复量比较低的表中，使用DISTINCT会严重降低查询效率。所以并不是所有的DISTINCT都是降低效率的，当然你得提前判断数据的重复量。

2、GROUP BY与DISTINCT去掉重复数据的对比

GROUP BY与DISTINCT类似，经常会有一些针对这两个哪个效率高的争议，今天我们就将这两个在不同重复数据量的效率作下对比。

A.重复数据量多的情况下，对UnitPrice进行去重

SELECTDISTINCTUnitPriceFROMsales.Temp_Salesorder;SELECTUnitPriceFROMsales.Temp_SalesorderGROUPBYUnitPrice;

将上述两条语句一起执行，结果如下：

可以看出两条语句对应的执行时间GROUP BY比DISTINCT效率高一点点。

B.重复数据量少的情况下，对SalesOrderDetailID进行去重

SELECTDISTINCTSalesOrderDetailIDFROMsales.Temp_SalesorderSELECTSalesOrderDetailIDFROMsales.Temp_SalesorderGROUPBYSalesOrderDetailID

也是同时执行上述两条语句，其结果如下：

作者对上述语句同时执行多次，针对重复量多的UnitPrice，GROUP BY总的处理效率比DISTINCT高一点点，但是针对重复量低的SalesOrderDetailID，DISTINCT就比GROUP BY快一点了，而如果随着整体数据量的增加，效果会越来越明显。

今天的内容就讲到这里，小伙伴可以动手尝试一下。返回搜狐，查看更多

责任编辑：

免责声明：本文来自网络信息收集发布，本站仅提供信息存储服务，不承担相关法律责任。如发现本文有涉嫌抄袭侵权/违法违规的内容，请联系本平台处理，一经查实，本站将立刻删除。

微信分享

分享

原创欧文的救赎，今夏主动降薪，解篮网薪资空间之愁

« 上一篇2023-01-18

原创除了贝弗利和纳恩，还有3名角色球员，本赛季很可能会离开湖人

下一篇 »2023-01-18

相关阅读

龙华富士康官网招聘_观澜富士康还在招人吗今年招人吗
2023-02-223853 人在看
成都富士康做什么的_观澜富士康还在招人吗今年招多少人
2023-02-221362 人在看
成都富士康招聘_深圳观澜富士康官网招聘普工信息查询
2023-02-221516 人在看
富士康内部推荐_观澜富士康员工服务中心
2023-02-221438 人在看

网站分类

招聘动态
园区动态
答疑解惑
求职百科
招聘信息
在线报名

随便看看

标签列表

富士康招聘网
富士康内部推荐
龙华富士康招聘信息
龙华富士康技术工网络直招
龙华富士康技术工内部推荐
龙华富士康技术工招聘官网
龙华富士康技术工官网
龙华富士康临时工招聘网
龙华富士康技术工官方直招网
富士康员工
富士康
富士康招聘
富士康人才网
富士康招募中心
富士康在线报名
富士康官方直招网
富士康网络直招
富士康招聘官网

最近发表

01深圳仁宝电子怎么样？深圳仁宝电子好不好？
02深圳哪个厂工资高？深圳富士康电子厂排名？
03那个厂招工的待遇是相当好的
04富士康工厂招工一般没有多少条件限制~
05深圳龙华观澜富士康纬创富士康电子厂是很多打工者的首选
06争取最高福利！富士康电子厂招工的旺季是在寒假
07龙华富士康官网招聘_观澜富士康还在招人吗今年招人吗

企业文化网站标签文章归档关于本站

Copyright聚才乃壮-富士则康版权所有.
本站所发布的全部内容及图片源于各厂区/事业群人资公布资料及网络，如果有侵权之处请第一时间联系我们删除。敬请谅解!

本站采用创作共用版权CC BY-NC-SA 3.0 CN许可协议，转载或复制请注明出处

粤ICP备2022120088号富士康招聘网运行时长：0.876秒查询信息：19 次

首页招工信息快速报名在线咨询电话咨询

富士康招工不收费，谨防受骗！

添加企业微信好友，了解最新招聘信息

点击我要咨询，联系您的专属客服

聚才乃壮-富士则康
FSKZP.COM

186-887766-91

内部招聘专属客服免费招聘