如何删除重复的行？

Question

更多

Seibar

问题

如何删除重复的行？

从一个相当大的SQL Server表中删除重复的行（即30万行以上）的最佳方法是什么？

当然，由于RowID身份字段的存在，这些行不会是完全重复的。

MyTable

RowID int not null identity(1,1) primary key,
Col1 varchar(20) not null,
Col2 varchar(2048) not null,
Col3 tinyint not null

DineshDB

已编辑的问题 28日三月 2018 в 10:48

编程

sql-server

tsql

duplicates

解决方案/答案

Jon Galloway

20日八月 2008 в 9:53

更多

在微软支持网站上有一篇关于删除重复数据的好文章。这篇文章相当保守--他们让你在不同的步骤中做所有的事情--但它对大型表格应该很有效。

我过去曾用自连接来做这件事，尽管它可能会用一个HAVING子句来修饰。

DELETE dupes
FROM MyTable dupes, MyTable fullTable
WHERE dupes.dupField = fullTable.dupField 
AND dupes.secondDupField = fullTable.secondDupField 
AND dupes.uniqueField > fullTable.uniqueField

Ivan Yurchenko

编辑本段答案19日六月 2017 в 11:36

Remove duplicate rows from a table in SQL Server - SQL Server | Microsoft Learn

This article provides a script that you can use to remove duplicate rows from a SQL Server table.

support.microsoft.com

146

0

添加问题

岚，巗峃，。

全部

技术

文化/娱乐

生活/艺术

科学

专业的

业务

用户

全部

新的

热门

1

2

3

4

5

您有问题吗？将问题添加到网站上并立即得到答复

zh.kzen.dev

Mark Brackett · Accepted Answer · 2008-08-20T22:00:00+00:00

假设没有空值，你可以GROUP BY唯一列，然后SELECT``MIN (或MAX)RowId作为要保留的行。然后，只要删除所有没有行ID的内容。

DELETE FROM MyTable
LEFT OUTER JOIN (
   SELECT MIN(RowId) as RowId, Col1, Col2, Col3 
   FROM MyTable 
   GROUP BY Col1, Col2, Col3
) as KeepRows ON
   MyTable.RowId = KeepRows.RowId
WHERE
   KeepRows.RowId IS NULL

如果你有一个GUID而不是一个整数，你可以替换为

MIN(RowId)

替换为

CONVERT(uniqueidentifier, MIN(CONVERT(char(36), MyGuidColumn)))