SQL 在SQL Server中删除重复记录

在本文中，我们将介绍如何在SQL Server中删除重复记录。重复记录是指在表中存在多个副本或重复数据的情况。这可能是由于插入错误、重复的数据导入或其他数据问题引起的。

阅读更多：SQL 教程

1. 了解重复记录

在删除重复记录之前，我们需要先了解重复记录的含义和特征。重复记录是指在一个或多个列的值相同的情况下，表中的多个行具有相同的数据。我们可以使用COUNT函数和GROUP BY语句来查找重复的记录。

下面是一个示例表employees，其中包含了员工的信息：

CREATE TABLE employees(
  id INT PRIMARY KEY,
  name VARCHAR(100),
  email VARCHAR(100)
);

INSERT INTO employees(id, name, email)
VALUES
  (1, 'John Doe', 'john.doe@example.com'),
  (2, 'Jane Smith', 'jane.smith@example.com'),
  (3, 'John Doe', 'john.doe@example.com'),
  (4, 'Mike Johnson', 'mike.johnson@example.com'),
  (5, 'Jane Smith', 'jane.smith@example.com');

要查找employees表中的重复记录，我们可以使用以下查询：

SELECT name, email, COUNT(*) AS count
FROM employees
GROUP BY name, email
HAVING COUNT(*) > 1;

运行查询后，我们将得到如下结果：

name        | email                  | count
------------|------------------------|-------
John Doe    | john.doe@example.com   | 2
Jane Smith  | jane.smith@example.com | 2

这意味着employees表中存在两个重复记录，分别是John Doe和Jane Smith。

2. 删除重复记录

一旦我们确定了表中的重复记录，我们可以使用以下方法来删除重复的行。

2.1 使用ROW_NUMBER函数

ROW_NUMBER函数是一种用于为结果集中的每一行分配唯一的整数值的函数。我们可以利用ROW_NUMBER函数来选择要删除的重复行，并使用DELETE语句将它们从表中删除。

下面是一个使用ROW_NUMBER函数删除重复记录的示例：

WITH cte AS(
  SELECT name, email, ROW_NUMBER() OVER(PARTITION BY name, email ORDER BY id) AS rn
  FROM employees
)
DELETE FROM cte WHERE rn > 1;

在上述示例中，我们使用了CTE（公共表表达式）来生成一个包含name、email和ROW_NUMBER的结果集。PARTITION BY子句用于将记录按照name和email进行分组，ORDER BY子句用于对每个分组中的记录进行排序。

运行上述语句后，重复的记录将被删除，只保留了一条副本。最终结果如下：

SELECT * FROM employees;

id  | name          | email
----|---------------|--------
1   | John Doe      | john.doe@example.com
2   | Jane Smith    | jane.smith@example.com
4   | Mike Johnson  | mike.johnson@example.com

John Doe和Jane Smith的重复记录已被成功删除。

2.2 使用临时表

除了使用CTE外，我们还可以使用临时表来删除重复记录。我们可以创建一个临时表，并使用INSERT INTO SELECT语句将去除了重复记录的结果插入到临时表中。然后，我们可以使用DELETE语句将原表中的数据清空，并将临时表中的数据重新插入到原表中。

以下是使用临时表删除重复记录的示例：

-- 创建临时表
CREATE TABLE #temp_employees(
  id INT PRIMARY KEY,
  name VARCHAR(100),
  email VARCHAR(100)
);

-- 插入去重后的结果到临时表
INSERT INTO #temp_employees(id, name, email)
SELECT MIN(id), name, email
FROM employees
GROUP BY name, email;

-- 清空原表
TRUNCATE TABLE employees;

-- 将临时表中的数据插回原表
INSERT INTO employees(id, name, email)
SELECT id, name, email
FROM #temp_employees;

-- 删除临时表
DROP TABLE #temp_employees;

运行以上代码后，重复的记录将会从employees表中删除，并且只保留一条副本。