Python 寻找重复文件并删除

在本文中，我们将介绍如何使用Python来寻找重复文件并删除它们。重复文件是指内容完全相同的文件，它们占据了不必要的磁盘空间，也增加了文件的管理复杂性。通过编写一个Python脚本，我们可以轻松地找到这些重复文件，并选择性地将它们删除。接下来，让我们开始解决这个问题。

阅读更多：Python 教程

步骤 1: 遍历目录树

首先，我们需要遍历计算机上的所有文件。可以使用os.walk函数来实现这一目标。os.walk会递归地遍历指定路径下的所有文件和文件夹，并为我们提供每个文件夹的路径以及包含的文件和子文件夹。我们可以使用这些信息来查找重复文件。

下面是一个使用os.walk函数的简单示例，它打印出指定路径下的所有文件和文件夹：

import os

def print_directory_contents(path):
    for root, dirs, files in os.walk(path):
        for file in files:
            print(os.path.join(root, file))

# 指定路径进行测试
print_directory_contents('/path/to/directory')

在上面的示例中，我们定义了一个print_directory_contents函数，该函数接受一个路径作为参数，并使用os.walk遍历该路径下的所有文件和文件夹。使用os.path.join(root, file)可以获取每个文件的完整路径，并进行打印。

步骤 2: 计算文件的哈希值

接下来，我们需要计算每个文件的哈希值。哈希值是一个唯一的字符串，用于标识文件的内容。可以使用Python的hashlib模块来计算文件的哈希值。

下面是一个计算文件哈希值的示例：

import hashlib

def calculate_file_hash(file_path):
    with open(file_path, 'rb') as f:
        data = f.read()
        file_hash = hashlib.md5(data).hexdigest()
    return file_hash

# 计算指定文件的哈希值
hash_value = calculate_file_hash('/path/to/file')
print(hash_value)

在上面的示例中，我们定义了一个calculate_file_hash函数，该函数接受一个文件路径作为参数，并返回文件的哈希值。首先，我们以二进制模式打开文件，并将其读取为字节数据。然后，使用hashlib.md5计算字节数据的哈希值，并使用hexdigest方法将其转换为十六进制字符串。

步骤 3: 寻找重复文件

有了遍历目录树和计算文件哈希值的功能，我们现在可以开始寻找重复文件了。我们将通过创建一个字典来存储文件哈希值和对应的文件路径，然后通过比较哈希值来查找重复文件。

下面是一个寻找重复文件的示例：

import os
import hashlib

def find_duplicate_files(path):
    file_dict = {}
    for root, dirs, files in os.walk(path):
        for file in files:
            file_path = os.path.join(root, file)
            file_hash = calculate_file_hash(file_path)
            if file_hash in file_dict:
                file_dict[file_hash].append(file_path)
            else:
                file_dict[file_hash] = [file_path]

    duplicate_files = []
    for file_list in file_dict.values():
        if len(file_list) > 1:
            duplicate_files.extend(file_list)

    return duplicate_files

# 寻找指定路径下的重复文件
duplicates = find_duplicate_files('/path/to/directory')
print(duplicates)

在上面的示例中，我们定义了一个find_duplicate_files函数，该函数接受一个路径作为参数，并返回所有重复文件的列表。我们使用file_dict字典来存储文件哈希值和文件路径的映射关系，如果哈希值已存在于字典中，则将相应的文件路径添加到哈希值对应的列表中；否则，创建一个新的列表。最后，我们通过检查每个哈希值对应的文件路径列表的长度，将包含多个文件路径的列表添加到duplicate_files列表中。

步骤 4: 删除重复文件

最后一步是选择性地删除重复文件。在删除文件之前，确保在执行删除操作之前备份重要的文件，以防误删。

下面是一个删除重复文件的示例：

import os
import hashlib

def find_duplicate_files(path):
    file_dict = {}
    for root, dirs, files in os.walk(path):
        for file in files:
            file_path = os.path.join(root, file)
            file_hash = calculate_file_hash(file_path)
            if file_hash in file_dict:
                file_dict[file_hash].append(file_path)
            else:
                file_dict[file_hash] = [file_path]

    duplicate_files = []
    for file_list in file_dict.values():
        if len(file_list) > 1:
            duplicate_files.extend(file_list)

    return duplicate_files

def delete_duplicate_files(duplicate_files):
    for file in duplicate_files:
        os.remove(file)

# 寻找指定路径下的重复文件
duplicates = find_duplicate_files('/path/to/directory')
# 删除重复文件
delete_duplicate_files(duplicates)