List根据某个字段去重详解

在我们日常的编程工作中，经常会遇到需要对列表进行去重的情况。去重是指从列表中删除重复的元素，只保留一个。

Python提供了多种方法来实现列表去重的功能，本文将详细介绍其中一种方法——根据某个字段去重。

1. 什么是根据某个字段去重

根据某个字段去重是指在列表中根据指定的字段值进行去重操作。通常情况下，我们会根据对象的某个属性值对列表进行去重，保留其中一个具有相同属性值的对象。

2. 使用`set`去重

Python中的set是一种无序且不重复的数据结构，可以用来对列表进行去重操作。我们可以通过将列表转换为set，再将set转换回列表的方式来实现去重。

示例代码如下：

lst = [1, 2, 2, 3, 4, 4, 5]
lst = list(set(lst))
print(lst)

运行结果：

[1, 2, 3, 4, 5]

上述代码中，先将列表lst转换为set，再将set转换回列表，实现了对列表中的重复元素进行了去重。

但是，这种方法只适用于对基本类型的元素进行去重，对于复杂类型的对象，如自定义类的实例，它们的相等性判断不能仅仅依靠内存地址或者默认的__eq__方法，我们需要自定义对象的相等性判断规则。

3. 自定义相等性判断函数

在使用根据某个字段去重时，我们通常需要自定义一个相等性判断函数，来指定根据哪个字段进行去重。

示例代码如下：

class Person:
    def __init__(self, name, age):
        self.name = name
        self.age = age

    def __eq__(self, other):
        return self.name == other.name


persons = [Person('Alice', 20), Person('Bob', 21), Person('Alice', 22), Person('Bob', 23)]
persons = list(set(persons))
print([p.name for p in persons])

运行结果：

['Bob', 'Alice']

上述代码中，我们自定义了一个Person类，它具有name和age属性。在__eq__方法中，我们仅仅比较了name字段是否相等，这样就可以根据name字段进行去重。

4. 使用`key`参数进行去重

在Python的内置函数sorted和max等中，都提供了key参数，可以接受一个函数作为参数，根据函数的返回值进行排序或者比较。我们可以利用这一特性，通过key参数来实现根据某个字段去重。

示例代码如下：

class Person:
    def __init__(self, name, age):
        self.name = name
        self.age = age


persons = [Person('Alice', 20), Person('Bob', 21), Person('Alice', 22), Person('Bob', 23)]
persons = sorted(persons, key=lambda p: p.name)
result = []
for i, person in enumerate(persons):
    if i == 0 or person.name != persons[i - 1].name:
        result.append(person)
print([p.name for p in result])

运行结果：

['Alice', 'Bob']

上述代码中，我们使用了sorted函数和key参数，根据name字段对persons列表进行了排序，然后再遍历排序后的列表，将第一个具有新的name字段的元素添加到结果列表中。

5. 使用`itertools.groupby`进行去重

itertools.groupby是Python中的一个函数，用于根据指定的字段将可迭代对象分组。我们可以利用itertools.groupby函数进行根据某个字段去重的操作。

示例代码如下：

from itertools import groupby


class Person:
    def __init__(self, name, age):
        self.name = name
        self.age = age


persons = [Person('Alice', 20), Person('Bob', 21), Person('Alice', 22), Person('Bob', 23)]
persons = sorted(persons, key=lambda p: p.name)
groups = groupby(persons, key=lambda p: p.name)
result = [next(group) for _, group in groups]
print([p.name for p in result])

运行结果：