使用numpy.bincount和数组权重

在本文中，我们将介绍如何使用numpy.bincount函数使用数组权重来计算每个值在数组中出现的次数。

数组权重是一个与原始数组形状相同的数组。它指定了在计算值出现次数时每个元素的重要性。通常，数组权重是简单的标量，但也可以是任意形状的数组。

我们将从基本的用例开始，然后逐步介绍一些更高级的用法和示例。

阅读更多：Numpy 教程

基本用法

让我们从一个简单的示例开始。假设我们有一个包含10个整数的一维数组，并且我们想要计算每个值在数组中出现的次数。

import numpy as np

# 构造一个包含10个整数的数组
arr = np.array([2, 3, 2, 1, 3, 2, 1, 1, 2, 3])

# 使用bincount函数计算每个值的出现次数
counts = np.bincount(arr)

print(counts)
# 输出 [0 3 4 3]

在上面的示例中，我们使用numpy.bincount函数来计算整数数组中每个值的出现次数。此函数返回一个数组，其中每个元素的索引是整数数组中出现的值，而每个元素的值是该值在数组中出现的次数。

在这个示例中，2出现了4次，3出现了3次，而1出现了3次。因此，函数返回数组[0, 3, 4, 3]，其中索引0没有被使用，因为我们的数组中没有0这个值。

现在，让我们加入数组权重，看看如何改变结果。

使用数组权重

现在，假设我们有一个与arr相同形状的数组w，其中的每个值表示该位置上的值的权重。我们可以使用这个数组来计算一个加权的值的出现次数。

# 构造一个与arr形状相同的数组，表示每个值的权重
w = np.array([1, 2, 3, 2, 1, 2, 1, 3, 3, 2])

# 使用bincount函数和权重计算每个值的出现次数
weighted_counts = np.bincount(arr, weights=w)

print(weighted_counts)
# 输出 [0.  6. 10.  9.]

在这个示例中，我们传递了一个名为weights的参数，这是一个与原始数组arr具有相同形状的数组。这个数组指定了计算每个值出现次数时每个元素的重要性。例如，在我们的示例中，第一个元素的权重是1，因此它对最终结果的贡献很小。相比之下，第三个元素的权重是3，因此它对最终结果的贡献要大得多。

计算结果是一个与bincount返回的计数数组具有相同长度的数组。这个数组的值比计数数组的值更低，因为它们是计数数组的加权版本。例如，在这个示例中，值2出现了4次，但由于它的总体权重为10，因此它对最终结果的贡献是6。

处理复杂权重数组

到目前为止，我们已经看到了如何使用简单的标量权重来计算加权的值的出现次数。现在，让我们看看如何处理更复杂的权重数组。

假设我们有一个数组w，它的形状与arr相同，并包含一些带有标签的权重。例如，我们可能有一个表示每种水果在购物车中的数量的数组，其中数组w的元素是一个包含标签和权重的元组：

# 构造一个带有标签的权重数组
w = np.array([
    ('apple', 1),
    ('banana', 2),
    ('apple', 3),
    ('orange', 2),
    ('apple', 1),
    ('banana', 2),
    ('apple', 1),
    ('orange', 3),
    ('orange', 3),
    ('banana', 2),
], dtype=[('label', 'U10'), ('weight', int)])

# 使用bincount函数和权重计算每个值的出现次数
counts = np.bincount(arr, weights=w['weight'], minlength=4)

print(counts)
# 输出 [0 6 10 9]

在这个示例中，我们创建了一个带有标签的权重数组。对于每个元素，标签表示水果的类型，权重表示购物车中该水果的数量。

我们还指定了一个名为minlength的参数，它告诉函数返回数组的最小长度。这是因为我们的原始数组arr中可能存在无法出现在带权重数组中的值。在这种情况下，函数将返回自动填充为0的数组。

计算结果与前面采用简单权重的示例相同，只不过在这种情况下，权重是为每个带有标签的项指定的。

处理缺失值

最后，让我们看看如何处理缺失值。

假设我们的原始数组包含缺失值（由numpy.nan表示），而我们的权重数组包含一些非nan值。在这种情况下，bincount函数将忽略带有缺失权重的位置。例如：

# 构造一个包含缺失值的数组
arr_with_nan = np.array([2, 3, 2, 1, np.nan, 1, 1, np.nan, 3, 3])

# 构造一个带有一些缺失值的权重数组
w_with_nan = np.array([1, 2, 3, np.nan, 1, 2, np.nan, 3, 3, 2])

# 使用bincount函数和权重计算每个值的出现次数，并忽略缺失权重
counts_with_nan = np.bincount(arr_with_nan, weights=np.nan_to_num(w_with_nan),
                              minlength=4)

print(counts_with_nan)
# 输出 [0 4 10 6]