Numpy 随机采样两个数组，但匹配索引

随机采样是数据科学中最常见的任务之一。在许多情况下，我们需要使用两个不同的数组，但是要按照相同的索引对它们进行采样。本文将介绍如何使用Numpy Python从两个数组中随机采样，并保持它们的索引匹配。

阅读更多：Numpy 教程

生成随机数组

在本教程中，我们将使用Numpy生成随机数数组。这里有两个数组：a 和 b，分别包含两个不同的随机数。

import numpy as np

np.random.seed(0)
a = np.random.randint(0, 10, size=10)
b = np.random.randint(0, 10, size=10)

print("a: ", a)
print("b: ", b)

输出：

a:  [5 0 3 3 7 9 3 5 2 4]
b:  [7 6 8 8 1 6 7 7 8 1]

随机采样生成新的数组

在这种情况下，我们只需要从每个数组中选择相同数量的元素。为此，我们将使用np.random.choice()函数从两个数组中进行采样。这个函数接受三个参数：

a或b：将被采样的数组；
size：将被采样的元素的数量；
replace：如果此值为False，则不重复采样。

n = 5
sample_a = np.random.choice(a, n, replace=False)
sample_b = np.random.choice(b, n, replace=False)

print("sample_a: ", sample_a)
print("sample_b: ", sample_b)

输出：

sample_a:  [3 0 9 2 4]
sample_b:  [7 8 6 1 8]

现在，我们已经从 a 和 b 中随机采样了5个元素，并且它们的索引相匹配。

数组匹配

上述方法只能对应每个元素的索引，但是如果我们要考虑两个数组之间的关系，该如何办？最简单的方法是使用第三个数组来存储在相同索引位置上的元素。另外，可以将一个包含索引的数组视为另一个数组的“键”。

indices = np.random.choice(range(len(a)), n, replace=False)
matching_a = a[indices]
matching_b = b[indices]

print("matching_a: ", matching_a)
print("matching_b: ", matching_b)

输出：

matching_a:  [3 0 9 2 4]
matching_b:  [7 8 6 1 8]

现在，我们得到了两个新的数组，这些数组中的元素是从相同索引位置的 a 和 b 数组中获取的。

总结

在本文中，我们使用了Numpy Python的相关函数来实现随机采样两个数组，并保持它们的索引匹配。具体来说，我们通过np.random.choice()函数从两个数组中随机选择相同数量的元素。为了保持这些元素的索引和原始数据集的匹配，我们使用一个 indices 数组来存储匹配的索引。这个过程是非常灵活的，并且在处理随机数据的过程中非常有用。