Pandas如何根据部分匹配选择DataFrame列

在本文中，我们将介绍如何使用Pandas根据部分匹配选择DataFrame列。在实际应用中，往往需要根据部分列名来选择需要的列。例如，我们有一个包含许多列的DataFrame，其中包含“姓名”、“年龄”、“身高”、“体重”等列。现在，我们想要选择所有“名字”开头的列，即“姓名”列，以及所有以“体”开头的列，即“体重”列和“体脂”列。

阅读更多：Pandas 教程

方法一：使用str.contains()方法

Pandas的Series有一个方法叫做str.contains()，可以判断一个字符串是否包含另一个字符串。我们可以结合使用该方法和DataFrame的filter()方法来选择需要的列。

示例：

import pandas as pd

df = pd.DataFrame({'姓名':['张三','李四','王五'],
                   '年龄':[18,20,22],
                   '身高':[170,175,180],
                   '体重':[60,65,70],
                   '体脂':[18,19,20]})

name_cols = df.filter(regex='(^姓名)', axis=1) # 选择所有以“姓名”开头的列
weight_cols = df.filter(regex='(^体)|(^體)', axis=1) # 选择所有以“体”或“體”开头的列

print(name_cols)
print(weight_cols)

输出结果：

上述代码中，filter()方法的第一个参数是一个正则表达式，用来匹配需要的列名。^表示匹配开头，|表示或，()表示匹配的字符串。

缺点：这种方法虽然可以选择部分匹配的列，但是不能保证列的顺序和数量是一致的，而且正则表达式可能比较难写。

方法二：使用loc[]和str.startswith()方法

Pandas的DataFrame有一个loc[]属性，可以通过索引来选择行和列。和上一种方法不同，该方法选择列时需要指定列名的精确值，但是我们可以结合使用str.startswith()方法和过滤器来选择需要的列。

示例：

import pandas as pd

df = pd.DataFrame({'姓名':['张三','李四','王五'],
                   '年龄':[18,20,22],
                   '身高':[170,175,180],
                   '体重':[60,65,70],
                   '体脂':[18,19,20]})

name_cols = df.loc[:, df.columns.str.startswith('姓名')] # 选择所有以“姓名”开头的列
weight_cols = df.loc[:, df.columns.str.startswith('体')] # 选择所有以“体”开头的列

print(name_cols)
print(weight_cols)

输出结果：

上述代码中，str.startswith()用来判断字符串是否以指定的前缀开头，并返回一个布尔数组，loc[]按照该数组来选择需要的列。

缺点：这种方法需要手动输入精确的列名，不够灵活。

方法三：使用filter()和正则表达式

和方法一类似，我们可以使用filter()方法结合正则表达式来选择需要的列，但是可以更灵活的匹配列名。

示例：

import pandas as pd

df = pd.DataFrame({'姓名':['张三','李四','王五'],
                   '年龄':[18,20,22],
                   '身高':[170,175,180],
                   '体重':[60,65,70],
                   '体脂':[18,19,20]})

name_cols = df.filter(regex='^姓名', axis=1) # 选择所有以“姓名”开头的列
weight_cols = df.filter(regex='^(体|體)', axis=1) # 选择所有以“体”或“體”开头的列

print(name_cols)
print(weight_cols)

输出结果：

上述代码中，正则表达式^(体|體)表示匹配以“体”或“體”开头的字符串。

总结

本文介绍了如何在Pandas中根据部分匹配选择DataFrame列，包括使用str.contains()和正则表达式、loc[]和str.startswith()方法、和filter()和正则表达式。其中，使用filter()和正则表达式的方法最为灵活，既可以选择精确匹配的列，也可以选择部分匹配的列。用户可以根据实际情况选择适合自己的方法。