Pandas 选取/排除列的集合
在数据分析和处理的过程中,我们经常需要选取或排除某些列,以便更好地处理数据。Pandas是一个强大的数据处理库,提供了多种方法来选取或排除数据帧中的列。在本文中,我们将介绍Pandas中用于选取和排除一组列的几种常见方法。
阅读更多:Pandas 教程
1.使用列名称进行选取
最简单的方法是使用列名称进行选取。我们可以使用列名的列表或单个列名来选择数据帧中的列。下面的示例演示了如何使用列名称选择数据帧的列:
import pandas as pd
# 创建一个数据帧
data = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'],
'age': [28, 34, 29, 42],
'gender': ['M', 'M', 'M', 'M'],
'country': ['US', 'UK', 'UK', 'US']}
df = pd.DataFrame(data)
# 选择单个列
df_name = df['name']
print(df_name)
# 选择列名的列表
df_subset = df[['name', 'age']]
print(df_subset)
输出:
0 Tom
1 Jack
2 Steve
3 Ricky
Name: name, dtype: object
name age
0 Tom 28
1 Jack 34
2 Steve 29
3 Ricky 42
2.使用iloc()方法选取列
另一种方法是使用iloc()方法。它允许我们根据列索引(而不是名称)来选择数据帧的列。下面的示例演示了如何使用iloc()选择数据帧的列:
import pandas as pd
# 创建一个数据帧
data = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'],
'age': [28, 34, 29, 42],
'gender': ['M', 'M', 'M', 'M'],
'country': ['US', 'UK', 'UK', 'US']}
df = pd.DataFrame(data)
# 使用iloc()选择列
df_subset = df.iloc[:, [0, 2]]
print(df_subset)
输出:
name gender
0 Tom M
1 Jack M
2 Steve M
3 Ricky M
3.使用loc()方法选取列
另一种方法是使用loc()方法。它允许我们根据列名称来选择数据帧的列。下面的示例演示了如何使用loc()选择数据帧的列:
import pandas as pd
# 创建一个数据帧
data = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'],
'age': [28, 34, 29, 42],
'gender': ['M', 'M', 'M', 'M'],
'country': ['US', 'UK', 'UK', 'US']}
df = pd.DataFrame(data)
# 使用loc()选择列
df_subset = df.loc[:, ['name', 'gender']]
print(df_subset)
输出:
name gender
0 Tom M
1 Jack M
2 Steve M
3 Ricky M
4.使用drop()方法排除列
如果我们想要排除一组列,我们可以使用drop()方法。下面的示例演示了如何使用drop()方法排除一组列:
import pandas as pd
# 创建一个数据帧
data = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'],
'age': [28, 34, 29, 42],
'gender': ['M', 'M', 'M', 'M'],
'country': ['US', 'UK', 'UK', 'US']}
df = pd.DataFrame(data)
# 排除一组列
df_subset = df.drop(['name', 'country'], axis=1)
print(df_subset)
输出:
“`python
age gender
0 28 M
1 34 M
2 29 M
3 42 M