pandas读取csv文件指定列|极客教程

pandas读取csv文件指定列

1. 简介

在数据分析和处理过程中，使用pandas来读取和处理csv文件是非常常见的操作。pandas是一个强大的数据处理库，可以方便地读取、清洗和分析各种格式的数据。本文将详细介绍如何使用pandas读取csv文件，并且只选择需要的列进行处理。

2. pandas读取csv文件

2.1 安装pandas

在开始之前，首先需要安装pandas库。运行以下命令来安装pandas:

pip install pandas

2.2 导入pandas库

安装完成后，需要在代码中导入pandas库:

import pandas as pd

2.3 读取csv文件

pandas提供了read_csv函数来读取csv文件。在读取csv文件时，需要指定文件的路径。例如，假设我们有一个名为data.csv的csv文件，位于当前工作目录下，我们可以使用以下代码来读取它:

df = pd.read_csv('data.csv')

2.4 查看数据

成功读取csv文件后，可以使用head函数来查看前几行数据，以确保数据被正确读取。默认情况下，head函数会显示前5行数据。

print(df.head())

3. 指定列进行处理

3.1 选择指定列

有时候，我们只对csv文件中的某些列感兴趣，而不是整个数据集。可以使用pandas的列索引方式来选择指定列。

假设我们的数据集包含Name、Age、Gender和Salary四列，我们只关心Name和Salary列。我们可以通过以下代码来选择这两列:

selected_columns = ['Name', 'Salary']
df_selected = df[selected_columns]

3.2 查看指定列数据

选择了指定的列后，可以使用head函数来查看前几行数据，确保选取的列是正确的。例如，我们可以查看Name和Salary列前5行的数据:

print(df_selected.head())

3.3 进一步处理指定列

选择了指定的列后，可以对这些列进行进一步的处理。例如，我们可以计算Salary列的平均值:

average_salary = df_selected['Salary'].mean()
print("Average Salary:", average_salary)

4. 示例代码运行结果

以下是一个完整的示例代码，它演示了如何使用pandas读取csv文件并选择指定列进行处理。

import pandas as pd

# 读取csv文件
df = pd.read_csv('data.csv')

# 查看前5行数据
print(df.head())

# 选择指定列
selected_columns = ['Name', 'Salary']
df_selected = df[selected_columns]

# 查看指定列数据
print(df_selected.head())

# 进一步处理指定列
average_salary = df_selected['Salary'].mean()
print("Average Salary:", average_salary)

运行以上代码后，你会看到以下输出:

   Name  Age  Gender  Salary
0   Tom   25    Male   50000
1  John   30    Male   60000
2  Mary   28  Female   55000
3   Bob   35    Male   70000
4  Lisa   27  Female   52000

   Name  Salary
0   Tom   50000
1  John   60000
2  Mary   55000
3   Bob   70000
4  Lisa   52000

Average Salary: 57400.0