Python读取CSV文件并处理数据|极客教程

Python读取CSV文件并处理数据

1. 概述

CSV（逗号分隔值）是一种常见的文件格式，用于存储和交换数据。Python 提供了许多库来读取和处理CSV文件，如csv模块和pandas库等。本文将详细介绍在Python中读取CSV文件并对其中的数据进行处理的方法。

2. 读取CSV文件

2.1 使用`csv`模块

csv模块是Python标准库中提供的用于处理CSV文件的模块。下面是使用csv模块读取CSV文件的基本步骤：

import csv

# 打开CSV文件
with open('data.csv', 'r', encoding='utf-8') as file:
    # 创建一个CSV文件阅读器对象
    reader = csv.reader(file)

    # 读取每一行数据
    for row in reader:
        # 处理每一行数据
        print(row)

上述代码中，我们首先使用open()函数打开CSV文件，指定文件路径（假设文件名为data.csv）、文件模式（r表示只读）、编码方式（一般为utf-8）。然后使用csv.reader()函数创建一个CSV文件阅读器对象，将文件对象作为参数传入。最后，使用for循环逐行读取文件内容，并进行相应的处理。

2.2 使用`pandas`库

pandas是一个强大的数据处理库，提供了大量易于使用的函数和方法用于读取、处理和分析数据。下面是使用pandas库读取CSV文件的基本步骤：

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv', encoding='utf-8')

# 处理数据
print(df.head())

上述代码中，我们使用pd.read_csv()函数读取CSV文件，指定文件路径（假设文件名为data.csv）和编码方式（一般为utf-8）。该函数将CSV文件转换为DataFrame对象，方便进行数据处理和分析。最后，使用head()方法打印前几行数据，以检查数据是否成功加载。

3. 数据处理与分析

读取CSV文件后，接下来可以对数据进行各种处理和分析。下面介绍几个常用的数据处理操作。

3.1 数据过滤

数据过滤是根据某些条件筛选出满足条件的数据，而忽略不满足条件的数据。下面是一个示例，演示如何从CSV文件中过滤出特定条件的数据：

# 使用pandas库读取CSV文件
df = pd.read_csv('data.csv', encoding='utf-8')

# 过滤数据
filtered_data = df[df['age'] > 30]

# 打印过滤后的数据
print(filtered_data)

上述代码中，我们使用df[df['age'] > 30]的方式过滤出年龄大于30岁的数据。df['age']表示选择DataFrame对象中的age列，df['age'] > 30表示筛选出满足条件age > 30的行。最后，使用print()函数打印过滤后的数据。

3.2 数据排序

数据排序是按照某一列或多列的值对数据进行排序。下面是一个示例，演示如何对CSV文件中的数据进行排序：

# 使用pandas库读取CSV文件
df = pd.read_csv('data.csv', encoding='utf-8')

# 按照年龄升序排序
sorted_data = df.sort_values(by='age')

# 打印排序后的数据
print(sorted_data)

上述代码中，我们使用df.sort_values(by='age')的方式按照age列的值对数据进行升序排序。by='age'表示按照age列进行排序，可根据实际需求修改。最后，使用print()函数打印排序后的数据。

3.3 数据统计

数据统计是对数据进行各种统计计算，如求和、均值、标准差等。下面是一个示例，演示如何对CSV文件中的数据进行统计计算：

# 使用pandas库读取CSV文件
df = pd.read_csv('data.csv', encoding='utf-8')

# 统计计算
mean_age = df['age'].mean()
sum_salary = df['salary'].sum()

# 打印统计结果
print('平均年龄：', mean_age)
print('工资总和：', sum_salary)

上述代码中，我们使用df['age'].mean()计算age列的平均值，使用df['salary'].sum()计算salary列的总和。最后，使用print()函数打印统计结果。