Pandas 如何使用pandas读取大型csv文件

在本文中，我们将介绍如何使用Pandas读取大型csv文件。读取大型文件时，通常会出现内存不足的问题。但是，使用Pandas的一些方法可以解决这个问题，使得读取大型csv文件变得更加容易。

读取csv文件

Pandas有一个非常好用的函数read_csv()用于读取csv文件。该函数可以读取本地文件和从远程url获取文件。我们以读取本地大型csv文件为例：

import pandas as pd

chunk_size = 1000000 # 每次读取文本的行数为1000000
for chunk in pd.read_csv('large_file.csv', chunksize=chunk_size):
    # 每次读取chunk_size行文本
    print(chunk.head()) # 打印前5行数据

在上面的代码中，使用了参数 chunksize ，它可以帮助我们分成多个数据块读取。每个数据块包含 chunk_size 行数据。这样，我们就可以非常方便地读取大型csv文件，而不会发生内存不足的情况。

选择要读取的列

当我们读取一个大型csv文件时，有时我们只需要读取一部分列，而不是整个文件。Pandas为我们提供了一个非常有用的参数usecols，可以仅选取几列：

import pandas as pd

df = pd.read_csv('large_file.csv', usecols=['column1','column2','column3'])

在上面的代码中，我们只选择column1,column2和column3三列。

压缩文件

当我们读取大型csv文件时，有时候可以先将原始数据压缩为gzip格式。这样的好处是可以减少待读取的文件大小，从而提高读取效率，并且使我们更容易处理大型文件。在数据压缩方面，Pandas还提供了read_csv的一个参数：compression。我们可以使用如下代码来读取压缩后的文件：

import pandas as pd

df = pd.read_csv('large_file.csv.gz', compression='gzip')

逐个处理行

有些时候，我们并不需要一次性读取整个文件。如果我们只想处理一行或者几行，那么Pandas为我们提供了一个非常实用的方法——逐个处理行。在这个方法中，我们需要使用下面的代码：

import pandas as pd

reader = pd.read_csv('large_file.csv', iterator=True)
chunk_size = 1000000
chunks = []
loop = True
while loop:
    try:
        chunk = reader.get_chunk(chunk_size)
        chunks.append(chunk)
    except StopIteration:
        loop = False
        print("Iteration stopped.")

df = pd.concat(chunks, ignore_index=True)

在上述代码中，我们首先将一个csv文件的参数设置为iterator= True，并将结果赋给一个叫reader的变量。之后我们可以在循环中逐行读取文件：