Python 处理超大（>20GB）文本文件逐行读取

在本文中，我们将介绍如何使用Python处理非常大的文本文件，并逐行读取数据。处理大文件时，一次加载整个文件可能会导致内存不足的问题，因此我们需要使用一种逐行读取的方法来解决这个问题。

读取大文件的方法

有两种常用的方法可以处理大文件的逐行读取：使用文件迭代器和使用生成器函数。

使用文件迭代器

文件迭代器是Python中一种用于处理文件的机制，它允许我们像遍历列表一样遍历文件的每一行。使用文件迭代器的好处是可以逐行读取文件，不会在内存中同时加载整个文件。

下面是使用文件迭代器读取大文件的示例代码：

with open('large_file.txt', 'r') as file:
    for line in file:
        # 在这里处理每一行的数据
        pass

在上述示例代码中，我们使用open()函数打开了一个名为large_file.txt的大文件，并使用for循环逐行读取文件中的数据。我们可以在for循环中的代码块中处理每一行的数据。

使用生成器函数

生成器函数是一种可以暂停和继续执行的函数。我们可以使用生成器函数来一次生成一行数据，而不是加载整个文件到内存中。这种方法也是一种高效的逐行读取大文件的方式。

下面是使用生成器函数读取大文件的示例代码：

def read_large_file(file_path):
    with open(file_path, 'r') as file:
        for line in file:
            yield line

# 使用生成器函数读取大文件
file_generator = read_large_file('large_file.txt')
for line in file_generator:
    # 在这里处理每一行的数据
    pass

在上述示例代码中，我们定义了一个生成器函数read_large_file()，该函数接受文件路径作为参数，并使用yield关键字逐行生成文件的内容。然后，我们可以使用for循环遍历生成器函数返回的数据，逐行处理大文件的数据。

示例：统计大文件中的单词数量

接下来，让我们以统计大文件中的单词数量为例，演示如何使用上述方法逐行读取大文件。

使用文件迭代器统计单词数量

def count_words(file_path):
    word_count = 0
    with open(file_path, 'r') as file:
        for line in file:
            # 将每一行的字符串按空格分割成单词列表
            words = line.split()
            # 更新单词数量
            word_count += len(words)
    return word_count

# 统计大文件中的单词数量
word_count = count_words('large_file.txt')
print(f"Total words: {word_count}")

在上述示例代码中，我们定义了一个计算单词数量的函数count_words()，该函数接受文件路径作为参数。在函数内部，我们使用文件迭代器逐行读取文件，并将每一行的字符串按空格分割成单词列表。然后，我们统计所有单词的数量并返回结果。

使用生成器函数统计单词数量

def generate_words(file_path):
    with open(file_path, 'r') as file:
        for line in file:
            # 将每一行的字符串按空格分割成单词列表
            words = line.split()
            # 逐个生成单词
            for word in words:
                yield word

# 统计大文件中的单词数量
word_generator = generate_words('large_file.txt')
word_count = sum(1 for _ in word_generator)
print(f"Total words: {word_count}")