Python 使用python requests库下载CSV

在本文中，我们将介绍如何使用Python的requests库来下载CSV文件。CSV是一种常见的数据格式，通常用于存储和传输表格数据。使用requests库可以轻松地从网络上下载CSV文件，并对其进行处理和分析。

1. 安装requests库

在开始之前，首先需要安装requests库。可以使用pip命令来安装：

pip install requests

2. 下载CSV文件

使用requests库下载CSV文件非常简单，只需要提供CSV文件的url链接，然后使用get方法发送请求即可。以下是一个简单的示例：

import requests

# CSV文件的url链接
url = "https://example.com/data.csv"

# 发送GET请求，并获取响应
response = requests.get(url)

# 将响应内容保存到文件中
with open("data.csv", "wb") as file:
    file.write(response.content)

print("CSV文件下载完成")

在这个示例中，我们首先使用requests库的get方法发送了一个GET请求，然后将响应的内容保存到一个文件中。需要注意的是，使用”wb”模式打开文件以二进制方式写入。

3. 下载带有参数的CSV文件

有时候，CSV文件的下载链接可能包含一些参数，比如日期、地区等，这些参数可以影响到下载的文件内容。可以使用requests库来方便地向URL中添加参数。以下是一个示例：

import requests

# CSV文件的url链接
url = "https://example.com/data.csv"

# 添加参数
params = {
    "date": "2022-01-01",
    "region": "china"
}

# 发送GET请求，并获取响应
response = requests.get(url, params=params)

# 将响应内容保存到文件中
with open("data.csv", "wb") as file:
    file.write(response.content)

print("CSV文件下载完成")

在这个示例中，我们使用了一个字典来存储参数，然后将其传递给get方法的params参数。这样，最终发送的请求URL将包含这些参数。

4. 下载大型CSV文件

当需要下载大型的CSV文件时，为了避免一次性读取整个文件内容导致内存溢出，可以使用迭代器来逐行读取和写入文件内容。以下是一个示例：

import requests

# CSV文件的url链接
url = "https://example.com/data.csv"

# 发送GET请求，并获取响应
response = requests.get(url, stream=True)

# 逐行读取响应内容，并保存到文件
with open("data.csv", "wb") as file:
    for chunk in response.iter_content(chunk_size=1024):
        file.write(chunk)

print("CSV文件下载完成")

在这个示例中，我们将请求的stream参数设置为True，这样可以通过iter_content方法逐块读取响应内容。同时，使用chunk_size参数设置每次读取的字节数。

5. 下载CSV文件并进行处理

下载CSV文件后，可以使用Python的pandas库来方便地对其进行处理和分析。pandas是一个功能强大的数据分析库，提供了各种数据结构和操作函数。以下是一个简单的示例：

import pandas as pd
import requests

# CSV文件的url链接
url = "https://example.com/data.csv"

# 发送GET请求，并获取响应
response = requests.get(url)

# 将响应内容转换为DataFrame
df = pd.read_csv(response.content)

# 打印前几行数据
print(df.head())