将压缩文件作为pandas DataFrame来读取
在这篇文章中,我们将尝试找出如何使用panda数据框架从压缩文件中读取数据。
我们为什么需要一个压缩文件
人们把相关的文件组放在一起使用,并使文件变得紧凑,所以它们更容易和更快地通过网络分享。Zip文件是理想的归档文件,因为它们可以节省存储空间。而且,它们对于使用加密方法保护数据也很有用。
需求:
zipfile36模块:该模块用于使用一个简单的python程序对压缩文件执行各种操作。它可以用下面的命令来安装。
pip install zipfile36
方法#1:在pandas.read_csv()方法中使用compression=zip。
在read_csv()方法中指定compression参数为_zip,那么pandas将首先解压压缩文件,然后从压缩文件中的CSV文件创建数据框架。
# import required modules
import zipfile
import pandas as pd
# read the dataset using the compression zip
df = pd.read_csv('test.zip',compression='zip')
# display dataset
print(df.head())
输出:
方法#2:打开压缩文件,得到CSV文件。
这里,首先打开压缩文件,提取CSV文件,然后从提取的CSV文件中创建一个数据框架。
# import required modules
import zipfile
import pandas as pd
# open zipped dataset
with zipfile.ZipFile("test.zip") as z:
# open the csv file in the dataset
with z.open("test.csv") as f:
# read the dataset
train = pd.read_csv(f)
# display dataset
print(train.head())
输出: