将压缩文件作为pandas DataFrame来读取

将压缩文件作为pandas DataFrame来读取

在这篇文章中,我们将尝试找出如何使用panda数据框架从压缩文件中读取数据。

我们为什么需要一个压缩文件

人们把相关的文件组放在一起使用,并使文件变得紧凑,所以它们更容易和更快地通过网络分享。Zip文件是理想的归档文件,因为它们可以节省存储空间。而且,它们对于使用加密方法保护数据也很有用。

需求:

zipfile36模块:该模块用于使用一个简单的python程序对压缩文件执行各种操作。它可以用下面的命令来安装。

pip install zipfile36

方法#1:pandas.read_csv()方法中使用compression=zip

read_csv()方法中指定compression参数为_zip,那么pandas将首先解压压缩文件,然后从压缩文件中的CSV文件创建数据框架。

# import required modules
import zipfile
import pandas as pd
 
# read the dataset using the compression zip
df = pd.read_csv('test.zip',compression='zip')
 
# display dataset
print(df.head())

输出:

将压缩文件作为潘达斯数据框架来读取

方法#2:打开压缩文件,得到CSV文件。

这里,首先打开压缩文件,提取CSV文件,然后从提取的CSV文件中创建一个数据框架。

# import required modules
import zipfile
import pandas as pd
 
# open zipped dataset
with zipfile.ZipFile("test.zip") as z:
   # open the csv file in the dataset
   with z.open("test.csv") as f:
       
      # read the dataset
      train = pd.read_csv(f)
       
      # display dataset
      print(train.head())

输出:

将压缩文件作为潘达斯数据框架来读取

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程