Python Pandas IO工具

Pandas I/O API 是一组顶级读取函数，可以像 pd.read_csv() 一样访问，通常返回一个Pandas对象。

读取文本文件（或平面文件）的两个核心函数是 read_csv() 和 read_table() 。它们都使用相同的解析代码，智能地将表格数据转换为 DataFrame 对象 –

pandas.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer',
names=None, index_col=None, usecols=None

pandas.read_csv(filepath_or_buffer, sep='\t', delimiter=None, header='infer',
names=None, index_col=None, usecols=None

这是 csv 文件的数据样式如下：

S.No,Name,Age,City,Salary
1,Tom,28,Toronto,20000
2,Lee,32,HongKong,3000
3,Steven,43,Bay Area,8300
4,Ram,38,Hyderabad,3900

将此数据保存为 temp.csv 并对其进行操作。

S.No,Name,Age,City,Salary
1,Tom,28,Toronto,20000
2,Lee,32,HongKong,3000
3,Steven,43,Bay Area,8300
4,Ram,38,Hyderabad,3900

将下面的英文翻译成中文，不解释，保留HTML格式：

将这些数据保存为 temp.csv 并对其进行操作。

读取csv

读取csv 从csv文件中读取数据并创建一个DataFrame对象。

import pandas as pd

df=pd.read_csv("temp.csv")
print df

其输出如下：

S.No     Name   Age       City   Salary
0     1      Tom    28    Toronto    20000
1     2      Lee    32   HongKong     3000
2     3   Steven    43   Bay Area     8300
3     4      Ram    38  Hyderabad     3900

自定义索引

这指定了在csv文件中使用 index_col 来自定义索引的列。

import pandas as pd

df=pd.read_csv("temp.csv",index_col=['S.No'])
print df

它的输出如下所示 −

S.No   Name   Age       City   Salary
1       Tom    28    Toronto    20000
2       Lee    32   HongKong     3000
3    Steven    43   Bay Area     8300
4       Ram    38  Hyderabad     3900

转换器

列的 dtype 可以作为一个字典传递。

import pandas as pd

df = pd.read_csv("temp.csv", dtype={'Salary': np.float64})
print df.dtypes

它的输出如下所示 −

S.No       int64
Name      object
Age        int64
City      object
Salary   float64
dtype: object

默认情况下，Salary列的 dtype 是 int ，但结果显示为 float ，因为我们已经明确地将类型转换为float。

因此，数据看起来像是浮点数 –

S.No   Name   Age      City    Salary
0   1     Tom   28    Toronto   20000.0
1   2     Lee   32   HongKong    3000.0
2   3  Steven   43   Bay Area    8300.0
3   4     Ram   38  Hyderabad    3900.0

header_names

使用names参数指定头部的名称。

import pandas as pd

df=pd.read_csv("temp.csv", names=['a', 'b', 'c','d','e'])
print df

它的输出如下：

a        b    c           d        e
0   S.No     Name   Age       City   Salary
1      1      Tom   28     Toronto    20000
2      2      Lee   32    HongKong     3000
3      3   Steven   43    Bay Area     8300
4      4      Ram   38   Hyderabad     3900

观察一下，头部名称已附加上自定义名称，但文件中的头部并未删除。现在，我们使用header参数来删除它。

如果头部不在第一行，而在其他行中，将行号传递给header参数。这将跳过之前的行。

import pandas as pd 

df=pd.read_csv("temp.csv",names=['a','b','c','d','e'],header=0)
print df

其输出如下所示−

a        b    c           d        e
0  S.No     Name   Age       City   Salary
1     1      Tom   28     Toronto    20000
2     2      Lee   32    HongKong     3000
3     3   Steven   43    Bay Area     8300
4     4      Ram   38   Hyderabad     3900

跳过行数

skiprows跳过指定的行数。

import pandas as pd

df=pd.read_csv("temp.csv", skiprows=2)
print df

它的输出如下所示 −

2      Lee   32    HongKong   3000
0   3   Steven   43    Bay Area   8300
1   4      Ram   38   Hyderabad   3900

Python Pandas IO工具

Python Pandas IO工具

读取csv

自定义索引

转换器

header_names

跳过行数

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

Pandas 精品教程

回顶部