使用Python Pandas进行数据分析
在本教程中,我们将学习使用Python的pandas库进行数据分析。该库 pandas 是用 C 编写的。因此,我们不会遇到任何速度问题。pandas以数据分析而闻名。我们在pandas中有两种数据存储结构。它们是 Series 和 DataFrame 。让我们逐一看一下。
1.Series
Series是具有自定义索引和值的1D数组。我们可以使用 pandas.Series(data, index) 类创建一个系列对象。Series将采用整数、列表和字典作为数据。让我们看一些例子。
示例
# 导入pandas库
import pandas as pd
# 数据
data = [1, 2, 3]
# 创建Series对象
# Series自动采用默认索引
series = pd.Series(data)
print(series)
输出
如果您运行上面的程序,则会得到以下结果。
0 1
1 2
2 3
dtype: int64
如何获得自定义索引?看看下面的例子。
示例
# 导入pandas库
import pandas as pd
# 数据
data = [1, 2, 3]
# 索引
index = ['a', 'b', 'c']
# 创建DataFrame对象
series = pd.Series(data, index)
print(series)
输出
如果您运行上面的程序,则会得到以下结果。
a 1
b 2
c 3
dtype: int64
当我们将数据作为字典提供给 Series 类时,它将把键作为索引,将值作为实际数据。让我们看一个例子。
示例
# 导入pandas库
import pandas as pd
# 数据
data = {'a':97, 'b':98, 'c':99}
# 创建Series对象
series = pd.Series(data)
print(series)
输出
如果您运行上面的程序,则会得到以下结果。
a 97
b 98
c 99
dtype: int64
我们可以使用索引从Series中访问数据。让我们看看例子。
示例
# 导入pandas库
import pandas as pd
# 数据
data = {'a':97, 'b':98, 'c':99}
# 创建Series对象
series = pd.Series(data)
# 使用索引从Series中访问数据
print(series['a'], series['b'], series['c'])
输出
如果您运行上面的代码,您将得到以下结果。
97 98 99
2.Pandas
我们已经学习了如何在pandas中使用Series类。让我们看看如何使用 DataFrame 类。 DataFrame 是pandas中包含行和列的数据结构类。
我们可以使用 列表、字典、Series 等,来创建 DataFrame 对象。让我们使用列表创建DataFrame。
示例
# 导入pandas库
import pandas as pd
# 列表names = ['Tutorialspoint', 'Mohit', 'Sharma']
ages = [25, 32, 21]
# 创建DataFrame
data_frame = pd.DataFrame({'Name': names, 'Age': ages})
# 打印DataFrame
print(data_frame)
输出
如果您运行上面的程序,则会得到以下结果。
Name Age
0 Tutorialspoint 25
1 Mohit 32
2 Sharma 21
让我们看看如何使用Series创建数据框对象。
示例
# 导入pandas库
import pandas as pd
# Series
_1 = pd.Series([1, 2, 3])
_2 = pd.Series([1, 4, 9])
_3 = pd.Series([1, 8, 27])
# 创建DataFrame
data_frame = pd.DataFrame({"a":_1, "b":_2, "c":_3})
# 打印DataFrame
print(data_frame)
输出
如果您运行上面的代码,您将得到以下结果。
a b c
0 1 1 1
1 2 4 8
2 3 9 27
我们可以使用列名从 DataFrames 中访问数据。让我们看一个例子。
示例
# 导入 pandas 库
import pandas as pd
# Series
_1 = pd.Series([1, 2, 3])
_2 = pd.Series([1, 4, 9])
_3 = pd.Series([1, 8, 27])
# 创建 DataFrame
data_frame = pd.DataFrame({"a":_1, "b":_2, "c":_3})
# 访问名为 'a' 的整个列
print(data_frame['a'])
输出结果
如果您执行以上代码,您将得到以下结果。
0 1
1 2
2 3
Name: a, dtype: int64
结论
如果您在本教程中有任何疑问,请在评论区提出。