用Pandas分析数据活动

用Pandas分析数据活动

Pandas是数据科学领域中一个非常流行的工具。它在分析数据活动中被大量使用。

为寻找企业决策的相关信息而对数据进行清理、转换和建模的过程被称为数据分析。从数据中提取可用的信息并在此基础上做出决策是数据分析的目标。

在这篇文章中,我们将了解到Pandas在数据科学中的作用。

Python或C语言的后端源代码可以从Pandas库中获得。

有两种策略可用于完成数据分析 –

  • Series

  • 数据框架

Pandas Series

Pandas定义了一个叫做Series的数组,可以利用它来存储任何类型的数据。它是一个网格或一维数组的单数列。一个系列是一个值的集合,它单独与一个独特的标签相关联,并且有独特的索引值与每一行相联系。当一个系列被创建时,这些独特的索引值被动态地定义。

创建新系列

创建一个空系列 –

import pandas as pd
s=pd.Series()

让我们看一下其他的例子。

情况1:只有标量值

import pandas as pd
array= [9,6,3,2,8,5]
seri= pd.Series(array)
print(seri)

输出

0 9
1 6
2 3
3 2
4 8
5 5
dtype: int64

带有罗马数字索引的印刷系列-

index=['i' , 'ii', 'iii', 'iv', 'v', 'vi']
seri1= pd.Series(array, index)
print(seri1)

输出

i      9
ii     6
iii    3
iv     2
v      8
vi     5
dtype: int64

案例2:字典值

import pandas as pd
dict= {'i' : 1 , 'j': 2, 'k': 3, 'l': 4}
s= pd.Series(dict)
print(s)

输出

i  1
j  2
k  3
l  4
dtype: int64

案例3:多维数组

import pandas as pd
array= [[1,2], [3,4,5], [6,7,8]]
s=pd.Series(array)
print(s)

输出

0       [1, 2]
1    [3, 4, 5]
2    [6, 7, 8]
dtype: object

Pandas DataFrame

一个由行和列组成的二维数据结构被称为Pandas DataFrame。下面这个关键的Pandas结构由一系列的集合组成,是Excel表格上的一个多维表格。它简化了表格数据,其中每一行代表一个观察值,每一列代表一个变量。

这里有一个插图,显示了DataFrame的功能。在下面的代码片断中也可以看到同样的情况。

import pandas as pd
data= {
   "calories": [100,200,300],
   "duration" :[20,30,35]
}
df=pd.DataFrame(data)
print(df)

输出

calories duration
0   100      20
1   200      30
2   300      35

让我们看一下其他的例子。

情况1:标量值

import pandas as pd
dic1= {'i' : 1 , 'j': 2, 'k': 3, 'l': 4}
dic2= {'i' :5 , 'j': 6, 'k': 7, 'l': 8, 'm' :9}
instance= {'first' : dic1, 'second': dic2}
df= pd.DataFrame(instance)
print(df)

输出

first  second
i    1.0       5
j    2.0       6
k    3.0       7
l    4.0       8
m    NaN       9

情况2:系列数据

import pandas as pd
s1=pd.Series([1,2,3,4,5])
s2=pd.Series(['a','b','c'])
s3=pd.Series(['A','B','C','D'])
instance= {'first' : s1, 'second': s2, 'third': s3}
df= pd.DataFrame(instance)
print(df)

输出

first second third
0      1      a     A
1      2      b     B
2      3      c     C
3      4    NaN     D
4      5    NaN   NaN

情况3:二维NumPy数组

当建立一个DataFrame时,二维数组的尺寸必须保持不变。

import pandas as pd
array1= [[1,2], [3,4,5], [6,7,8]]
array2= [['a','b'], ['c','d','e'], ['f','g','h']]
instance= {'first' :array1, 'second': array2}
df= pd.DataFrame(instance)
print(df)

输出

first     second
0     [1, 2]     [a, b]
1    [3, 4, 5]  [c, d, e]
2    [6, 7, 8]  [f, g, h]

数据科学和机器学习中的Pandas

在收集之后,数据被保存在多个数据库中,可以从中获取数据,用于不同的数据科学活动和项目。包括数据科学在内的一项工作有两个阶段–

  • 数据清理阶段

  • 分析探索性数据

这些阶段为你提供了一个顶级的数据集来进行互动。从这个经过过滤的数据集开始,可以创建一个机器学习的模型。Pandas库提供了广泛的能力,让你从第一次获得原始数据开始,直到提供高质量的数据进行额外的测试,都可以进行操作。

从数据分析中学习到的知识作为一个跳板,让开发者选择合适的路径进行深入研究和机器学习模型。

比较使用各种Pandas操作和流程创建的几个子集,可以是统计分析的一部分。

我们已经看到了用Pandas进行数据处理和数据分析的例子。让我们仔细看看数据是如何被处理用于机器学习的。

Pandas如何加速ML模型的创建

每个机器学习项目都需要投入大量的时间。这是由于它使用了多种技术,例如在创建ML模型之前研究基本趋势和模式。Python Pandas软件包提供了各种操作和分析数据的工具。

Pandas对于创建ML模型是必不可少的。这里有几个程序。

导入数据

Pandas库中有各种各样的工具,可以从各种来源读取数据。CSV文件可以作为一个数据集函数,为数据处理提供了广泛的选择。下面是导入数据的代码部分。

查找缺失的数据

Pandas提供了一个工具来确定有多少种处理缺失数据的方法。首先,你可以通过使用ISNA()方法来检查数据并确定任何缺失的值。这个函数检查了每一行和每一列的值。如果该值不存在,它返回True,否则返回False。

数据的可视化

通过在Pandas中绘图,可以有效地看到这些数据。在一个DataFrame中,你可以使用plt.plot()函数。在绘制之前,你必须导入Matplotlib。直方图、直线、圆点图、散点图和条形图只是这个函数支持的几个数据可视化形式。当与数据聚合工具一起使用时,该绘图功能是相当有帮助的。

特征的转化

Pandas提供了各种特征转换函数。由于最广泛使用的机器库只取数字数据,所以必须对非数字特征进行转换。Pandas中的函数get dummies,当它应用于数据列时,将每个不同的值转化为二进制列。

结论

Pandas是一个流行的数据科学和数据分析工具,被许多专业人士和数据科学家使用。由于Pandas DataFrame,他们可以处理数据并创建机器学习模型。虽然有一点学习曲线,但它大大提高了数据处理的有效性。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程