用Pandas分析数据活动
Pandas是数据科学领域中一个非常流行的工具。它在分析数据活动中被大量使用。
为寻找企业决策的相关信息而对数据进行清理、转换和建模的过程被称为数据分析。从数据中提取可用的信息并在此基础上做出决策是数据分析的目标。
在这篇文章中,我们将了解到Pandas在数据科学中的作用。
Python或C语言的后端源代码可以从Pandas库中获得。
有两种策略可用于完成数据分析 –
- Series
-
数据框架
Pandas Series
Pandas定义了一个叫做Series的数组,可以利用它来存储任何类型的数据。它是一个网格或一维数组的单数列。一个系列是一个值的集合,它单独与一个独特的标签相关联,并且有独特的索引值与每一行相联系。当一个系列被创建时,这些独特的索引值被动态地定义。
创建新系列
创建一个空系列 –
import pandas as pd
s=pd.Series()
让我们看一下其他的例子。
情况1:只有标量值
import pandas as pd
array= [9,6,3,2,8,5]
seri= pd.Series(array)
print(seri)
输出
0 9
1 6
2 3
3 2
4 8
5 5
dtype: int64
带有罗马数字索引的印刷系列-
index=['i' , 'ii', 'iii', 'iv', 'v', 'vi']
seri1= pd.Series(array, index)
print(seri1)
输出
i 9
ii 6
iii 3
iv 2
v 8
vi 5
dtype: int64
案例2:字典值
import pandas as pd
dict= {'i' : 1 , 'j': 2, 'k': 3, 'l': 4}
s= pd.Series(dict)
print(s)
输出
i 1
j 2
k 3
l 4
dtype: int64
案例3:多维数组
import pandas as pd
array= [[1,2], [3,4,5], [6,7,8]]
s=pd.Series(array)
print(s)
输出
0 [1, 2]
1 [3, 4, 5]
2 [6, 7, 8]
dtype: object
Pandas DataFrame
一个由行和列组成的二维数据结构被称为Pandas DataFrame。下面这个关键的Pandas结构由一系列的集合组成,是Excel表格上的一个多维表格。它简化了表格数据,其中每一行代表一个观察值,每一列代表一个变量。
这里有一个插图,显示了DataFrame的功能。在下面的代码片断中也可以看到同样的情况。
import pandas as pd
data= {
"calories": [100,200,300],
"duration" :[20,30,35]
}
df=pd.DataFrame(data)
print(df)
输出
calories duration
0 100 20
1 200 30
2 300 35
让我们看一下其他的例子。
情况1:标量值
import pandas as pd
dic1= {'i' : 1 , 'j': 2, 'k': 3, 'l': 4}
dic2= {'i' :5 , 'j': 6, 'k': 7, 'l': 8, 'm' :9}
instance= {'first' : dic1, 'second': dic2}
df= pd.DataFrame(instance)
print(df)
输出
first second
i 1.0 5
j 2.0 6
k 3.0 7
l 4.0 8
m NaN 9
情况2:系列数据
import pandas as pd
s1=pd.Series([1,2,3,4,5])
s2=pd.Series(['a','b','c'])
s3=pd.Series(['A','B','C','D'])
instance= {'first' : s1, 'second': s2, 'third': s3}
df= pd.DataFrame(instance)
print(df)
输出
first second third
0 1 a A
1 2 b B
2 3 c C
3 4 NaN D
4 5 NaN NaN
情况3:二维NumPy数组
当建立一个DataFrame时,二维数组的尺寸必须保持不变。
import pandas as pd
array1= [[1,2], [3,4,5], [6,7,8]]
array2= [['a','b'], ['c','d','e'], ['f','g','h']]
instance= {'first' :array1, 'second': array2}
df= pd.DataFrame(instance)
print(df)
输出
first second
0 [1, 2] [a, b]
1 [3, 4, 5] [c, d, e]
2 [6, 7, 8] [f, g, h]
数据科学和机器学习中的Pandas
在收集之后,数据被保存在多个数据库中,可以从中获取数据,用于不同的数据科学活动和项目。包括数据科学在内的一项工作有两个阶段–
- 数据清理阶段
-
分析探索性数据
这些阶段为你提供了一个顶级的数据集来进行互动。从这个经过过滤的数据集开始,可以创建一个机器学习的模型。Pandas库提供了广泛的能力,让你从第一次获得原始数据开始,直到提供高质量的数据进行额外的测试,都可以进行操作。
从数据分析中学习到的知识作为一个跳板,让开发者选择合适的路径进行深入研究和机器学习模型。
比较使用各种Pandas操作和流程创建的几个子集,可以是统计分析的一部分。
我们已经看到了用Pandas进行数据处理和数据分析的例子。让我们仔细看看数据是如何被处理用于机器学习的。
Pandas如何加速ML模型的创建
每个机器学习项目都需要投入大量的时间。这是由于它使用了多种技术,例如在创建ML模型之前研究基本趋势和模式。Python Pandas软件包提供了各种操作和分析数据的工具。
Pandas对于创建ML模型是必不可少的。这里有几个程序。
导入数据
Pandas库中有各种各样的工具,可以从各种来源读取数据。CSV文件可以作为一个数据集函数,为数据处理提供了广泛的选择。下面是导入数据的代码部分。
查找缺失的数据
Pandas提供了一个工具来确定有多少种处理缺失数据的方法。首先,你可以通过使用ISNA()方法来检查数据并确定任何缺失的值。这个函数检查了每一行和每一列的值。如果该值不存在,它返回True,否则返回False。
数据的可视化
通过在Pandas中绘图,可以有效地看到这些数据。在一个DataFrame中,你可以使用plt.plot()函数。在绘制之前,你必须导入Matplotlib。直方图、直线、圆点图、散点图和条形图只是这个函数支持的几个数据可视化形式。当与数据聚合工具一起使用时,该绘图功能是相当有帮助的。
特征的转化
Pandas提供了各种特征转换函数。由于最广泛使用的机器库只取数字数据,所以必须对非数字特征进行转换。Pandas中的函数get dummies,当它应用于数据列时,将每个不同的值转化为二进制列。
结论
Pandas是一个流行的数据科学和数据分析工具,被许多专业人士和数据科学家使用。由于Pandas DataFrame,他们可以处理数据并创建机器学习模型。虽然有一点学习曲线,但它大大提高了数据处理的有效性。