Python中的应急表
像平均数、中位数、标准差和方差这样的估计,在单变量数据分析中非常有用。但在双变量分析(比较两个变量)的情况下,相关性就开始发挥作用。
ency Table是探索两个甚至更多变量的技术之一。它基本上是对两个或多个分类变量之间的计数进行统计。
导入库
import numpy as np
import pandas as pd
import matplotlib as plt
读取数据
data = pd.read_csv("loan_status.csv")
print (data.head(10))
输出:
Describe Data
data.describe()
输出:
Data Info
data.info()
输出:
Data Types
# data types of feature/attributes
# in the data
data.dtypes
输出:
代码#1:应急表显示年级和贷款状况之间的相关性。
data_crosstab = pd.crosstab(data['grade'],
data['loan_status'],
margins = False)
print(data_crosstab)
输出:
代码#2:应急表显示目的与贷款状况之间的关联性。
data_crosstab = pd.crosstab(data['purpose'],
data['loan_status'],
margins = False)
print(data_crosstab)
输出:
代码#3:ency Table显示Grades+Purpose和贷款状况之间的相关性。
data_crosstab = pd.crosstab([data.grade, data.purpose],
data.loan_status, margins = False)
print(data_crosstab)
输出:
因此,在代码中,应急表在两个或更多的变量之间给出了明确的相关值。因此,它对于理解数据以进一步提取信息更加有用。
.