如何使用Pandas创建一个相关矩阵
相关是一种统计技术,显示两个变量的关系。Pandas dataframe.corr()方法用于创建相关矩阵。它用于查找数据框架中所有列的成对相关性。任何na值都被自动排除。对于数据框架中任何非数字数据类型的列,它将被忽略。
要使用pandas创建相关矩阵,应采取以下步骤:
1.获取数据。
2.使用Pandas创建DataFrame。
3.使用Pandas创建相关矩阵。
示例 1:
# import pandas
import pandas as pd
# obtaining the data
data = {'A': [45, 37, 42],
'B': [38, 31, 26],
'C': [10, 15, 17]
}
# creation of DataFrame
df = pd.DataFrame(data)
# creation of correlation matrix
corrM = df.corr()
corrM
输出:
对角线上的数值表示一个变量与自身的相关性,因此对角线上的数值表示相关性1。
示例 2:
import pandas as pd
data = {'A': [45, 37, 42, 50],
'B': [38, 31, 26, 90],
'C': [10, 15, 17, 100],
'D': [60, 99, 23, 56],
'E': [76, 98, 78, 90]
}
df = pd.DataFrame(data)
corrM = df.corr()
corrM
输出:
示例 3:
import pandas as pd
# Integer and string values can
# never be correlated.
data = {'A': [45, 37, 42, 50],
'B': ['R', 'O', 'M', 'Y'],
}
df = pd.DataFrame(data)
corrM = df.corr()
corrM
输出:
示例 4:
import pandas as pd
data = {'A': [45, 37, 42, 50],
'B': ['R', 'O', 'M', 'Y'],
'C': [56, 67, 68, 60],
}
df = pd.DataFrame(data)
corrM = df.corr()
corrM
输出: