如何在seaborn中创建三角相关热图?
在本教程中,我们将学习在seaborn中创建三角形相关热图;顾名思义,相关性是一种衡量变量相关程度的方法。相关热图是一种表示数字变量之间关系的绘图类型。这些图用于了解变量之间的关系以及它们的关系强度。而热图是使用不同颜色的二维图形表示数据的。
Seaborn是用于数据可视化的Python库。它有助于制作统计图表。它建立在matplotlib之上,并与Pandas数据结构紧密集成。它提供了多种图表来表示数据。借助Pandas,我们可以创建吸引人的图表。在本教程中,我们将说明三个示例以创建Triangle Heatmap。最后,我们将学习使用Seaborn库创建令人惊叹和信息丰富的热图。
语法
这是创建三角形相关热图的语法。
sns.heatmap(df.corr(),annot=True,fmt=".2f,mask=np.triu(np.ones_like(df.corr(),dtype=bool)))
在此语法中,我们使用sns.heatmap()创建了热图。然后使用’df.corr()’传入DataFrame ‘df’的相关矩阵。我们还设置了’annot=True’以在热图上显示相关性值,’fmt=".2f"’以将值格式化为2位小数,并使用’mask=np.triu(np.ones_like(df.corr(), dtype=bool))’掩盖了热图的上三角部分。这使得热图呈三角形状,仅显示表示唯一相关性的下三角形部分。
示例1
以下是一个示例,我们使用’tips’作为数据集。它包含有关在餐厅中向服务员给予的小费的信息。 它包括总账单,聚会规模和小费金额等变量。接下来,我们使用Seaborn的’load_dataset()’函数加载Tips数据集,并使用数据集上的’corr()’方法创建相关性矩阵。然后,我们使用Seaborn的’heatmap()’函数创建了一个Triangle Correlation Heatmap。最后,我们设置属性并将图表颜色设置为’spring’,并使用’plt.show()’函数绘制它。产生的热图显示了Total Bill,Tip和Size变量之间的关系。
import seaborn as sns
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
tips = sns.load_dataset("tips")
corr = tips.corr()
mask = np.zeros_like(corr, dtype=np.bool_)
mask[np.triu_indices_from(mask)] = True
sns.heatmap(corr, mask=mask, cmap='spring', annot=True)
plt.show()
输出
示例2
在此示例中,我们使用了“titanic”数据集,这是用于机器学习和统计的数据集,其中包含有关Titanic上的乘客的信息,包括他们的年龄,性别,票务类别以及是否幸存的信息。首先,我们使用Seaborn的’load_dataset()’函数加载Titanic数据集,并使用数据集上的’corr()’方法创建相关性矩阵。然后,我们使用Seaborn的’heatmap()’函数创建了一个Triangle Correlation Heatmap,并设置了其属性。最后,我们使用Matplotlib的’show()’函数显示它。产生的热图显示了年龄,票价和班级之间的关系。
import seaborn as sns
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
titanic = sns.load_dataset("titanic")
corr = titanic.corr()
mask = np.zeros_like(corr, dtype=np.bool_)
mask[np.triu_indices_from(mask)] = True
sns.heatmap(corr, mask=mask, cmap='copper', annot=True)
plt.show()
输出
示例 3
在这个示例中,我们使用Iris数据集,另一个在机器学习和统计学中经常使用的经典数据集。它包含了三种鸢尾花的花萼长度、花萼宽度、花瓣长度和花瓣宽度的测量值:Setosa、Versicolor和Virginica。首先,我们使用’Seaborn’s load_dataset() ‘函数加载了Iris数据集,并使用数据集上的‘corr()’方法创建了一个相关矩阵。然后,我们使用Seaborn的’heatmap()’函数创建了一个三角形相关热力图,并使用Matplotlib的’show()’函数显示它。结果热力图显示了花萼长度、花萼宽度、花瓣长度和花瓣宽度这些变量之间的相关性。
import seaborn as sns
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
# 加载Iris数据集
iris = sns.load_dataset("iris")
# 创建相关矩阵
corr = iris.corr()
# 使用Seaborn创建热力图
mask = np.zeros_like(corr, dtype=np.bool_)
mask[np.triu_indices_from(mask)] = True
sns.heatmap(corr, mask=mask, cmap='coolwarm', annot=True)
plt.show()
输出
我们了解到,Seaborn是Python中一个强大的数据可视化库,提供了各种函数来创建不同类型的可视化图表,包括热力图,这是一种非常有用的方法来可视化数据集中的变量之间的相关性,特别是在变量数量较大的情况下。此外,Seaborn的 ‘heatmap()’ 函数允许我们使用颜色板自定义颜色,并使用cmap和annot参数在热力图上显示相关系数。它还提供了几个内置的数据集,用于练习数据可视化,如Iris数据集、Titanic数据集和Tips数据集等。使用Seaborn创建热力图对于必须探索和理解大型数据集中的相关性的数据科学家和分析师非常有用。使用这些热力图,数据科学家和分析师可以深入了解他们的数据,并根据自己的发现做出知情决策。