Seaborn 统计估计
在大多数情况下,我们处理的是对数据整个分布的估计。但是当涉及到中心趋势的估计时,我们需要一种特定的方式来总结分布。均值和中位数是估计分布中心趋势的常用技术。
在上面的部分我们学习的所有绘图中,我们都对整个分布进行了可视化。现在,让我们讨论一下可以估计分布中心趋势的绘图。
柱状图
barplot() 显示了一个分类变量和一个连续变量之间的关系。数据以矩形条表示,其中条的长度表示该类别中数据的比例。
柱状图表示中心趋势的估计。让我们使用“titanic”数据集来学习柱状图。
示例
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.barplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()
输出
在上面的示例中,我们可以看到每个班级中男性和女性的平均幸存人数。从图表中我们可以理解到,比男性更多的女性幸存下来。在男性和女性中,更多的幸存者来自一等舱。
在barplot中的一个特殊情况是显示每个类别中的观察次数,而不是计算第二个变量的统计数据。为此,我们使用 countplot() 。
示例
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.countplot(x = " class ", data = df, palette = "Blues");
plt.show()
输出
剧情说,三等舱乘客的人数高于一等舱和二等舱。
点图
点图与柱状图的作用相同,但样式不同。与整根柱子代表估计值不同,点图将估计值表示为另一个轴上某个高度的点。
示例
import pandas as pd
import seaborn as sb
from matplotlib import pyplot as plt
df = sb.load_dataset('titanic')
sb.pointplot(x = "sex", y = "survived", hue = "class", data = df)
plt.show()