Python Pandas 稀疏数据
当任何与特定值(NaN/缺失值,尽管可以选择任何值)相匹配的数据被省略时,稀疏对象被 “压缩”。一个特殊的SparseIndex对象跟踪数据被 “压缩 “的地方。这在一个例子中会有更大的意义。所有标准的Pandas数据结构都适用 to_sparse 方法-
其 输出结果 如下 –
稀疏对象的存在是出于内存效率的考虑。
现在让我们假设你有一个大的NA DataFrame,并执行以下代码-
其 输出结果 如下 –
任何稀疏的对象都可以通过调用 to_dense --将其转换为标准的密集形式。
其 输出结果 如下 –
稀疏的Dtypes
稀疏数据应该具有与其密集表示相同的D类型。目前,支持 float64、int64 和 booldtypes 。根据原始的 dtype,fill_value的默认值 会发生变化—-。
- float64 – np.nan
-
int64 – 0
-
bool – False
让我们执行下面的代码来了解同样的情况-
其 输出结果 如下 –