SQL 什么是cube、rollup和groupBy算子的区别

在本文中，我们将介绍SQL中的cube、rollup和groupBy算子的区别。

阅读更多：SQL 教程

cube算子

cube算子是一种用于生成多维汇总数据的扩展groupBy算子。它基于给定的列生成所有可能的组合，并计算每个组合的聚合值。cube算子的语法如下：

SELECT 列1, 列2, ..., 列n, 聚合函数(列x)
FROM 表名
GROUP BY CUBE (列1, 列2, ..., 列n)

可以使用cube算子生成一张表，其中包含了所有可能的列组合的聚合结果。例如，假设我们有一张名为sales的表，包含了日期、城市和产品类型等列。我们可以使用以下查询:

SELECT 日期, 城市, 产品类型, sum(销售额)
FROM sales
GROUP BY CUBE (日期, 城市, 产品类型)

这将生成包含所有可能组合的聚合结果的表，包括总体销售额、按日期汇总的销售额、按城市汇总的销售额、按产品类型汇总的销售额，以及各个组合的销售额。

rollup算子

rollup算子也是一种用于生成多维汇总数据的扩展groupBy算子。它基于给定的列生成递归式的组合，并计算每个组合的聚合值。rollup算子的语法如下：

SELECT 列1, 列2, ..., 列n, 聚合函数(列x)
FROM 表名
GROUP BY ROLLUP (列1, 列2, ..., 列n)

rollup算子生成的结果表中，每一层包含了某些列的组合的聚合结果。最后一层是所有给定列的聚合结果。例如，我们可以使用以下查询：

SELECT 日期, 城市, 产品类型, sum(销售额)
FROM sales
GROUP BY ROLLUP (日期, 城市, 产品类型)

这将生成包含多个聚合结果层的表，包括总体销售额、按日期和城市汇总的销售额、按日期和产品类型汇总的销售额、按城市和产品类型汇总的销售额，以及各个组合的销售额。

groupBy算子

groupBy算子是SQL中常用的用于分组和汇总数据的算子。它根据指定的列对数据进行分组，并对每个组进行聚合计算。groupBy算子的语法如下：

SELECT 列1, 列2, ..., 列n, 聚合函数(列x)
FROM 表名
GROUP BY 列1, 列2, ..., 列n

groupBy算子生成的结果表将根据指定的列进行分组，并对每个组进行聚合计算。例如，我们可以使用以下查询：

SELECT 日期, 城市, 产品类型, sum(销售额)
FROM sales
GROUP BY 日期, 城市, 产品类型

这将生成按日期、城市和产品类型分组的聚合结果。

示例说明

为了更好地理解cube、rollup和groupBy算子的区别，我们来看一个示例。假设我们有一张名为sales的表，包含了日期、城市和产品类型等列，以及销售额。表中的部分数据如下：

日期	城市	产品类型	销售额
1/1/21	A	X	100
1/2/21	A	X	200
1/1/21	B	Y	150
1/2/21	B	Y	250

现在我们将使用cube、rollup和groupBy算子对其进行分组和汇总。

使用cube算子

SELECT 日期, 城市, 产品类型, sum(销售额)
FROM sales
GROUP BY CUBE (日期, 城市, 产品类型)

生成的结果如下：

日期	城市	产品类型	销售额
–	–	–	700
1/1/21	–	–	250
1/2/21	–	–	450
–	A	–	300
–	B	–	400
–	–	X	300
–	–	Y	400
1/1/21	A	–	100
1/2/21	A	–	200
1/1/21	B	–	150
1/2/21	B	–	250
1/1/21	–	X	100
1/2/21	–	X	200
–	A	X	300
1/1/21	B	X	100
1/2/21	B	X	200
1/1/21	A	Y	100
1/2/21	A	Y	200
–	B	Y	300
1/1/21	–	Y	250
1/2/21	–	Y	450
–	–	–	700

可以看到，使用cube算子生成了包含所有可能组合的聚合结果的表。

使用rollup算子

SELECT 日期, 城市, 产品类型, sum(销售额)
FROM sales
GROUP BY ROLLUP (日期, 城市, 产品类型)

生成的结果如下：

日期	城市	产品类型	销售额
–	–	–	700
1/1/21	–	–	250
1/2/21	–	–	450
–	A		日期 \| 城市 \| 产品类型 \| 销售额
:——–:	:——:	:——:	——:
1/1/21	A	–	100
1/2/21	A	–	200
–	A	X	300
1/1/21	A	X	100
1/2/21	A	X	200
–	A	Y	300
1/1/21	A	Y	100
1/2/21	A	Y	200
–	B	–	400
1/1/21	B	–	150
1/2/21	B	–	250
–	B	X	300
1/1/21	B	X	100
1/2/21	B	X	200
–	B	Y	300
1/1/21	B	Y	–
1/2/21	B	Y	–
–	–	X	300
–	–	Y	400
–	–	–	700

可以看到，使用rollup算子生成了多个聚合结果层的表，每一层都包含了某些列的组合的聚合结果。

使用groupBy算子

SELECT 日期, 城市, 产品类型, sum(销售额)
FROM sales
GROUP BY 日期, 城市, 产品类型

生成的结果如下：

日期	城市	产品类型	销售额
1/1/21	A	X	100
1/2/21	A	X	200
1/1/21	B	Y	150
1/2/21	B	Y	250

可以看到，使用groupBy算子生成了按指定列分组的聚合结果。

总结

在本文中，我们介绍了SQL中cube、rollup和groupBy算子的区别。cube算子可以生成包含所有可能组合的聚合结果的表，rollup算子可以生成多个聚合结果层的表，groupBy算子则是根据指定的列进行分组和计算聚合值。这些算子在多维汇总数据的处理中非常有用，可以方便地生成各个层次的汇总结果。

通过对比示例可以看到，cube算子生成了包含所有组合的聚合结果，而rollup算子生成了由上至下逐级展开的聚合结果层次，groupBy算子则只生成按指定列分组的聚合结果。根据具体需求，选择使用合适的算子可以方便地得到想要的结果。

希望本文对于理解和使用SQL中的cube、rollup和groupBy算子有所帮助。