PolarDB-X接收到一条SQL后的执行过程大致如下:
例如,对于如下查询SQL
SELECT l_orderkey, sum(l_extendedprice *(1 - l_discount)) AS revenue FROM CUSTOMER, ORDERS, LINEITEM WHERE c_mktsegment='AUTOMOBILE' and c_custkey=o_custkey and l_orderkey=o_orderkey and o_orderdate < '1995-03-13' and l_shipdate > '1995-03-13' GROUP BY l_orderkey;
通过如下EXPLAIN命令看到PolarDB-X的执行计划:
HashAgg(group="l_orderkey", revenue="SUM(*)")
HashJoin(condition="o_custkey=c_custkey", type="inner")用树状图表示如下:
查询改写(SQL Rewrite)阶段输入为逻辑执行计划,输出为逻辑执行计划。这一步主要应用一些启发式规则,是基于规则的优化器(Rule-Based Optimizer,简称RBO),所以也常被称为RBO阶段。
查询改写这一步的主要有如下功能:
> explain select id from t1 where id in (select id from t2 where t2.name='hello');
SemiHashJoin(condition="id=id", type="semi")
Gather(concurrent=true)
LogicalView(tables="t1", shardCount=2, sql="SELECT `id` FROM `t1` AS `t1`")
Gather(concurrent=true)
LogicalView(tables="t2_[0-3]", shardCount=4, sql="SELECT `id` FROM `t2` AS `t2` WHERE (`name`=?)")
优化规则 | 描述 |
谓词下推或列裁剪 | 将Filter及Project算子下推至存储层MySQL执行,过滤掉不需要的行和列。 |
JOIN Clustering | 将JOIN按照拆分方式及拆分键的等值条件进行重排和聚簇,方便下一步的JOIN下推。 |
JOIN下推 | 对于符合条件的JOIN,将其下推至存储层MySQL执行。 |
Agg下推 | 将聚合(Agg)拆分为FinalAgg和LocalAgg两个阶段,并将LocalAgg下推至存储层MySQL。 |
Sort下推 | 将排序(Sort)拆分为MergeSort和LocalSort两个阶段,并将LocalSort下推至存储层MySQL。 |
查询改写阶段输出的逻辑执行计划会被输入到查询计划枚举(Plan Enumerator)中,并输出一个最终的物理执行计划。查询计划枚举在多个可行的查询计划中,根据预先定义的代价模型,选择出代价最低的一个。与查询改写阶段不同,在查询计划枚举中,规则可能产生更好的执行计划,也可能产生更差的执行计划,可以根据算子经过规则优化后的前后代价对比选出较优的那个,因此这也被称为基于代价的优化(Cost-based Optimizer,简称CBO)。
其核心组件有以下几个部分:
逻辑上,CBO的过程包括如下几个步骤: