所在的位置： mysql >> mysql资源 >> 向量化引擎对HTAP的价值与技术思考

向量化引擎对HTAP的价值与技术思考

近日，OceanBaseCTO杨传辉解读HTAP的文章《真正的HTAP对用户和开发者意味着什么？》介绍了OceanBase对HTAP的理解和技术思路，在读者中引发了广泛讨论。

OceanBase认为，真正的HTAP要求先有高性能的OLTP，然后在OLTP的基础上支持实时分析。OceanBase通过原生分布式技术提供高性能的OLTP能力，真正通过“一个系统”同时提供事务处理和数据实时分析能力，“一份数据”用于不同的工作负载，从根本上保持数据的一致性并最大程度降低数据冗余，帮助企业大幅降低总成本。

要让OLTP数据库具备OLAP的能力，尤其是大数据量OLAP的能力，除原生分布式架构、资源隔离，还需要给复杂查询和大数据量查询找到最优解。高效执行的向量化引擎，就是解决这个问题的核心技术之一。

曲斌花名：鲁信

OceanBase技术专家。数据库领域多年经验，曾从事列式数据库，时序时空数据库内核开发。目前在OceanBaseSQL执行引擎组，主要方向是向量化引擎开发，OceanBaseTPC-H攻坚项目组成员。

今天，我们邀请了OceanBase技术专家曲斌为大家分享OceanBase对向量化引擎的观点，并详细介绍我们应用向量化引擎的场景价值、设计思路与技术方案：

我们为什么要做向量化引擎；向量化引擎有哪些技术价值和特点；OceanBase向量化引擎的设计实现。

为什么要做向量化引擎

与Oracle和SQLServer等数据库系统类似，OceanBase的用户场景除了OLTP类的简单查询，还有报表分析、业务决策等复杂OLAP查询。很多用户希望在完成在OLTP联机事务处理的同时，提供连接查询、聚合分析等OLAP分析能力。而OLAP查询具有数据处理量大、计算查询复杂、耗时高的特点，对数据库的SQL执行引擎的执行效率要求较高。

早期我们通过并行执行技术将数据均匀分摊到分布式系统中多个CPU上，通过降低每个CPU处理的数据量实现查询响应时间（RT）降低。随着用户数据量的不断增多，在不增加计算资源的前提下，每个CPU计算数据的量也不断增大。我们在客户现场发现，OLAP场景下部分特殊情况的CPU利用率接近%。这在聚合分析、连接查询等大数据量分析查询中变得尤为明显。

如何提高数据库单核计算性能，降低查询响应时间（RT）对客户至关重要。为帮助客户解决HTAP混合负载下数据查询效率难的问题，OceanBase引入向量化技术，并完全自主设计了向量化查询引擎，极大地提高了CPU单核处理性能，实现了HTAP场景下复杂分析查询性能的10倍提升，并在TPC-H测试（数据分析型基准测试，业界公认衡量数据库数据分析能力的权威标准）中得到了充分验证。

在TPC-H30TB测试场景下，OceanBase向量化引擎的性能是非向量化的3倍。对于Q1这种聚合分析且计算密集的SQL查询，性能提升约10倍。测试结果可以证明，向量化引擎对提升SQL执行效率、降低用户的查询响应时间具有相当明显的效果。

图1TPC-H测试结果

(向量化引擎vs.非向量化引擎)

向量化引擎有哪些技术价值和特点

传统火山模型存在的问题

在详细介绍向量化引擎特点前，我们先了解一下火山模型以及火山模型存在的典型问题。在数据库发展早期，由于IO速度低下、内存和CPU资源非常昂贵，为了避免爆内存的情况出现，每次只计算一行数据的火山模型成为了经典的SQL计算引擎。火山模型又叫迭代器模型，正式提出是在年论文《Volcano—AnExtensibleandParallelQueryEvaluationSystem》。早期很多关系型数据库都在使用火山模型，如Oracle、Db2、SQLServer、MySQL、PostgreSQL、MongoDB等。

火山模型应用十分广泛，但这种设计并没有充分利用CPU的执行效率，进行Joins、Subqueries、OrderBy等复杂查询操作时也经常会产生阻塞。论文《DBMSsOnAModernProcessor:WhereDoesTimeGo?》在微观层面分析了数据库系统在现代CPU框架下的主要消耗细节。数据库在顺序扫描、索引扫描和连接查询三个典型查询场景下，可以很明显的看到CPU真正用在计算上的占比不超过50%。相反，等待资源（Memory/ResourceStalling）占比非常高（平均50%）。加上分支预测失败的代价，很多场景下CPU真正用来计算的比率往往大幅低于50%。例如IndexScan索引扫描下CPU计算最低占比小于20%，无法真正发挥CPU的最大能力。

图2SQL执行CPU耗时细节

向量化引擎理论的诞生

年，一篇题为《MonetDB/X:Hyper-PipeliningQueryExecution》的论文首次提出“向量化引擎”的概念。不同于传统的火山模型按行迭代的方式，向量化引擎采用批量迭代方式，可以在算子间一次传递一批数据。换句话说，向量化实现了从一次对一个值进行运算，到一次对一组值进行运算的跨越。

向量化引擎的技术价值

一、批量返回数据，函数调用少，提升Cache友好性

为了更好地提高CPU利用率，减少SQL执行时的资源等待（Memory/ResourceStall)，向量化引擎被提出并应用到现代数据库引擎设计中。

与数据库传统的火山模型迭代类似，向量化模型也是通过PULL模式从算子树的根节点层层拉取数据。区别于next调用一次传递一行数据，向量化引擎一次传递一批数据，并尽量保证该批数据在内存上紧凑排列。由于数据连续，CPU可以通过预取指令快速把数据加载到level2cache中，减少memorystall现象，从而提升CPU的利用率。其次由于数据在内存上是紧密连续排列的，可以通过SIMD指令一次处理多个数据，充分发挥现代CPU的计算能力。

向量化引擎大幅减少了框架函数的调用次数。假设一张表有1亿行数据，按火山模型的处理方式需要执行1亿次迭代才能完成查询。使用向量化引擎返回一批数据，假设设置向量大小为，则执行一次查询的函数调用次数降低为小于10万次（1亿/=），大大降低了函数调用次数。在算子函数内部，函数不再一次处理一行数据，而是通过循环遍历的方式处理一批数据。通过批量处理连续数据的方式提升CPUDCache和ICache的友好性，减少CacheMiss。

二、减少分支判断提升CPU流水处理能力

论文《DBMSsOnAModernProcessor:WhereDoesTimeGo?》还介绍了分支预测失败对数据库性能的影响。由于CPU中断了流水执行，重新刷新流水线，因此分支预测失败对数据库处理性能的影响很大。SIGMOD13的论文《MicroAdaptivityinVectorwise》也对分支在不同选择率下的执行效率有详细论述（下图）。

图3分支对执行的影响

由于数据库SQL引擎逻辑十分复杂，在火山模型下条件判断逻辑往往不可避免。但向量引擎可以在算子内部最大限度地避免条件判断，例如向量引擎可以通过默认覆盖写的操作，避免在for循环内部出现if判断，从而避免分支预测失败对CPU流水线的破坏，大幅提升CPU的处理能力。

三、SIMD指令加速计算

由于向量引擎处理内存连续数据，因此向量引擎可以很方便的把一批数据装载到向量寄存器中。然后通过SIMD指令，替换传统的标量（scalar）算法，进行向量（Vector）计算。需要说明的是SIMD指令CPU架构密切相关，在X86，ARM，PPC上都有相应的指令集。目前以Intelx86架构指令最为丰富，下图4给出了x86下各个SIMD指令的推出时间和其支持的数据类型。更详细的信息可以查看Intel的官方手册。

图4IntelIntrinsic指令支持的数据类型

OceanBase向量化引擎的设计实现

上文介绍了向量化引擎的技术原理和特点，本节将详细阐述OceanBase向量化引擎的实现细节，主要包括存储和SQL两大方面。

存储的向量化实现

OceanBase的存储系统的最小单元是微块，每个微块是一个默认64KB（大小可调）的IO块。在每个微块内部，数据按照列存放。查询时，存储直接把微块上的数据按列批量投影到SQL引擎的内存上。由于数据紧密排列，有着较好的cache友好性，同时投影过程都可以使用SIMD指令进行加速。由于向量化引擎内部不再维护物理行的概念，和存储格式十分契合，数据处理也更加简单高效。整个存储的投影逻辑如下图：

图5OceanBase向量化存储引擎VectorStore

SQL向量引擎的数据组织

内存编排

SQL引擎的向量化先从的数据组织和内存编排说起。在SQL引擎内部，所有数据都被存放在表达式上，表达式的内存通过DataFrame管理。DataFrame是一块连续内存（大小不超过2MB）,负责存放参与SQL查询的所有表达式的数据。SQL引擎从DataFrame上分配所需内存，内存编排如图6。

图6OceanBaseSQL引擎内存编排

在非向量化引擎下，一个表达式一次只能处理一个数据（Cell）（图6左）。向量化引擎下，每个表达式不再存储一个Cell数据，而是存放一组Cell数据，Cell数据紧密排列（图6右）。这样表达式的计算都从单行计算变成了批量计算，对CPU的cache更友好，数据紧密排列也非常方便的使用SIMD指令进行计算加速。另外每个表达式分配Cell的个数即向量大小，根据CPULevel2Cache大小和SQL中表达式的多少动态调整。调整的原则是尽量保证参与计算的Cell都能存在CPU的level2cache上，减少memorystalling对性能的影响。

过滤标识设计

向量引擎的过滤标识也需要重新设计。向量引擎一次返回一批数据，该批数据内有的数据被删除掉，有的数据需要输出。如何高效的标识需要输出的数据，是一个重要的工作。论文《FilterRepresentationinVectorizedQueryExecution》中介绍了目前业界的两种常用方案：

通过BitMap标记删除行：创建bitmap，bitmap中bit个数和返回数据向量大小相同。当对应bit为1时，该列需要输出，bit为0时，该列被标记删除；

通过额外数组SelectVector记录输出行。需要输出的行的下标存在SelectVector中。

OceanBase采用bitmap方案描述数据过滤，即每个算子都有一个Bitmap，filter过滤掉的数据，通过bitmap标识删除。使用Bitmap的一大优势是内存占用小，可以在查询算子过多或者查询向量size过大时，避免出现内存使用过多的情况。

另外当数据的选择率很低时，可能会出现bitmap标识的数据过于稀疏，性能不佳的情况。一些数据库通过增加整理方法，使数据稠密排列来避免上述情况。但我们在实践中发现，HTAP场景下SQL执行往往会出现阻塞算子（Sort,HashJoin,HashGroupby）或Transmit跨机执行算子，而这些算子本身具备数据整理让稠密输出的特点，额外的数据整理反而会出现不必要的开销。因此OceanBase向量化引擎没有提供单独的方法改变bitmap数据排列。

SQL引擎的算子实现

算子的向量化是OceanBase向量化引擎的重要工作。在向量化引擎中，所有查询算子都按照向量化引擎的特点进行了新的设计实现。按照向量化引擎的设计原则，每个算子都通过向量接口向下层算子拿一批数据，每个算子内部最大限度地按照branchless编码、内存预取、SIMD指令等指导原则进行工程化编码，并取得大幅性能收益。由于算子实现众多，这里重点介绍HashJoin和SortMergeGroupBy2个典型实现，其它算子不再一一赘述。

HashJoin

HashJoin通过Hash表的构建和探测，实现两张表(R表和S表)的hash查找。当hash表的大小超过CPU的level2cache时，hash表随机访问会引起memorystall，大大影响执行效率。Cache的优化是HashJoin实现的一个重要方向，HashJoin的向量化实现重点考虑了cachemiss对性能的影响。

值得一提的是，OceanBase的向量化HashJoin算子没有实现RadixHashJoin等HashWareconcious的Join算法，而是通过向量计算hashvalue和内存prefech预取的方式避免cachemiss和memorystalling。

RadixHashJoin可以有效降低cache和TLB的missrate，但是它需要两次扫描R表数据，并引入了创建直方图信息和额外的物化代价。OceanBase的向量化HashJoin实现更为简洁，先通过partition分区，构建hash表。在探测hash表阶段，首先通过批量计算的方式，得到向量数据的hash值。然后通过prefetch预取，把该批数据对应的hashbucket的数据装载到CPU的cache中。最后按照join连接条件比较结果。通过控制向量的大小，保证预取的一批数据可以装载到CPU的level2cache中，从而最大程度的避免数据比较时的cachemiss和memorystalling，进而提升CPU的利用率。

SortMergeGroupBy

SortMergeGroupBy是一个常见的聚合操作。SortMergeGroupBy要求数据有序排列，groupby算子通过比较数据是否相同找到分组边界，然后计算相同分组内的数据。例如下图c1列数据有序排列，在火山模型下，由于一次只能迭代一行数据对于分组1需要比较8次，sum(c1)也需要累加8次才能得到计算结果。在向量化引擎中，我们可以把比较和聚合分开计算，即先比较8次，找到分组1的所有数据个数(8)。由于分组内数据相同，针对sum/count等聚合计算还可以做进一步优化，例如sum(c1)可以直接通过1*8，把8次累加变成1次乘法。count则可以直接加8即可。

另外向量化实现还可以通过引入二分等方法，实现算法加速。例如下图向量的大小是16，通过二分的方法，第一次推进行的step大小为8，即比较c1列的第0行和第7行数据。数据相等，则直接对c1列的前8个数据求和。第二次推进的step大小为8，比较第7行和第15行数据，数据不相等，回退4行再比较数据是否相同，直到找到分组边界。然后再通过二分进行进行下一个分组的查找。通过二分的比较方式，可以在重复数据较多的场景下跳过重复数据的比较，实现计算的加速。当然该方案在数据重复数据较少的场景下，存在badcase。我们可以通过数据NDV等统计信息，在执行期决定是否开启二分比较。

图7SortMergeGroupBy向量化实现

本文介绍了OceanBase的向量化引擎的设计思路和实现方案。需要指出的是向量化引擎设计和实现是一个庞大的系统工程，同时也是一个不断优化的过程。随着硬件技术的不断进步和新的算法的提出，向量化引擎在年提出后也在不断演进和发展。

我们很高兴地看到，向量化引擎可以极大地帮助用户提升CPU单核处理性能，HTAP场景下复杂分析查询性能得到10倍的提升，并在TPC-H数据分析型基准测试（业界公认衡量数据库数据分析能力的权威标准）中得到了充分验证。

OceanBase的向量化引擎在不断演进中，例如当前OceanBase的SIMD计算加速都是针对X86架构下AVX指令集进行编写的,后续随着ARM架构下的应用场景增多，会增加对ARM的SIMD支持。另外算子在向量化引擎下，都可以进行大量的算法优化，OceanBase在这些方向都会持续提升，未来会引入更多的新算法实现和技术方案到向量化引擎中，更好的服务用户在HTAP场景下TP、AP混合负载查询。

转载请注明：http://www.aierlanlan.com/rzgz/2743.html

上一篇文章：迅速收藏109个数据科学面试问答,你绝

下一篇文章： IT技术当中,前端和后端有什么区别