一种基于深度迁移学习的多表连接方法与流程

文档序号:37445145发布日期:2024-03-28 18:28阅读:11来源:国知局
一种基于深度迁移学习的多表连接方法与流程

本发明属于数据库管理领域,尤其涉及一种基于深度迁移学习的多表连接方法。


背景技术:

1、随着大数据时代的到来,数据库中涉及的数据量和复杂性不断增加,多表连接查询在数据分析和处理中变得越来越重要。然而,在涉及多个表的复杂查询中,不同的连接顺序可能导致截然不同的执行计划和性能。传统的多表连接优化方法通常基于启发式规则、统计信息和查询优化器等,但在处理复杂查询时,这些方法往往无法获得最优的执行计划,导致查询性能下降。

2、近年来,深度学习技术的兴起在许多领域中取得了显著成就,研究者们也尝试将深度学习模型应用到查询优化工作中。在多表连接顺序优化问题上,使用深度学习模型能够自动学习有关表之间关系的特征表示,分析连接操作中的表属性、关联信息和统计信息从而学习到有关连接操作成本的信息,用来准确地估计每个连接操作的开销。并且深度学习模型不依赖于特定的启发式规则或统计信息,可以根据不同的查询特点自适应地调整优化策略,在不同的查询场景下获得更好的性能。

3、但是深度学习模型通常需要大量的数据进行训练,而数据库查询优化领域中可用于训练的标注数据可能非常有限,会导致模型的过拟合或性能下降。除此之外,深度学习模型泛化能力差,如果数据库系统和查询场景变化,训练的模型结果可能会表现不佳,对于新建立的数据库,类似的模型需要重新开始训练,增加训练的开销,使优化的性能降低。


技术实现思路

1、鉴于以上现有技术的不足,发明的目的在于提供一种基于深度迁移学习的多表连接方法。

2、本发明提供一种基于深度迁移学习的多表连接方法,包括:

3、s1:基于现有数据库查询日志及测试用例,引入源领域及目标领域的多表连接查询计划数据,作为初始数据;

4、s2:由所述初始数据中对多表连接操作的相关信息进行提取,获得特征表示;

5、s3:选取图卷积网络,基于所述特征表示对所述图卷积网络进行训练,获得图卷积参数;

6、s4:将所述图卷积参数加载至迁移学习模型,并将所述初始数据中的目标领域数据输入所述迁移学习模型进行训练,获得深度迁移学习模型;

7、s5:构建包括连接操作和所述连接操作的执行顺序的训练样本,基于所述深度迁移学习模型的前向传播对所述训练样本进行预测,获得优化执行顺序;

8、s6:将所述优化执行顺序应用于待处理的多表连接查询。

9、进一步的,步骤s2中,提取的多表连接操作的所述相关信息包括参与连接的表、连接类型及连接条件。

10、进一步的,步骤s2中的所述特征表示包括:

11、表特征,所述表特征包括表列数及索引数据;

12、关系特征,所述关系特征包括表间外键关系及表间主键关系;

13、其他特征,所述其他特征包括连接操作类型及连接条件复杂度。

14、进一步的,步骤s3中的所述图卷积参数包括所述图卷积网络的训练权重与训练偏置。

15、进一步的,步骤s4中,所述迁移学习模型的初始参数为所述图卷积网络的训练权重。

16、进一步的,步骤s5中的所述训练样本为图结构的图数据表示,所述图结构的节点表示参与连接的表,所述图结构的边表示参与连接的表之间的连接操作。

17、进一步的,所述图结构的节点通过参与连接的表的名称进行标记,所述图结构的边通过参与连接的表之间的连接操作关系进行标记。

18、进一步的,步骤s5中,所述连接操作的执行顺序为所述训练样本的标签。

19、进一步的,步骤s6还包括:

20、s61:记录所述优化执行顺序应用于待处理的多表连接查询时的优化性能指标,并将所述优化性能指标与对所述训练样本执行多表连接查询的性能指标进行对比评估。

21、进一步的,步骤s61中的所述优化性能指标包括查询执行时间、资源利用率及查询质量。

22、本发明有益效果如下:

23、本发明提出一种基于深度迁移学习的多表连接方法,将深度学习和迁移学习相结合,以解决数据库查询时多表连接顺序优化问题,深度迁移学习的思想允许将已有数据库查询优化的相关经验知识,通过知识提取、转换、映射等方式迁移到目标环境中,从而为多表连接顺序优化提供更有效的解决方法,通过迁移学习,可以将不同数据库系统和查询场景的优化知识融合到一个统一的深度学习框架中,实现更准确和智能的优化决策,本发明可以通过较少的时间收敛至适用的权重,减少训练时间和资源成本,并且可以应对数据的分布发生的不可控的因素变化,提高原数据集的延续性。



技术特征:

1.一种基于深度迁移学习的多表连接方法,其特征在于,包括:

2.根据权利要求1所述的一种基于深度迁移学习的多表连接方法,其特征在于,步骤s2中,提取的多表连接操作的所述相关信息包括参与连接的表、连接类型及连接条件。

3.根据权利要求2所述的一种基于深度迁移学习的多表连接方法,其特征在于,步骤s2中的所述特征表示包括:

4.根据权利要求1所述的一种基于深度迁移学习的多表连接方法,其特征在于,步骤s3中的所述图卷积参数包括所述图卷积网络的训练权重与训练偏置。

5.根据权利要求4所述的一种基于深度迁移学习的多表连接方法,其特征在于,步骤s4中,所述迁移学习模型的初始参数为所述图卷积网络的训练权重。

6.根据权利要求1所述的一种基于深度迁移学习的多表连接方法,其特征在于,步骤s5中的所述训练样本为图结构的图数据表示,所述图结构的节点表示参与连接的表,所述图结构的边表示参与连接的表之间的连接操作。

7.根据权利要求6所述的一种基于深度迁移学习的多表连接方法,其特征在于,所述图结构的节点通过参与连接的表的名称进行标记,所述图结构的边通过参与连接的表之间的连接操作关系进行标记。

8.根据权利要求1所述的一种基于深度迁移学习的多表连接方法,其特征在于,步骤s5中,所述连接操作的执行顺序为所述训练样本的标签。

9.根据权利要求1所述的一种基于深度迁移学习的多表连接方法,其特征在于,步骤s6还包括:

10.根据权利要求9所述的一种基于深度迁移学习的多表连接方法,其特征在于,步骤s61中的所述优化性能指标包括查询执行时间、资源利用率及查询质量。


技术总结
本发明涉及一种基于深度迁移学习的多表连接方法,属于数据库管理领域,该方法包括:引入源领域及目标领域的多表连接查询计划数据,作为初始数据;对初始数据中多表连接操作的相关信息进行提取,获得特征表示;基于特征表示对选取的图卷积网络进行训练,获得图卷积参数;将图卷积参数加载至迁移学习模型,并将目标领域数据输入迁移学习模型进行训练,获得深度迁移学习模型;构建包括连接操作和所述连接操作的执行顺序的训练样本,基于深度迁移学习模型的前向传播对训练样本进行预测,获得优化执行顺序;将优化执行顺序应用于待处理的多表连接查询。本发明减少了训练时间和资源成本,并且对提高数据库场景变化的应对能力及原数据集的延续性。

技术研发人员:江浩
受保护的技术使用者:天翼云科技有限公司
技术研发日:
技术公布日:2024/3/27
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1