一种数据表关联方法、装置、存储介质及电子设备与流程

文档序号:30582223发布日期:2022-06-29 12:59阅读:来源:国知局

技术特征:
1.一种数据表关联方法,其特征在于,包括:根据待关联的各数据表中的键值,确定每个数据表对应于各其它数据表的关联率,并根据各数据表的属性信息以及每两个数据表之间对应的关联率,确定每两个数据表之间的关联权重,所述属性信息至少包括数据表的数据量、关联行数以及关联列数,所述关联权重表征两个数据表关联后形成的虚拟中间表的数据量大小;根据每两个数据表之间的关联权重,确定待关联的各数据表的关联顺序,并按照所述关联顺序进行数据表的关联,所述两个数据表之间的关联权重与所述两个数据表的关联顺序负相关。2.如权利要求1所述的方法,其特征在于,根据待关联的各数据表中的键值,确定每个数据表对应于各其它数据表的关联率,具体包括:针对待关联的每个数据表,根据该数据表中的键值与各其它数据表中的键值,确定该数据表与各其它数据表的匹配键值;针对该数据表的每个其它数据表,根据该数据表与该其它数据表的匹配键值,在该数据表的键值中的占比,确定该数据表对应于该其它数据表的关联率。3.如权利要求1所述的方法,其特征在于,根据各数据表的属性信息以及每两个数据表之间对应的关联率,确定每两个数据表之间的关联权重,具体包括:针对每两个数据表,分别确定该两个数据表的数据量、关联行数以及关联列数;根据该两个数据表的关联行数、关联列数以及该两个数据表之间对应的关联率,确定该两个数据表关联后产生的空值总量;根据该两个数据表的数据量、该两个数据表关联后产生的空值总量以及预设的空值所占字符数,确定该两个数据表关联后形成的虚拟中间表的数据量,并根据所述虚拟中间表的数据量,确定该两个数据表之间的关联权重。4.如权利要求3所述的方法,其特征在于,根据该两个数据表的关联行数、关联列数以及该两个数据表之间对应的关联率,确定该两个数据表关联后产生的空值总量,具体包括:确定该两个数据表中的第一数据表以及第二数据表;根据所述第一数据表的关联行数、所述第一数据表对应于所述第二数据表的关联率以及所述第二数据表的关联列数,确定该两个数据表关联后所述第二数据表中增加的空值数量;根据所述第二数据表的关联行数、所述第二数据表对应于所述第一数据表的关联率,以及所述第一数据表的关联列数,确定该两个数据表关联后所述第一数据表中增加的空值数量;根据该两个数据表关联后所述第二数据表中增加的空值数量以及所述第一数据表中增加的空值数量,确定该两个数据表关联后产生的空值总量。5.如权利要求1所述的方法,其特征在于,根据每两个数据表之间的关联权重,确定待关联的各数据表的关联顺序,具体包括:确定待关联的各数据表组成的数据表集合;根据所述数据表集合中每两个数据表之间的关联权重,确定第三数据表以及第四数据表;判断删除所述第三数据表以及所述第四数据表后所述数据表集合是否为空集;
若是,根据依次确定的各第三数据表以及各第四数据表,确定各数据表的关联顺序;若否,确定所述第三数据表与所述第四数据表关联后的虚拟中间表,将所述虚拟中间表作为新的待关联的数据表添加到所述数据表集合中,重新确定所述数据表集合中每两个数据表之间的关联权重,并重新根据每两个数据表之间的关联权重,确定第三数据表以及第四数据表,直至删除所述第三数据表以及所述第四数据表后所述数据表集合是空集为止。6.如权利要求5所述的方法,其特征在于,重新确定所述数据表集合中每两个数据表之间的关联权重之前,所述方法还包括:根据所述第三数据表的关联列数以及所述第四数据表的关联列数,确定关联后的虚拟中间表的关联列数;根据所述第三数据表的关联行数、所述第四数据表的关联行数以及该两个数据表之间对应的关联率,确定关联后的虚拟中间表的关联行数;根据所述第三数据表的属性信息、所述第四数据表的属性信息,以及该两个数据表之间对应的关联率,确定关联后的虚拟中间表的数据量;根据所述虚拟中间表的关联列数、关联行数以及数据量,确定所述虚拟中间表的属性信息。7.如权利要求5所述的方法,其特征在于,根据依次确定的各第三数据表以及各第四数据表,确定各数据表的关联顺序,具体包括:根据依次确定的各第三数据表以及各第四数据表,构建关联二叉树,确定所述关联二叉树上各节点对应的数据表;按照所述关联二叉树从叶子节点到根节点的顺序,将对应节点的数据表进行全连接;其中,同一层次的节点对应的数据表的关联顺序相同。8.一种数据表关联装置,其特征在于,包括:权重确定模块,配置为根据待关联的各数据表中的键值,确定每个数据表对应于各其它数据表的关联率,并根据各数据表的属性信息以及每两个数据表之间对应的关联率,确定每两个数据表之间的关联权重,所述属性信息至少包括数据表的数据量、关联行数以及关联列数,所述关联权重表征两个数据表关联后形成的虚拟中间表的数据量大小;排序及关联模块,配置为根据每两个数据表之间的关联权重,确定待关联的各数据表的关联顺序,并按照所述关联顺序进行数据表的关联,所述两个数据表之间的关联权重与所述两个数据表的关联顺序负相关。9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一所述的方法。10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一所述的方法。

技术总结
本说明书公开了一种数据表关联方法、装置、存储介质及电子设备,根据待关联的各数据表的键值,确定每个数据表对应于各其它数据表的关联率,并根据各数据表的属性信息以及每两个数据表之间对应的关联率,确定每两个数据表之间的关联权重,以基于各数据表之间的关联权重,确定待关联的各数据表的关联顺序,并按照关联顺序进行关联。其中,关联权重表征两个数据表关联后的虚拟中间表的数据量大小,两个数据表之间的关联权重与关联顺序负相关。基于待关联的各数据表中,每两个数据表关联后的虚拟中间表的数据量大小,确定各数据表的关联顺序,减少了大数据量的数据表在关联过程中的加载频次,节省了大量的计算资源,缩短了多表关联的时长。联的时长。联的时长。


技术研发人员:黄柯 孙强 陈彧 张雨静
受保护的技术使用者:北京三快在线科技有限公司
技术研发日:2022.03.09
技术公布日:2022/6/28
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1