表格拆分规则推荐方法、设备及计算机可读存储介质与流程

文档序号:37260769发布日期:2024-03-12 20:39阅读:13来源:国知局
表格拆分规则推荐方法、设备及计算机可读存储介质与流程

本技术涉及数据处理领域,尤其涉及一种表格拆分规则推荐方法、设备及计算机可读存储介质。


背景技术:

1、随着各类业务的增长,数据湖中的表格也越来越多。通常情况下,为了满足用户需求,需要依据拆分规则对表格进行拆分。通常拆分规则包括拆分映射表与拆分字段,基于此拆分映射表与此拆分字段完成对表格的拆分。可见,拆分规则对表格的拆分有着至关重要的作用。

2、然而,目前拆分规则是依赖于业务专家规则的人工判定每一表格的拆分规则,具体流程为:①人工梳理通用的拆分规则将其固化为拆分映射表,拆分映射表包含字段有拆分关联字段;②根据专家规则,人工识别待拆分表的业务归属及表结构并选用合适的拆分映射表,将待拆分表与拆分映射表进行关联得到关联后的数据表;③人工判断待拆分表与选择的拆分映射表之间存在关联的关联字段,以此关联字段对关联后的数据表进行物理拆分或逻辑拆分,完成待拆分表格的拆分。

3、这种基于业务专家规则的人工判定拆分规则的方式需要人工开发拆分规则,拆分规则的开发耗时长,开发效率低下。


技术实现思路

1、本技术的主要目的在于提供一种表格拆分规则推荐方法、设备及计算机可读存储介质,旨在解决如何提高表格拆分规则的开发效率的技术问题。

2、为实现上述目的,本技术提供一种表格拆分规则推荐的方法,包括以下步骤:

3、获取或确定多个表格的基础数据,其中,所述基础数据包括表间关联关系与字段间关联关系,所述表格包括待拆分表格、已拆分表格与拆分映射表;

4、基于所述表间关联关系构建表关联路径图,并基于所述字段间关联关系构建字段关联路径图;

5、基于所述表关联路径图查找各所述拆分映射表中与所述待拆分表格关联的目标拆分映射表,基于所述字段关联路径图查找目标字段,其中,所述目标字段为所述待拆分表格与所述目标拆分映射表关联的字段;

6、基于所述目标拆分映射表与所述目标字段构建可选拆分规则,将所述可选拆分规则作为所述待拆分表格的拆分规则推荐结果,并输出所述拆分规则推荐结果。

7、可选地,所述基于所述表间关联关系构建表关联路径图的步骤,包括:

8、将所述待拆分表格、已拆分表格与拆分映射表作为表顶点;

9、依次遍历每一所述表顶点,基于所述表间关联关系查找各所述表顶点中与遍历的所述表顶点关联的第一表顶点,构建由遍历的所述表顶点指向所述第一表顶点的表连接边,其中,所述表间关联关系包括两个不同的表格之间的关联关系;

10、直至所有所述表顶点遍历结束后,将由所有所述表顶点与所有所述表连接边构成的图作为表关联路径图。

11、可选地,所述基于所述字段间关联关系构建字段关联路径图的步骤,包括:

12、将所述待拆分表格、已拆分表格与拆分映射表包括的所有字段作为字段顶点;

13、依次遍历每一所述字段顶点,基于所述字段间关联关系查找各所述字段顶点中与遍历的所述字段顶点关联的第一字段顶点,构建由遍历的所述字段顶点指向所述第一字段顶点的字段连接边,其中,所述字段间关联关系包括两个不同的表格内字段之间的关联关系;

14、直至所有所述字段顶点遍历结束后,将由所有所述字段顶点与所有所述字段连接边构成的图作为字段关联路径图。

15、可选地,所述基于所述表关联路径图查找与所述待拆分表格关联的目标拆分映射表的步骤,包括:

16、设置所述表关联路径图中每一表连接边的边权重,确定所述待拆分表格在所述表关联路径图中对应的表顶点,将所述待拆分表格在所述表关联路径图中对应的顶点作为第二表顶点;

17、基于设置边权重后的所述表关联路径图查找以所述第二表顶点为起始表顶点的所有关联路径,将所有所述关联路径上的终表顶点对应的拆分映射表作为目标拆分映射表。

18、可选地,所述设置所述表关联路径图中每一表连接边的边权重的步骤,包括:

19、依次遍历所述表关联路径图中的每一表连接边,确定遍历的所述表连接边连接的两个表顶点;

20、确定两个所述表顶点对应的两个表格,检测所述两个表格中是否有至少一个表格为拆分映射表;

21、若是,将预设常量值设置为所述遍历的所述表连接边的边权重;

22、若否,确定所述两个表顶点之间的影响值,将所述影响值设置为遍历的所述表连接边的边权重。

23、可选地,所述确定所述两个表顶点之间的影响值的步骤,包括:

24、确定遍历的所述表连接边连接的两个表顶点,确定所述两个表顶点之间的相关度,将所述相关度的倒数作为所述影响值;或者,

25、确定遍历的所述表连接边连接的两个表顶点,基于预设重要度算法确定所述两个表顶点的重要度,并确定两个所述重要度之间的重要度比值,将所述重要度比值的倒数作为所述影响值;或者,

26、确定遍历的所述表连接边连接的两个表顶点,确定所述两个表顶点之间的相关度,确定所述两个表顶点之间的重要度比值,将所述相关度与所述重要度比值输入至预设影响值计算模型中,输出得到影响值。

27、可选地,所述确定所述两个表顶点之间的相关度的步骤,包括:

28、确定遍历的所述表连接边连接的两个表顶点对应的两个表格;

29、基于所述字段关联路径图确定所述两个表格之间所有关联的字段,确定所有所述关联的字段包括的关联字段数;

30、确定确定遍历的所述表连接边连接的两个表顶点中的起始表顶点,确定所述起始表顶点对应的表格,并确定所述起始表顶点对应的表格包括的总字段数;

31、以所述关联字段数除以所述总字段数得到相关度。

32、可选地,所述基于所述目标拆分映射表与所述目标字段构建可选拆分规则的步骤,包括:

33、若存在多个所述目标拆分映射表,依次遍历每一所述目标拆分映射表;

34、构建遍历的所述目标拆分映射表对应的拆分规则,其中,所述拆分规则包括遍历的所述目标拆分映射表与所述目标拆分映射表对应的目标字段;

35、确定所述表关联路径图中所述待拆分表格对应的第二表顶点,确定所述表关联路径图中所述目标拆分映射表对应的第三表顶点,确定所述表关联路径图中从所述第二表顶点到所述第三表顶点的路径,确定所述路径的路径开销值,其中,所述路径开销值包括所述路径中的所有表连接边的边权重总和;

36、基于所述路径开销值设置所述拆分规则的优先级;

37、直至所有所述目标拆分映射表遍历结束后,依据所述优先级顺序对每一所述拆分规则进行排序,聚合排序后的每一所述拆分规则得到可选拆分规则。

38、此外,为实现上述目的,本技术还提供一种表格拆分规则推荐设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的表格拆分规则推荐程序,所述表格拆分规则推荐程序被所述处理器执行时实现如上述的表格拆分规则推荐方法的步骤。

39、此外,为实现上述目的,本技术还提供一种计算机可读存储介质,计算机可读存储介质上存储有表格拆分规则推荐程序,表格拆分规则推荐程序被处理器执行时实现如上述的表格拆分规则推荐方法的步骤。

40、本技术获取或确定多个表格的基础数据,其中,所述基础数据包括表间关联关系与字段间关联关系,所述表格包括待拆分表格、已拆分表格与拆分映射表;基于所述表间关联关系构建表关联路径图,并基于所述字段间关联关系构建字段关联路径图;基于所述表关联路径图查找与所述待拆分表格关联的目标拆分映射表,基于所述字段关联路径图查找所述待拆分表格与所述目标拆分映射表关联的目标字段,基于所述目标拆分映射表与所述目标字段构建可选拆分规则,将所述可选拆分规则作为所述待拆分表格的拆分规则推荐结果,并输出所述拆分规则推荐结果。如此,与现有技术中,基于业务专家规则人工开发拆分规则的方式相比:

41、(1)本技术实施例中基于表格的基础数据自动构建表关联路径图与字段关联路径图,基于表关联路径图自动查找与待拆分表格关联的目标拆分映射表,基于字段关联路径图自动查找待拆分表格与目标拆分映射表关联的目标字段,由此,基于此目标拆分映射表与目标字段构建得到可选拆分规则,并输出此可选拆分规则,以供用户可以直接从输出的可选拆分规则中选择一个拆分规则完成对待拆分表格的拆分,整个拆分规则的开发过程无需人工参与,自动完成了拆分规则的开发,提高了拆分规则的开发效率。

42、(2)本技术实施例整个拆分规则的开发过程自动完成,用户无需具备业务知识和数据开发技能也可开发拆分规则,降低了拆分规则的开发门槛。

43、(3)在海量表格上应用专家规则对开发经验要求很高,容易出错,拆分规则的开发质量低,本技术实施例构建表关联路径图与字段关联路径图,在构建的图上应用图算法开发拆分规则,可以实现高可靠、高一致性的拆分规则推荐,提高拆分规则的开发质量,有效降低了表格的误拆率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1