一种数据血缘关系确定方法和装置与流程

文档序号:37764374发布日期:2024-04-25 10:51阅读:5来源:国知局
一种数据血缘关系确定方法和装置与流程

本申请属于大数据,尤其涉及一种数据血缘关系确定方法和装置。


背景技术:

1、在数据密集型应用中,数据血缘关系的追踪和管理是很重要的,数据血缘关系,也可以成为数据线索,是一种描述数据从何而来,如何被处理和变换,以及数据之间相互依赖关系的技术。通过数据血缘关系的获取可以帮助数据工程师、数据科学家理解数据的来源,对数据质量问题进行溯源,以及对数据进行优化处理。

2、然而,现有的数据血缘关系抽取主要是依赖人工标注或规则引擎,这些方法在处理标准sql(structured query language,数据库语言)语句时可以很准确的抽取,但是在处理更复杂的情况时,例如:动态执行sql语句、对象关系映射(orm,object relationalmapping)和nosql(not only sql)数据库等基于算子的数据操作时,这些方法无法得到较好的效果,这些复杂的情况往往需要更复杂的规则和更高的维护成本。即,在大规模的代码工程中,数据处理逻辑的复杂性和多样性使得数据血缘关系的抽取变得更为困难。

3、针对如何高效准确的进行数据血缘关系的抽取,目前尚未提出有效的解决方案。


技术实现思路

1、本申请目的在于提供一种数据血缘关系确定方法和装置,可以实现数据血缘关系的准确抽取,从而可以提升数据计算的效率和准确度。

2、本申请提供一种数据血缘关系确定方法和装置是这样实现的:

3、一种数据血缘关系确定方法,该方法包括:

4、获取目标源代码;

5、将所述目标源代码转换为抽象语法树;

6、对所述抽象语法树中的各节点进行遍历和解析,以构建变量引用关系图;

7、遍历所述目标源代码中的所有变量,以在所述变量引用关系图中插入变量与数据库字段之间的关系,形成变量与数据库字段的异构引用关系图;

8、将所述异构引用关系图导入图数据库中进行构图,得到数据血缘关系。

9、在一个实施方式中,对所述抽象语法树中的各节点进行遍历和解析,以构建变量引用关系图,包括:

10、获取目标变量;

11、通过所述抽象语法树定位所述目标变量的赋值语句;

12、通将过所述抽象语法树定位涉及引用所述目标变量的语句;

13、将所述目标变量的赋值语句和涉及引用所述目标变量的语句,拼接成语句集合;

14、调用大语言模型,识别得到所述语句集合中各语句通过数据库操作的赋值变量,及涉及的表名和字段名;

15、将所述大语言模型的识别结果,写入变量引用关系图。

16、在一个实施方式中,将所述大语言模型的识别结果,写入变量引用关系图,包括:

17、在当前变量是通过数据库操作进行赋值的情况下,将大语言模型提取的数据库字段名指向当前变量,形成当前变量的一条引用记录,写入所述变量引用关系图中;

18、在当前变量的值用于赋值以更新数据库字段的情况下,将当前变量指向大语言模型提取的所有数据库字段名,形成当前变量的一条引用记录,写入所述变量引用关系图中;

19、在当前变量非通过数据库操作进行赋值且非用于赋值以更新数据库字段的情况下,跳过当前语句。

20、在一个实施方式中,将所述异构引用关系图导入图数据库中进行构图,得到数据血缘关系,包括:

21、调用图遍历算法,对所述异构引用关系图中的各字段节点进行遍历,获取所有字段之间的血缘关系;

22、将所有字段之间的血缘关系的关系,导入所述图数据库,通过追溯字段的来源和去向得到数据血缘关系图。

23、在一个实施方式中,调用图遍历算法,对所述异构引用关系图中的各字段节点进行遍历,获取所有字段之间的血缘关系,包括:

24、将所述异构引用关系图中表示数据库字段的节点作为第一节点;

25、从所述第一节点开始,沿着引用关系的正方向进行检索,在遇到另外表示数据库字段的节点的情况下,将另外表示数据库字段的节点作为第二节点,在字段集合中添加一条表示第一节点与第二节点之间存在血缘关系的记录,直至检索到所述异构引用关系图中所有的表示数据库字段的节点。

26、在一个实施方式中,将所述异构引用关系图导入图数据库中进行构图,得到数据血缘关系,之后,还包括:

27、获取业务数据;

28、根据所述业务数据到所述数据血缘关系中进行匹配计算,以得到计算结果。

29、一种数据血缘关系确定装置,包括:

30、获取模块,用于获取目标源代码;

31、转换模块,用于将所述目标源代码转换为抽象语法树;

32、构建模块,用于对所述抽象语法树中的各节点进行遍历和解析,以构建变量引用关系图;

33、遍历模块,用于遍历所述目标源代码中的所有变量,以在所述变量引用关系图中插入变量与数据库字段之间的关系,形成变量与数据库字段的异构引用关系图;

34、生成模块,用于将所述异构引用关系图导入图数据库中进行构图,得到数据血缘关系。

35、一种电子设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述方法的步骤。

36、一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。

37、一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。

38、本申请提供的一种数据血缘关系确定方法,先获取目标源代码,然后,将目标源代码转换为抽象语法树;进而,对抽象语法树中的各节点进行遍历和解析,以构建变量引用关系图;遍历所述目标源代码中的所有变量,以在所述变量引用关系图中插入变量与数据库字段之间的关系,形成变量与数据库字段的异构引用关系图;最终,将异构引用关系图导入图数据库中进行构图,得到数据血缘关系。通过上述方案解决了现有的无法高效准确的进行数据血缘关系的抽取所导致的数据计算的复杂度较高、计算准确度较低的计算问题,达到了有效抽取数据血缘关系,以提升数据计算效率和准确度的技术效果。



技术特征:

1.一种数据血缘关系确定方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,对所述抽象语法树中的各节点进行遍历和解析,以构建变量引用关系图,包括:

3.根据权利要求2所述的方法,其特征在于,将所述大语言模型的识别结果,写入变量引用关系图,包括:

4.根据权利要求1所述的方法,其特征在于,将所述异构引用关系图导入图数据库中进行构图,得到数据血缘关系,包括:

5.根据权利要求4所述的方法,其特征在于,调用图遍历算法,对所述异构引用关系图中的各字段节点进行遍历,获取所有字段之间的血缘关系,包括:

6.根据权利要求1至5中任一项所述的方法,其特征在于,将所述异构引用关系图导入图数据库中进行构图,得到数据血缘关系,之后,还包括:

7.一种数据血缘关系确定装置,其特征在于,包括:

8.一种电子设备,包括处理器以及用于存储处理器可执行指令的存储器,其特征在于,所述处理器执行所述指令时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6中任一项所述方法的步骤。


技术总结
本申请提供了一种数据血缘关系确定方法和装置,涉及大数据技术领域,其中,该方法包括:获取目标源代码;将所述目标源代码转换为抽象语法树;对所述抽象语法树中的各节点进行遍历和解析,以构建变量引用关系图;遍历所述目标源代码中的所有变量,以在变量引用关系图中插入变量与数据库字段之间的关系,形成变量与数据库字段的异构引用关系图;将所述异构引用关系图导入图数据库中进行构图,得到数据血缘关系。通过上述方案解决了现有的无法高效准确的进行数据血缘关系的抽取所导致的数据计算的复杂度较高、计算准确度较低的计算问题,达到了有效抽取数据血缘关系,以提升数据计算效率和准确度的技术效果。

技术研发人员:谢淼淼
受保护的技术使用者:中国建设银行股份有限公司苏州分行
技术研发日:
技术公布日:2024/4/24
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1