基于知识图谱的字段级的数据血缘确定方法及装置与流程

文档序号:24814169发布日期:2021-04-27 13:34阅读:来源:国知局

技术特征:
1.一种基于知识图谱的字段级的数据血缘确定方法,其特征在于,包括:获取第一数据表对中两个数据表各自的表名和表结构信息;其中,所述第一数据表对包括数据库中的任意两个数据表;所述表结构信息包括多个字段;计算所述第一数据表对中两个数据表的表名之间的第一表名相似度;计算所述第一数据表对中两个数据表的表结构信息中字段之间的相似度,得到第一字段相似度矩阵;根据所述第一表名相似度、所述第一字段相似度矩阵和预先获取的目标权值,确定所述第一数据表对中两个数据表之间是否具有血缘关系;获取多个目标数据表对;所述目标数据表对用于表示:确定两个数据表之间具有血缘关系的所述第一数据表对;根据知识图谱和所述目标数据表对中数据表之间的血缘关系,生成字段级的数据关系图谱;其中,所述数据关系图谱包括:信息节点、数据流转线路和数据归档销毁规则节点。2.根据权利要求1所述的方法,其特征在于,所述第一数据表对包括:第一数据表和第二数据表;所述计算所述第一数据表对中两个数据表的表结构信息中字段之间的相似度,得到第一字段相似度矩阵,包括:根据所述第一数据表的表结构信息中任一字段的字段名、字段类型和字段长度,以及所述第二数据表的表结构信息中任一字段的字段名、字段类型和字段长度,逐一计算所述第一数据表任一字段与所述第二数据表任一字段的相似度,得到第一字段相似度矩阵。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一表名相似度、所述第一字段相似度矩阵和预先获取的目标权值,确定所述第一数据表对中两个数据表之间是否具有血缘关系,包括:根据所述第一表名相似度、所述第一字段相似度矩阵和预先获取的目标权值,确定所述第一数据表对中两个数据表之间的第一血缘关系得分值;比较预先获取的目标得分阈值和所述第一血缘关系得分值;当所述第一血缘关系得分值高于所述目标得分阈值时,确定所述第一数据表对中两个数据表之间具有血缘关系。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取数据库对应的sql数据;针对所述数据库中任意两个数据表,均通过解析所述sql数据确定当前两个数据表之间的血缘关系;根据血缘关系的解析结果,得到所述数据库中具有血缘关系的多个第二数据表对;计算所述第二数据表对中两个数据表的第二表名相似度、第二字段相似度矩阵;根据所述第二表名相似度、所述第二字段相似度矩阵和预设的初始权值,确定所述第二数据表对中两个数据表之间的第二血缘关系得分值;根据所述第二血缘关系得分值和预设的初始得分阈值,确定效果得分;其中,所述效果得分表示在当前的权值和得分阈值下,两个数据表之间具有血缘关系的真实程度;基于所述效果得分确定所述目标权值和目标得分阈值。5.根据权利要求4所述的方法,其特征在于,所述根据所述第二表名相似度、所述第二字段相似度矩阵和预设的初始权值,确定所述第二数据表对中两个数据表之间的第二血缘
关系得分值,包括:其中,是第k个所述第二数据表对中两个数据表之间的第二血缘关系得分值,是所述第二表名相似度,w是所述初始权值,是所述第二字段相似度矩阵的极大值,l等于所述第二数据表对中两个数据表的较小的字段的数量。6.根据权利要求4所述的方法,其特征在于,所述根据所述第二血缘关系得分值和预设的初始得分阈值,确定效果得分,包括:其中,e
score
是所述效果得分,是第k个所述第二数据表对中两个数据表之间的第二血缘关系得分值,l
threshold
是所述初始得分阈值,当时,i(
·
)=1,当时,i(
·
)=0。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:针对所述数据关系图谱中的任一数据表,根据所述信息节点,获取当前数据表的数据流出节点数量;根据所述数据流转线路,获取所述当前数据表的数据更新量级和数据更新频率;根据所述数据归档销毁规则节点、所述数据流出节点数量、所述数据更新量级和所述数据更新频率,确定所述当前数据表的数据价值。8.一种基于知识图谱的字段级的数据血缘确定装置,其特征在于,包括:第一获取模块,用于获取第一数据表对中两个数据表各自的表名和表结构信息;其中,所述第一数据表对包括数据库中的任意两个数据表;所述表结构信息包括多个字段;表名相似度计算模块,用于计算所述第一数据表对中两个数据表的表名之间的第一表名相似度;字段相似度计算模块,用于计算所述第一数据表对中两个数据表的表结构信息中字段之间的相似度,得到第一字段相似度矩阵;血缘关系确定模块,用于根据所述第一表名相似度、所述第一字段相似度矩阵和预先获取的目标权值,确定所述第一数据表对中两个数据表之间是否具有血缘关系;第二获取模块,用于获取多个目标数据表对;所述目标数据表对用于表示:确定两个数据表之间具有血缘关系的所述第一数据表对;图谱生成模块,用于根据知识图谱和所述目标数据表对中数据表之间的血缘关系,生成字段级的数据关系图谱;其中,所述数据关系图谱包括:信息节点、数据流转线路和数据归档销毁规则节点。9.一种电子设备,其特征在于,所述电子设备包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行如权利要求1至7任一项所述的方法。10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征
在于,所述计算机程序被处理器运行时执行上述权利要求1至7任一项所述的方法的步骤。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1