一种页面与表关系的溯源方法与流程

文档序号:35668145发布日期:2023-10-07 12:34阅读:28来源:国知局
本发明涉及数据库,更具体地说,它涉及一种页面与表关系的溯源方法。
背景技术
::1、业务人员在进行审计、查表等操作时,往往需要了解所查询页面对应到数据中台中哪张具体的后端数据表,更深入一级甚至需要了解数据中台中的表关系。然而表存在于数据库中,业务人员对于系统开发和后端数据库表的建表逻辑通常存在信息壁垒,业务人员在根据业务需求对开发人员提出优化数据中台中的数据库表的要求时,业务人员不了解数据库表的内容和与页面逻辑关系,开发人员难以理解业务需求,导致沟通的效率差。技术实现思路1、本发明提供一种页面与表关系的溯源方法,解决相关技术中业务人员不了解数据库表的内容和逻辑关系,开发人员难以理解业务需求,导致沟通的效率差的技术问题。2、本发明提供了一种页面与表关系的溯源方法,包括以下步骤:3、101,登录业务系统之后对分析页面渲染之后的html字段和响应返回的json数据进行获取;4、102,删除重复的html字段获得html待匹配字段;5、103,删除json数据中的非对象结构和单行json,对json数据中的响应数据进行聚类,为每个聚类簇内的响应数据生成一个json聚类结果集;6、104,为每个json聚类结果集生成一个待匹配字段序列,一个json聚类结果集生成一个待匹配字段序列的方法包括:为json聚类结果集中的每个响应数据匹配一个html待匹配字段,将json聚类结果集中所有响应数据匹配的html待匹配字段按照顺序排列生成待匹配字段序列;7、105,通过最大公共子序列算法为每个待匹配字段序列匹配数据库表;8、一个待匹配字段序列匹配数据库表的方法包括:9、201,为每个数据库表生成字段序列,将所有数据库表的字段序列的适应度大于设定的第一适应度阈值的保存在备选库内;10、202,迭代执行以下步骤:初始化j=1,选择第j个数据库表,将第j个数据库表的字段序列与第j+1到n个数据库表的字段序列进行拼接生成新的数据库表的字段序列计算与待匹配字段序列的相似度,如果适应度大于设定的第一适应度阈值的,将放入备选库中;11、203,如果i<n对j累加1,然后返回步骤202,如果i=n,则中止步骤;12、将备选库中的数据库表的字段序列按照适应度由大至小进行排序,然后选择适应度最大的前m个数据库表的字段序列对应的数据库表与页面建立溯源关系。13、进一步地,步骤102先对html字段进行特征提取,通过分析特征向量得到互斥的特征集,进而构建特征矩阵作为无监督聚类算法的输入,聚类结果包括两个类别,分别是非页面字段和页面字段,提取属于页面字段类别的html字段作为html待匹配字段。14、进一步地,响应数据匹配一个html待匹配字段的方法包括:15、计算响应数据与所有html待匹配字段的相似度,取相似度最大的一个html待匹配字段与响应数据匹配。16、进一步地,计算备选库中的数据库表的字段序列的适应度result的计算公式如下:17、18、accuracy表示数据库表的字段序列与待匹配字段序列的相似度,tablenum表示数据库表的字段序列组合的单个的数据库表的字段序列的数量。19、进一步地,数据库表的字段序列与待匹配字段序列的相似度采用序列中相同的字段的数量作为值。20、进一步地,还包括以下步骤:21、步骤301,提取业务人员在设定的时间段内连续访问的多个页面生成页面集合,获取页面集合中的页面溯源的数据库表,然后生成节点图,节点图中的节点与页面溯源的数据库表的字段名一一映射,同一数据库表的字段名之间存在连接;22、步骤302,将生成的节点图输入图神经网络,图神经网络输出字段名是否为业务人员需要了解的字段名;23、步骤303,将不包含业务人员需要了解的字段名的页面溯源的数据库表删除,将剩余的数据库表返回给业务人员。24、进一步地,连续访问的多个页面中相邻的两个页面的访问时间小于设定的第一时间。25、进一步地,图神经网络的全连接层输出二分类,分别对应于是否为业务人员需要了解的字段名;训练时该标签由业务人员指定。26、进一步地,图神经网络的隐藏层的计算公式如下:27、和分别表示节点i和j个初始的节点矢量,w和b分别表示权值参数和偏置参数,σ表示激活函数,vi表示第隐藏层输出的节点i的节点矢量,ti表示与第i个节点直接连接的节点集合,t表示ti中的节点总数,,其中τ表示伸缩系数。28、进一步地,节点图中的节点的初始的节点矢量由节点对应的字段名编码获得。29、本发明的有益效果在于:本发明能够基于业务人员对页面的访问来对数据库表与页面进行溯源,业务人员能够基于溯源的结果了解数据库表的内容和与页面逻辑关系,便于与开发人员进行沟通。技术特征:1.一种页面与表关系的溯源方法,其特征在于,包括以下步骤:2.根据权利要求1所述的一种页面与表关系的溯源方法,其特征在于,步骤102先对html字段进行特征提取,通过分析特征向量得到互斥的特征集,进而构建特征矩阵作为无监督聚类算法的输入,聚类结果包括两个类别,分别是非页面字段和页面字段,提取属于页面字段类别的html字段作为html待匹配字段。3.根据权利要求1所述的一种页面与表关系的溯源方法,其特征在于,响应数据匹配一个html待匹配字段的方法包括:4.根据权利要求1所述的一种页面与表关系的溯源方法,其特征在于,计算备选库中的数据库表的字段序列的适应度result的计算公式如下:5.根据权利要求4所述的一种页面与表关系的溯源方法,其特征在于,数据库表的字段序列与待匹配字段序列的相似度采用序列中相同的字段的数量作为值。6.根据权利要求1所述的一种页面与表关系的溯源方法,其特征在于,还包括以下步骤:7.根据权利要求6所述的一种页面与表关系的溯源方法,其特征在于,连续访问的多个页面中相邻的两个页面的访问时间小于设定的第一时间。8.根据权利要求6所述的一种页面与表关系的溯源方法,其特征在于,图神经网络的全连接层输出二分类,分别对应于是否为业务人员需要了解的字段名;训练时该标签由业务人员指定。9.根据权利要求6所述的一种页面与表关系的溯源方法,其特征在于,图神经网络的隐藏层的计算公式如下:10.根据权利要求6所述的一种页面与表关系的溯源方法,其特征在于,节点图中的节点的初始的节点矢量由节点对应的字段名编码获得。技术总结本发明涉及数据库
技术领域
:,公开了一种页面与表关系的溯源方法,包括以下步骤:101,登录业务系统之后对分析页面渲染之后的html字段和响应返回的json数据进行获取;102,删除重复的html字段获得html待匹配字段;103,删除json数据中的非对象结构和单行json,对json数据中的响应数据进行聚类,为每个聚类簇内的响应数据生成一个json聚类结果集;104,为每个json聚类结果集生成一个待匹配字段序列;105,通过最大公共子序列算法为每个待匹配字段序列匹配数据库表;本发明能够基于业务人员对页面的访问来对数据库表与页面进行溯源,业务人员能够基于溯源的结果了解数据库表的内容和与页面逻辑关系,便于与开发人员进行沟通。技术研发人员:曾荣甫,苏志勇,郑炜,董璐,何秋芸,朱艺媛,林佳能,吴剑斌,黄熠受保护的技术使用者:国网信通亿力科技有限责任公司技术研发日:技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1