一种基于关系感知与增量学习的数据库模式匹配方法

文档序号:35994703发布日期:2023-11-16 05:22阅读:35来源:国知局
一种基于关系感知与增量学习的数据库模式匹配方法

本发明涉及一种数据库模式匹配方法,具体涉及一种基于关系感知与增量学习的数据库模式匹配方法,属于计算机数据库。


背景技术:

1、数据库模式匹配,是在两个给定数据库模式的元素(或属性)之间查询语义对应的任务,对于实现电子商务、地理空间、生物、卫生等领域的数据集成和系统互操作性至关重要。

2、由于许多原因,数据库模式匹配任务具有挑战性。一方面,模式元素(例如表示相同概念的属性)在不同的模式中可能有不同的名称。另一方面,具有相似名称的元素可能引用不同的概念。另外,两个模式中的等效元素可能具有不同的结构。最后,可能存在这样一种情况:一个模式中的许多元素表示由另一个模式中的单个元素表示的概念。

3、目前,国产数据库系统正处于蓬勃发展的阶段,涌现出许多优秀的国产数据库产品。由于信息系统规模庞大、业务复杂性高,数据分布呈现出海量、异构等特点,大量数据存储在境外数据库平台上。在这样的背景下,实现不同数据库之间的数据查询与迁移就成为了一个重要的任务。

4、模式匹配是实现数据迁移任务的关键技术之一。图1展示了一个模式匹配的示例,在将源数据库的数据迁移到目标数据库时,需要建立数据库子模式和字段之间的匹配关系。如图1所示,数据库模式匹配通过在数据库模式之间建立映射关系,帮助用户实现从源数据模式到目标数据模式的转换。传统的模式匹配技术将两个异构数据源作为输入,根据数据源的元信息或是数据实例对数据源的模式进行匹配。在对数据源进行匹配的过程中,使用的是基于属性相似度的方法。在得到可能的匹配后,用户需要人为指定哪些匹配是用户真正想要的。


技术实现思路

1、本发明的目的是针对现有人为匹配效率低下、人为错误率高的缺点和改进需求,创造性地提出一种基于关系感知与增量学习的数据库模式匹配方法,能够有效提升不同数据库之间的查询和模式匹配处理效率和准确率。

2、本发明采用以下技术方案实现。

3、一种基于关系感知与增量学习的数据库模式匹配方法,包括以下步骤:

4、步骤1:数据库子模式发现。

5、数据库模式匹配查询的首要任务是数据库子模式发现。这是从数据库中自动或半自动地识别和提取潜在的有用子模式的过程。这些子模式可以是频繁出现的项集、关联规则、序列模式等,这些信息有助于发现数据中的有用模式和关联,进而支持数据分析、决策和其他任务。

6、子模式发现的工作主要是处理表格数据,方式包括:搜索能够连接的表、用更多的数据条目或额外的属性来增加给定表,以及使用不同的相似性度量来找到与给定表相似的表。

7、步骤2:子模式特征表示。

8、一般使用多维特征向量表示子模式数据样本。数据库子模式信息包括名称、类型、属性描述等内容,这些描述信息不易组织成n维向量。

9、因此,在提取子模式特征时,将参考基于实体分类的模式特征表示方法,利用朴素贝叶斯分类器或resnet网络训练一个初始模式匹配子模式分类模型,将不同的描述信息组合成短文本,并对其进行修改,以适用于本文中的模式匹配场景。

10、步骤3:子模式选择。

11、本发明创建了质量特征来表示对低质量模式数据可靠性的测量结果。在分类结果中对子模式样本进行筛选,选择最有利于提高分类器性能的实例加入训练集,充分利用过程数据信息,最大限度地减少不可靠样本的影响。

12、具体地,抽取可靠数据库数据s,s∈rm×n,m和n分别表示过程变量个数和数据样本个数,r表示数据库格式域。通过人工验证程序,在固定工作状态下获得若干可靠样本sr,sr的均值向量为可信中心st。

13、将过程数据x的质量特征计算设计为被测模态到可信中心的马氏距离。与典型的欧氏距离相比,马氏距离法使一种更合理地测量模态相似性的方法,它无标度,可以消除变量相关性的影响。因此,样本模态sh的马氏距离dh如下所示:

14、

15、其中,c为从sr求出的过程变量的协方差矩阵;表示转置。

16、步骤4:基于神经元正则和资源释放的贝叶斯增量学习。

17、将满足主动选择筛选条件的实例以及模式匹配算法赋予该实例,使用增量学习的思想再次训练分类模型:因为现实世界中数据是持续增长变化的,为了在新数据引入时不需要对全部模型进行重新训练,增强模型的适应性和对复杂数据的处理效率。

18、步骤5:引入关系感知自注意模型,对子模式之间的关系联结通过这个模型实现,实现基于关系感知的模式匹配。

19、该模型是一种嵌入半结构化输入序列的模型,其以一种方式联合编码输入中已有的关系结构,并在同一嵌入中诱导序列元素之间的“软”关系。

20、优选地,子模式选择过程中,依赖贝叶斯网络进行目标数据库子模式的训练,将源数据库子模式与多个可信中心进行比较后以二分类的类型输出。

21、优选地,在进行增量贝叶斯网络训练时,使用基于节点层面正化,令目标神经元的权值保持相同的重要性,然后根据该重要性对目标神经元的权值施加统一强度的正则化。

22、优选地,基于关系感知的注意力模型通过将已知关系的表示添加到注意力机制中,从而提供了一种将已知关系与注意力机制模块相通信的方法。

23、有益效果

24、本发明,与现有技术相比,具有以下优点:

25、1.本发明针对传统的贝叶斯学习方法在数据不可靠的情况下会出现缺陷不足,提出了一种基于神经元正则并结合资源释放机制的改进增量学习方法,针对模型计算量过大的问题,本方法将先验指定为更简单的高斯分布,然后对正则项进行解析计算。其次,本方法不是以不确定性作为重要性判断依据,而是将权值的方差以神经元为单位进行分组并统一为相同的值,然后以这个统一后的方差作为正则强度对同一神经元下的所有权值进行集体正则化,在没有引入额外操作计算神经元重要性的情况下实现了对整个神经元的正则化。

26、2.本发明对典型的贝叶斯网络学习方法、基于bic的结构学习方法进行了改进,通过引入加权形式的质量度量结果,从不可靠的数据资源中捕获最有用的信息。在使概率模型和网络结构分别更加贴近真实分布和真实因果关系方面有很大的改进。并将质量特征作为加权因子,得到更合理的过程监控控制范围。

27、3.为更充分地发掘模型的持续学习能力,本发明为模型引入资源释放机制,促成了贝叶斯增量学习算法的实现,通过挑选测试过程中的模式匹配实例,重新作为模式匹配的训练集,顺应数据增长变化趋势,从而优化匹配效果。

28、4.本发明将基于关系感知的自注意力框架应用与数据库子模式匹配方面,为给定查询中的源数据库子模式于目标数据库子模式之间提供对齐建模,以一种直接解决模式嵌入和链接挑战的方式定义了使用的关系类型集,还添加了一些辅助边来帮助模式编码。



技术特征:

1.一种基于关系感知与增量学习的数据库模式匹配方法,其特征在于,通过引入机器学习模型中的贝叶斯网络模型和基于自注意力的关系感知方式,完成目标数据库与源数据库之间的模式匹配任务,包括以下步骤:

2.如权利要求1所述的一种基于关系感知与增量学习的数据库模式匹配方法,其特征在于,步骤2中,在提取子模式特征时,具体参考基于实体分类的贝叶斯网络方法,将子模式用文本表示后,使用tf-idf生成子模式的特征向量;

3.如权利要求1所述的一种基于关系感知与增量学习的数据库模式匹配方法,其特征在于,步骤3中,采用质量特征对模式进行拟合,并对贝叶斯网络进行正则化与资源释放操作;

4.如权利要求1所述的一种基于关系感知与增量学习的数据库模式匹配方法,其特征在于,步骤4中,首先将l层的权值依据标准差的大小排序;

5.如权利要求1所述的一种基于关系感知与增量学习的数据库模式匹配方法,其特征在于,步骤5中,使用transformer结构构建注意力机制,通过主动选择的方式增加对子模式实例的可控性,通过注意力机制对增量集的样本实例与目标模式的样本s1进行匹配;


技术总结
本发明涉及一种基于关系感知与增量学习的数据库模式匹配方法,属于计算机数据库技术领域。首先发现目标数据库与源数据库各自的模态信息。然后将子模态文本信息进行特征提取。之后将特征提取信息输入贝叶斯网络进行选择筛选。该过程中,同样进行特征的质量度量,保证子模态分类的准确性和稳定性。同时,引入神经元正则化与贝叶斯增量学习方法,充分发掘模型的持续学习能力。最后,将得到的目标数据库子模态与源数据库子模态通过特征关系感知模态,得到模式匹配结果。本发明能够有效提升不同数据库之间的查询和模式匹配处理效率和准确率。

技术研发人员:张睿恒,刘冠宇,徐立新,苏毅,赵怡婧,王潮,刘雨蒙
受保护的技术使用者:北京理工大学
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1