一种异构数据源的数据集成方法和系统与流程

文档序号:27434108发布日期:2021-11-17 22:39阅读:406来源:国知局
一种异构数据源的数据集成方法和系统与流程

1.本发明涉及网络技术领域,且更具体地涉及一种异构数据源的数据集成方法和系统。


背景技术:

2.随着数据库技术的发展和网络的普及,一方面,海量的数据被存放在异构数据库中,形成不利于数据共享的“信息孤岛”,另外一方面,随着全球市场竞争的加剧,越来越多的信息系统需要共享异构数据库中的数据。这就需要对数据信息进行集成。
3.当前,实现异构数据库的集成一般有两种方法。第一种就是将原有的数据移植到新的数据管理系统中来,为了集成不同类型的数据,必须将一些非传统的数据类型转化成新的数据类型。许多关系数据库供应商提供了类似的功能。这种集成方式的缺点是随着数据管理系统的升级,原来数据的相关应用软件,或是被废弃或是重新开发,以适应新的数据管理系统。因此,通常移植到一个新系统不是一个实际的解决方案。第二种方法是利用中间件集成异构数据库,该方法并不需要改变原始数据的存储和管理方式。中间件位于异构数据库系统(数据层)和应用程序(应用层)之间,向下协调各数据库系统,向上为访问集成数据的应用提供统一数据模式,和数据访问的通用接口。各数据库的应用仍然未完成它们的任务,中间件系统则主要集中为异构数据源提供一个高层次检索服务。但检索方法效率低下。
4.数据集成实际上是一个典型的etl过程,如何从源端数据库通过reader插件抽取数据,经过数据转换,最终写入到大数据中心就成为亟待解决的技术问题。


技术实现要素:

5.针对上述技术的不足,本发明公开一种异构数据源的数据集成方法和系统,能够实现异构数据集成的分析与诊断,提高了异构数据源的数据集成和应用能力。
6.为了实现上述技术方案,本研究采用以下技术方案:
7.一种异构数据源的数据集成方法,其中包括以下步骤:
8.(s1)采集数据结构、存取方式、形式不一样的多个数据源,并将不同数据库之间信息实现传递或者交互;数据采集的方式包括但不局限于:sms网络、gprs网络、cdma无线网网络或者光纤网;
9.(s2)将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源;用于分析异构数据源集成信息;分析异构数据源集成信息时,采用改进和声搜索优化算法用于分析异构数据源集成信息;采用长短时记忆神经网络算法用于诊断异构数据源集成过程中的故障信息;并实现不同数据信道的交互与通信;
10.(s3)应用集成后的多源异构数据信息采集、控制、通信、应用、运维、诊断或者数据显示。
11.作为本发明进一步的技术方案,所述改进和声搜索优化算法为基于马尔可夫决策
过程模型的优化算法。
12.作为本发明进一步的技术方案,改进和声搜索优化算法包括以下步骤:
13.步骤一:定义采集到的多源异构数据信息:
[0014][0015]
在公式(1)中,f(x)是指多源异构集成信息评估的目标函数;x
i
是指影响多源异构集成信息评估的变量,x
i
是指多源异构集成信息评估区域范围;n是指多源异构集成信息评估函数中的变量个数。首先定义hs算法中求解优化问题所需的和声向量集大小、hmcr和最大迭代次数等参数。
[0016]
步骤二:hm的产生:和声向量集是存储所有多源异构集成信息评估时输出的解向量和评估数据目标函数在每次迭代中得到的值的地方,其中充满了随机产生的影响多源异构集成信息变量值,输出的多源异构集成信息评估信息构成矩阵b表示为:
[0017][0018]
步骤三:新和声的生成:在这一步中,多源异构集成信息参数中新和声向量的元素根据hmcr的可能性通过更新hm的多源异构集成信息参数元素或将随机值分配给在第二步骤中应用的x多源异构集成信息数据范围来生成;为此,首先在0和1值之间选择一个随机多源异构集成信息参数:
[0019][0020]
如果随机产生的多源异构集成信息参数数字对应于hmcr可能性,所述可能性介于0和1,则可以在hm中的多源异构集成信息参数元素中拾取新的向量多源异构集成信息参数,如果随机产生的多源异构集成信息参数数字不符合hmcr可能性,则在影响多源异构集成信息参数数据集合范围内的参数变量中随机选择新的多源异构集成信息参数向量元素,而不是从hm中选取;
[0021]
步骤四:hm更新:在这个阶段,主要是根据新生成的多源异构集成信息参数解向量的值计算异构数据评估目标函数;然后,将该值与hm的解向量的目标函数值进行比较;如果新生成的解向量的目标函数值优于目标函数值,则新建立的和声解向量代替了目标函数值最差的调和向量,并从hm中删除最差解向量;这样,将更好的解向量存储在hm中;
[0022]
步骤五:重复(3)和(4),直到终止标准:如果满足此准则,则迭代训练结束,并将在hm中找到的最佳向量作为多源异构集成信息估算的最终解;如果不满足此标准,则重复第3和第4步。
[0023]
作为本发明进一步的技术方案,生成和声过程中引入mdp模型。
[0024]
作为本发明进一步的技术方案,所述长短时记忆神经网络算法为基于单块lstm块实现的故障诊断方法,包括以下步骤:
[0025]
(1)对多源异构集成信息进行输入、删除和读取;实现多源异构集成信息处理;并不断实现信息更新,提高信息筛选能力;设置c
t
为异构数据信息存储信息;f
t
为异构数据信息去除信息,i
t
为异构数据信息流入信息,o
t
为异构数据信息流出信息;
[0026]
(2)调取sigmoid函数,计算单块lstm块输出函数,函数公式为:
[0027][0028]
其中t表示神经网络模型中不同网络节点参数数据节点,w[i,f,c,o]表示神经网络模型中参数权重矩阵,b[i,f,c,o]表示为神经网络模型中不同节点权重矩阵的偏置向量,x表示输入的多源异构集成信息运行数据信息参数,y表示多源异构集成信息运行故障诊断数据输出参数;
[0029]
(3)读取单块lstm块输出存储信息,输出函数为:
[0030][0031]
其中tanh为双曲正切函数,e表示神经网络节点中按照元素计算的乘法。
[0032]
作为本发明进一步的技术方案,所述长短时记忆神经网络算法加入softmax分类函数,分类方法为:
[0033]
待分类的多源异构数据信息通过[x
t
,y
t
]表示,其中不同多源异构数据信息可以表示为y
t
∈{1,2,

,k},softmax分类函数能够对输入的多源异构集成信息应用下数据信息进行评估,假设第j种应用下出现的概率p,可以通过以下公式表示:
[0034][0035]
在公式(6)中,θ为神经网络模型计算概率的参数矩阵,θ
j
表示为多源异构集成信息中第j类相关的数据列向量,然后再启动标准化交叉熵损失函数j求出字母θ的最佳值,则输出的表达式可以为:
[0036][0037]
在公式(7)中,其中的λ与m为输入函数j的标准化模型参数,为了实现正则化计算需求,softmax分类函数对多源异构集成信息运行数据样本x
t
的分类方法通过以下公式进行:
[0038]
y
t
=arg max p
ꢀꢀꢀ
(8)
[0039]
通过对多源异构集成信息不同应用下进行分类和评估,进而实现了快速分类,提高了多源异构集成信息运行和操控能力。
[0040]
为了解决上述技术问题,本发明还采用以下技术方案:
[0041]
一种异构数据源的数据集成系统,包括:
[0042]
数据源;作为数据结构、存取方式、形式不一样,其外部连接有异构数据库和异构数据接口,在所述异构数据库的限制下,是多种数据库系统的集合,用于实现多源异构数据信息的共享和透明访问;异构数据接口用以实现不同数据库之间信息传递或者交互;
[0043]
集成模块;用于将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源;所述集成模块包括集成控制模块、信道通信分析模块、信息集成诊断模块、第一信道转换模块、第二信道转换模块、多源异构组网架构、路由器和集成输出接口;其中所述集成控制模块分别与信道通信分析模块、信息集成诊断模块、第一信道转换模块和集成输出接口连接,所述多源异构组网架构通过路由器与第一信道转换模块连接,所述第一信道转换模块的输出端与所述第二信道转换模块输入端连接,所述第二信道转换模块输出端与集成输出接口的输入端连接;和
[0044]
应用模块;用于应用集成后的多源异构数据信息,所述应用模块包括异构数据存储控制模块和与所述异构数据存储控制模块连接的故障告警模块、运维管理模块、可视化展示模块、动态监控模块、故障告警模块和异构诊断输出接口控制,其中所述故障告警模块连接有led灯。
[0045]
其中所述数据源的输出端与所述集成模块的输入端连接,所述集成模块的输出端与所述应用模块的输入端连接。
[0046]
作为本发明进一步的技术方案,所述集成控制模块为dsp计算模块和arm计算模块双核处理器,其中所述dsp计算模块为基于tms321vc5501型号的数据模块,所述arm计算模块为基于s3c

44box型号的数据模块;信道通信分析模块为改进和声搜索优化算法模块,信息集成诊断模块为长短时记忆神经网络算法模块;长短时记忆神经网络算法模块中单个lstm块结构包括存储模块c
t
、信息去除门f
t
、信息流入门i
t
和信息流出门o
t

[0047]
作为本发明进一步的技术方案,所述信道通信分析模块包括第一程序介质和设置在所述第一介质上的改进和声搜索优化算法程序;用于分析异构数据源集成信息;
[0048]
所述信息集成诊断模块包括第二程序介质和设置在所述第二介质上的长短时记忆神经网络算法程序;用于诊断异构数据源集成过程中的故障信息。
[0049]
作为本发明进一步的技术方案,所述第一信道转换模块设置有sdn控制器;所述第二信道转换模块设置有ason控制器。
[0050]
积极有益效果:
[0051]
1、本发明将采集到的数据结构、存取方式、形式不一样的多个数据源,集成起来,实现不同数据库之间信息实现传递或者交互,提高异构网络数据信息的集成和应用能力。
[0052]
2、采用改进和声搜索优化算法用于分析异构数据源集成信息;提高了数据集成分析的能力。
[0053]
3、采用长短时记忆神经网络算法用于诊断异构数据源集成过程中的故障信息;并实现不同数据信道的交互与通信。提高了数据集成故障诊断。
[0054]
4、应用集成后的多源异构数据信息采集、控制、通信、应用、运维、诊断或者数据显示,提高了数据应用能力。
附图说明
[0055]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
[0056]
图1为本发明一种异构数据源的数据集成方法的流程示意图;
[0057]
图2为本发明一种异构数据源的数据集成方法中改进和声搜索优化算法流程示意图;
[0058]
图3为本发明一种异构数据源的数据集成装置的架构示意图;
[0059]
图4为本发明一种异构数据源的数据集成装置的集成模块硬件架构示意图;
[0060]
图5为本发明一种异构数据源的数据集成装置的应用模块硬件架构示意图;
[0061]
图6为本发明一种异构数据源的数据集成装置中长短时记忆神经网络算法模块中单个lstm块结构示意图。
具体实施方式
[0062]
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
[0063]
多源异构数据源的多模式集成融合:兼容各类db、mpp、nosql、文件系统、http、nosql、ftp等数据源系统的批量、实时数据集成、及cdc数据同步。为了实现上述技术方案,本研究采用以下实施例,其中值得注意的是:
[0064]
马尔可夫决策过程模型指的是markov decision process,mdp;和声向量集指的是harmony memory,hm;和声优选率指的是harmony memory considering rate,hmcr,音高适应度指的是pitch adjusting rate,par,长短时记忆指的是long and short term memory,lstm。
[0065]
实施例一
[0066]
如图1

图2所示,一种异构数据源的数据集成方法,其中包括以下步骤:
[0067]
(s1)采集数据结构、存取方式、形式不一样的多个数据源,并将不同数据库之间信息实现传递或者交互;数据采集的方式包括但不局限于:sms网络、gprs网络、cdma无线网网络或者光纤网;
[0068]
(s2)将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源;用于分析异构数据源集成信息;分析异构数据源集成信息时,采用改进和声搜索优化算法用于分析异构数据源集成信息;采用长短时记忆神经网络算法用于诊断异构数据源集成过程中的故障信息;并实现不同数据信道的交互与通信;
[0069]
(s3)应用集成后的多源异构数据信息采集、控制、通信、应用、运维、诊断或者数据显示。
[0070]
在本发明中,所述改进和声搜索优化算法为基于马尔可夫决策过程模型的优化算法。基于马尔可夫决策过程模型(markov decision process,mdp)改进的hs优化算法再对h

bim模型进行优化。hs是一种基于群体的元启发式算法,能够在和声向量集(harmony memory,hm)中保持了一组解,在每次迭代训练异构通信信息样本中,通过一组应用于hm的优化参数来得到最优解,从而得到一个由和声优选率(harmony memory considering rate,hmcr)和音高适应度(pitch adjusting rate,par)组成的新和声向量。hs算法可分为
四个步骤:hm初始化、生成和声、增添新生成的和声至hm中(前提是其适合度高于前一hm中最差的适应度值)和满足终止标准(例如最大迭代次数)。hs算法的原理是在异构数据信息优化过程寻求由目标函数确定的完美解,通过优化结果、目标函数和最优解的方法实现h

bim模型分析异构数据信息的高效率高标准。
[0071]
在本发明中,改进和声搜索优化算法包括以下步骤:
[0072]
步骤一:定义采集到的多源异构数据信息:
[0073][0074]
在公式(1)中,f(x)是指多源异构集成信息评估的目标函数;x
i
是指影响多源异构集成信息评估的变量,x
i
是指多源异构集成信息评估区域范围;n是指多源异构集成信息评估函数中的变量个数;定义hs算法中求解优化问题所需的和声向量集大小、hmcr和最大迭代次数等参数;
[0075]
步骤二:hm的产生:和声向量集是存储所有多源异构集成信息评估时输出的解向量和评估数据目标函数在每次迭代中得到的值的地方,其中充满了随机产生的影响多源异构集成信息变量值,输出的多源异构集成信息评估信息构成矩阵b表示为:
[0076][0077]
步骤三:新和声的生成:在这一步中,多源异构集成信息参数中新和声向量的元素根据hmcr的可能性通过更新hm的多源异构集成信息参数元素或将随机值分配给在第二步骤中应用的x多源异构集成信息数据范围来生成;为此,首先在0和1值之间选择一个随机多源异构集成信息参数:
[0078][0079]
如果随机产生的多源异构集成信息参数数字对应于hmcr可能性,所述可能性介于0和1,则可以在hm中的多源异构集成信息参数元素中拾取新的向量多源异构集成信息参数,如果随机产生的多源异构集成信息参数数字不符合hmcr可能性,则在影响多源异构集成信息参数数据集合范围内的参数变量中随机选择新的多源异构集成信息参数向量元素,而不是从hm中选取;
[0080]
步骤四:hm更新:在这个阶段,主要是根据新生成的多源异构集成信息参数解向量的值计算异构数据评估目标函数;然后,将该值与hm的解向量的目标函数值进行比较;如果新生成的解向量的目标函数值优于目标函数值,则新建立的和声解向量代替了目标函数值最差的调和向量,并从hm中删除最差解向量;这样,将更好的解向量存储在hm中;
[0081]
步骤五:重复(3)和(4),直到终止标准:如果满足此准则,则迭代训练结束,并将在hm中找到的最佳向量作为多源异构集成信息估算的最终解;如果不满足此标准,则重复第3和第4步。
[0082]
在本发明中,生成和声过程中引入mdp模型。在具体实施例中,假设通过mdp模型生成异构数据源信息参数经验样本集g为:
[0083]
g=[(s,a),(s

,r)]=[g1,g2]
ꢀꢀꢀ
(4)
[0084]
其中,g1、g2分别对应着x1、x2。由于后续状态函数是延续的上一个有限的状态函数,因此g1、g2两者具有相似性,引入相对熵(kl)的概念,用其表示g1、g2两者相似性为:
[0085][0086]
在公式(5)里,p1、q分别对应着g1、g2。p和q则分别p和q中的函数值,i表示异构数据源评估的相对熵函数自变量。
[0087]
通过公式(5)的延展推导,倘若p=q,则dkl=0。这是由于当生成的状态与动作函数对与生成的后续状态与奖赏函数对相似性非常高的情况下,两者的相对熵无限趋近于0,mdp模型的异构数据源评估目标函数会取得全局最小值,训练出来的异构数据源信息参数样本质量也非常高。
[0088]
在本发明中,所述长短时记忆神经网络算法为基于单块lstm块实现的故障诊断方法,包括以下步骤:
[0089]
(1)对多源异构集成信息进行输入、删除和读取;实现多源异构集成信息处理;并不断实现信息更新,提高信息筛选能力;设置c
t
为异构数据信息存储信息;f
t
为异构数据信息去除信息,i
t
为异构数据信息流入信息,o
t
为异构数据信息流出信息;
[0090]
(2)调取sigmoid函数,计算单块lstm块输出函数,函数公式为:
[0091][0092]
其中t表示神经网络模型中不同网络节点参数数据节点,w[i,f,c,o]表示神经网络模型中参数权重矩阵,b[i,f,c,o]表示为神经网络模型中不同节点权重矩阵的偏置向量,x表示输入的多源异构集成信息运行数据信息参数,y表示多源异构集成信息运行故障诊断数据输出参数;
[0093]
(3)读取单块lstm块输出存储信息,输出函数为:
[0094][0095]
其中tanh为双曲正切函数,表示神经网络节点中按照元素计算的乘法。
[0096]
在本发明中,所述长短时记忆神经网络算法加入softmax分类函数,分类方法为:
[0097]
待分类的多源异构数据信息通过[x
t
,y
t
]表示,其中不同多源异构数据信息可以表示为y
t
∈{1,2,

,k},softmax分类函数能够对输入的多源异构集成信息应用下数据信息进行评估,假设第j种应用下出现的概率p,可以通过以下公式表示:
[0098][0099]
在公式(8)中,θ为神经网络模型计算概率的参数矩阵,θ
j
表示为多源异构集成信息中第j类相关的数据列向量,然后再启动标准化交叉熵损失函数j求出字母θ的最佳值,则输出的表达式可以为:
[0100][0101]
在公式(9)中,其中的λ与m为输入函数j的标准化模型参数,为了实现正则化计算需求,softmax分类函数对多源异构集成信息运行数据样本x
t
的分类方法通过以下公式进行:
[0102]
y
t
=arg max p
ꢀꢀꢀ
(10)
[0103]
通过对多源异构集成信息不同应用下进行分类和评估,进而实现了快速分类,提高了多源异构集成信息运行和操控能力。
[0104]
实施例二
[0105]
如图3

图6所示,一种异构数据源的数据集成系统,包括:
[0106]
数据源;作为数据结构、存取方式、形式不一样,其外部连接有异构数据库和异构数据接口,在所述异构数据库的限制下,是多种数据库系统的集合,用于实现多源异构数据信息的共享和透明访问;异构数据接口用以实现不同数据库之间信息传递或者交互;
[0107]
集成模块;用于将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源;所述集成模块包括集成控制模块、信道通信分析模块、信息集成诊断模块、第一信道转换模块、第二信道转换模块、多源异构组网架构、路由器和集成输出接口;其中所述集成控制模块分别与信道通信分析模块、信息集成诊断模块、第一信道转换模块和集成输出接口连接,所述多源异构组网架构通过路由器与第一信道转换模块连接,所述第一信道转换模块的输出端与所述第二信道转换模块输入端连接,所述第二信道转换模块输出端与集成输出接口的输入端连接;和
[0108]
应用模块;用于应用集成后的多源异构数据信息,所述应用模块包括异构数据存储控制模块和与所述异构数据存储控制模块连接的故障告警模块、运维管理模块、可视化展示模块、动态监控模块、故障告警模块和异构诊断输出接口控制,其中所述故障告警模块连接有led灯。
[0109]
其中所述数据源的输出端与所述集成模块的输入端连接,所述集成模块的输出端与所述应用模块的输入端连接。
[0110]
在本发明中,所述集成控制模块为dsp计算模块和arm计算模块双核处理器,其中所述dsp计算模块为基于tms321vc5501型号的数据模块,所述arm计算模块为基于s3c

44box型号的数据模块;信道通信分析模块为改进和声搜索优化算法模块,信息集成诊断模块为长短时记忆神经网络算法模块;如图3所示,长短时记忆神经网络算法模块中单个lstm块结构包括存储模块c
t
、信息去除门f
t
、信息流入门i
t
和信息流出门o
t

[0111]
在本发明中,所述信道通信分析模块包括第一程序介质和设置在所述第一介质上
的改进和声搜索优化算法程序;用于分析异构数据源集成信息;
[0112]
所述信息集成诊断模块包括第二程序介质和设置在所述第二介质上的长短时记忆神经网络算法程序;用于诊断异构数据源集成过程中的故障信息。
[0113]
在本发明中,所述第一信道转换模块设置有sdn控制器;所述第二信道转换模块设置有ason控制器。
[0114]
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1