估计数据更新时刻的方法和设备、数据集成方法和设备的制造方法

文档序号:9687456阅读:371来源:国知局
估计数据更新时刻的方法和设备、数据集成方法和设备的制造方法
【技术领域】
[0001] 本发明一般地涉及信息处理领域。具体而言,本发明涉及一种在数据集成中估计 数据更新时刻的方法和设备、W及相应的数据集成方法和设备。
【背景技术】
[0002] 在许多大型或者中型的机构,如组织、公司等中,有很多独立的、分隔开的系统,送 些系统之间不能彼此交流数据。重构现有系统的代价通常是很高的,不同的系统又存在交 流数据的需要。
[0003] 因此,为了解决送一问题,提出了数据集成技术。如图1所示,数据仓库被利用来 存储数据,作为数据中必。基于数据仓库中的数据,可W进行数据呈现和数据挖掘等。数据 仓库中的数据是通过数据导入从数据源获得的。数据源例如是数据库管理系统、Excel表 格、网络APP(应用)等。当然,希望数据仓库中的数据与原始的数据源尽可能地保持一致。 但是,何时更新在数据仓库中的数据是很难把握的。如果更新得不及时,则数据仓库中的数 据不是最新的。如果更新得过于频繁,又产生了过多的资源消耗。
[0004] 此外,如下两种情况更是增加了数据集成的困难。一种情况是作为数据源的系 统是一个黑盒子型服务器。送种服务器除了应用程序接口(Application Programming Intedace,API)之外,没有提供任何接口帮助判断数据更新时刻。另一种情况是系统部署 在局域网中,无法接触到应用,但是可W接触到服务器,即,可访问服务器,但不能访问驻留 在服务器上的应用。
[0005] 因此,期望一种针对如上所述的两种情况能够W较小的资源、较准确地估计数据 更新时刻的方法和设备、W及相应的数据集成方法和设备。

【发明内容】

[0006] 在下文中给出了关于本发明的简要概述,W便提供关于本发明的某些方面的基本 理解。应当理解,送个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的 关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是W简化的形式给出某些概 念,W此作为稍后论述的更详细描述的前序。
[0007] 本发明的目的是针对现有技术的上述问题,提出了一种针对如上所述的两种情况 能够W较小的资源消耗为代价相对准确地估计数据更新时刻的方法和设备、W及相应的数 据集成方法和设备。
[0008] 为了实现上述目的,根据本发明的一个方面,提供了一种估计数据更新时刻的方 法,该方法包括:对于仅公开应用程序接口 API的黑盒子型服务器,利用隐马尔可夫模型, W第一预定频率,判断当前时刻与API相关联的数据是否已更新,所述隐马尔可夫模型的 显式状态是当前时刻数据是否已更新,所述隐马尔可夫模型的隐式状态是距离上一次数据 更新的时间;对于可访问服务器,捕获超文本传输协议HTTP请求的出现及其时刻;根据与 可访问服务器相关联的数据的更新和HTTP请求的相关性,W第二预定频率,判断当前时刻 数据是否已更新。
[0009] 相应地,根据本发明的再一方面,提供了一种数据集成方法,该方法包括;根据如 上所述的估计数据更新时刻的方法,估计所述仅公开应用程序接口的黑盒子型服务器或可 访问服务器的数据是否已更新;W及如果判断为数据已更新,则从相应服务器获取相应的 数据并存储到数据中必。
[0010] 根据本发明的另一个方面,提供了一种估计数据更新时刻的设备,该设备包括:第 一判断装置,对于仅公开应用程序接口 API的黑盒子型服务器,利用隐马尔可夫模型,W第 一预定频率,判断当前时刻与API相关联的数据是否已更新,所述隐马尔可夫模型的显式 状态是当前时刻数据是否已更新,所述隐马尔可夫模型的隐式状态是距离上一次数据更新 的时间;第二判断装置,对于可访问服务器,捕获超文本传输协议HTTP请求的出现及其时 亥IJ ;根据与可访问服务器相关联的数据的更新和HTTP请求的相关性,W第二预定频率,判 断当前时刻数据是否已更新。
[0011] 相应地,根据本发明的再一方面,提供了一种数据集成设备,其包括;如上所述的 估计数据更新时刻的设备,用于估计所述仅公开应用程序接口的黑盒子型服务器或可访问 服务器的数据是否已更新;W及获取装置,在判断为数据已更新的情况下从相应服务器获 取相应的数据并存储到数据中必。
[0012] 另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可 读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处 理设备执行根据本发明的上述方法。
[0013] 此外,根据本发明的再一方面,还提供了 一种程序产品。所述程序产品包括机器可 执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行 根据本发明的上述方法。
【附图说明】
[0014] 参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的W上和其 它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
[0015] 图1示出了数据集成系统的示意图;
[0016] 图2示出了根据本发明的实施例的估计数据更新时刻的方法的流程图;
[0017] 图3示出了根据本发明的实施例的隐马尔可夫模型的训练方法的流程图;
[0018] 图4示出了根据本发明的实施例的计算相关性的方法的流程图;
[0019] 图5示出了监测结果的示例;
[0020] 图6示出了根据本发明实施例的估计数据更新时刻的设备的结构方框图;
[0021] 图7示出了根据本发明实施例的数据集成设备的结构方框图;W及
[0022] 图8示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
【具体实施方式】
[0023] 在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起 见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何送种实际 实施方式的过程中必须做出很多特定于实施方式的决定,w便实现开发人员的具体目标, 例如,符合与系统及业务相关的郝些限制条件,并且送些限制条件可能会随着实施方式的 不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益 于本公开内容的本领域技术人员来说,送种开发工作仅仅是例行的任务。
[0024] 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中 仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明 关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述 的元素和特征可W与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
[00巧]下面将参照图2描述根据本发明的实施例的估计数据更新时刻的方法的流程。
[0026] 图2示出了根据本发明的实施例的估计数据更新时刻的方法的流程图。如图2所 示,根据本发明的估计数据更新时刻的方法包括如下步骤:对于仅公开应用程序接口 API 的黑盒子型服务器,利用隐马尔可夫模型,W第一预定频率,判断当前时刻与API相关联的 数据是否已更新,所述隐马尔可夫模型的显式状态是当前时刻数据是否已更新,所述隐马 尔可夫模型的隐式状态是距离上一次数据更新的时间(步骤S1)。另外,根据本发明的估计 数据更新时刻的方法,对于可访问服务器,首先捕获超文本传输协议HTTP请求的出现及其 时刻(步骤S21);然后根据与可访问服务器相关联的数据的更新和HTTP请求的相关性,W 第二预定频率,判断当前时刻数据是否已更新(步骤S22)。
[0027] 步骤S1针对仅公开应用程序接口的黑盒子型服务器进行处理。
[0028] 由于黑盒子型服务器仅公开应用程序接口,所W只能观测数据是否已更新的历 史,根据观测的结果,预测将来数据的更新时刻。送样的观测和预测通过隐马尔可夫模型来 实现。
[0029] 具体地,将隐马尔可夫模型的显式状态设定为当前时刻数据是否已更新,将隐马 尔可夫模型的隐式状态设定为距离上一次数据更新的时间。通过对隐马尔可夫模型进行上 述设定,并利用历史数据对隐马尔可夫模型进行训练,就能够利用隐马尔可夫模型进行关 于数据更新时刻的判断。
[0030] 在实际应用时,利用隐马尔可夫模型,W第一预定频率,判断当前时刻与应用程序 接口相关联的数据是否已更新。
[0031] 此处的第一预定频率可W由本领域技术人员灵活设计,在设计时,可考虑系统资 源、判断和更新的及时性等因素。
[0032] 第一预定频率如果过于频繁,则会增加很多无谓的探测和判断,增加系统资源的 消耗。第一预定频率如果过于稀疏,则会不利于及时更新数据。
[0033] 应注意,应用时的频率与训练时的频率相同,均为第一预定频率。
[0034] 举例来说,第一预定频率可W被设计为每小时一次。
[0035] 由于黑盒子型服务器仅公开了应用程序接口,所W无论训练还是应用时,隐马尔 可夫模型只能判断与应用程序接口相关联的数据是否已更新。
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1