用于远程数据收集管理的方法和分布式计算系统的制作方法

文档序号:7961980阅读:181来源:国知局
专利名称:用于远程数据收集管理的方法和分布式计算系统的制作方法
技术领域
本发明涉及分布式计算环境,更具体地说,涉及在分布式计算环境/系统中管理远程数据收集。
背景技术
当前的计算环境通常使用多个分布式计算系统。图1示出典型的分布式计算系统的框图,其中管理服务器100,例如IBM eServer型号x205,通过网络110(例如WAN、LAN、因特网等)连接到多个被管理的计算机系统120,例如IBM eServer xSeries和BladeCenter服务器。在这些环境中存在的一个挑战是检测系统故障,防止停机,并隔离故障组件从而能够更新或者更换它们。解决这些问题的努力已经产生几个问题判定工具,它们解决系统中特定种类的问题。每个工具执行问题判定活动来解决开发它所针对的特定领域。因此,为了诊断整个系统,需要多种这些工具,因为每种工具给问题判定难题提供一些重要信息。当已经收集到来自每个工具的信息时,必须把这些结果关联起来以全面地考查和预测系统故障。
在当前环境中,系统管理员负责选择要启动的适当工具,必要时安装这些工具,将来自各工具的信息关联起来,并分析结果来防止或解决问题。经常需要去到系统现场来执行这些活动。这种对系统管理员的依赖是费时的,并且由于在有关对可用工具、工具更新、和每个工具所返回数据的类型和格式的认识的维护方面的知识和经验的不同也容易发生错误。
随着需要以这样一种方式在位于远程的系统上发现、安装、更新和启动问题判定工具,该方式允许在中央位置关联和分析这些工具的结果,从而预测即将发生的故障并生成对现存故障的解决方案,而面临另一挑战。当需要在分布式系统中定期执行某过程或者代码块(例如任务列表130中的任务)例如问题判定代码时,已知允许管理服务器100跟踪时间并允许以规则的间隔把信息发送给每个分布式系统中。然而,随着被管理系统120数量的增多,这种方法变得受局限,因为需要时间来把特定执行通知给每个系统并需要使所有系统连接到管理服务器100上以接收命令。
因此,需要一种在分布式计算环境中远程管理数据收集的方法,包括提供用于分布式计算环境中的问题判定工具的数据的远程管理的定期执行和分布式问题判定。本发明试图满足这种需要。

发明内容
描述了具有远程数据收集管理的分布式计算环境的方面。这些方面包括管理服务器,和多个网络连接到该管理服务器上并由该管理服务器管理的计算机系统。所述多个计算机系统中的每个都包括一侦听代理,该侦听代理从管理服务器接收过程代码(process code)并控制该过程代码的定期执行以从所述多个计算机系统收集数据。无需在多个计算机系统和管理服务器之间保持连接就能发生定期执行。另外,所收集的数据包括从问题判定活动所收集的数据。
通过本发明,利用被管理系统中的侦听代理实现了在分布式计算环境中的被管理系统中定期执行块代码(block code)的某种过程。实现定期执行的能力支持用于分布式数据收集和分析的服务方法,从而增强分布式计算环境中的问题判定活动。这使得可以高效和普通的方式最大程度地利用该系统可用的问题判定工具。结合下面的详细说明和附图,本发明这些方面的这些和其他优点将会得到更充分的理解。


图1示出一个典型的分布式计算环境的框图。
图2示出一个根据发明的分布式计算环境的框图。
图3示出一个根据本发明的用于问题判定工具和数据的远程管理的分布式问题判定流程图。
具体实施例方式
本发明涉及在分布式计算环境中远程管理数据收集。提供了下面的说明书以使本领域的普通技术人员可以实现和利用本发明,并且是在专利申请及其要求的上下文中提供的该说明。本领域的技术人员将容易想到这里所描述的最佳实施例以及基本原理和特征的各种变化。因此,本发明并非旨在局限于示出的实施例,而是被给予与这里所述的基本原理和特征相一致的最大范围。
根据本发明,如图2所示,图1的分布式系统被修改以在被管理系统120’中包括一常驻侦听代理200。常驻侦听代理200例如作为用适当编程语言编写的软件过程被提供,并被存储在计算机可读介质中,并且通过从管理服务器100获取命令来配置某过程或者代码块的适当的定期执行,而在每个分布式系统上执行。然后常驻侦听代理200负责该过程或代码块的定期执行。接着侦听代理200可以与管理系统100断开连接并仍执行必要的定期动作来收集数据。
例如,下面描述了在管理服务器100和侦听代理200之间的命令集,其用于通过侦听代理200在远程系统中实现定期执行Connect<主机名或IP号(即网际协以号)>与给定主机建立通信并设置响应地址。
Disconnect断开与所连接管理系统的基于套接字的通信。
Transport通知被管理的系统发送所收集的结果。
SetPeriod<DATA_COLLECTION_CLASS>
<TIMEBETWEENSAMPLESINSECONDS>管理服务器100指示侦听代理200计划安排由DATA_COLLECTION_CLASS定义的能够收集数据的组件每TIMEBETWEENSAMPLESINSECONDS执行。侦听代理200使用本地时间来计划安排执行,并且现在可与管理服务器100断开连接。
GetPeriod获取由SetPeriod设置的周期。
如参照在图3中示出的流程图所述的那样,以这种方式进行定期执行的能力为分布式问题判定系统根据本发明对问题判定工具和数据进行远程管理提供了支持。参照图3,当生成对于问题判定数据的请求时,开始远程管理,所述请求如所允许的那样由客户或者外部服务中心启动,并由分布式计算环境中的目标系统接收,例如通过侦听代理接收(步骤300)。然后发现在该目标系统上所安装的问题判定工具(步骤310)。选择并配置所发现的与所请求的数据有关的工具(步骤320)。在目标系统中随需或者为了定期执行安装附加的工具(步骤330),并且问题判定工具的任何更新由管理系统远程完成。
随着选择和配置这些问题判定工具,在目标系统中启动这些工具并收集问题判定结果(步骤350)。开始把所有收集到的数据相关联(步骤360),并把所关联的数据传送到一远程系统中以进行结果的本地存储(步骤370)。卸载随需安装的任何问题判定工具(步骤380)。所存储的结果例如被传送到服务中心以便分析(步骤390)。根据所述结果,生成系统配置历史,其中列出所检测和预测的故障,并创建行动计划(步骤400)。解决方案的应用通过硬件和软件部署或者现场服务调用来发生(步骤410)。
作为在分布式计算环境中这些步骤如何进行的示例,使管理系统能够从目标系统请求技性能数据。目标系统接收请求并接着发现所安装的提供系统性能信息的应用软件。目标系统继续根据缺省或者生成的规则集来配置所安装的工具。将来自每个工具的数据在目标系统上相关联并接着将其传输到远程系统以进行进一步的分析。如果探测到性能问题,则将来自目标系统的相关联数据传送到一外部服务实体来判定硬件和软件配置错误或者生成解决该问题的行动计划。服务机构可以生成该过程中使用的某些问题判定工具,并能够判定远程系统上工具的等级以及以定期的方式或者随需部署更新和附加的工具。
通过本发明,利用被管理系统中的侦听代理,实现了分布式计算环境中的被管理系统中块代码的某过程的定期执行。实现该定期执行的能力支持一种用于分布式数据收集和分析以增强分布式计算环境中的问题判定活动的服务方法。这允许以高效和普通的方式最大程度地利用该系统可用的问题判定工具。所产生的系统能够自动地判定应当执行哪些工具来帮助判定特定问题,并提供了当对数据进行归类(通常为格式化数据)和分析所收集的数据时,在系统的网络中部署、更新和卸载该问题判定工具。
尽管根据示出的实施例描述了本发明,但是本领域普通技术人员将容易知道这些实施例可以有变化,并且这些变化将在本发明的精神和范围内。因此,本领域普通技术人员可以做出许多修改,而不脱离随后的权利要求的精神和范围。
权利要求
1.一种用于在分布式计算系统中远程管理数据收集的方法,该方法包括在多个计算机系统中的每一个中提供侦听代理,以接收来自网络连接到所述多个计算机系统的管理服务器的过程代码;以及利用所述侦听代理控制所述过程代码的定期执行,以从所述多个计算机系统收集数据,其中发生所述定期执行而无需在所述多个计算机系统和所述管理服务器之间维持连接。
2.如权利要求1所述的方法,其中所述收集的数据还包括从问题判定活动收集到的数据。
3.如权利要求2所述的方法,其中所述问题判定活动还包括至少在一个计算机系统中接收对于问题判定数据的请求。
4.如权利要求3所述的方法,还包括在所述至少一个计算机系统中发现所安装的问题判定工具,并选择与所述请求相关的一个或者多个所安装的问题判定工具。
5.如权利要求4所述的方法,还包括安装任何需要的附加工具并根据需要远程更新所选择的一个或者多个所安装的问题判定工具。
6.如权利要求5所述的方法,还包括根据规则集配置所选择的问题判定工具并将来自所选择的问题判定工具的数据相关联。
7.如权利要求6所述的方法,还包括将所述相关联的数据传送到远程系统。
8.如权利要求7所述的方法,还包括利用所传送的数据来进行分析并创建行动计划。
9.如权利要求8所述的方法,其中通过硬件和软件部署来应用所述行动计划。
10.一种具有远程数据收集管理的分布式计算系统,该系统包括管理服务器;以及多个计算机系统,其网络连接到所述管理服务器上并由所述管理服务器管理,所述多个计算机系统中的每一个包括侦听代理,其用来接收来自管理服务器的过程代码并控制所述过程代码的定期执行以从所述多个计算机系统收集数据,其中发生所述定期执行而无需在所述多个计算机系统和所述管理服务器之间维持连接。
11.如权利要求10所述的系统,其中所述收集的数据还包括从问题判定活动收集到的数据。
12.如权利要求11所述的系统,其中所述问题判定活动还包括至少在一个计算机系统中接收对于问题判定数据的请求。
13.如权利要求12所述的系统,其中所述至少一个计算机系统还发现安装在所述至少一个计算机系统中的问题判定工具,并选择与所述请求相关的一个或者多个所安装的问题判定工具。
14.如权利要求13所述的系统,其中所述管理服务器还安装任何需要的附加工具并根据需要远程更新所选择的一个或者多个所安装的问题判定工具。
15.如权利要求14所述的系统,其中所述至少一个计算机系统还根据规则集配置所选择的问题判定工具并将来自所选择的问题判定工具的数据相关联。
16.如权利要求15所述的系统,其中所述至少一个计算机系统还把所述相关联的数据传送到远程系统。
17.如权利要求16所述的系统,其中所述远程系统还利用所传送的数据来进行分析并创建行动计划。
18.如权利要求17所述的系统,其中所述远程系统通过在所述至少一个计算机系统中进行硬件和软件部署来应用所述行动计划。
19.一种计算机可读介质,包含用于以下功能的程序指令在多个计算机系统中的每一个中的侦听代理,其用来接收来自网络连接到所述多个计算机系统的管理服务器的过程代码并控制所述过程代码的定期执行来从所述多个计算机系统收集数据,其中发生所述定期执行而无需在所述多个计算机系统和所述管理服务器之间维持连接。
20.如权利要求19所述的计算机可读介质,其中所述收集的数据还包括从问题判定活动收集到的数据。
全文摘要
带有远程数据收集管理的分布式计算系统的方面包括一管理服务器,和多个网络连接到该管理服务器上并由该管理服务器管理的计算机系统。该多个计算机系统中的每一个包括一侦听代理,其用来接收来自管理服务器的过程代码并控制该过程代码的定期执行来从所述多个计算机系统收集数据。发生所述定期执行而无需在所述多个计算机系统和所述管理服务器之间维持连接。另外,所述收集的数据还包括从问题判定活动收集到的数据。
文档编号H04L12/24GK1878091SQ20061008509
公开日2006年12月13日 申请日期2006年5月31日 优先权日2005年6月2日
发明者F·A·鲍尔三世, T·D·法达勒, R·E·哈珀, K·K·沙阿, R·H·布朗, T·J·福科斯, D·B·罗伯茨, C·A·施赖伯 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1