一种自动收集计算机集群节点信息并分析的方法及系统的制作方法

文档序号:9914282阅读:248来源:国知局
一种自动收集计算机集群节点信息并分析的方法及系统的制作方法
【技术领域】
[0001]本发明涉及集成电路芯片制造技术领域,具体涉及一种计算机集群系统。
【背景技术】
[0002]集成电路芯片制造是一个十分复杂的过程,完成一种芯片的制造可能需要花费几周时间和经历数百道工序。由于半导体相关科技发展已经趋于物理现象极限,客户的要求亦日趋多样化,使得半导体工艺的弹性和复杂程度变得越来越高,稍有差错就会使公司发生很大损失,因此信息自动化技术被大量的引入到半导体制造工厂中。
[0003]信息自动化可以大大提高设备的管理水平、进行工艺数据的收集和统计工艺控制、保证物流控制更加顺利,同时还可以提高工艺方案(recipe)的管理水平,减少误操作和返工的现象,这些都大大推动产品良率的提升。同时信息自动化还可以实现先进的实时派工,提高生产速度和效率,信息自动化对于提升半导体制造工厂的价值起到了至关重要的作用。
[0004]由于半导体制造工厂中越来越多的自动化控制业务得到了 IT(Informat1nTechnology,信息技术)的支持并借助于IT实现了自动化,所以高度可用的企业IT基础设施变得异常重要。为了确保业务服务是高度可用的,IT基础设施的高可靠性是保证。通常,高度可用的IT基础设施通过基于冗余的高可用性(High Availability简称HA)方案来实现,其中基于冗余的HA方案从IT管理角度来说是主要的可用性量度。基于冗余的HA方案通过将关键数据和应用从崩溃的IT系统故障转移到另一个对等的系统中来为客户提供连续的不间断的服务,从而降低了服务的停机时间和相应的损失。
[0005]然而,随着计算机技术的发展,IT的基础设施架构变得越来越复杂而难以管理。添加新机器、改变网络配置或存储设备通常是复杂且容易出错的手动任务。而且随着IT基础设施架构内计算机集群的规模变得越来越庞大,集群系统的管理监控也变得越来越复杂,集群的监控管理越来越成为一项具有挑战性的工作。目前状况下,集群系统内的硬件节点在做过变更后,需要系统管理员手工检查状况,由于手工操作对系统管理员带来了更高的要求,且容易出错;如何有效地监控集群系统,保证集群系统的冗余,成为系统管理员费时费力的工作。

【发明内容】

[0006]本发明的目的在于,提供一种自动收集计算机集群节点信息并分析的方法,解决以上技术问题;
[0007]本发明的目的在于,提供一种自动收集计算机集群节点信息并分析的系统,解决以上技术问题;
[0008]本发明所解决的技术问题可以采用以下技术方案来实现:
[0009]一种自动收集计算机集群节点信息并分析的方法,其中,包括以下步骤:
[0010]步骤Si,获取计算机集群中的所有节点信息;
[0011]步骤s2,存储所述节点信息;
[0012]步骤s3,从存储的所述节点信息中获取未检测的节点,依据相应的检测策略对所述节点进行冗余分析并生成分析结果;
[0013]步骤s4,循环所述步骤S3直至所有节点完成冗余分析;
[0014]步骤s5,依据所述分析结果判断是否有节点存在单点风险,并生成一检测结果。
[0015]优选地,步骤s3具体如下:
[0016]步骤s31,获取待检测节点的平台类型;
[0017]步骤s32,获取与所述平台类型对应的检测策略;
[0018]步骤s33,利用检测策略对待检测节点进行冗余信息检测,并生成分析结果。
[0019]优选地,每一种平台类型对应一种检测策略,每一种检测策略包括至少一个检测规则;步骤s5中,当被检测节点不满足相应的检测策略的任意一个检测规则时,则判断被检测节点存在单点风险。
[0020]优选地,在所述步骤s2之后所述步骤s5之前,还包括步骤s6,依据一预设的拓扑关系将所述计算机集群中的节点生成一节点信息数据链,所述节点信息数据链包含的节点信息通过一图形生成单元生成系统硬件架构图。
[0021]优选地,步骤s6具体如下:
[0022]步骤s61,获取所述节点的平台类型;
[0023]步骤s62,获取与所述平台类型对应的拓扑关系;
[0024]步骤s63,依据所述拓扑关系形成一树形结构的节点信息数据链,保存在一设定格式的文件中;
[0025]步骤s64,所述图形生成单元获取所述设定格式的文件,并依据所述设定格式的文件中包含的节点信息动态生成所述系统硬件架构图。
[0026]优选地,所述检测策略包括系统硬件冗余检测策略,所述系统硬件冗余检测策略的检测规则包括硬件是否为双硬盘及硬盘是否做了镜像,和/或是否是双电源,和/或双电源是否连接到不同的不间断电源。
[0027]优选地,所述检测策略包括网络链路冗余检测策略,所述网络链路冗余检测策略的检测规则包括是否是双网卡,和/或双网卡是否连接到了不同网络管理设备上,和/或所连接的网络管理设备是否冗余。
[0028]优选地,所述检测策略包括光纤链路冗余检测策略,所述光纤链路冗余检测策略的检测规则包括是否是双主机总线适配器卡;和/或双主机总线适配器卡是否连接到了不同的光纤管理设备上;和/或所连接的光纤管理设备是否冗余。
[0029]优选地,所述检测策略包括业务应用系统冗余检测策略,所述业务应用系统冗余检测策略的检测规则包括核心业务应用系统是否存在于至少两个主机上。
[0030]优选地,所述设定格式的文件采用可扩展标记语言格式文件,所述节点信息数据链保存在可扩展标记语言格式文件中。
[0031]本发明还提供一种自动收集计算机集群节点信息并分析的系统,其中,
[0032]包括,
[0033]节点信息收集模块,用于获取计算机集群中的节点信息;
[0034]节点信息存储模块,与所述节点信息收集模块连接,用于存储所述节点信息收集模块收集的节点信息;
[0035]冗余信息分析模块,与所述节点信息存储模块连接,依据设定的检测策略对节点进行冗余分析,并生成一分析结果。
[0036]优选地,所述冗余信息分析模块包含一报表生成单元,用于依据所述分析结果生成一冗余信息分析报表,所述冗余信息分析报表至少包含所有检查失败的节点名称和检查项目。
[0037]优选地,还包括,系统硬件架构信息生成模块,与所述节点信息存储模块连接,用于依据计算机集群节点之间预设的拓扑关系形成一树形结构的节点信息数据链。
[0038]优选地,还包含一图形生成单元,所述图形生成单元与所述系统硬件架构信息生成模块连接,通过获取所述节点信息数据链包含的节点信息生成系统硬件架构图。
[0039]有益效果:由于采用以上技术方案,
[0040]I)本发明可以有效的降低系统管理员的工作量,避免手工输入的错误和遗漏,为集群平台的监控分析提供数据基础,降低集群系统出现单点故障的风险,提高系统的可靠性;
[0041]2)本发明可以有效地规避IT基础设施中的单点风险,为系统管理员在添加硬件、软件或者是修改当前的程序或流程后做冗余性检查,减少单点故障;
[0042]3)本发明还提出了一种根据预设的集群节点拓扑关系,形成树形节点信息数据链,动态生成系统硬件架构图的技术手段,为系统管理员对整体系统可靠性分析和决策提供有效依据。
【附图说明】
[0043]图1为本发明的系统流程示意图;
[0044]图2为本发明对节点信息进行冗余分析的流程示意图;
[0045]图3为本发明生成系统硬件架构图的流程示意图;
[0046]图4为本发明信息数据链的一种具体实施例的XML文件示例;
[0047]图5为图4中的XML文件中列出的节点信息生成的系统硬件架构图示例。
【具体实施方式】
[0048]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049]需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1