一种资源约束性多节点计算系统的可靠性评估方法

文档序号:9750767阅读:435来源:国知局
一种资源约束性多节点计算系统的可靠性评估方法
【技术领域】
[0001] 本发明属于计算机技术领域,涉及一种资源约束性多节点计算系统的可靠性评估 方法。
【背景技术】
[0002] 随着经济和社会的发展,人们对计算系统处理能力的需求不断提高。近年来出现 的多节点计算系统正是通过多个独立的计算节点并行计算提供强大的计算能力。典型的多 节点计算系统有两类,1)集群计算系统:集群计算系统由多台服务器节点通过互联网络组 合而成,在集群管理软件的管理下作为一台虚拟的高性能服务器向外提供服务;2)多核处 理器:多核处理器是把多个计算内核及其互联网络是设计在芯片内部,此时一个多核芯片 的计算能力就相当于一个集群系统。
[0003] 由于,多节点计算系统(如集群计算系统和多核处理器)的多个计算节点是通过互 联网络集成在一起,并通过一个网络端口向外提供服务。此时,就存在多计算节点的强大计 算能力和网络较低通信能力(即带宽)的矛盾。也就是,在通信资源约束的条件下,一个N节 点的多节点计算系统不能够激活全部N节点(即全负荷工作),因为全部N节点处于正常工作 状态带来的通信需求会导致网络阻塞、进而引发整个系统的崩溃。现有的用于通信资源约 束型多节点计算系统的可靠性评估方法是状态枚举法。例如对于N=4,K=3,L=2的多节点计 算系统,该系统一共有10个正常的工作状态:

其中%表示节点i处于正常状态,而@表示节点i处于故障状态。从实例可以看出,但是当N 较大时,采用枚举法进行状态枚举会出现状态过多,存储困难,计算效率低的问题。

【发明内容】

[0004] 本发明的目的,为解决现有技术中的通信资源约束型多节点运算系统采用枚举法 进行状态枚举会出现状态过多,存储困难,计算效率低的问题,使用更高效的决策图运算数 据结构对通信资源约束型多节点计算系统的工作状态进行高效编码,从而极大缩小了存储 空间需求,提升了计算效率。
[0005] 本发明是通过下述技术方案实现的:一种资源约束性多节点计算系统的可靠性评 估方法,步骤如下: 步骤1:建立基本BDD模型计算机集群组织,并对BDD模型计算机集群组织中的各个运算 或工作的节点中的单个服务器或运算核心及其运行的部件状态依照布尔型变量进行编码, 单个服务器或运算核心及其运行的部件在下文中都统一代称为节点;节点所有运行状态形 式编码为X,当X节点为工作状态时为编码1,状态表示X=1;当X节点为故障状态时编码〇,状 态表示X=0;且X=1的连接状态编码为1,X=0的连接状态编码为0;节点接受来自各下属或平 级节点的运算数据,并设置接受数据时0和1分支时的运行状态出现概率P,概率P来自于节 点制造者的制造数据、检测数据、或实验数据等,运行状态出现概率P的值为大于0%小于 100%; 步骤2:继续利用BDD模型,对BDD模型计算机集群组织的系统级状态进行编码,将BDD模 型计算机集群组织的各个节点在空间中按照X轴Y轴进行排列编号,使其在系统级BDD模型 中的位置平面横纵轴坐标化,并可根据实际节点数量沿横纵轴坐标排列扩展,并且模型位 置坐标结构必须呈现为方形,且服务器的数量也就是节点的设定值为N; 步骤3.依靠步骤2编排坐标后,在BDD模型计算机集群组织的节点工作(量)状态需求, 设定启动工作的节点不多于K并且不少于L,1 < L < K < N,K的值根据具体通信资源的容量而 定,L的值根据计算任务的性能需求而定,计算任务的最低性能需求为M,每个节点的性能为 X,则L=M/X,单个节点需要的通信资源为Y,系统总的通信资源为C,则L=C/Y ; 并在节点的位置平面横纵轴坐标化的基础上,再采用下面的方法对系统级BDD模型计 算机集群组织各节点之间的系统级运行状态编码: 1)当节点布尔型变量的纵坐标〇 < Υ〈Κ_1时,节点布尔变量的横坐标取值范围为0 < X < Ν- Κ; a) 设置横纵轴(X,Υ)位置上的节点的变量名为"Χ+Υ+1" ; b) 当X= N-K时,该节点的0分支连接到常数节点0;否则该节点的0分支连接到(X+1, Y)位置上名为"X+Y+2"的节点; c) 当Y=L时,该节点的1分支连接到常数节点1;否则该节点的1分支连接到(X,Y+1)位 置上名为"X+Y+2"的节点; 2 )当节点布尔型变量的纵坐标Y=K-1时,节点布尔型变量的横坐标取值范围为0 < X < Ν-Κ; a) 设置(X,Υ)位置上的节点的变量名为"Χ+Υ+1"; b) 当X〈 N-1时,该节点的0分支连接到(X+l,Y)位置上名为"X+Y+2"的节点;并且该节 点的1分支连接到(X,Y+1)位置上名为"X+Y+2"的节点; c) 当N-L <X〈N-K时,该节点的0分支连接到(X+1,Y)位置上名为"X+Y+2"的节点;并且 该节点的1分支连接到常数节点1; d) 当X=N-K时,该节点的0分支连接到常数节点0;并且该节点的1分支连接到常数节点 1; 3)当节点布尔型变量的纵坐标K-1〈Y < L时,节点布尔型变量的横坐标取值范围为0 < X < N-L-1 ; a) 设置(X,Υ)位置上的节点的变量名为"Χ+Υ+1"; b) 当X= η-L-l时,该节点的0分支连接到常数节点1;否则该节点的0分支连接到(X+1, Y)位置上名为"X+Y+2"的节点; c) 当Y=L时,该节点的1分支连接到常数节点0;否则该节点的1分支连接到(X,Y+1)位 置上名为"X+Y+2"的节点; 步骤4:得到步骤3所构造的BDD模型计算机集群组织后,利用系统级BDD模型对得到的 BDD模型计算机集群组织进行可靠性评估;利用系统级BDD模型进行可靠性评估是基于如下 两个规则: 1)从坐标为(〇,〇)的状态变量节点到常数节点〇的任意一条路径对应着m)D模型计算机 集群组织的一个故障状态;状态变量节点为节点的编码和节点统称,坐标为(ο,ο)的状态变 量节点即编码1节点,常数节点0则为常数编码为0的常数节点; 2) 从坐标为(0,0)的状态变量节点(即编码1节点对应的节点)到常数节点1的任意一条 路径对应着BDD模型计算机集群组织的一个工作状态; 系统可靠性评估就是计算或该BDD模型计算机集群组织自动计算自身,K)D模型计算机 集群组织所有工作状态的概率之和;由于存在多个BDD模型计算机集群组织的工作状态,所 以需要将所有BDD模型计算机集群组织的工作状态的概率进行累加;根据上述规则可知, BDD模型计算机集群组织的工作状态和常数节点1路径是一一对应的关系,所以我们只需将 常数节点1路径的概率进行累加; BDD模型计算机集群组织可靠性评估的"将常数节点1路径的概率进行累加"这一运算 的步骤为: 3) 根据步骤1给BDD模型计算机集群组织中每个状态变量节点的0分支和1分支各设置 相应的概率值P; 4 )给常数节点0设定初始概率值P为0%,给常数节点1设定的初始概率值P为100%(获得 了概率值后再到此处进行赋值);或给常数节点〇设定初始值〇,给常数节点1设定的初始初 始值1; 5) 在获得的BDD模型计算机集群组织中按照节点的编码号从大到小的顺序,先计算节 点"N"的对应的概率值,直至获得节点"Γ对应概率值; 6) 运算输出点"Γ对应概率值的结果,即为本BDD模型计算机集群组织的可靠度或需求 构成的BDD模型计算机集群组织的可靠度; 由此得到本次构
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1