基于反馈的网格资源智能监控方法

文档序号:6464995阅读:168来源:国知局
专利名称:基于反馈的网格资源智能监控方法
技术领域
本发明主要涉及一种网格资源监控方法,用于解决网格资源监控中固定轮询 周期不足,资源监控的更新操作次数多的问题,属于网格计算技术领域。
背景技术
网格计算作为一个重要的新领域,已经获得了全球范围的广泛关注。将网格 中众多的跨越不同自治域,在地理上分布的异构的计算机和资源组织起来,是国 内外研究的重点。应运而生的网格技术借用电力系统的概念,利用网格,人们可 以像用电一样,接通开关,就可以方便地使用资源。网格是一个广域范围内的无 缝集成和协同计算环境,各类资源在网格中被整合应用。网格中的资源包括计算 资源、存储资源、通信资源、软件资源、信息资源、知识资源等。而在网格技术 中,监控方法是一个重要组成部分。监控方法可以帮助资源管理者分析系统性能, 及时发现问题,合理配置资源;为网格中的其它服务提供需要的信息,帮助用户 选择最合适的资源。
由于网格资源的动态性,即资源可以动态地加入或退出,故对网格资源进行 监控也要考虑到动态性,而且监控必须实时,因为节点的信息是动态变化的;然 而频繁地监控会增大系统负担,系统效率也会降低。例如如果我们监控一个短 期内没有较大变化的资源状态,就会增加不必要的监控负担。目前一些组织已经 开发了网格监控系统,比如NWS, MDS等。他们或者自己开发了信息收集工具 sensor (传感器),或者利用已有的资源监控工具Ganglia (甘格利亚)或Hawkeye (好 克亚)。这些监控系统一般都将网格划分成地理位置集中的若干虚拟区域VO (Virtual Organization),每个虚拟区域VO中设置一个全局目录服务器,主要存储 节点的物理地址等静态信息,在每个节点中配置一个本地目录服务器,在节点的 每个主机中为性能数据设置传感器,这些性能数据的传感器按照固定周期轮询采 集性能数据,在每个节点中还设置了传感器管理器,管理传感器和将采集到的数据存入本地目录服务中。他们都起到了重要作用,但都有一些不足,这些资源监控 系统都是采用固定周期的轮询策略采集资源当前性能的性能数据。这样就会存在 之前所叙述的问题。因此研究一种新型网格资源监控系统具有重要意义。

发明内容
技术问题本发明的目的是提供一种基于反馈的网格资源智能监控方法,解 决现有技术中固定轮询周期监控实时性不强,资源监控的更新操作次数多的问题。 采用本发明提出的方法可以解决固定轮询周期所引起的系统性能下降或监控实时 性不强的问题。
技术方案本发明的方法是一种改进性的监控方法,通过引入基于反馈的智 能监控方法而提出的,其原理是利用模糊数学方法对反馈得到的数据进行分析, 以分析结果确定下一周期的轮询时间,解决了网格监控方法中由于固定周期性监 控所引起的系统开销等问题。 一、体系结构
图l给出了一个运用这种方法的监控系统的设计体系结构,它的功能部件主要 包括信息提供者(Infonnation Provider),适配器(Adapter),智能控制器,索引服务 器。
下面我们给出几个部分的具体说明
信息提供者在监控节点上运行的信息收集源,收集各种类型的资源状态信 息。包括Globus发行的GRAM (网格资源分配管理器)和可以与MDS集成的外部 信息提供者如Ganglia (甘格利亚)或Hawkeye (好克亚)。GRAM (网格资源分配 管理器)发布有关网格资源的CPU和内存信息,以及与作业队列和所提交的作业 有关的调度信息,所获得的信息较少,所以在监控网格系统时,通常与Ganglia等 外部信息提供者结合使用,它可以获得主机名、处理器、内存、操作系统以及文 件系统等更多的主机信息。
适配器不同的信息采集器之间存在着差异。适配器的作用就是消除这些差 异,从不同类型的信息采集器中获取数据,然后交给智能控制器部件处理。适配 器使得在选择信息提供者时有很好的灵活性。
智能控制器在轮询周期的基础上,将反馈回来的信息与前一时刻查询到的 信息数据利用模糊数学进行比较,再根据不同的结果做出不同的反映即不同周期的设置。索引服务器主要是用于存放所收集到的系统信息,信息提供者将获取的系 统信息报告给GRAM,然后GRAM将获得的信息汇总到索引服务中,以供客户端请求使用。二、方法流程1、网格资源监控方法流程监控的信息通常包括静态信息,例如CPU数量、时钟速度、物理内存总量、 虚拟内存以及可用磁盘空间,和动态信息包括可用CPU的个数、可用内存、队列中等待执行的作业个数、当前资源的利用率等。目前已有的监控方法一般都采用固定周期轮询策略来监控所需的信息,以Ganglia为代表,它的监控流程如图2所示。Ganglia是一个分布式的监视系统,它有两个Daemon (后台程序),分别是 客户端Ganglia Monitoring Daemon (gmond)(后台监控进程)和服务端Ganglia Meta Daemon (gmetad)(后台监控进程)。后台监控进程(gmond)使用多播协 议订阅收集每个节点的状态.。成员节点收到某一节点的信息表示该节点是可用的, 若在几个周期内都没收到回应信息则表示该节点不可用。先设定固定轮询周期, 当更新周期到来时,节点监控它本地的资源并通过多播协议将监控数据发送出去。 在集群之间后台监控进程(gmetad)使用点到点的树型连接来汇集所有集群的状 态。因为集群中的每一个节点包含该集群全部的监控数据,所以树中的每一个叶 子节点逻辑上代表一个不同的集群,当然出于容错方面的考虑,可对每个叶子节 点指定多个实际节点;非叶子节点是信息的汇集点,代表一些集群的集合,它们 周期性地收集即轮询其子节点的信息。 网格资源监控方法的主要工作流程stepl:配置外部信息提供者如Ganglia,将它们与网格自带的监控器集成使用; step2:设置固定轮询周期,设为T;step3:数据采集者按照固定周期轮询T采集性能数据,如主机名、处理器、内存、文件系统等信息;step4:利用订阅/通知机制或其它机制订阅用户所需监控的信息;step5:将利用信息提供者采集到的性能数据定时汇总到目录服务中,供用户使用。62、基于反馈的网格资源智能监控方法流程在网格环境中,监控系统不断地向资源状态信息发出请求,当新的信息产生 时,监控系统中的状态就要更新。若更新太慢,会导致目录服务器中的性能数据 过期,而定期的轮询容易引起更新过快或过慢的问题,需要制定有效的轮询策略, 在性能数据变化幅度剧烈的时候,縮短轮询周期,在性能数据变化幅度平缓的时 候,增加轮询周期。所以需要设计一种新的方案来实时地根据网格负载的变化而 改变轮询周期。在分布式计算中,资源状态信息的改变很大程度上依赖于CPU的 改变,小部分依赖于内存等的变化,同样的在网格环境中也是如此。因此,如果 我们根据CPU和内存对网格环境的影响设个权值,观察它们的利用率就可以大体上预测其它资源的改变。例如假定CPU和内存的利用率几乎没有改变,那其它 的资源状态也不会有大的改变;如果它们的利用率有很大的变化,那其它的资源 状态也会有很多变化。换句话,网格监控事件的改变依赖于CPU和内存的改变。 因此,当它们的利用率有较大改变时,其它资源应该立即监控,这种情况下,我 们应该调整监控的间隔,让资源监控服务获取更新后的资源状态信息。基于反馈 的网格资源智能监控方法主要是运用了模糊数学的方法。该方法主要应用于由信息提供者、适配器、智能控制器和索引服务器组成的 网格环境中,该方法的主要步骤为步骤l.信息提供者有内部信息提供者和外部信息提供者,并将外部信息提 供者与网格自带的智能控制器集成,将监控所需的环境配置完成;步骤2.设置资源监控的初始轮询周期T,再设最大轮询周期Tmax和最小轮询 周期Tmin;步骤3.数据采集者按照轮询周期T采集性能数据;步骤4.将步骤3采集到的性能数据交给适配器处理,将不同格式的数据做 标准转化;步骤5.汇聚框架利用订阅/通知机制订阅所需监控的信息;步骤6.将采集到的性能数据定时汇总到索引服务器中,供用户使用,并将该时刻得到的数据保存在智能控制器中,记为l[l];在智能控制器中定义2个数组;r[/3]和t[/7],分别用来存储最后4轮询值和轮 询时间,义[i]表示轮询时间f[i]对应的轮询值,J[i]和t[i]确定一个轮询点;步骤7.确定对象,设最近的轮询时间为对象t[l], 一个周期前的轮询时间为对象t[2],依此类推直到对象对象f[i]对应的属性即轮询值"i]-"", …,;h其中…,l分别代表要监控的信息;在智能控制器中,取出之前保存过的n-l个周期的轮询值,7[2],义[3]…义[n];步骤8.根据n个轮询值义[l], "2]…;f[n]建立模糊相似关系;最近n个轮询点的变化幅度可用数 A/E
来描述,根据算术平均最小法》& AX,J =^-,确定 的值,建立模糊相似矩阵R =( )n*n,其中;=/>Cl,其中i, j = i, 2…,n; n为轮询值的个数,m为每个轮询值所对应的监控 信息个数,ke[l,m];步骤9.在模糊相似矩阵R中,由于该矩阵是对称的,主对角线的左下部与右 上部相同,我们只需看左下部即可;若观察到的值在[an, l],即该时刻与前一时刻所监控到的信息基本保持 不变,也就是说系统比较稳定,这时再观察之前几个周期内的r的值,若值一直 很大,接近于l,即在[a。, l]的范围内,也就意味着很长一段时间内系统性能都很 稳定,便可以扩大轮询周期,当然新的轮询周期须小于Tmax,否则取Tmax,再转 向步骤3执行, 一直循环;若前几个周期内的r的值变化比较大,证明只是这个 周期数据变化比较平稳,就暂定周期不用更新,以减少更新操作,即可保持原来 的轮询周期,再转向步骤3执行,一直循环;若rc值在其它的范围里如[O, a,] [a,, a2] , [a2, a3],…[a -b an],则取不同 的新的轮询周期;如假设r^值属于
,则意味着这两个对象的相似性较小, 即存在很大差异性,也就认为在最近这段时间内性能变化很大,需要即时更新数 据以保存监控的实时性,此时,便縮小轮询周期,若轮询周期〈Tmin,则取Tmin, 立即监控,再转向步骤3执行, 一直循环。有益效果本发明是一种新型的网格资源监控系统,主要用于解决网格资源 监控的效率问题,通过使用本发明提出的系统可以避免原本的采用固定周期轮询 监控的不足,可以使监控的数据更加准确,并且降低资源消耗。提高了资源监控 的灵活性。下面给出具体的说明实时性的监控,有效利用资源。过去的监控系统由于是固定周期轮询存在周 期固定、缺乏灵活性的不足。如果轮询频率太高,系统的大部分时间和资源消耗在查询之中,大大增加了系统的负担,系统性能就会下降;如果轮询效率太低, 系统地实时状况就不能得到及时反映。而且,网格资源变化幅度不稳定,如在白 天变化幅度大,固定的周期降低了性能数据的准确性。相反,在夜间变化幅度平 缓,固定的周期增加了节点负担。为了解决这个问题,我们先设定一个大于平时 监控周期的轮询时间,第n个轮询周期到来时,将这次的性能数据与上几个周期保 存下来的数据做个比较,通过模糊数学算出这几次的数据变化幅度如何,也即这 段时间内资源变化幅度如何。若变化很大,则立即调整(縮短)轮询周期,周期 的大小根据变化的幅度不同有所不同;若变化很小或接近不变,则可考虑再增大 轮询周期或保持不变。这种算法增加了资源监控的自适应性,使监控周期随着网 格环境的变化而变化,达到了对网格环境变化的实时监控,有效的利用了资源。


图l是该系统体系结构图。图中包括信息提供者,适配器,智能控制器,索 引服务。图2是Ganglia体系结构图。图3是应用本发明的方法的智能控制器的方法流程图。
具体实施方式
为了方便描述,我们假定有如下实例步骤l.信息提供者有内部信息提供者和外部信息提供者,并将外部信息提供 者与网格自带的智能控制器集成,将监控所需的环境配置完成;步骤2.设置资源监控的初始轮询周期T,再设最大轮询周期Tmax和最小轮询周步骤3.数据采集者按照轮询周期T采集性能数据;步骤4.将步骤3采集到的性能数据交给适配器处理,将不同格式的数据做标 准转化;步骤5. Aggregator (汇聚)框架利用Subscription/Notification (订阅/ 通知)机制订阅所需监控的信息;步骤6.将采集到的性能数据定时汇总到索引服务器中,供用户使用,并将该 时刻得到的数据保存在智能控制器中,记为义[l];在智能控制器中定义2个数组义[/7]和,分别用来存储最后/^轮询值和轮
询时间,;r[i]表示轮询时间tb']对应的轮询值,x[/]和t[i]确定一个轮询点。
步骤7.确定对象。设最近的轮询时间为对象t[l], 一个周期前的轮询时间为 对象"2],依此类推直到对象t[n]。对象t[i]对应的属性即轮询值义U]y 4, A,…,其中L…,l分别代表要监控的信息,如CPU、内存等, 对应的可以设相应的权值,例如,CPU的变化对整个网格的监控影响最大,可以将 它的权值设得相应的大些。在智能控制器中,取出之前保存过的n-l个周期的轮 询值,义[2],义[3]…义[n];
步骤8.根据n个轮询值;r[1], x[2]…义[n]建立模糊相似关系。最近n个轮询点 的变化幅度可用数r,,E [o, i]来描述,根据算术平均最小法
A J
="|4-,确定 的值,建立模糊相似矩阵R =( )n*n,其中H/二 -,
=1,其中i, j = l, 2..., n; n为轮询值的个数,m为每个轮询值所对应的监控信 息个数。
步骤9.为了更加有效精确地利用资源,我们将 划分不同的域对应不同的 周期改变,根据用户需求建立 和轮询周期的对应表格,在这里,为了叙述得更 清楚,我们假设表格如下,当然用户可以根据自己的需要创建不同的表格
的范围 e
e[an—i, an] E[an, 1]
周期T的取值T/n2T/n(n-l)T/nT
步骤10.在模糊相似矩阵R中,由于该矩阵是对称的,主对角线的左下部与右 上部相同,我们在研究时只需看左下部即可。
若观察到的 值在[a。, l],即该时刻与前一时刻所监控到的信息基本保持不 变,也就是说系统比较稳定。这时再观察之前几个周期内的r的值,若值一直很 大,接近于l,即在[an, l]的范围内,也就意味着很长一段时间内系统性能都很稳 定,我们便可以扩大轮询周期,当然新的轮询周期须小于Tmax,否则取Tmax,再 转向步骤3执行, 一直循环;若前几个周期内的r的值变化比较大,证明只是这 个周期数据变化比较平稳,就暂定周期不用更新,以减少更新操作,即可保持原 来的轮询周期,再转向步骤3执行, 一直循环。
若 值在其它的范围里如
[a,,a2], [a2, a3],.,.[a" a ],则对照表格分别取不同的新的轮询周期。如假设"2值属于
,则意味着这两个对象的相似性 较小,即存在很大差异性,也就认为在最近这段时间内性能变化很大,需要即时
更新数据以保存监控的实时性,此时,便縮小轮询周期,若轮询周期〈Tmin,则取 Tmin,立即监控,否则根据步骤9中建立的表格确定接下来的轮询周期的值,再转 向步骤3执行, 一直循环。 则其具体实施方式

(1) 在网格环境中配置外部信息提供者如Ganglia或Hawkeye,并将他们与网格 自带的监控器集成,将监控所需的环境配置完成;
(2) 设置资源监控的初始轮询周期,设为T,再设最大轮询周期Tmax和最小轮 询周期Tmin;
(3) 信息提供者按照轮询周期T采集性能数据,如主机名、处理器、内存、文 件系统等信息;
(4) 将第(3)步中从不同类型的信息提供者收集到的数据交给适配器处理,将 不同格式的数据做标准转化;
(5) 利用通知/订阅或其它机制订阅所需监控的信息;
(6) 将采集到的性能数据定时汇总到索引服务器中,供用户使用。并将该时刻 得到的数据保存在智能监控器中,记为41];
(7) 在智能监控器部件中,取出之前保存过的n-l个周期的轮询值,x[2;i,;c[3]… 剩0
(8) 根据n个轮询值x[l], x[2]…jc[n]建立模糊相似关系。最近n个轮询点的变 化幅度可用数 E[oj]来描述,根据算术平均最小法
=^-,确定 .的值,建立模糊相似矩阵R =( )n*n,其中
=0,, =1,其中i, j = l, 2..., n; n为轮询值的个数,m为每个轮询值 所对应的监控信息个数。
(9) 根据用户需求建立 值和轮询周期的对应表格;
(10) 若。2的值比较小,我们便需縮小轮询周期(若轮询周期^Tmin,则取Tmin), 根据第(9)步中建立的表格确定接下来的轮询周期的值,再转向第(3) 执行, 一直循环。(11)若~2的值很大,则再观察之前几个周期内的r的值,若值一直很大,在 [an, l]范围内,也就意味着很长一段时间内系统性能都很稳定,我们便可以 扩大轮询周期(若轮询周期〉Tmax,则取Tmax),再转向第(3)执行,一 直循环;若之后的值变化不大则保持原来的周期,再转向第(3)执行,一 直循环。
权利要求
1、一种基于反馈的网格资源智能监控方法,其特征在于该方法应用于由信息提供者、适配器、智能控制器和索引服务器组成的网格环境中,该方法的步骤为步骤1.信息提供者有内部信息提供者和外部信息提供者,并将外部信息提供者与网格自带的智能控制器集成,将监控所需的环境配置完成;步骤2.设置资源监控的初始轮询周期T,再设最大轮询周期Tmax和最小轮询周期Tmin;步骤3.数据采集者按照轮询周期T采集性能数据;步骤4.将步骤3采集到的性能数据交给适配器处理,将不同格式的数据做标准转化;步骤5.汇聚框架利用订阅/通知机制订阅所需监控的信息;步骤6.将采集到的性能数据定时汇总到索引服务器中,供用户使用,并将该时刻得到的数据保存在智能控制器中,记为x[1];在智能控制器中定义2个数组x[n]和t[n],分别用来存储最后n个轮询值和轮询时间,x[i]表示轮询时间t[i]对应的轮询值,x[i]和t[i]确定一个轮询点;步骤7.确定对象,设最近的轮询时间为对象t[1],一个周期前的轮询时间为对象t[2],依此类推直到对象t[n];对象t[i]对应的属性即轮询值x[i]={x1i,x2i,…,xmi};其中x1i,x2i,…,xmi分别代表要监控的信息;在智能控制器中,取出之前保存过的n-1个周期的轮询值,x[2],x[3]…x[n];步骤8. 根据n个轮询值x[1],x[2]…x[n]建立模糊相似关系;最近n个轮询点的变化幅度可用数rij∈
来描述,根据算术平均最小法 id="icf0001" file="A2008101241350002C1.tif" wi="37" he="21" top= "198" left = "25" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>确定rij的值,建立模糊相似矩阵R=(rij)n*n,其中rij=rji,rii=1,其中i,j=1,2…,n;n为轮询值的个数,m为每个轮询值所对应的监控信息个数,k∈[1,m];步骤9.在模糊相似矩阵R中,由于该矩阵是对称的,主对角线的左下部与右上部相同,我们只需看左下部即可;若观察到的r12值在[an,1],即该时刻与前一时刻所监控到的信息基本保持不变,也就是说系统比较稳定,这时再观察之前几个周期内的r的值,若值一直很大,接近于1,即在[an,1]的范围内,也就意味着很长一段时间内系统性能都很稳定,便可以扩大轮询周期,当然新的轮询周期须小于Tmax,否则取Tmax,再转向步骤3执行,一直循环;若前几个周期内的r的值变化比较大,证明只是这个周期数据变化比较平稳,就暂定周期不用更新,以减少更新操作,即可保持原来的轮询周期,再转向步骤3执行,一直循环;若r12值在其它的范围里如
[a1,a2],[a2,a3],…[an-1,an],则取不同的新的轮询周期;如假设r12值属于
,则意味着这两个对象的相似性较小,即存在很大差异性,也就认为在最近这段时间内性能变化很大,需要即时更新数据以保存监控的实时性,此时,便缩小轮询周期,若轮询周期<Tmin,则取Tmin,立即监控,再转向步骤3执行,一直循环。
全文摘要
基于反馈的网格资源智能监控方法在采用固定周期轮询监控的基础上,利用模糊数学方法对反馈得到的数据进行分析,根据处理结果设定新的轮询周期,使资源实时性与负载得到了很好的平衡。这样解决了网格监控系统中由于固定周期性监控所引起的系统性能下降或监控实时性不强的问题,使目录服务中存储的性能数据更加准确,降低了资源消耗,减少了资源监控的更新操作次数。
文档编号G06F11/34GK101316280SQ20081012413
公开日2008年12月3日 申请日期2008年6月13日 优先权日2008年6月13日
发明者飞 严, 雄 付, 任勋益, 季一木, 琳 张, 侃 易, 杨明慧, 王汝传, 蒋凌云, 松 邓 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1