一种机群的高可靠性系统及其设计方法

文档序号:7616675阅读:89来源:国知局
专利名称:一种机群的高可靠性系统及其设计方法
技术领域
本发明涉及计算机应用技术领域,特别是一种机群的高可靠性系统及其设计方法。
背景技术
机群的高可靠性设计一直是机群研究的重点。是机群应用的一个关键因素。现在的机群的可靠性设计主要是通过双机热备系统来解决机群的应用可靠性问题,双机热备系统存在以下缺点,第一,双机的切换速度比较慢,不能满足对系统实时性要求特别高的需求。如系统的实时计算能力不能存在大于0.1秒的延时。第二,双机的切换存在着误切换操作问题。在双机的热切换中,因为切换软件本身故障,或者切换条件的非故障因素的而使切换启动。这些都可能导致误切换问题,结果导致双机冲突。第三,双机的热备份不能充分利用机群多节点的特点,遵循的还是小型机系统的高可靠性设计方案。不能达到机群多节点的利用率。第四,双机热备不能保证对系统可靠性要求特别高的需求,如在金融领域的99.999%的可靠性要求。
在某些特殊领域,如金融、证券领域,对机群的要求具有稳定性特别高,实时计算性要求强,数据I/O密集度大等特殊要求,但计算复杂度一般相对简单。我们发明的一种机群的结构设计可以很好的满足这类特殊应用对高可靠性的要求。

发明内容
本发明的目的是提供一种能够利用机群的多节点冗余设计使机群的可靠性达到99.999%的高可靠性设计方法。保证机群计算性能的无缝切换,防止误切断发生。
机群的架构使有多个节点组成,至少为三个计算节点。
机群的单个节点能够完成用户所需计算要求。
机群有选举装置可以进行计算结果的选举,能够在多个结果中选举一个最为适合的计算结果。
机群能够满足在规定的误差范围内,实现计算结果的100%正确。
为实现上述目的,机群的高可靠性的系统及其设计方法,包括从功能上把系统分为数据接收,数据处理,数据发送三部分。数据接收部分主要负责数据的同步接收,接收来自底层网络的广播数据,数据处理负责系统的功能处理。而数据发送则完成把机群计算的结果发送给用户。系统通过共识装置和选举装置,选举最可靠的计算结果值发送给用户,达到高的可靠性。
系统高可靠系统总体架构主要分为一下几个装置同步接收装置同部接收数据,保证多个计算节点的数据接收能够达同步的处理数据。条件是数据可以通过多播对机群的多个节点进行数据广播。
并行同步处理装置多节点同时处理网络的同步数据,并根据所需计算公式,计算出所需结果。
选举装置对众多的计算结果进行选举,根据相应的选举策略,从并行同步处理出来的多个结果中选举一个可满足的计算结果。
共识装置对参加计算的节点根据共识策略产生系统可靠性能级别,由共识出来的界别最高的节点负责对外发布计算结果。
发布装置共识出来的节点,通过发布装置发表计算结果,提供给用户计算结果。
按照本发明的设计的高可靠性的机群结构可以在可用性、安全性、完整性、准确性四个方面获得相应的设计目标,可靠性按照该结构设计的机群可以满足在服务时段内提供99.999%的可靠性,即无故障时间与服务总时间的百分比达到99.999%。
准确性在有效的小数点内,保证应用计算结果100%正确。
安全性该机群结构可以达到对计算应用的审计追踪,可以保护以免受到非授权访问或破坏。对系统的任何配置修改、启动、停止、服务故障等均记录入日志。根据不同的日记级别,分别进行安全性监控。
完整性在正常运作和故障恢复后,所有的计算结果、参数和配置资料加以保护以防止丢失和损坏,无论这些资料是在磁盘上或内存中。
实施过程1数据传输层(包括接收和发送)将所需计算的数据发送给计算装置和同步装置;并且负责发布计算的结果。
2数据处理层计算装置计算装置实时的接收数据传输层发送过来的计算数据,根据计算公式分别计算各个计算值,并将结果发送给选举装置。
同步装置同步装置实时的接收数据传输层发送过来的数据,并且保存到数据内存表中,当计算装置需要同步操作的时候,将数据内存表中的数据发送给计算装置。
3系统管理层选举装置选举装置实时的接收来自计算装置的所有计算的结果,并在这些结果中选择一个误差在允许范围内的计算结果作为发布计算值,并将选举的结果发送到发布装置。
共识装置共识装置负责选择所有计算节点中的一个作为发布节点,担负起计算值的发布的责任;该节点选定之后,共识装置向该节点的发布装置发送通知消息,激活该节点的发布模式,使之工作。
发布装置发布装置接收选举装置的选举的结果,并且将该计算结果通过数据传输层发布出去。
异常处理装置异常处理装置负责将各个装置产生的错误、异常记录下来,并且在每天交易之后进行统计。
使用本设计方法来完成计算高可靠性的设计的意义在于首先,使用本设计方法可以大大提供机群的可靠性设计。在本系统的设计中,只有全部多个节点同时出现故障,才会使本系统出现停机故障。通过我们计算,当在节点达到五个以上的时候,本系统就可以满足99.999%的可靠性了。第二,使用本设计可以实现计算的无缝连接,计算的结果因为通过共识装置来实现计算数值的发布。当共识装置共识出来的节点出现问题的时候,那么系统会自动切换到新共识出来的节点进行数据发布。第三,使用本设计可以实现充分体现机群的规模效果,对一般的机群来说,五个节点已经算使非常小的一个单位,利用这样一个机群的小的单元实现高效的计算服务,可以体现出机群的规模效果。


图1是一种高可靠性机群设计方案的图例说明图。
图2是本发明的机群的高可靠性设计方法流程图。
图3是本发明的机群的高可靠性系统图。
具体实施例方式
图1的高可靠性机群设计方案的图例说明。数据接收层主要完成数据的同步接收,接收来自外界的广播数据,数据处理层主要完成系统的功能处理,并把机群计算的结果发送给用户。系统管理层主要有共识装置和选举装置,选举最可靠的计算结果值并通过共识出来的共识节点发送给用户,达到高的可靠性。
图2的机群的高可靠性设计方法,其步骤如下步骤1数据接收装置完成接收外界传送过来的计算数据,把所需计算数据传送到数据处理装置;机群的各个节点在计算前先进行计算前的初始化工作,从系统中读取计算所需要的参数文件,并设置相应的指数计算所需要的计算接收定时器;还需要从同步节点上面接收同步数据,所以设置同步接收定时器;根据需求设置计算需要接受的行情接收定时器,系统进入到行情接收准备状态;步骤2数据处理装置中的同步装置完成在指定的时间内对收到的数据进行同步处理,根据系统定义的时间更新同步装置数据;当计算到一定时间(系统的同步时间间隔)后,系统因为运算而导致的系统运算的数据不准确,需要从同步节点上对计算节点上的数据进行同步处理,系统向同步节点上发送同步请求,获取同步节点的同步数据,然后再在行情接收状态下进行同步处理;步骤3数据处理装置中的计算装置对接收的数据进行计算;当系统到行情接收时间间隔后,计算节点因为收不到行情数据无法进行指数计算,所以系统就告警提示用户系统行情接收出现问题;步骤4数据处理装置中的计算装置对接收的数据在内存中进行处理;当接收到行情数据后,系统对内存中的行情数据表进行更新,供计算进程进行指数计算;步骤5系统管理层中的选举和共识装置对计算产生的结果进行处理,并发送给外界进行应用,当系统到计算时间间隔后,计算进程就进行指数计算,计算完的指数发送到选举模块进行选举,然后进入到行情接收状态等待行情接收。
图3的机群的高可靠性系统,包括同步接收装置同部接收数据,保证多个计算节点的数据接收能够达同步的处理数据,条件是数据通过多播来自于网络,对机群的多个节点进行数据广播;并行同步处理装置多节点同时处理网络的同步数据,并根据所需计算公式,计算出所需结果;选举装置对众多的计算结果进行选举,根据相应的选举策略,从并行同步处理出来的多个结果中选举一个可满足的计算结果;共识装置对参加计算的节点根据共识策略产生系统可靠性能级别,由共识出来的界别最高的节点负责对外发布计算结果;发布装置共识出来的节点,通过发布装置发表计算结果,提供给用户计算结果;
其中,同步接收装置连接到并行同步处理装置上,并行同步处理装置连接到选举装置上,选举装置连接到共识装置上,共识装置连接发布装置。
权利要求
1.一种机群的高可靠性系统,包括同步接收装置同部接收数据,保证多个计算节点的数据接收能够达同步的处理数据,条件是数据通过多播来自于网络,对机群的多个节点进行数据广播;并行同步处理装置多节点同时处理网络的同步数据,并根据所需计算公式,计算出所需结果;选举装置对众多的计算结果进行选举,根据相应的选举策略,从并行同步处理出来的多个结果中选举一个可满足的计算结果;共识装置对参加计算的节点根据共识策略产生系统可靠性能级别,由共识出来的界别最高的节点负责对外发布计算结果;发布装置共识出来的节点,通过发布装置发表计算结果,提供给用户计算结果;其中,同步接收装置连接到并行同步处理装置上,并行同步处理装置连接到选举装置上,选举装置连接到共识装置上,共识装置连接发布装置。
2.按权利要求1所述的系统,其特征在于机群的架构使有多个节点组成,至少为三个计算节点。
3.按权利要求1所述的系统,其特征在于机群的单个节点能够完成用户所需计算要求。
4.按权利要求1所述的系统,其特征在于机群有选举装置可以进行计算结果的选举,能够在多个结果中选举一个最为适合的计算结果。
5.按权利要求1所述的系统,其特征在于机群有共识装置可以实现发布节点的无缝切换。
6.按权利要求1所述的系统,其特征在于机群能够满足99.999%的高可靠性设计。
7.按权利要求1所述的系统,其特征在于机群能够满足在规定的误差范围内,实现计算结果的100%正确。
8.一种机群的高可靠性设计方法,其步骤如下步骤1数据接收装置完成接收外界传送过来的计算数据,把所需计算数据传送到数据处理装置;机群的各个节点在计算前先进行计算前的初始化工作,从系统中读取计算所需要的参数文件,并设置相应的指数计算所需要的计算接收定时器;还需要从同步节点上面接收同步数据,所以设置同步接收定时器;根据需求设置计算需要接受的行情接收定时器,系统进入到行情接收准备状态;步骤2数据处理装置中的同步装置完成在指定的时间内对收到的数据进行同步处理,根据系统定义的时间更新同步装置数据;当计算到一定时间后,系统因为运算而导致的系统运算的数据不准确,需要从同步节点上对计算节点上的数据进行同步处理,系统向同步节点上发送同步请求,获取同步节点的同步数据,然后再在行情接收状态下进行同步处理;步骤3数据处理装置中的计算装置对接收的数据进行计算;当系统到行情接收时间间隔后,计算节点因为收不到行情数据无法进行指数计算,所以系统就告警提示用户系统行情接收出现问题;步骤4数据处理装置中的计算装置对接收的数据在内存中进行处理,当接收到行情数据后,系统对内存中的行情数据表进行更新,供计算进程进行指数计算;步骤5系统管理层中的选举和共识装置对计算产生的结果进行处理,并发送给外界进行应用,当系统到计算时间间隔后,计算进程就进行指数计算,计算完的指数发送到选举模块进行选举,然后进入到行情接收状态等待行情接收。
全文摘要
一种机群的高可靠性设计方法,包括同步接收装置;选举装置;共识装置;发布装置,提供给用户计算结果。其步骤如下步骤1数据接收装置接收计算数据;步骤2数据处理装置对收到的数据进行同步处理;步骤3数据处理装置对接收的数据进行计算;步骤4数据处理装置对接收的数据在内存中进行处理;步骤5系统管理层对计算产生的结果进行处理,并发送给外界进行应用。本发明的机群高可靠性设计可以满足系统可靠性要求高,实时性要求强,数据输入输出密度比较大的应用需求。充分利用机群的多节点规模,实现系统的高可靠性设计。
文档编号H04L29/06GK1658617SQ20051005918
公开日2005年8月24日 申请日期2005年3月24日 优先权日2005年3月24日
发明者徐志伟, 王海军, 蔡季萍, 李伟 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1