信息处理平台冗余系统设计的制作方法

文档序号:21036731发布日期:2020-06-09 20:27阅读:668来源:国知局
信息处理平台冗余系统设计的制作方法

本发明涉及冗余系统技术领域,具体为信息处理平台冗余系统设计。



背景技术:

以华睿2号搭建信息处理平台,系统基于华睿2号多核处理器设计,工作时多片华睿2号处理器通过高速通讯链路获取信息、处理数据、计算结果,并将结果输出给后级处理。在各种应用场景下,华睿2号信息处理平台,不允许出现因某个处理器、某个芯片、某个通讯链路等状态异常或故障而导致整个系统运行死机或瘫痪。因此,在华睿2号平台系统设计中,需采用多级冗余设计技术提高系统运行的稳定性和可靠性。华睿2号平台在标准系统架构下由多个模块组成,系统冗余包括模块冗余,数据通道冗余及管理通道冗余,具体实现途径与软硬件设计紧密相关。

传统多级冗余设计技术冗余深度不足,在模块级和平台级的管理上有待加强,导致模块之间的耦合度较高,影响系统设计的独立性,导致系统的可靠性下降,为了应用系统稳健运行,本方案提出了信息处理平台冗余系统设计。



技术实现要素:

本发明的目的在于提供一种板材放置架,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:包括多层复位和多级冗余功能;

其中多层复位包括:模块级复位和插箱级复位;

其中多级冗余:包括管理冗余、srio交换冗余、网络冗余和bit上报冗余,相关软件包括4个主要功能模块。

优选的,针对管理冗余进行主备管理设计:

s1:主备竞争初始化,管理模块上电后通过竞争获取管理权限;

s2:bit数据冗余上报,物理上采用双通道,数据上采用ipmb协议,收集处理模块bit的上报信息,实时处理上报;

s3:处理模块单板复位,管理收集华睿模块注册信息和心跳信息,同时配合机箱的配置信息,控制华睿模块单板复位;

s4:交换故障切换,备管理实时监测主管理的心跳报文,判断是否控制交换的通道切换;

s5:机箱复位控制,根据机箱状态信息,控制机箱复位。

优选的,针对srio交换冗余进行srio双交换设计:

s1:主备交换非对称枚举算法设计;

s2:主备交换的冗余路由设计;

s3:交换通道切换设计,监测交换内部链路状态信息,通知主管理是否进行通道切换。

优选的,针对网络冗余进行网络破环设计及冗余设计。

优选的,针对bit上报冗余进行华睿模块功能设计:

s1:启动注册功能,华睿模块启动后,向管理模块进行注册;

s2:心跳设计,华睿模块正常工作后,向管理模块发送心跳报文;

s3:链路修复,模块在工作过程中重启后,需要对数据链路进行修复,保证修复完成后,重新进行数据传输;

s4:双交换切换设计,当管理下达通道切换后,完成数据通道切换。

优选的,针对模块级复位设计了单板复位方案:主(备)管理读取配置文件,获取机箱内的模块信息,主(备)管理启动后,等待处理模块通过网络向它注册,处理模块启动后发送注册信息(包含槽位号、模块型号),主管理进行记录并判断启动状态(首次启动还是复位启动),主管理发送确认包给处理模块,告知处理模块是否需要进行链路修复,等待故障模块链路修复完成后,打开数据流通道,处理模块定时向机箱管理发送心跳,机箱管理监测并复位已注册但没有心跳的槽位。

优选的,针对插箱级复位设计了机箱复位方案:插箱复位采用inhibit+交换gpio+sysrst组合实现,inhibit控制各个负载槽的下电,交换通过gpio5(p3后出)控制交换接口下电,sysrst实现交换复位,机箱管理实时判断交换接口、交换板内srio、负载心跳报文的状态(所有负载的心跳包全都未收到),如有任一故障,则由主交换切换至备交换,如已是备交换,则启动插箱复位。

优选的,针对管理冗余设计了双管理方案:利用系统中的两个独立的i2c通道,华睿模块通过i2c通道1发送bit信息给主管理,通过i2c通道2发送bit信息给备管理;主管理和备管理同时收集bit信息,通过网络上报给系统中的主控台;但如果bit信息未更新,则不上报。

优选的,针对srio交换冗余设计了双交换方案:双交换设计包括srio和网络的双交换,srio双交换中,华睿2号处理模块的两路对外srio各路由至两个交换,主备切换时应用所用srio数据通道亦切换,当主修复并重新加入平台时,其重新获得平台控制权,原备采用退避策略,将当前系统管理信息告知主;网络双交换主要通过对5396内部端口转发策略进行设计,将华睿端口进来的数据不再转发到其余负载端口,实现破环设计,包括主备切换后网络状态确认。

与现有技术相比,本发明的有益效果是:从单模块冗余扩展到多重冗余,从单模块备份提升到系统备份;不仅在处理模块上实现了故障重构,同时在网络交换和srio交换上实现了冗余备份,在智能机箱管理上实现了bit冗余上报,提升整个系统的冗余深度和稳定性。

提高系统故障恢复时间:故障恢复时间和监测及启动相关,华睿模块故障恢复时间<40秒;srio通道故障切换时间<3秒;网络故障切换时间<1毫秒;针对srio数据通道,整个切换过程中的数据波动<7%,针对网络数据通道,切换过程中无扰动影响;

冗余系统降低了模块与模块的关联,提高系统重构粒度和可靠性,增强应用设计的灵活性。

提高故障定位和分析能力:冗余设计中,管理会记录出问题时对应的故障模块,根据故障模块可以过滤出绑定在该模块的任务,再根据故障后记录的pc指针和堆栈等状态信息,定位出故障时的任务及函数,协助系统迅速排查出问题。

附图说明

图1为本发明单板复位流程框图;

图2为本发明机箱复位流程图;

图3为本发明双交换工作流程图;

图4为本发明双管理竞争主管理流程图;

图5为本发明主管理故障监测状态图;

图6为本发明华睿模块注册、复位及心跳任务流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1、图2、图3、图4、图5和图6,本发明提供一种技术方案:

包括多层复位和多级冗余功能;其中多层复位包括:模块级复位和插箱级复位;其中多级冗余:包括管理冗余、srio交换冗余、网络冗余和bit上报冗余,相关软件包括4个主要功能模块。

针对模块级复位设的单板复位工作流程为:主(备)管理读取配置文件,获取机箱内的模块信息。主(备)管理启动后,等待华睿模块通过网络向它注册。华睿模块启动后发送注册信息(包含槽位号、模块型号),主管理进行记录并判断启动状态(首次启动还是复位启动);主管理发送确认包给华睿模块,告知华睿模块是否需要进行链路修复,关闭数据流通道;等待故障模块链路修复完成后,打开数据流通道;华睿模块定时向机箱管理发送心跳,机箱管理监测并复位已注册但没有心跳的槽位。

针对插箱级复位设计的机箱复位方案采用inhibit+交换gpio+sysrst组合实现,inhibit控制各个负载槽的下电,交换通过gpio5(p3后出)控制交换接口下电,sysrst实现交换复位。机箱管理实时判断交换接口、交换板内srio、负载心跳报文的状态(所有负载的心跳包全都未收到),如有任一故障,则由主交换切换至备交换。如已是备交换,则启动插箱复位。

针对srio交换冗余设计的双交换设计包括srio和网络的双交换:srio双交换中,华睿2号处理模块的两路对外srio各路由至两个交换,主备切换时应用所用srio数据通道亦切换。当主修复并重新加入平台时,其重新获得平台控制权,原备采用退避策略,将当前系统管理信息告知主。双交换根据配置文件的方式进行枚举,只有主管理进行枚举;将华睿芯片rab0的节点路由配置在交换1上,rab1的节点路由配置在交换2上;将交换接口1上的路由配置在交换1上,交换接口2的路由配置在交换2上;将华睿接口及其它非冗余模块的路由配置在交换1和交换2上,网络双交换主要涉及破环问题,包括主备切换后网络状态确认及网络交换芯片的重配置。

如图4所示,选择在机箱中只插入一块管理模块,管理模块放在备份槽上,管理启动后,等待若干周期后,发现系统中没有主管理,切换成主管理。读取备交换配置文件,进行静态枚举及路由配置。

如图5和图6所示,针对管理冗余设计了双管理方案:华睿模块通过组播给主备管理发送注册信息进行注册,注册信息包括槽位号,模块类型等;华睿模块发送完注册信息等待管理回复,若未收收到回复信息,会尝试发送三次,每次间隔5秒;华睿板复位后向管理进行注册,等待管理通知是否已经完成枚举,并通过获取自身id号判断是否进行链路修复;开始修复华睿和交换之间的链路,包括主交换和备交换之间两条链路;若存在华睿接口,同时需要修复华睿接口的链路,配置接口id号,配置路由表;链路修复完成后,通知管理,等待管理的回复,若未收收到回复信息,会尝试发送三次,每次间隔5秒。

主管理系统启动完成30秒后,根据配置文件判断是否仍有模块未注册,若有则重启该模块,解决模块在boot阶段无法正常启动问题;系统正常工作后,主管理监测是否有模块不再发送心跳,若有则关闭对应数据端口,重启该模块;模块重启后发送重启确认指令,主管回复确认报文同时将数据端口打开。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1