数据处理装置集群的管理系统和控制方法与流程

文档序号:33466185发布日期:2023-03-15 06:42阅读:53来源:国知局
数据处理装置集群的管理系统和控制方法与流程

1.本技术涉及数据处理技术领域,尤其涉及数据处理装置集群的管理系统和控制方法。


背景技术:

2.数据处理装置组合成集群,每一个数据处理装置都能够完成一定的数据处理任务,因此,数据处理装置集群能够完成复杂的数据处理任务。
3.在数据处理装置集群中,数据处理装置例如可以是:中央处理器(cpu)或图形处理器(gpu)等。
4.应该注意,上面对技术背景的介绍只是为了方便对本技术的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本技术的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。


技术实现要素:

5.具有高可靠性的数据处理装置集群能够高质量地完成数据处理任务,从而最大程度上发挥数据处理装置集群的优势。因此,如何不断提高数据处理装置集群的可靠性,是一个需要解决的问题。
6.为了解决至少上述技术问题或类似的技术问题,本技术实施例提供一种数据处理装置集群的管理系统和控制方法。该管理系统能够实现对数据处理装置集群的高可靠性管理,从而提高数据处理装置集群的可靠性。
7.本技术实施例提供一种数据处理装置集群的管理系统,所述管理系统包括:通信分发装置,其接收远端设备的任务,并分发任务;以及服务器,其接收所述通信分发装置分发的任务,并通过接口电路向所述服务器管理的至少一个数据处理装置子集群分发任务,其中,各所述数据处理装置子集群中具有至少一个数据处理装置,所述服务器的数量为两台以上,当一台服务器失效时,所述管理系统的其它服务器中的至少一台服务器接管失效的服务器所管理的数据处理装置子集群。
8.本技术实施例还提供一种数据处理装置集群的控制方法,所述控制方法包括:通信分发装置接收远端设备的任务,并分发任务;与所述通信分发装置通信的服务器接收所述通信分发装置分发的任务,并通过接口电路向所述服务器所管理的至少一个数据处理装置子集群分发任务;以及当一台服务器失效时,所述管理系统的其它服务器中的至少一台服务器接管 失效的服务器所管理的数据处理装置子集群。
9.本技术实施例的有益效果在于:能够实现对数据处理装置集群的高可靠性管理。
10.参照后文的说明和附图,详细公开了本技术的特定实施方式,指明了本技术的原
理可以被采用的方式。应该理解,本技术的实施方式在范围上并不因而受到限制。在所附权利要求的条款的范围内,本技术的实施方式包括许多改变、修改和等同。
11.针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
12.应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
13.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本技术第一方面的实施例中数据处理装置集群的管理系统以及数据处理装置集群的一个示意图;图2是服务器5、管理卡2与数据处理装置4的管理关系的一个示意图;图3是通信分发装置1的一个示意图;图4是服务器的一个示意图;图5是管理卡的构成的一个示意图;图6是数据处理装置集群的管理系统100进行任务分发和结果反馈流程的一个示意图;图7是数据处理装置集群的管理系统100中切换服务器的流程的一个示意图;图8是数据处理装置集群的管理系统100中服务器回切的流程的一个示意图;图9是数据处理装置集群的管理系统100中切换管理卡的流程的一个示意图;图10是数据处理装置集群的管理系统100中管理卡回切的流程的一个示意图;图11是数据处理装置集群的管理系统100进行控制的方法的一个示意图;图12是数据处理装置集群的管理系统100进行控制的方法的另一个示意图;图13是数据处理装置集群的管理系统100进行控制的方法的再一个示意图;图14是数据处理装置4的一个示意图;图15是远端设备3的一个示意图;图16是数据处理装置集群的控制方法的一个示意图;图17是数据处理装置集群的控制方法的一个示意图;图18是数据处理装置集群的控制方法的另一个示意图;图19是数据处理装置集群的控制方法的另一个示意图;图20是数据处理装置集群的控制方法的另一个示意图;图21是数据处理装置集群的控制方法的另一个示意图。
具体实施方式
14.参照附图,通过下面的说明书,本技术的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本技术的特定实施方式,其表明了其中可以采用本技术的原则的部
分实施方式,应了解的是,本技术不限于所描述的实施方式,相反,本技术包括落入所附权利要求的范围内的全部修改、变型以及等同物。下面结合附图对本技术的各种实施方式进行说明。这些实施方式只是示例性的,不是对本技术的限制。
15.在本技术实施例中,术语“第一”、“第二”、“上”、“下”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。
16.在本技术实施例中,单数形式“一”、“该”等包括复数形式,应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义;此外术语“所述”应理解为既包括单数形式也包括复数形式,除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据
……”
,术语“基于”应理解为“至少部分基于
……”
,除非上下文另外明确指出。
17.第一方面的实施例本技术第一方面的实施例提供一种数据处理装置集群的管理系统。
18.图1是本技术第一方面的实施例中数据处理装置集群的管理系统以及数据处理装置集群的一个示意图。
19.如图1所示,该管理系统100包括:通信分发装置1和服务器5。
20.其中,通信分发装置1能够接收远端设备3发送的任务,并进行任务的分发,例如,将任务分发给服务器5或数据处理装置子集群60。服务器5与通信分发装置1通信,接收通信分发装置1分发的任务,并通过接口电路向该服务器5所管理的至少一个数据处理装置子集群60分发任务。
21.在至少一个实施例,管理系统100中的服务器5的数量可以是两台以上,例如,服务器5_1,服务器5_2,
……
,服务器5_l,l是大于1的自然数。
22.如图1所示,每台服务器5能够管理至少一个数据处理装置子集群60。
23.各数据处理装置子集群60中可以具有至少一个管理卡2,各管理卡2可以管理至少一个数据处理装置4。管理卡2与服务器通信5,接收服务器5分发的任务,并向管理卡2所管理的至少一个数据处理装置4分发任务。当管理卡2所管理的数据处理装置4都失效时,管理卡2处理从服务器5接收的任务。
24.此外,本技术可以不限于此,例如,数据处理装置子集群60可以具有数据处理装置4而不具有管理卡2,这样,服务器5直接向其管理的数据处理装置子集群60中的数据处理装置4分发任务。
25.在至少一个实施例中,数据处理装置4的数量可以是两个以上,由此,该两个以上的数据处理装置4能够组成数据处理装置集群40。
26.在本技术中,数据处理装置4能够与远端设备3和/或通信分发装置1和/服务器5进行通信。
27.图2是服务器5、管理卡2与数据处理装置4的管理关系的一个示意图。如图2所示,每个服务器5可以管理至少一个数据处理装置子集群60。每个数据处理装置子集群60中可以具有至少一个管理卡2。每个管理卡2可以管理m个(m是自然数,例如,m为4)处理装置4。此外,本技术不限于此,即,每个管理卡2管理的数据处理装置4的数量可以是其它数量。另外,
数据处理装置子集群60也可以不具有管理卡2。
28.在至少一个实施例中,服务器5与数据处理装置子集群60之间可以经由接口电路进行通信,该接口电路例如可以是pcie接口,或者其它类型的接口,例如,自定义的用于互联通信的接口电路。此外,该接口电路还可以提供不同数据处理装置子集群60之间的通信和/或不同服务器5之间的通信。
29.在至少一个实施例中,在服务器5的数量为多个(例如l个,分别为服务器5_1、服务器5_2,
……
,服务器5_l等,l为自然数),数据处理装置集群60的数量为多个(例如,两个以上)的情况下,该多个服务器5和该多个数据处理装置集群60通过接口电路进行通信,因此,服务器5与数据处理装置子集群60之间的管理关系可以进行灵活地变更。即,一方面,针对各服务器5,其管理的数据处理装置子集群60可以变更;另一方面,针对各数据处理装置子集群60,用于管理该数据处理装置子集群60的服务器5可以变更。
30.在至少一个实施例中,数据处理装置4具有数据处理功能。数据处理功能例如包括:图像处理,和/或音频处理,和/或视频处理,和/或数据计算等。在一个具体实例中,数据处理装置4例如是图形处理器(gpu)。
31.在至少一个实施例中,管理卡2可以是卡片状,能够被插入到电路板的卡槽中。由此,能够快速且便利地实现管理卡2的安装和更换,从而实现更为灵活的管理。此外,管理卡2也可以被封装为其它的形状。
32.管理卡2可以是专用的管理卡,即,仅具有管理数据处理装置4的功能。此外,管理卡2也可以既具有管理数据处理装置4的功能,也具有数据处理功能,例如,管理卡2可以是图形处理器(gpu),由此,管理卡2可以完成某些数据处理任务,或者,数据处理装置4在某些情况下可以升级为管理卡2。
33.在至少一个实施例中,管理卡2与数据处理装置4之间可以经由接口电路进行通信,该接口电路例如可以是pcie接口,或者其它类型的接口,例如,自定义的用于互联通信的接口电路。此外,该接口电路还可以提供不同数据处理装置4之间的通信,和/或不同管理卡2之间的通信。
34.在至少一个实施例中,在管理卡2的数量为多个(例如n个,分别为管理卡2_1、管理卡2_2,
……
,管理卡2_n等,n为自然数),数据处理装置4的数量为多个(例如k个,分别为数据处理装置4_1,数据处理装置4_2,
……
,数据处理装置4_k等,k为自然数)的情况下,该多个管理卡2和该多个数据处理装置4通过接口电路进行通信,因此,管理卡2与数据处理装置4之间的管理关系可以进行灵活地变更。即,一方面,针对各管理卡2,其管理的数据处理装置4可以变更;另一方面,针对各数据处理装置4,用于管理该数据处理装置4的管理卡2可以变更。
35.在至少一个实施例中,当一台服务器5(例如,服务器5_1)失效时,管理系统100中的其它服务器中的至少一台服务器5(例如,服务器5_2)可以接管该失效的服务器5(例如,服务器5_1)管理的数据处理装置子集群60,例如,服务器5_2接管原本由服务器5_1管理的数据处理装置子集群60,从而由服务器5_2向该数据处理装置子集群60中的管理卡2或数据处理装置4分发任务。
36.此外,当管理系统100中的全部服务器5都失效时,通信分发装置1可以将任务直接分发给各数据处理装置子集群60,例如,通信分发装置1向数据处理装置子集群60中的管理
卡2或数据处理装置4分发任务。
37.根据本技术第一方面的实施例,能够实现对数据处理装置集群40的高可靠性管理框架,从而提高数据处理装置集群40的可靠性。
38.在本技术的各实施例中,当涉及到对数据处理装置子集群60发送信息(例如,消息、命令或数据)时,可以是:将信息发送给该数据处理装置子集群60中的管理卡2,由管理卡2将信息转发或分发给该管理卡2所管理的数据处理装置4;或者,直接将信息发送给该数据处理装置子集群60中的管理卡2和该管理卡2管理的数据处理装置4;或者,在该数据处理装置子集群60不具有管理卡2的情况下,将数据直接发送给该数据处理装置子集群60中的数据处理装置4。
39.图3是通信分发装置1的一个示意图。如图3所示,通信分发装置1包括:第一通信模块11,第一分发规则模块12以及负载均衡模块13。
40.第一通信模块11能够与服务器5通信,并且,能够与远端设备3通信。
41.此外,第一通信模块11还能够与服务器5所管理的数据处理装置子集群60通信。例如,第一通信模块11将从服务器5和/或数据处理装置子集群60接收的第一预定信息发送给远端设备3;又例如,第一通信模块11将从远端设备3收到的第二预定信息发送给服务器5和/或数据处理装置子集群60。
42.第一预定信息可以是:与服务器5和/或数据处理装置子集群60的异常、失败和恢复等至少一项有关的信息。例如,第一预定信息是与失效的服务器或管理卡有关的信息;又例如,第一预定信息是用于指示数据处理装置子集群60中的数据处理装置4的任务未成功完成的消息;再例如,第一预定信息是上线报告消息,上线报告消息用于指示服务器5从失效状态恢复为正常状态。
43.第二预定信息可以是:各种规则的配置信息,和/或为脱离管理的数据处理装置4指定管理卡2的信息,和/或指定脱离管理的数据处理装置4升级为管理卡2的信息等。脱离管理的数据处理装置4是指,没有管理卡2进行管理的数据处理装置4。
44.第一分发规则模块12能够存储第一分发规则。该第一分发规则可以由远端设备3配置并发送给通信分发装置,或者,该第一分发规则可以由通信分发装置1自身进行配置。
45.此外,第一分发规则模块12还可以根据数据处理装置子集群60的负载,调整第一分发规则。例如,根据原有的第一分发规则,某些任务可以优先分配给预定的数据处理装置子集群60,但是,如果该预定的数据处理装置子集群60的负载已经超出阈值,那么,可以调整第一分发规则,将上述任务优先分配给其他的数据处理装置子集群60。
46.负载均衡模块13基于该第一分发规则、负载均衡算法以及服务器5的状态中的至少一者,设置为服务器5分发的任务。例如,基于第一分发规则,某些任务可以被优先分配给预定的服务器5;又例如,某些服务器5失效,则不向失效的服务器5分配任务;再例如,对于未失效的服务器5,基于负载均衡算法,为各服务器5分配任务,从而使得各服务器5所管理的数据处理装置子集群60的负载差异维持在预定值以内。其中,对负载均衡算法的说明可以参考相关技术。
47.如图3所示,通信分发装置1还可以包括:第一状态监控模块14。第一状态监控模块14监控服务器5的状态,服务器5的状态包括:负载状态,异常状态和在位状态中的至少一者。其中,负载状态用于表示服务器5当前的运行负荷。异常状态用于表示服务器5是否能够
正常工作,即,如果服务器5处于异常状态,则无法正常工作。在位状态用于表示服务器5是否能够与通信分发装置1正常通信,其中:在位,表示二者能正常通信;非在位,表示二者无法正常通信。
48.在至少一个实施例中,第一状态监控模块14还具有如下功能的至少一者:监控通信分发装置1的状态,例如,监控通信分发装置1本身是否异常;对通信分发装置1的异常进行处理;对服务器5和/或数据处理装置子集群60的异常进行处理。
49.在至少一个实施例中,通信分发装置1还可以包括:管理卡指定单元15。管理卡指定单元15能够为脱离管理的数据处理装置指定管理卡,以接管该脱离管理的数据处理装置。此外,在本技术中,远端设备3也可以为脱离管理的数据处理装置指定管理卡。
50.例如,数据处理装置4在根据切换规则切换管理卡失败时,成为脱离管理的数据处理装置,该数据处理装置4向未失效的管理卡2、远端设备3和通信分发装置1中的至少一者发送切换失败消息;进而,远端设备3和/或通信分发装置1根据该切换失败消息,为数据处理装置4指定管理卡2,即,向指定的管理卡2发送指定消息,指示该管理卡2接管该数据处理装置4;然后,在指定的管理卡3接管了数据处理装置4的情况下,该数据处理装置4向该指定的管理卡3发送被接管成功消息。
51.其中,数据处理装置4切换管理卡失败,包括:在数据处理装置4的管理卡2失效的情况下,数据处理装置4基于切换规则,切换到正常的管理卡时失败;或者,在失效的管理卡2恢复正常的情况下,脱离该失效的管理卡2管理的数据处理装置4基于切换规则,切换到恢复正常的管理卡2或其它的管理卡2时失败。
52.在本技术中,远端设备3或通信分发装置1指定的管理卡包括:原有的管理卡,和/或,基于升级命令或选举规则从数据处理装置4升级而形成的管理卡。
53.在至少一个实施例中,通信分发装置1在硬件上可以是数据处理器(data process unit,dpu)或网络接口控制器(network interface controller,nic)。
54.图4是服务器的构成的一个示意图。如图4所示,服务器5可以包括:服务器通信模块51,服务器分发切换规则模块52以及服务器任务分发模块53。
55.其中,服务器通信模块51能够与通信分发装置1通信,并且,服务器通信模块51还能够与数据处理装置你60通信。此外,服务器通信模块51还可以与远端设备3通信。
56.服务器分发切换规则模块52存储服务器任务分发规则。该服务器任务分发规则用于向数据处理装置子集群60分发任务。服务器任务分发规则可以由远端设备3配置、或者由通信分发装置1配置、或者由服务器分发切换规则模块52配置。
57.服务器任务分发模块53基于服务器分发规则和/或数据处理装置子集群60的状态,设置为数据处理装置子集群60分发的任务,其中,设置的任务可以通过服务器通信模块51发送给数据处理装置子集群60。
58.例如,服务器任务分发模块53基于服务器任务分发规则的规定,将某些任务优先被分配给某些预定的数据处理装置子集群60等。
59.又例如,服务器任务分发模块53不向异常状态的数据处理装置4设置任务,其中,数据处理装置4的异常状态是指,数据处理装置子集群60中的数据处理装置4失去了正常的数据处理能力。异常状态可以包括:数据处理装置4下线,数据处理装置4失效,或者数据处
理装置4重启等。
60.在至少一个实施例中,服务器分发切换规则模块52还可以存储服务器切换规则。服务器切换规则也可以被发送给数据处理装置子集群60(例如,数据处理装置子集群60的管理卡和/或数据处理装置4)。
61.在服务器5失效时,失效的服务器5所管理的数据处理装置子集群60可以基于服务器切换规则选择接管该数据处理装置子集群60的其他服务器5,而其它服务器5也可以基于服务器切换规则确定是否接管该数据处理装置子集群60。服务器切换规则可以由远端设备3配置、或者由通信分发装置1配置、或者由服务器分发切换规则模块52配置。
62.如图4所示,服务器5还包括:服务器失效切换模块54、服务器回切模块55和服务器查询模块56。
63.服务器失效切换模块54控制服务器5接管失效的服务器的任务以及失效的服务器所管理的数据处理装置集群60。即,在其它的服务器5(例如,服务器5_1)失效时,服务器失效切换模块54可以控制当前的服务器5(例如,服务器5_2),使得当前的服务器5接管失效的服务器的任务以及失效的服务器所管理的数据处理装置子集群60。
64.当失效的服务器5的功能恢复后,服务器回切模块55进行控制,使属于失效的服务器5所管理的数据处理装置子集群60切换为由第一服务器5进行管理。此外,当失效的服务器5的功能恢复后,查询模块26可以确认该服务器56失去管理的数据处理装置子集群60,例如,查询模块26可以对归属表进行查询,从而确认失去管理的数据处理装置子集群60。
65.在至少一个例子中:服务器5_1失效时,原本由服务器5_1所管理的数据处理装置子集群60由服务器5_2接管,即,由服务器5_2对数据处理装置子集群60进行任务的分发等操作;在服务器5_1从失效状态恢复为正常状态的情况下,服务器5_1至少向服务器5_2发送服务器回切请求和服务器恢复通知中的至少一者,服务器5_2在收到服务器回切请求和服务器恢复通知中的至少一者的情况下,服务器5_2的服务器回切模块使服务器5_2停止向原本由服务器5_1所管理的数据处理装置子集群60下发任务,此外,服务器5_1的服务器查询模块56可以对归属表进行查询,从而确认服务器5_2失去管理的数据处理装置4和/或管理卡2;进而,在原本属于服务器5_1所管理的数据处理装置子集群60的任务结束后,服务器回切模块55使服务器5_2向原本属于服务器5_1所管理的数据处理装置子集群60下发服务器回切命令或者由服务器5_1向原本属于服务器5_1所管理的数据处理装置子集群60下发服务器回切命令,使原本属于服务器5_1所管理的数据处理装置子集群60切换为由第一服务器(例如,服务器5_1或其它管理卡)进行管理。其中,原本属于服务器5_1所管理的数据处理装置子集群60可以基于自身存储的切换表或切换规则,来选择接管该数据处理装置子集群60的第一管理卡(例如,服务器5_1或其它管理卡)。该第一管理卡(例如,服务器5_1或其它管理卡)可以是已经恢复正常的服务器5_1,也可以是服务器5_1之外的其它的管理卡。
66.其中,服务器恢复通知和服务器回切请求可以被承载在相同的消息中或者被承载在不同的消息中。此外,服务器恢复通知可以在服务器回切请求之前发送,或者,服务器恢复通知可以与服务器回切请求同时发送,或者,服务器恢复通知可以在服务器回切请求之后发送。
67.如图4所示,服务器5还可以包括:服务器复位模块57和服务器状态监控及修复模块58。
68.服务器复位模块57与其它服务器5连接,用于恢复或复位失效的其它服务器5。例如,服务器复位模块57基于看门狗电路或者其它的硬件电路,对失效的其它服务器5进行恢复或复位。
69.服务器状态监控及修复模块58具有如下功能中的至少一者:监控服务器5的状态和/或服务器5所管理的数据处理装置子集群60的状态(例如,数据处理装置子集群60中的管理卡2和/或数据处理装置4的状态);修复该服务器5所管理的数据处理装置子集群60中失效的数据处理装置4,例如,对于失效的数据处理装置4中的音频(audio)功能模块进行修复;对服务器5的故障进行修复,其中,服务器5的故障包括软件故障和/或逻辑模块的硬件故障等。在至少一个实施例中,服务器状态监控及修复模块58可以自主地进行上述功能对应的操作,或者,可以在远端设备3的控制下进行上述功能对应的操作。
70.此外,当数据处理装置4从失效状态恢复为正常状态时,可以向管理该数据处理装置4的管理卡2和/或服务器5发送恢复通知,该恢复通知用于指示:该数据处理装置4从失效状态恢复为正常状态。
71.在以上的说明中,服务器5_1和服务器5_2可以都具有图4所示的服务器5的组成结构。
72.图5是管理卡的构成的一个示意图。如图5所示,管理卡2可以包括:第二通信模块21,分发切换规则模块22以及任务分发模块23。
73.其中,第二通信模块 21能够与通信分发装置1通信,并且,第二通信模块21还能够与数据处理装置4通信。此外,第二通信模块21还可以与远端设备3通信。
74.分发切换规则模块22存储第二分发规则。该第二分发规则用于向数据处理装置4分发任务。第二分发规则可以由远端设备3配置、或者由通信分发装置1配置、或者由分发切换规则模块22配置。
75.任务分发模块23基于第二分发规则和/或数据处理装置4的状态,设置为数据处理装置4分发的任务,其中,设置的任务可以通过第二通信模块 21发送给数据处理装置4。
76.例如,任务分发模块23基于第二分发规则的规定,将某些任务优先被分配给某些预定的数据处理装置4等。
77.又例如,任务分发模块23不向异常状态的数据处理装置4设置任务,其中,数据处理装置4的异常状态是指,数据处理装置4失去了正常的数据处理能力。异常状态可以包括:数据处理装置4下线,数据处理装置4失效,或者数据处理装置4重启等。
78.在至少一个实施例中,分发切换规则模块22还可以存储切换规则。切换规则也可以被发送给数据处理装置4。
79.在管理卡2失效时,失效的管理卡2所管理的数据处理装置4可以基于切换规则选择接管该数据处理装置4的其他管理卡2,而其它管理卡2也可以基于切换规则确定是否接管该数据处理装置4。切换规则可以由远端设备3配置、或者由通信分发装置1配置、或者由分发切换规则模块22配置。
80.如图5所示,管理卡2还包括:失效切换模块24、回切模块25和查询模块26。
81.失效切换模块24控制管理卡2接管失效的管理卡的任务以及失效的管理卡所管理的数据处理装置3。即,在其它的管理卡2(例如,管理卡2_1)失效时,失效切换模块24可以控制当前的管理卡2(例如,管理卡2_2),使得当前的管理卡2接管失效的管理卡的任务以及失效的管理卡所管理的数据处理装置4。
82.当失效的管理卡2的功能恢复后,回切模块25进行控制,使属于失效的管理卡2所管理的数据处理装置4切换为由第一管理卡2进行管理。此外,当失效的管理卡2的功能恢复后,查询模块26可以确认该管理卡26失去管理的数据处理装置4,例如,查询模块26可以对归属表进行查询,从而确认失去管理的数据处理装置4。
83.在至少一个例子中:管理卡2_1失效时,原本由管理卡2_1所管理的数据处理装置4由管理卡2_2接管,即,由管理卡2_2对装置4进行任务的分发等操作;在管理卡2_1从失效状态恢复为正常状态的情况下,管理卡2_1至少向管理卡2_2发送回切请求和第一恢复通知中的至少一者,管理卡2_2在收到回切请求和第一恢复通知中的至少一者的情况下,管理卡2_2的回切模块使管理卡2_2停止向原本由管理卡2_1所管理的数据处理装置4下发任务,此外,管理卡2_1的查询模块26可以对归属表进行查询,从而确认管理卡2_2失去管理的数据处理装置4;进而,在原本属于管理卡2_1所管理的数据处理装置4的任务结束后,回切模块25使管理卡2_2向原本属于管理卡2_1所管理的数据处理装置4下发回切命令或者由管理卡2_1向原本属于管理卡2_1所管理的数据处理装置4下发回切命令,使原本属于管理卡2_1所管理的数据处理装置4切换为由第一管理卡(例如,管理卡2_1或其它管理卡)进行管理。其中,原本属于管理卡2_1所管理的数据处理装置4可以基于自身存储的切换表或切换规则,来选择接管该数据处理装置4的第一管理卡(例如,管理卡2_1或其它管理卡)。该第一管理卡(例如,管理卡2_1或其它管理卡)可以是已经恢复正常的管理卡2_1,也可以是管理卡2_1之外的其它的管理卡。
84.其中,第一恢复通知和回切请求可以被承载在相同的消息中或者被承载在不同的消息中。此外,第一恢复通知可以在回切请求之前发送,或者,第一恢复通知可以与回切请求同时发送,或者,第一恢复通知可以在回切请求之后发送。
85.如图5所示,管理卡2还可以包括:复位模块27和状态监控及修复模块28。
86.复位模块27与其它管理卡2连接,用于恢复或复位失效的其它管理卡2。例如,复位模块27基于看门狗电路或者其它的硬件电路,对失效的其它管理卡2进行恢复或复位。
87.状态监控及修复模块28具有如下功能中的至少一者:监控管理卡2的状态和/或管理卡2所管理的数据处理装置4的状态;修复该管理卡2所管理的数据处理装置中失效的数据处理装置4,例如,对于失效的数据处理装置4中的音频(audio)功能模块进行修复;对管理卡2的故障进行修复,其中,管理卡2的故障包括软件故障和/或逻辑模块的硬件故障等。在至少一个实施例中,状态监控及修复模块28可以自主地进行上述功能对应的操作,或者,可以在远端设备3或者服务器的控制下进行上述功能对应的操作。
88.此外,当数据处理装置4从失效状态恢复为正常状态时,可以向管理该数据处理装置4的管理卡发送恢复通知,该恢复通知用于指示:该数据处理装置4从失效状态恢复为正常状态。
89.如图5所示,管理卡2还可以包括:数据处理模块29。数据处理模块29能够进行数据处理,例如,数据处理模块29能够至少部分地执行数据处理装置4的数据处理。由此,管理卡2能够具有至少部分的数据处理能力。
90.在至少一个实施例中,如图5所示,管理卡2还可以包括:升级规则模块30。升级规则模块30可以存储升级规则。升级规则可以由远端设备3和/或通信分发装置1和/或服务器5发送给管理卡2。
91.管理卡2可以根据升级规则选择数据处理装置4,并使数据处理装置4升级为管理卡,以管理其它的数据处理装置。升级规则例如是一个列表,按照优先级列出能够被升级为管理卡的数据处理装置4的信息等。
92.该预定条件例如可以是管理卡2的负荷超过阈值,或者管理卡2管理的数据处理装置4的数量超出预设值等。
93.例如,在预定条件下,管理卡2根据升级规则选择数据处理装置4,并向被选择的数据处理装置4发送升级命令,该升级命令用于指示被选择的数据处理装置4升级为管理卡以接管至少一个其它的数据处理装置。
94.在至少一个实施例中,如图5所示,管理卡2还可以包括:选举规则模块31。选举规则模块31可以为数据处理装置4配置选举规则。该选举规则用于从数据处理装置4中生成新的管理卡。例如,在没有通信分发装置1、管理卡2和远端设备3参与控制的情况下,一个数据处理装置4或多个数据处理装置4可以根据选举规则,选择至少一个数据处理装置4为新的管理卡,从而接管其它的数据处理装置4。选举规则例如是一个列表,按照优先级列出能够被升级为管理卡的数据处理装置4的信息等,根据该列表,可以从多个数据处理装置4中选出能够作为管理卡的数据处理装置4。
95.此外,在管理卡2为数据处理装置4配置选举规则失败时,可以向远端设备3和/或通信分发装置1和/或服务器5发送选举规则配置失败消息。远端设备3和/或通信分发装置1可以根据选举规则配置失败消息,指示管理卡2再次为数据处理装置4配置选举规则,或者由远端设备3和/或通信分发装置1和/或服务器5为数据处理装置4配置选举规则。
96.在至少一个实施例中,数据处理装置4有可能成为脱离管理的数据处理装置,即,不被任何管理卡2所管理的数据处理装置4。例如,数据处理装置4基于切换规则进行管理卡的切换时,系统100中的管理卡3都没有接管该数据处理装置4,由此,该数据处理装置4成为脱离管理的数据处理装置。
97.如果脱离管理的数据处理装置在预定时间内没有收到由远端设备3或通信分发装置1指定的管理卡有关的消息,和/或,脱离管理的数据处理装置在预定时间内没有收到升级命令,那么,该脱离管理的数据处理装置可以基于选举规则选择其它的数据处理装置作为新的管理卡并切换为由新的管理卡进行管理,或者,该脱离管理的数据处理装置被确定为新的管理卡以接管其它的脱离管理的数据处理装置。
98.在以上的说明中,管理卡2_1和管理卡2_2可以都具有图5所示的管理卡2的组成结构。
99.下面,对本技术的数据处理装置集群的管理系统100的一个工作原理进行说明。
100.图6是数据处理装置集群的管理系统100进行任务分发和结果反馈流程的一个示意图。
101.如图6所示,该流程包括:操作601、通信分发装置1从远端设备3接收任务;操作602、通信分发装置1基于第一分发规则、负载均衡算法以及服务器5的状态中的至少一者,设置为服务器分发的任务;操作603、通信分发装置1向服务器5分发任务,其中,服务器5的数量可以是2个以上,例如,服务器5的数量为l个,分别为服务器5_1、服务器5_2,
……
,服务器5_l等,l为大于 1的自然数;操作604、服务器5(例如,服务器5_1)基于服务器分发规则和/或数据处理装置子集群60的状态,为各数据处理装置子集群60设置分发的任务;操作605、服务器5(例如,服务器5_1)将为各数据处理装置子集群60设置分发的任务发送给各数据处理装置子集群60的管理卡2;操作606、管理卡2(例如,管理卡2_1)基于第二分发规则和/或数据处理装置4的状态,为各数据处理装置4设置分发的任务;操作607、管理卡2将任务分发给该管理卡2所管理的数据处理装置4,例如,管理卡2_1将任务分发给管理卡2_1所管理的多个数据处理装置4(例如,数据处理装置4_1,数据处理装置4_2,
……
,数据处理装置4_k等,k为自然数);操作608、数据处理装置4对收到的任务进行处理;操作609、任务处理完成后,数据处理装置4将任务处理的结果发送给该数据处理装置4的管理卡2,例如,数据处理装置4_1将任务处理的结果发送给管理卡2_1;操作610、管理卡2(例如,管理卡2_1)将收到的任务处理的结果发送给服务器5;操作611、服务器5将收到的任务处理的结果发送给通信分发装置1;操作612、通信分发装置1将收到的任务处理的结果发送给远端设备3。
102.图7是数据处理装置集群的管理系统100中切换服务器的流程的一个示意图。在该示意图中,以“服务器5_1失效,服务器5_1管理的数据处理装置集群60_1被服务器5_2接管”为例进行说明;该说明同样适用于其它的服务器失效,或者失效的服务器所管理的多个数据处理装置集群60被两个以上的其它服务器5所接管的情形。
103.如图7所示,该流程包括:操作701、数据处理装置集群60_1(例如,数据处理装置集群60_1中的管理卡2和/或任意一个数据处理装置4)检测到管理该数据处理装置集群60_1的服务器5_1失效,例如,在数据处理装置集群60_1中的管理卡2和/或任意一个数据处理装置4与服务器5_1通信未成功,或者服务器5_1向数据处理装置集群60_1发送自身失效的通知消息等情况下,数据处理装置集群60_1能够检测为服务器5_1失效,即,服务器5_1无法正常工作,例如,无法进行任务分发等处理;操作702、数据处理装置集群60_1(例如,数据处理装置集群60_1中的管理卡2和/或任意一个数据处理装置4)根据其自身存储的服务器切换规则,选择服务器5_2作为数据处理装置集群60_1的新的服务器,此外,数据处理装置集群60_1选择的服务器的数量可以
是2个以上;操作703、数据处理装置集群60_1向选择的服务器(其中包括服务器5_2)发送服务器选主信息,该选主信息用于请求该服务器接管数据处理装置集群60_1;操作704、服务器5_2基于接收到的服务器选主信息,或者服务器5_2基于服务器选主信息与服务器5_2存储的服务器切换规则,接管数据处理装置集群60_1,此外,服务器5_2还可以接管服务器5_1的任务。
104.例如,服务器5_2接收到服务器选主信息时,在服务器5_2自身具有接管能力的情况下(例如,服务器5_2具有能够管理8个数据处理装置集群60的能力,如果目前服务器5_2已经管理了8个数据处理装置集群60,则服务器5_2不具有接管数据处理装置集群60_1的能力,如果目前服务器5_2已经管理了5个数据处理装置集群60,则服务器5_2具有接管数据处理装置集群60_1的能力),服务器5_2接管数据处理装置集群60_1,并且接管服务器5_1的任务。
105.又例如,服务器5_2接收到服务器选主信息时,根据自身存储的切换规则判断是否可以接管数据处理装置集群60_1,如果判断为可以接管,则在服务器5_2自身具有接管能力的情况下,服务器5_2接管数据处理装置集群60_1,并且接管服务器5_1的任务。
106.操作705、服务器5_2向数据处理装置集群60_1(例如,数据处理装置集群60_1中的管理卡2和/或任意一个数据处理装置4)发送确认消息,确认接管数据处理装置集群60_1;此外,如果服务器5_2不进行接管,则向数据处理装置集群60_1发送拒绝接管应答,数据处理装置集群60_1等待其他的服务器的接管;操作706、数据处理装置集群60_1(例如,数据处理装置集群60_1中的管理卡2和/或任意一个数据处理装置4)至少向服务器5_2发送服务器失效指示信息,该服务器失效指示信息用于指示失效的服务器5_1有关的信息;此外,数据处理装置集群60_1还可以将该服务器失效指示信息发送给预定数量的其它服务器5,该预定数量的其它服务器与服务器5_2可以构成服务器群;在一个例子中,数据处理装置集群60_1向通信分发装置1的所有服务器5_2都发送第一指示信息。
107.操作707、数据处理装置集群60_1(例如,数据处理装置集群60_1中的管理卡2和/或任意一个数据处理装置4)发送被接管指示信息,该被接管指示信息用于表示服务器5_2成为数据处理装置集群60_1的服务器。其中,数据处理装置集群60_1可以将被接管指示信息发送给服务器5_2;或者,数据处理装置集群60_1可以将该被接管指示信息发送给预定数量的服务器5,该预定数量的服务器可以包括服务器5_2或者不包括服务器5_2。在一个例子中,数据处理装置集群60_1向通信分发装置1的所有服务器5_2都发送被接管指示信息。
108.操作708、服务器5_2向通信分发装置1和/或远端设备3发送与失效的服务器5_1有关的信息;此外,远端设备3也可以主动查询各服务器5的在位状态,从而识别出服务器5_1失效。
109.操作709、数据处理装置集群60_1(例如,数据处理装置集群60_1中的管理卡2和/或任意一个数据处理装置4)对接收到的任务进行处理,并将处理结果发送给服务器5_2;操作710、服务器5_2向远端设备3和/或通信分发装置1发送数据处理装置集群60_1的任务处理结果。
110.例如,当数据处理装置集群60_1的任务成功完成时,服务器5_2将数据处理装置集
群60_1完成的任务处理结果(例如,渲染后的图像数据等)发送给远端设备3和/或通信分发装置1;又例如,当数据处理装置集群60_1的任务未成功完成时,服务器5_2可以向远端设备3和/或通信分发装置1反馈用于指示任务失败的消息;远端设备3和/或通信分发装置1可以对该未完成的任务重新进行分发,重新分发后,该任务有可能被重新分发给数据处理装置集群60_1,也可能被重新分发给其他的数据处理装置集群60。
111.图8是数据处理装置集群的管理系统100中服务器回切的流程的一个示意图。在该示意图所示的流程基于“服务器5_1失效,服务器5_1管理的数据处理装置集群60_1被服务器5_2接管”这样的前提,并且,该示意图以“服务器5_1从失效恢复为正常,由服务器5_2接管的数据处理装置集群60_1切换为由第一服务器进行管理,其中,该第一服务器是恢复为正常的服务器5_1或其他服务器”为例进行说明,其中,数据处理装置集群60_1也被称为第一数据数据处理装置集群。
112.如图8所示,该流程包括:操作801、服务器5_1从失效状态恢复为正常状态;操作802、服务器5_1向服务器5_2发送服务器回切请求和服务器恢复通知中的至少一者,其中,该服务器回切请求用于指示服务器5_2释放(或停止)对数据处理装置集群60_1的管理,该服务器恢复通知用于指示服务器5_1从失效状态恢复为正常状态;在操作802中,该服务器回切请求和服务器恢复通知可以被承载在相同的消息中进行发送,例如,服务器回切请求和服务器恢复通知合并为一个消息(例如,该消息的不同字节可以分别表示服务器回切请求和服务器恢复通知)进行发送。又例如,服务器回切请求和服务器恢复通知可以被承载在不同的消息中进行发送。
113.操作803、服务器5_2在接收到服务器回切请求和服务器恢复通知中的至少一者后,停止向数据处理装置集群60_1下发任务。例如:服务器5_2在接收到服务器回切请求后,停止向数据处理装置集群60_1下发任务;或者,服务器5_2在接收到服务器恢复通知后,停止向数据处理装置集群60_1下发任务;或者,服务器5_2在接收到服务器恢复通知以及服务器回切请求这二者后,停止向数据处理装置集群60_1下发任务。
114.操作804、数据处理装置集群60_1完成所有任务后(例如,数据处理装置集群60_1中的管理卡2和数据处理装置4都完成各自的所有任务并且空闲的情况下),向服务器5_2发送任务完成通知;此外,数据处理装置集群60_1还可以将该任务完成通知发送给服务器5_1;操作805、在数据处理装置集群60_1完成所有任务的情况下,服务器5_2向数据处理装置集群60_1发送服务器回切命令(例如,向数据处理装置集群60_1中的管理卡2和/或数据处理装置4发送服务器回切命令),以指示该数据处理装置集群60_1切换为由第一服务器进行管理。
115.此外,在操作805的其它实施方式中,可以由服务器5_1向数据处理装置集群60_1发送回切命令:例如,服务器5_2在收到数据处理装置集群60_1的任务完成通知后,向服务器5_1通知数据处理装置集群60_1的任务已完成,然后,服务器5_1向数据处理装置集群60_1发送回切命令;又例如,服务器5_1在收到数据处理装置集群60_1的任务完成通知后,服务器5_1向数据处理装置集群60_1发送回切命令。
116.操作806、数据处理装置集群60_1在收到回切命令的情况下,根据数据处理装置集群60_1存储的服务器切换规则,选择将要回切到哪个服务器。例如,查询存储在数据处理装置集群60_1中(例如,存储在数据处理装置集群60_1的管理卡2和/或数据处理装置4中)的切换规则(例如,切换规则可以是表的形式),结合服务器的列表,选择将要回切到哪个服务器。
117.操作807、数据处理装置集群60_1回切到选择的服务器(例如,服务器5_1),即,数据处理装置集群60_1成为由选择的服务器(例如,服务器5_1)进行接管。
118.例如,在操作807中,数据处理装置集群60_1(例如,数据处理装置集群60_1的管理卡2和/或数据处理装置4)可以向服务器5_1发出消息以请求回切到由服务器5_1进行接管,如果服务器5_1同意(例如,服务器5_1根据数据处理装置集群60_1发送的消息可以判断该数据处理装置集群60_1之前是由服务器5_1进行管理的,因而同意重新接管对数据处理装置集群60_1),那么由服务器5_1重新接管数据处理装置集群60_1,即,数据处理装置集群60_1 从由服务器5_2接管回切为由服务器5_1接管。
119.此外,在至少一个实施例中,数据处理装置集群60_1(例如,数据处理装置集群60_1的管理卡2和/或数据处理装置4)可以维护(例如,存储和更新)一个服务器的列表,如果选择的将要回切到的服务器(例如,服务器5_1)由于某些原因没有接管数据处理装置集群60_1,则数据处理装置集群60_1可以按照切换规则选择下一个将要回切到的服务器,继续之前过程直至成功(即,被第一服务器接管);如果数据处理装置集群60_1没有被任何一个服务器接管,那么数据处理装置集群60_1可以上报失败消息给预定的服务器(例如,所有的服务器),通过服务器告知或通信分发装置1告知远端设备3:该数据处理装置集群60_1需要被分配服务器。随后,远端设备3可以根据实际情况为数据处理装置集群60_1指定新的服务器作为第一服务器。
120.操作808、在数据处理装置集群60_1回切到第一服务器的情况下,数据处理装置集群60_1至少向服务器5_2发送服务器切换成功消息,该服务器切换成功消息用于表示该数据处理装置集群60_1成功切换为由第一服务器(例如,服务器5_1)进行管理;此外,在另一些实施例中,数据处理装置集群60_1也可以向预定的多个服务器5(例如,该预定的多个服务器5可以组成服务器群,并且包括服务器5_1)发送切换成功消息;操作809、在数据处理装置集群60_1回切到第一服务器的情况下,服务器5_2向该第一服务器(例如,服务器5_1)发送服务器切换状态消息,该服务器切换状态消息用于指示:从由服务器5_2管理切换为由第一服务器管理的第一数据处理装置集群(或者,管理卡2和/或数据处理装置4)的数量。此外,切换状态消息还可以包括第一数据处理装置集群的其它信息。此外,在操作809中,服务器5_2还可以向该第一服务器之外的服务器发送服务器切换状态消息,例如,服务器5_2可以向包括第一服务器的服务器群组发送该服务器切换状态消息,或者,服务器5_2可以向通信分发装置1管理的所有服务器发送该服务器切换状态消息。
121.操作810、从失效状态恢复为正常状态的服务器5_1可以向远端设备3和/或通信分发装置1发送上线报告消息,该上线报告消息用于指示:服务器5_1从失效状态恢复为正常状态。由此,远端设备3和/或通信分发装置1能够确认服务器5_1恢复正常,从而为服务器5_1分发任务。此外,远端设备3和/或通信分发装置1能够主动查询服务器5_1的状态,从而确
认服务器5_1恢复正常。
122.在至少一个实施例中,在数据处理装置集群60中,有时数据处理装置需要对管理卡进行切换,下面,结合图9、图10、图11、图12对管理卡的切换进行说明。
123.图9是数据处理装置集群的管理系统100中切换管理卡的流程的一个示意图。在该示意图中,以“管理卡2_1失效,管理卡2_1管理的数据处理装置4_1被管理卡2_2接管”为例进行说明;该说明同样适用于其它的管理卡失效,或者失效的管理卡所管理的多个数据处理装置4被两个以上的其它管理卡2所接管的情形。
124.如图9所示,该流程包括:操作901、数据处理装置4_1检测到管理该数据处理装置4_1的管理卡2_1失效,例如,在数据处理装置4_1与管理卡2_1通信未成功,或者管理卡2_1向数据处理装置4_1发送自身失效的通知消息等情况下,数据处理装置4_1能够检测为管理卡2_1失效,即,管理卡2_1无法正常工作,例如,无法进行任务分发等处理;操作902、数据处理装置4_1根据其自身存储的切换规则,选择管理卡2_2作为数据处理装置4_1的新的管理卡,此外,数据处理装置4_1选择的管理卡的数量可以是2个以上;操作903、数据处理装置4_1向选择的管理卡(其中包括管理卡2_2)发送选主信息,该选主信息用于请求该管理卡接管数据处理装置4_1;操作904、管理卡2_2基于接收到的选主信息,或者管理卡2_2基于选主信息与管理卡2_2存储的切换规则,接管数据处理装置4_1,此外,管理卡2_2还可以接管管理卡2_1的任务。
125.例如,管理卡2_2接收到选主信息时,在管理卡2_2自身具有接管能力的情况下(例如,管理卡2_2具有能够管理8个数据处理装置4的能力,如果目前管理卡2_2已经管理了8个数据处理装置4,则管理卡2_2不具有接管数据处理装置4_1的能力,如果目前管理卡2_2已经管理了5个数据处理装置4,则管理卡2_2具有接管数据处理装置4_1的能力),管理卡2_2接管数据处理装置4_1,并且接管管理卡2_1的任务。
126.又例如,管理卡2_2接收到选主信息时,根据自身存储的切换规则判断是否可以接管数据处理装置4_1,如果判断为可以接管,则在管理卡2_2自身具有接管能力的情况下,管理卡2_2接管数据处理装置4_1,并且接管管理卡2_1的任务。
127.操作905、管理卡2_2向数据处理装置4_1发送确认消息,确认接管数据处理装置4_1;此外,如果管理卡2_2不进行接管,则向数据处理装置4_1发送拒绝接管应答,数据处理装置4_1等待其他的管理卡的接管;操作906、数据处理装置4_1至少向管理卡2_2发送第一指示信息,该第一指示信息用于指示失效的管理卡2_1有关的信息;此外,数据处理装置4_1还可以将该第一指示信息发送给预定数量的其它管理卡2,该预定数量的其它管理卡与管理卡2_2可以构成管理卡群;在一个例子中,数据处理装置4_1向通信分发装置1的所有管理卡2_2都发送第一指示信息。
128.操作907、数据处理装置4_1发送第二指示信息,该第二指示信息用于表示管理卡2_2成为数据处理装置4_1的管理卡。其中,数据处理装置4_1可以将第二指示信息发送给管理卡2_2;或者,数据处理装置4_1可以将该第二指示信息发送给预定数量的管理卡2,该预定数量的管理卡可以包括管理卡2_2或者不包括管理卡2_2。在一个例子中,数据处理装置
4_1向通信分发装置1的所有管理卡2_2都发送第二指示信息。
129.操作908、管理卡2_2向通信分发装置1和/或远端设备3发送与失效的管理卡2_1有关的信息;此外,远端设备3也可以主动查询各管理卡2的在位状态,从而识别出管理卡2_1失效。
130.操作909、数据处理装置4_1对接收到的任务进行处理,并将处理结果发送给管理卡2_2;操作910、管理卡2_2向远端设备3发送数据处理装置4_1的任务处理结果。
131.例如,当数据处理装置4_1的任务成功完成时,管理卡2_2将数据处理装置4_1完成的任务处理结果(例如,渲染后的图像数据等)发送给远端设备3;又例如,当数据处理装置4_1的任务未成功完成时,管理卡2_2可以向远端设备3和/或通信分发装置1反馈用于指示任务失败的消息;远端设备3和/或通信分发装置1可以对该未完成的任务重新进行分发,重新分发后,该任务有可能被重新分发给数据处理装置4_1,也可能被重新分发给其他的数据处理装置4。
132.图10是数据处理装置集群的管理系统100中管理卡回切的流程的一个示意图。在该示意图所示的流程基于“管理卡2_1失效,管理卡2_1管理的数据处理装置4_1被管理卡2_2接管”这样的前提,并且,该示意图以“管理卡2_1从失效恢复为正常,由管理卡2_2接管的数据处理装置4_1切换为由第一管理卡进行管理,其中,该第一管理卡是恢复为正常的管理卡2_1或其他管理卡”为例进行说明,其中,数据处理装置4_1也被称为第一数据数据处理装置。
133.如图10所示,该流程包括:操作1001、管理卡2_1从失效状态恢复为正常状态;操作1002、管理卡2_1向管理卡2_2发送回切请求和第一恢复通知中的至少一者,其中,该回切请求用于指示管理卡2_2释放(或停止)对数据处理装置4_1的管理,该第一恢复通知用于指示管理卡2_1从失效状态恢复为正常状态;在操作1002中,该回切请求和第一恢复通知可以被承载在相同的消息中进行发送,例如,回切请求和第一恢复通知合并为一个消息(例如,该消息的不同字节可以分别表示回切请求和第一恢复通知)进行发送。又例如,回切请求和第一恢复通知可以被承载在不同的消息中进行发送。
134.操作1003、管理卡2_2在接收到回切请求和第一恢复通知中的至少一者后,停止向数据处理装置4_1下发任务。例如:管理卡2_2在接收到回切请求后,停止向数据处理装置4_1下发任务;或者,管理卡2_2在接收到第一恢复通知后,停止向数据处理装置4_1下发任务;或者,管理卡2_2在接收到第一恢复通知以及回切请求这二者后,停止向数据处理装置4_1下发任务。
135.操作1004、数据处理装置4_1完成所有任务后(例如,数据处理装置4_1完成所有任务并且空闲的情况下),向管理卡2_2发送任务完成通知;此外,数据处理装置4_1还可以将该任务完成通知发送给管理卡2_1;操作1005、在数据处理装置4_1完成所有任务的情况下,管理卡2_2向数据处理装置4_1发送回切命令,以指示该数据处理装置4_1切换为由第一管理卡进行管理。
136.此外,在操作1005的其它实施方式中,可以由管理卡2_1向数据处理装置4_1发送
回切命令:例如,管理卡2_2在收到数据处理装置4_1的任务完成通知后,向管理卡2_1通知数据处理装置4_1的任务已完成,然后,管理卡2_1向数据处理装置4_1发送回切命令;又例如,管理卡2_1在收到数据处理装置4_1的任务完成通知后,管理卡2_1向数据处理装置4_1发送回切命令。
137.操作1006、数据处理装置4_1在收到回切命令的情况下,根据数据处理装置4_1存储的切换规则,选择将要回切到哪个管理卡。例如,查询存储在数据处理装置4_1中的切换规则(例如,切换规则可以是表的形式),结合管理卡的列表,选择将要回切到哪个管理卡。
138.操作1007、数据处理装置4_1回切到选择的管理卡(例如,管理卡2_1),即,数据处理装置4_1成为由选择的管理卡(例如,管理卡2_1)进行接管。
139.例如,在操作1007中,数据处理装置4_1可以向管理卡2_1发出消息以请求回切到由管理卡2_1进行接管,如果管理卡2_1同意(例如,管理卡2_1根据数据处理装置4_1发送的消息可以判断该数据处理装置4_1之前是由管理卡2_1进行管理的,因而同意重新接管对数据处理装置4_1),那么由管理卡2_1重新接管数据处理装置4_1,即,数据处理装置4_1 从由管理卡2_2接管回切为由管理卡2_1接管。
140.此外,在至少一个实施例中,数据处理装置4_1可以维护(例如,存储和更新)一个管理卡的列表,如果选择的将要回切到的管理卡(例如,管理卡2_1)由于某些原因没有接管数据处理装置4_1,则数据处理装置4_1可以按照切换规则选择下一个将要回切到的管理卡,继续之前过程直至成功(即,被第一管理卡接管);如果数据处理装置4_1没有被任何一个管理卡接管,那么数据处理装置4_1可以上报失败消息给预定的管理卡(例如,所有的管理卡),通过管理卡告知或数据处理装置4_1告知远端设备3:该数据处理装置4_1需要被分配管理卡。随后,远端设备3可以根据实际情况为数据处理装置4_1指定新的管理卡作为第一管理卡。
141.操作1008、在数据处理装置4_1回切到第一管理卡的情况下,数据处理装置4_1至少向管理卡2_2发送切换成功消息,该切换成功消息用于表示该数据处理装置4_1成功切换为由第一管理卡(例如,管理卡2_1)进行管理;此外,在另一些实施例中,数据处理装置4_1也可以向预定的多个管理卡2(例如,该预定的多个管理卡2可以组成管理卡群,并且包括管理卡2_1)发送切换成功消息;操作1009、在数据处理装置4_1回切到第一管理卡的情况下,管理卡2_2向该第一管理卡(例如,管理卡2_1)发送切换状态消息,该切换状态消息用于指示:从由管理卡2_2管理切换为由第一管理卡管理的第一数据处理装置的数量。此外,切换状态消息还可以包括第一数据处理装置的其它信息。此外,在操作10010中,管理卡2_2还可以向该第一管理卡之外的管理卡发送切换状态消息,例如,管理卡2_2可以向包括第一管理卡的管理卡群组发送该切换状态消息,或者,管理卡2_2可以向通信分发装置1管理的所有管理卡发送该切换状态消息。
142.操作1010、从失效状态恢复为正常状态的管理卡2_1可以向远端设备3和/或通信分发装置1发送上线报告消息,该上线报告消息用于指示:管理卡2_1从失效状态恢复为正常状态。由此,远端设备3和/或通信分发装置1能够确认管理卡2_1恢复正常,从而为管理卡2_1分发任务。此外,远端设备3和/或通信分发装置1能够主动查询管理卡2_1的状态,从而确认管理卡2_1恢复正常。
143.上面的图9和图10说明了管理系统100在通常情况下对管理卡的切换的控制方法。
144.图11是数据处理装置集群的管理系统100进行控制的方法的一个示意图,对应于数据处理装置升级为管理卡的流程。如图11所示,该流程包括:操作1101、管理卡2接收通信分发装置1和/或远端设备3发送的升级规则;此外,如果管理卡2没有收到该升级规则,可以向通信分发装置1和/或远端设备3发送升级规则配置失败消息;操作1102、通信分发装置1接收远端设备3的任务,并分发任务;操作1103、管理卡2接收通信分发装置1分发的任务;操作1104、管理卡2向管理卡2所管理的数据处理装置4分发任务;操作1105、在预定条件下(例如,管理卡2管理的数据处理装置4的数量超过预定值),管理卡2或远端设备3选择数据处理装置4(例如,数据处理装置4_1),并向被选择的数据处理装置(例如,数据处理装置4_1)发送升级命令,该升级命令用于指示被选择的数据处理装置(例如,数据处理装置4_1)升级为管理卡以接管至少一个其它的数据处理装置(例如,数据处理装置4_2);操作1106、被选择的数据处理装置(例如,数据处理装置4_1)根据升级命令,升级为管理卡;操作1107、被选择的数据处理装置(例如,数据处理装置4_1)升级为管理卡后,接管至少一个其它的数据处理装置(例如,数据处理装置4_2)。
145.在操作1107之后的操作中,升级为管理卡的数据处理装置(例如,数据处理装置4_1)接收通信发发装置1分发的任务,并将任务分发给数据处理装置4_2等。
146.图12是数据处理装置集群的管理系统100进行控制的方法的另一个示意图,对应于为数据处理装置指定管理卡的流程。如图12所示,该流程包括:操作1201、数据处理装置4(例如,数据处理装置4_1)在根据切换规则(例如,切换规则参见图9、图10的相关说明)切换管理卡失败时,该数据处理装置4(例如,数据处理装置4_1)向未失效的管理卡(例如,管理卡2_3)、远端设备3和通信分发装置1中的至少一者发送切换失败消息;其中,数据处理装置4(例如,数据处理装置4_1)成为脱离管理的数据处理装置;操作1202、远端设备3或通信分发装置1根据切换失败消息,为数据处理装置4(例如,数据处理装置4_1)指定(例如,选择)用于管理该数据处理装置的管理卡2(例如,指定的管理卡为管理卡2_4);操作1203、远端设备3或通信分发装置1向指定的管理卡(例如,管理卡2_4)发送指定消息,以指示该指定的管理卡接管脱离管理的数据处理装置4(例如,数据处理装置4_1);此外,远端设备3或通信分发装置1还可以将指定的管理卡(例如,管理卡2_4)的有关信息发送给脱离管理的数据处理装置4(例如,数据处理装置4_1);操作1204、指定的管理卡(例如,管理卡2_4)接管脱离管理的数据处理装置4(例如,数据处理装置4_1);操作1205、被接管的数据处理装置4(例如,数据处理装置4_1)向指定的管理卡(例如,管理卡2_4)发送被接管成功消息。
147.在上述的操作1201中,数据处理装置切换管理卡失败,包括:
在数据处理装置的管理卡失效的情况下,数据处理装置基于切换规则,切换到正常的管理卡时失败(例如,图9所示的流程失败);或者,在失效的管理卡恢复正常的情况下,脱离该失效的管理卡管理的数据处理装置基于切换规则,切换到恢复正常的管理卡或其它的管理卡时失败(例如,图10所示的流程失败)。
148.在上述的操作1201中,如果切换失败消息没有被发送给远端设备3或通信分发装置1,而是被发送给了未失效的管理卡(例如,管理卡2_3),那么,未失效的管理卡(例如,管理卡2_3)可以将切换失败消息转发给远端设备3或通信分发装置1,由此,远端设备3或通信分发装置1能够收到该切换失败消息。
149.在上述的操作1202中,远端设备3或通信分发装置1指定的管理卡包括:原有的管理卡,其中,原有的管理卡例如在数据处理装置集群的管理系统100初始化时就被配置为管理卡;和/或,基于升级命令从数据处理装置升级而形成的管理卡(例如,图11所示的流程而形成的管理卡)或基于选举规则从数据处理装置升级而形成的管理卡(例如,下面的图13所示的流程而形成的管理卡)。
150.图13是数据处理装置集群的管理系统100进行控制的方法的再一个示意图,对应于数据处理装置基于选举规则而成为管理卡的流程。如图13所示,该流程包括:操作1301、管理卡2为数据处理装置4(例如,数据处理装置4_1和4_2)配置选举规则;此外,如果管理卡2为数据处理装置4配置该选举规则失败时,可以向远端设备3和/或通信分发装置1发送选举规则配置失败消息(参见操作1301a);操作1302、部分数据处理装置4(例如,数据处理装置4_1和4_2)成为脱离管理的数据处理装置;操作1303、脱离管理的数据处理装置4(例如,数据处理装置4_1和4_2)在预定时间内没有收到与远端设备3或通信分发装置1指定的管理卡有关的消息,和/或,脱离管理的数据处理装置4(例如,数据处理装置4_1和4_2)在预定时间内没有收到升级命令;操作1304、脱离管理的数据处理装置4(例如,数据处理装置4_1和4_2)基于选举规则,从脱离管理的数据处理装置4(例如,数据处理装置4_1和4_2)中选出新的管理卡,例如,数据处理装置4_1被选为新的管理卡;操作1305、被选出的新的管理卡(例如,数据处理装置4_1)接管其它的数据处理装置4(例如,数据处理装置4_2)。
151.在操作1305之后的操作中,成为新的管理卡的数据处理装置(例如,数据处理装置4_1)接收通信发发装置1分发的任务,并将任务分发给数据处理装置4_2等。
152.第一方面的实施例对数据处理装置集群的管理系统100的构成和工作原理进行了说明,该管理系统100能够实现对数据处理装置集群的高可靠性管理框架,从而提高数据处理装置集群的可靠性。
153.第二方面的实施例第二方面的实施例提供一种数据处理装置。该数据处理装置例如是第一方面实施例中所述的数据处理装置4。
154.图14是数据处理装置4的一个示意图。如图14所示,数据处理装置4至少包括处理模块41和控制模块42。
155.其中,处理模块41进行数据处理,例如,图像渲染,音频处理,视频处理等。控制模块42对该数据处理装置4的操作进行控制。
156.在至少一个实施例中,控制模块42能够控制数据处理装置4执行如下的操作:检测到管理该数据处理装置4的管理卡2(例如,管理卡2_1)失效时,基于切换规则选择管理系统100中的其它管理卡(例如,管理卡2_2),并至少向该其它管理卡发送选主信息,该选主信息请求该其它管理卡接管该数据处理装置4;以及至少向该其它管理卡发送第一指示信息,该第一指示信息用于指示失效的管理卡(例如,管理卡2_1)的信息。
157.此外,控制模块42控制数据处理装置4还执行如下的操作:在该其它管理卡(例如,管理卡2_2)接管了该数据处理装置4的情况下,向该其它管理卡(例如,管理卡2_2)发送对于任务的处理结果。
158.在至少另一个实施例中,控制模块42能够控制数据处理装置4执行如下的操作:接收管理卡(例如,管理卡2_2)发送的回切命令,该回切命令指示数据处理装置4切换为由第一管理卡(例如,管理卡2_1)进行管理;以及数据处理装置4基于切换规则切换为由第一管理卡(例如,管理卡2_1)进行管理。
159.其中,数据处理装置4在完成已经被分发的任务后,接收该回切命令。
160.数据处理装置4基于切换规则切换为由第一管理卡(例如,管理卡2_1)管理的情况下,数据处理装置4至少向在数据处理装置4_1回切到第一管理卡的情况下,数据处理装置4至少向管理卡2_2发送切换成功消息,该切换成功消息用于表示该数据处理装置4成功切换为由第一管理卡(例如,管理卡2_1)进行管理;此外,数据处理装置4也可以向预定的多个管理卡2(例如,该预定的多个管理卡2可以组成管理卡群,并且包括管理卡2_1)发送切换成功消息。
161.此外,数据处理装置4还可以向远端设备3发送恢复通知,该恢复通知用于指示,该数据处理装置4从失效状态恢复为正常状态。
162.在至少一个实施例中,控制模块42可以控制数据处理装置4执行如下的操作:数据处理装置4基于管理卡2或远端设备3发送的升级命令升级为管理卡以接管至少一个其它的数据处理装置4;和/或数据处理装置4接收为该数据处理装置4指定的管理卡有关的信息;和/或数据处理装置4基于选举规则,选择其它的数据处理装置作为新的管理卡,并切换为由新的管理卡进行管理,或者,数据处理装置4基于选举规则被确定为新的管理卡,并接管其它的数据处理装置。
163.在至少另一个实施例中,控制模块42能够控制数据处理装置4执行如下的操作:检测到管理所述数据处理装置的服务器失效时,基于服务器切换规则选择管理系统中的其它服务器,并至少向所述其它服务器发送服务器选主信息,所述服务器选主信息请求所述其它服务器接管所述数据处理装置;以及至少向所述其它服务器发送服务器失效指示信息,所述服务器失效指示信息用于指示失效的所述服务器的信息。
164.在至少另一个实施例中,控制模块42能够控制数据处理装置4执行如下的操作:向所述其它服务器发送对于任务的处理结果。
165.在至少另一个实施例中,控制模块42能够控制数据处理装置4执行如下的操作:接收服务器发送的服务器回切命令,所述服务器回切命令指示所述数据处理装置切换为由第一服务器进行管理;以及所述数据处理装置基于服务器切换规则切换为由所述第一服务器进行管理。
166.在至少一个实施例中,数据处理装置在完成已经被分发的任务后,接收所述服务器回切命令。
167.在至少一个实施例中,数据处理装置至少向所述服务器发送切换成功消息,所述切换成功消息用于指示所述数据处理装置成功切换为由所述第一服务器进行管理。
168.关于第二方面的实施例中数据处理装置的详细说明,可以参考第一方面的实施例中的相关说明。
169.第三方面的实施例第三方面的实施例提供一种远端设备。该远端设备例如是第一方面实施例中所述的远端设备3。
170.图15是远端设备3的一个示意图。远端设备3例如可以是计算机、服务器、工作站、膝上型计算机、智能手机,等等;但本技术实施例不限于此。
171.图15是远端设备3的一个示意图。如图15所示,远端设备1500可以包括:处理器(例如中央处理器cpu)1510和存储器1520;存储器1520耦合到中央处理器1510。其中该存储器1520可存储各种数据;此外还存储信息处理的程序1521,并且在处理器1510的控制下执行该程序1521。
172.在至少一个实施例中,远端设备1500被配置为进行如下的操作:向数据处理装置集群的管理系统100下发第一分发规则、服务器任务分发规则、第二分发规则、服务器切换规则、切换规则中的至少一者,其中,第一分发规则用于所述管理系统的通信分发装置1向管理卡2分发任务,第二分发规则用于管理卡2向数据处理装置4分发任务,服务器任务分发规则用于服务器5向数据处理装置子集群60分发任务,服务器切换规则用于数据处理装置子集群60切换服务器5,切换规则用于数据处理装置4切换管理卡2。
173.在至少一个实施例中,远端设备1500还被配置为具有如下功能的至少之一:配置服务器5与数据处理装置子集群60之间的管理关系;配置管理卡2与数据处理装置4之间的管理关系;为数据处理装置集群40中的数据处理装置4分组;查询管理卡2是否在位。在至少一个实施例中,远端设备1500还被配置为:接收数据处理装置4发送的恢复通知,该恢复通知用于指示,该数据处理装置4从失效状态恢复为正常状态。
174.在至少一个实施例中,远端设备1500还被配置为:修复和/或复位管理系统100中的服务器5、管理卡2、数据处理装置4中的至少一者。
175.在至少一个实施例中,远端设备1500可以被配置为:向数据处理装置集群的管理系统100下发升级规则和/或选举规则,其中,升级规则用于管理系统的管理卡选择数据处理装置并将其升级为管理卡,选举规则用于从数据处理装置中生成新的管理卡;和/或为数据处理装置指定用于管理该数据处理装置的管理卡。
176.此外,如图15所示,远端设备1500还可以包括:输入输出(i/o)设备1530和显示器1540等;其中,上述部件的功能与现有技术类似,此处不再赘述。值得注意的是,主机1500也并不是必须要包括图15中所示的所有部件;此外,远端设备1500还可以包括图15中没有示出的部件,可以参考相关技术。
177.第四方面的实施例第四方面的实施例提供一种数据处理装置集群的控制方法,对应于第一方面实施例中数据处理装置集群的管理系统100的操作。
178.图16是数据处理装置集群的控制方法的一个示意图。如图16所示,该控制方法包括:操作1601、通信分发装置接收远端设备的任务,并分发任务;操作1602、与所述通信分发装置通信的服务器接收所述通信分发装置分发的任务,并通过接口电路向所述服务器所管理的至少一个数据处理装置子集群分发任务;以及操作1603、当一台服务器失效时,所述管理系统的其它服务器中的至少一台服务器接管 失效的服务器所管理的数据处理装置子集群。
179.图17是数据处理装置集群的控制方法的一个示意图,该方法应用于服务器5。如图17所示,该控制方法包括:操作1701、所述服务器接收服务器选主信息,所述服务器选主信息用于请求所述服务器接管失效的服务器所管理的数据处理装置子集群;以及操作1702、所述服务器基于接收到的服务器选主信息,或者所述服务器选主信息与存储的服务器切换规则,接管失效的服务器的任务以及所述失效的服务器所管理的数据处理装置子集群。
180.图18是数据处理装置集群的控制方法的另一个示意图,该方法应用于服务器5。如图18所示,该控制方法包括:操作1801、所述服务器接收服务器回切请求 和服务器恢复通知 中的至少一者,所述服务器回切请求由从失效状态恢复为正常状态的其它服务器发送,所述服务器恢复通知用于指示所述其它服务器从失效状态恢复为正常状态;以及操作1802、所述服务器或所述其它服务器向第一数据处理装置子集群发送回切命令,以指示所述第一数据处理装置子集群切换为由第一服务器进行管理。
181.图19是数据处理装置集群的控制方法的另一个示意图,该方法应用于数据处理装置4或管理卡2。如图19所示,该控制方法包括:操作1901、检测到管理所述数据处理装置的服务器失效时,基于服务器切换规则选择管理系统中的其它服务器,并至少向所述其它服务器发送服务器选主信息,所述服务器选主信息请求所述其它服务器接管所述数据处理装置;以及操作1902、至少向所述其它服务器发送服务器失效指示信息,所述服务器失效指示信息用于指示失效的所述服务器的信息。
182.图20是数据处理装置集群的控制方法的另一个示意图,该方法应用于数据处理装置4或管理卡2。如图20所示,该控制方法包括:操作2001、接收服务器发送的服务器回切命令,所述服务器回切命令指示所述数据处理装置切换为由第一服务器进行管理;以及
操作2002、所述数据处理装置基于服务器切换规则切换为由所述第一服务器进行管理。
183.图21是数据处理装置集群的控制方法的另一个示意图,该方法应用于远端设备3。如图21所示,该控制方法包括:操作2101、远端设备向所述数据处理装置集群的管理系统下发第一分发规则、服务器任务分发规则、第二分发规则、服务器切换规则、升级规则、选举规则和切换规则中的至少一者。
184.在操作2101中:所述第一分发规则用于所述管理系统的通信分发装置向服务器分发任务,所述服务器任务分发规则用于所述服务器向数据处理装置子集群分发任务,所述第二分发规则用于所述数据处理装置子集群中的管理卡向数据处理装置分发任务,所述服务器切换规则用于所述数据处理装置子集群切换服务器,所述升级规则用于选择升级为管理卡的所述数据处理装置,所述选举规则用于从至少一个所述数据处理装置中生成新的管理卡,所述切换规则用于所述数据处理装置切换管理卡。
185.关于上述方法中各操作的详细说明,可以参考第一方面的实施例中对于相关操作的说明。
186.本技术的实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第四方面的实施例中的方法。
187.本技术的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第四方面的实施例中的方法。
188.本技术的实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现第四方面的实施例中的方法。
189.本技术各实施例的技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
190.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
191.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
192.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
193.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
194.以上所述的具体实施例,对本技术的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本技术的具体实施例而已,并不用于限定本技术的保护范围,凡在本技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1