一种基于集群的高速通信架构及方法

文档序号:7818465阅读:362来源:国知局
一种基于集群的高速通信架构及方法
【专利摘要】本发明提供一种基于集群的高速通信架构及方法,上述架构包括多个集群通信节点、共享存储系统;其中,所述多个集群通信节点之间相互连接,构成一个环状的集群通信节点通信结构;所述多个集群通信节点分别与所述共享存储系统连接。相较于先前技术,根据本发明提供的一种基于集群的高速通信架构及方法,将集群通信扩展到多台集群通信节点上,使集群通信系统的集群通信节点间、集群通信节点内的计算设备达到计算的负载均衡,并保证集群通信系统的高容错性,从而提高集群通信系统的整体运行效率,大大缩短任务处理时间。
【专利说明】一种基于集群的高速通信架构及方法

【技术领域】
[0001]本发明属于集群通信领域,尤其涉及一种基于集群的高速通信方法及系统。

【背景技术】
[0002]当前社会人类的数据大爆炸,信息数据越来越多,人们对信息数据的处理能力的要求也越来越高,不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算,金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求迅猛增长。
[0003]计算速度对于高性能计算尤为重要,高性能计算朝多核、众核发展,采用异构并行提升应用计算速度,目前CPU+GPU是非常成熟的异构协同计算模式,适合高速并行计算的应用或算法,但是由于一些应用运算数据量一直比较大,受限于网络带宽等原因在单台服务器中添加多个加速卡或通过网络扩展有限的集群的方式,已经无法满足当前的需求。


【发明内容】

[0004]本发明提供一种基于集群的高速通信架构及方法,以解决上述问题。
[0005]本发明提供一种基于集群的高速通信架构,包括多个集群通信节点、共享存储系统;其中,所述多个集群通信节点之间相互连接,构成一个环状的集群通信节点通信结构;所述多个集群通信节点分别与所述共享存储系统连接。
[0006]本发明还提供一种基于集群的高速通信方法,包括以下步骤:
[0007]各个集群通信节点分别获取对应的部分计算任务数据后,进行处理并将处理结果按预设通信顺序发送至相邻的集群通信节点;
[0008]相邻的集群通信节点根据接收的所述处理结果,更新自己的计算并按照所述预设通信顺序发送至下一个相邻的集群通信节点,直至计算结束。
[0009]相较于先前技术,根据本发明提供的一种基于集群的高速通信方法及系统,将集群通信扩展到多台集群通信节点上,使集群通信系统的集群通信节点间、集群通信节点内的计算设备达到计算的负载均衡,并保证集群通信系统的高容错性,从而提高集群通信系统的整体运行效率,大大缩短任务处理时间。
[0010]本发明通过高速网络将多个集群通信节点连接,组成一个环形结构集群通信系统,实现计算规模的高扩展性,同时在此系统上循环通信与并行计算的异步执行,提高了集群通信系统的整体运行效率,满足了高性能应用的要求。
[0011]为了保证集群通信系统运行的可靠性,本发明提出了一种容错机制:即由集群通信节点定时收集其它集群通信节点的数据信息并保存到共享存储系统中,保证在长时间运行中出现系统宕机时,程序从断点处继续运行,同时保证当某集群通信节点故障时,可由其它集群通信节点继续其未完成的任务。
[0012]本集群通信系统具有较高的扩展性,环形的拓扑结构设计理论上可以扩展到任意多个集群通信节点,可以添加删除任意多个集群通信节点,可以防止某个集群通信节点突然故障或有新节点加入时可以继续工作。
[0013]为了对数据进行高效管理,本发明中还提出了一种数据存储的设计方法,即数据存储系统分共享存储系统和本地存储系统,共享存储系统中存储各集群通信节点共享的计算任务数据及备份数据,保证数据安全性及各集群通信节点间计算数据的同步,方便了数据的有效管理;同时,各个集群通信节点中的本地存储单元通过缓存共享存储系统中的数据,进一步提闻数据的访问效率。

【专利附图】

【附图说明】
[0014]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0015]图1所示为本发明实施例1的基于集群的高速通信架构图;
[0016]图2所示为本发明实施例2的基于集群的高速通信方法处理流程图。

【具体实施方式】
[0017]下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0018]图1所示为本发明实施例1的基于集群的高速通信架构图,包括:集群通信节点
1、集群通信节点2、集群通信节点3…集群通信节点η-1、集群通信节点η ;共享存储系统M ;
[0019]各个集群通信节点(集群通信节点1、集群通信节点2、集群通信节点3…集群通信节点η-1、集群通信节点η)中包含中央处理器CPU单元、I个或多个图形处理单元GPU、本地存储单元;其中,各个集群通信节点之间通过高速网络进行网络连接,构成一个环状的集群通信节点通信结构;本地存储单元,用于缓存共享存储系统M中的数据,还用于存储本集群通信节点的通信数据。
[0020]共享存储系统M,通过高速网络与各个集群通信节点相互连接,用于存储各个集群通信节点的计算任务数据、各个集群通信节点的备份数据。
[0021]高速网络包括:快速交换式以太网、千兆以太网、100G光纤网络。
[0022]图2所示为本发明实施例2的基于集群的高速通信方法处理流程图,包括以下步骤:
[0023]步骤201:各个集群通信节点分别获取对应的部分计算任务数据后,进行处理并将处理结果按预设通信顺序发送至相邻的集群通信节点;
[0024]各个集群通信节点分别获取对应的部分计算任务数据的过程为:
[0025]集群通信管理节点或第三方实体根据从共享存储系统中获取的计算任务数据量的大小信息、从各个集群通信节点中获取的图形处理单元GPU的数量大小信息,获得所述各个集群通信节点所对应的部分计算任务数据量的大小信息并通知所述各个集群通信节占.
[0026]所述各个集群通信节点根据获得对应的部分计算任务数据量的大小信息,从所述共享存储系统中分别获取对应的部分计算任务数据;其中,所述集群通信管理节点是指在集群通信节点中随机选择的一个。
[0027]集群通信管理节点或第三方实体根据从共享存储系统中获取的计算任务数据量的大小信息、从各个集群通信节点中获取的图形处理单元GPU的数量大小信息,获得所述各个集群通信节点所对应的部分计算任务数据量的大小信息并通知所述各个集群通信节点的过程为:
[0028]集群通信管理节点或第三方实体从共享存储系统中获取计算任务数据量的大小信息、从各个集群通信节点中获取图形处理单元GPU的数量大小信息;
[0029]分别获取各个集群通信节点中GPU数量占全部集群通信节点总GPU数量的比值并根据所述比值与所述计算任务数据量的大小信息的乘积,确定所述各个集群通信节点对应的部分计算任务数据量的大小信息并通知所述各个集群通信节点。
[0030]各个集群通信节点完成所获取的对应的部分计算任务数据后,从所述共享存储系统中再获取对应比例的部分计算任务数据。
[0031]所述预设通信顺序是指顺时针通信顺序或者逆时针通信顺序。
[0032]在顺时针通信顺序下,如图1所示:集群通信节点0_>集群通信节点1,集群通信节点1->集群通信节点2,…集群通信节点N-2->集群通信节点N-1,集群通信节点N-l->集群通信节点0,集群通信节点0->1,集群通信节点1_>2,...。
[0033]步骤202:相邻的集群通信节点根据接收的所述处理结果,更新自己的计算并按照所述预设通信顺序发送至下一个相邻的集群通信节点,直至计算结束。
[0034]每个集群通信节点完成所获取的对应的部分计算任务数据后,发送处理结果给所述集群通信管理节点;
[0035]所述集群通信管理节点将最终的处理结果存储至所述共享存储系统中。
[0036]或者
[0037]集群通信管理节点根据预设的时间间隔收集各个集群通信节点已完成的计算结果并存储至所述共享存储系统中。
[0038]相较于先前技术,根据本发明提供的一种基于集群的高速通信方法及系统,将集群通信扩展到多台集群通信节点上,使集群通信系统的集群通信节点间、集群通信节点内的计算设备达到计算的负载均衡,并保证集群通信系统的高容错性,从而提高集群通信系统的整体运行效率,大大缩短任务处理时间。
[0039]本发明通过高速网络将多个集群通信节点连接,组成一个环形结构集群通信系统,实现计算规模的高扩展性,同时在此系统上循环通信与并行计算的异步执行,提高了集群通信系统的整体运行效率,满足了高性能应用的要求。
[0040]为了保证集群通信系统运行的可靠性,本发明提出了一种容错机制:即由集群通信节点定时收集其它集群通信节点的数据信息并保存到共享存储系统中,保证在长时间运行中出现系统宕机时,程序从断点处继续运行,同时保证当某集群通信节点故障时,可由其它集群通信节点继续其未完成的任务。
[0041]本集群通信系统具有较高的扩展性,环形的拓扑结构设计理论上可以扩展到任意多个集群通信节点,可以添加删除任意多个集群通信节点,可以防止某个集群通信节点突然故障或有新节点加入时可以继续工作。
[0042]为了对数据进行高效管理,本发明中还提出了一种数据存储的设计方法,即数据存储系统分共享存储系统和本地存储系统,共享存储系统中存储各集群通信节点共享的计算任务数据及备份数据,保证数据安全性及各集群通信节点间计算数据的同步,方便了数据的有效管理;同时,各个集群通信节点中的本地存储单元通过缓存共享存储系统中的数据,进一步提闻数据的访问效率。
[0043]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种基于集群的高速通信架构,其特征在于,包括多个集群通信节点、共享存储系统;其中,所述多个集群通信节点之间相互连接,构成一个环状的集群通信节点通信结构;所述多个集群通信节点分别与所述共享存储系统连接。
2.根据权利要求1所述的架构,其特征在于:每个集群通信节点包含中央处理器CPU单元、I个或多个图形处理单元GPU、本地存储单元。
3.根据权利要求2所述的架构,其特征在于:所述共享存储系统,用于存储所述多个集群通信节点的计算任务数据、所述多个集群通信节点的备份数据。
4.一种应用于权利要求1-3任一项高速通信架构的方法,其特征在于: 各个集群通信节点分别获取对应的部分计算任务数据后,进行处理并将处理结果按预设通信顺序发送至相邻的集群通信节点; 相邻的集群通信节点根据接收的所述处理结果,更新自己的计算并按照所述预设通信顺序发送至下一个相邻的集群通信节点,直至计算结束。
5.根据权利要求4所述的方法,其特征在于:各个集群通信节点分别获取对应的部分计算任务数据的过程为: 集群通信管理节点或第三方实体根据从共享存储系统中获取的计算任务数据量的大小信息、从各个集群通信节点中获取的图形处理单元GPU的数量大小信息,获得所述各个集群通信节点所对应的部分计算任务数据量的大小信息并通知所述各个集群通信节点; 所述各个集群通信节点根据获得对应的部分计算任务数据量的大小信息,从所述共享存储系统中分别获取对应的部分计算任务数据;其中,所述集群通信管理节点是指在集群通信节点中随机选择的一个。
6.根据权利要求5所述的方法,其特征在于:集群通信管理节点或第三方实体从共享存储系统中获取计算任务数据量的大小信息、从各个集群通信节点中获取图形处理单元GPU的数量大小信息; 分别获取各个集群通信节点中GPU数量占全部集群通信节点总GPU数量的比值并根据所述比值与所述计算任务数据量的大小信息的乘积,确定所述各个集群通信节点对应的部分计算任务数据量的大小信息并通知所述各个集群通信节点。
7.根据权利要求6所述的方法,其特征在于:各个集群通信节点完成所获取的对应的部分计算任务数据后,从所述共享存储系统中再获取对应比例的部分计算任务数据。
8.根据权利要求5所述的方法,其特征在于:每个集群通信节点完成所获取的对应的部分计算任务数据后,发送处理结果给所述集群通信管理节点; 所述集群通信管理节点将最终的处理结果存储至所述共享存储系统中。
9.根据权利要求5所述的方法,其特征在于:集群通信管理节点根据预设的时间间隔收集各个集群通信节点已完成的计算结果并存储至所述共享存储系统中。
10.根据权利要求4所述的方法,其特征在于:所述预设通信顺序是指顺时针通信顺序或者逆时针通信顺序。
【文档编号】H04L29/08GK104301434SQ201410602244
【公开日】2015年1月21日 申请日期:2014年10月31日 优先权日:2014年10月31日
【发明者】高永虎, 张广勇, 张清, 沈铂 申请人:浪潮(北京)电子信息产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1