一种数据处理系统及方法_2

文档序号：9546911阅读：来源：国知局

057]步骤S1、主节点读取待处理的数据分发到各从节点；
[0058]步骤S2、主节点接收各从节点返回的权重；
[0059]具体的，主节点的GPU接收各从节点发送的权重
[0060]步骤S3、主节点根据各从节点返回的权重更新网络，并将更新后的网络信息参数发送给各从节点。
[0061]步骤S4、主节点发送更新后的网络后，检查是否还存在待处理的数据，如果存在，则返回S1。
[0062]优选地，
[0063]所述步骤S1后，步骤S2前，所述方法还包括:
[0064]步骤S11、各从节点的GPU根据网络信息参数对接收的主节点分发的数据进行前向后向计算后得出权重；
[0065]优选地，
[0066]所述步骤S1前，所述方法还包括:
[0067]步骤S0、主节点从并行分布式Lustre存储中并行读取数据。
[0068]实施例二
[0069]下面结合具体的场景进一步说明本发明的技术方案。
[0070]如图3所示，本实施例的数据处理系统可运行深度学习caffe应用，采用Cifar_10数据测试，具体可以采用如下架构实现:
[0071]—、数据处理系统可以采用CPU+GPU异构架构的混合集群系统模式；并采用主从模式，整个系统计算节点分为1个主节点和8个从节点。根据深度学习应用算法特点，参数更新计算、数据读取和分发、网络更新计算由主节点完成；耗时的前向后向计算由从节点完成。
[0072]下面进一步对本实施例中主节点和从节点做详细的介绍:
[0073]a)主节点
[0074]主节点内为CPU与GPU协同计算，CPU与GPU通信采用PCIE 3.0标准，2块CPU，1块Nvidia K40GPU，GPU支持PCIE 3.0标准，主节点个数为1个。主节点配置2块IB网卡，主节点与存储、其它从节点通过IB网络互连。
[0075]b)从节点
[0076]从节点内为CPU与GPU协同计算，CPU与GPU通信采用PCIE 3.0标准，2块CPU，2块Nvidia K40GPU，GPU支持PCIE 3.0标准，2块GPU都插到CPU0的插槽上。从节点个数为8个。从节点配置1块IB网卡，从节点与主节点通过IB网络互连。
[0077]二、如图4所示，在本实施例的技术方案中，还需设计并行分布式Lustre存储，支持多进程或多线程并行读写，并行读写带宽高、延迟低，Lustre存储与主节点通过IB网络互连。
[0078]三、设计网络，本数据处理系统采用Mellanox公司的56Gb/s IB高速网络，实现并行存储、主节点、从节点的高速互连。
[0079]如图5所示，系统各个部件工作逻辑关系设计如下:
[0080](1)主节点从并行Lustre存储并行读取Cifar-ΙΟ数据；
[0081](2)主节点把数据分发到8个从节点；
[0082](3)每个从节点的2块GPU开始进行前向后向计算，并把计算后的权重通过RDMA直传到主节点GPU上；
[0083](4)主节点接收到新权重后在GPU上进行计算，并更新网络，然后把新网络RDMA发送给从节点；
[0084]上述步骤依此迭代执行，直至所有数据处理完成，其逻辑关系如图3所示。
[0085]以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/模块可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
【主权项】
1.一种数据处理系统，其特征在于，所述系统包括:一个主节点，多个从节点；所述主节点用于分批读取待处理的数据；还用于每次读取后将待处理的数据分发到各从节点，根据各所述从节点返回的权重更新网络，将所述更新后的网络信息参数发送给各所述从节点后，读取下一批待处理的数据；所述从节点用于对接收的所述主节点分发的数据进行前向后向计算后得出权重，返回给所述主节点。2.如权利要求1所述的系统，其特征在于: 所述主节点包括两个CPU和一个GPU ；所述从节点包括两个CPU和两个GPU ；所述主节点及所述各从节点采用CPU和GPU异构架构的混合集群系统模式。3.如权利要求2所述的系统，其特征在于，所述系统还包括并行分布式Lustre存储: 所述主节点用于分批读取待处理的数据具体是指: 所述主节点从所述Lustre存储中并行读取数据。4.如权利要求3所述的系统，其特征在于: 所述Lustre存储支持多进行或多线程并行读写。5.如权利要求4所述的系统，其特征在于: 所述主节点与所述各从节点之间采用远程直接数据存取RDMA方式接收/发送数据。6.如权利要求1至5任一所述的系统，其特征在于: 所述从节点配置1块IB网卡，所述主节点和所述各从节点之间通过IB网络互连；所述主节点及所述各节点内CPU与GPU之间通过PCIE 3.0标准。7.如权利要求1至5任一所述的系统，其特征在于: 所述从节点的个数不大于8。8.一种数据处理的方法，应用于如权利要求1至7任一所述的系统中，其特征在于，所述方法包括: 步骤S1、所述主节点读取待处理的数据分发到各从节点；步骤S2、所述主节点接收所述各从节点返回的权重；步骤S3、所述主节点根据所述各从节点返回的权重更新网络，并将所述更新后的网络信息参数发送给所述各从节点。步骤S4、主节点发送更新后的网络后，检查是否还存在待处理的数据，如果存在，则返回S1。9.如权利要求8所述的方法，其特征在于: 所述步骤S1后，步骤S2前，所述方法还包括: 步骤S11、所述各从节点的GPU根据所述网络信息参数对接收的所述主节点分发的数据进行前向后向计算后得出权重；所述S2包括: 所述主节点的GPU接收所述各从节点发送的权重。10.如权利要求8至9任一所述的方法，其特征在于: 所述步骤S1前，所述方法还包括: 步骤S0、所述主节点从并行分布式Lustre存储中并行读取数据。
【专利摘要】本发明提供一种数据处理系统，所述系统包括：一个主节点，多个从节点；所述主节点用于分批读取待处理的数据；还用于每次读取后将待处理的数据分发到各从节点，根据各所述从节点返回的权重更新网络，将所述更新后的网络信息参数发送给各所述从节点后，读取下一批待处理的数据；所述从节点用于对接收的所述主节点分发的数据进行前向后向计算后得出权重，返回给所述主节点。上述方案采用主从计算模式，从而加速深度学习应用处理时间，提升计算效率。
【IPC分类】G06F13/28, G06F9/38
【公开号】CN105302526
【申请号】CN201510680669
【发明人】张清, 沈铂, 王娅娟
【申请人】浪潮(北京)电子信息产业有限公司
【公开日】2016年2月3日
【申请日】2015年10月19日

完整全部详细技术资料下载

当前第2页1 2