数据并行处理方法及系统的制作方法

文档序号:9910853阅读:720来源:国知局
数据并行处理方法及系统的制作方法
【技术领域】
[0001]本发明属于计算机系统与高性能计算领域,具体涉及一种在众核处理器架构上的大规模数据高性能并行处理方法,它是一种高效能的处理密集型大数据并且能够提供辅助决策的有效方法。
【背景技术】
[0002]随着科学研究、电子商务、社交网络、移动通信等各行业领域无时不刻都会产生大量数据,这些数据的类型日益复杂,数量日趋庞大,处理规模从TB级别演变到PB级别,直到如今的EB级别,这对大数据处理的高效性、实时性提出了严峻的挑战。半导体工艺技术和体系结构不断发展,处理器功能、分布式存储技术、GPU高速运算卡、微处理器结构、多核、众核设计技术也在不断创新。利用这些技术最大化并行处理能力是应对这一挑战的有效手段之一,也是E级计算重大挑战之一。
[0003]国内外学术界和工业界诸多学者和开发者做了很多卓有成效的工作,给出一系列的面向众核处理器的高性能大规模数据并行处理技术原理、框架模型和技术实现等。比如,Shahram等人在Shahram T,YongshengZ,Tong H,et al.A robust framework for real-time distributed processing of satellite data[J],ParalIel DistributedComputing,2006,66(3):403-418(面向卫星数据处理的鲁棒性实时分布式框架)中,通过多台服务器冗余备份的方式构建系统架构模型,并实现处理卫星数据的分布式实时并行计算的框架,保障冗余数据库的可靠性和可操作性。虽然该框架在一定程度上保证了并行框架数据处理技术的稳定性,但是和大数据量的强重复性计算一样,需要不断读写磁盘,没有充分利用计算机系统的内存资源进行快速计算,而且未挂载GPU高速运算卡加速运算,故其计算性能远远未能达到最佳D Yi Cao等人在Yi Cao,et al.A parallel computingframework for large-scale air traffic flow optimizat1n,IntelIigentTransportat1n Systems, IEEE Transact1ns on,2012,13(4): 1855-1864(大规模航空交通流优化并行计算框架)中提出并构建了一个并行计算框架,该框架分别通过利用TCP和UDP协议在服务器端和客户端之间交互通信命令与数据,用来计算解决大规模的航空交通数据流的优化问题。但是,该并行计算框架明显地缺乏有效的容错保障机制,很难保证运行的可靠性和稳定性DYizhuo Wang等人在Yizhuo WjYang Z,et al.An adaptive andhierarchical task scheduling scheme for mult1-core clusters[J],ParallelDistributed Computing,2014,40( 10):611-627(—种面向多核集群的可适用性和层次调度模式)中,首先对任务初始化进行划分,在父子计算机节点分别设计全局调度器和局部调度器,并通过计算节点内部work-steal ing和计算节点间work-sharing相结合的方式,筛选victim节点动态调节计算节点间工作负载,以达到负载均衡。RanieriBaraglia等人在RanieriBaraglia,et al.A mult1-criteria job scheduling framework for largecomputing farms,Journal of Computer and System Sciences,2013,79(2):230-244(M向大规模集群的多标准工作调度框架)提出了一种多标准的工作调度框架,用于优化大规模的计算节点负载均衡,缓解“木桶效应”问题。以上学者对已有的并行计算框架做调度优化设计,但是仍然还缺乏系统化的方法指导和成熟的技术支持。
[0004]经检索,发现发明专利:名称“一种基于CHJ核管理的分布式并行计算平台及方法”、专利(ZL)号“ZL21410079473”。该方法提出应用于电力系统仿真的分布式并行计算平台的构建策略,但是在该架构策略中只运用了多个单一的CHJ核,也没有利用现今已经技术发展比较成熟的具有超算能力的GPU高速运算卡来加速计算,同时未构建完善良好的容错机制,一旦发生错误便无法很好地进行快速重配从而恢复计算能力。
[0005]总地来说,目前面向众核处理器的高性能大规模数据并行处理方法一方面缺乏对诸如GPU高速运算卡、高性能处理器等硬件强有力软件支撑;另一方面,还存在迭代计算过程中没有充分利用高内存快速计算的特性,需要不断读写磁盘、节点作业调度策略和数据分布不合理、容错机制差等问题,计算节点的并行度也有待进一步提升。

【发明内容】

[0006]针对现有技术中的缺陷,本发明的目的是提供一种在保证系统高容错性前提下,提高节点内部和节点间的并行度,从而提升了大规模数据的并行处理能力的数据并行处理方法及系统。
[0007]为解决上述技术问题,本发明提供的一种数据并行处理方法,包括如下步骤:
[0008]步骤I,主管理节点接收数据并获取数据的关联关系;
[0009]步骤2,主管理节点计算工作计算节点的可调配的GPU和GPU工作负载;
[0010]步骤3,主管理节点划分数据并将已划分的数据分发到各个工作计算节点;
[0011]步骤4,工作计算节点对接收到的数据进行并行处理并将处理的结果传输回主管理节点;
[0012]步骤5,主管理节点将结果合并输出。
[00?3 ]优选地,主管理节点通过j dbcDNA接口接收数据。
[0014]优选地,步骤I中,主管理节点对数据进行最近邻关联数据集建模,获取数据源之间的关联属性。
[0015]优选地,步骤I中,主管理节点对数据进行最近邻关联数据集建模包括如下步骤:
[0016]步骤1.1,根据数据的分类和特征对数据进行维度划分;
[0017]步骤1.2,对数据的每个维度进行方差计算;
[0018]步骤1.3,以计算所得的最大方差值所对应的玮度为依据划分数据。
[0019]优选地,维度包括用户相似度、数据源位置、数据访存时间、数据类型、数据访问频度及内存依赖程度。
[0020]优选地,步骤2中,主管理节点通过基于父子节点双血缘机制计算工作计算节点的状态。
[0021]优选地,步骤2中,主管理节点通过基于父子节点双血缘机制计算工作计算节点的状态信息包括如下步骤:
[0022]步骤2.1,子血缘采集所在的工作计算节点的状态信息并将采集到的状态信息传输给父血缘;
[0023]步骤2.2,父血缘接收状态信息并根据状态信息对子血缘进行调配。
[0024]优选地,父血缘与子血缘之间采用异步更新机制。
[0025]优选地,步骤4中,各个工作计算节点将数据转化成的具体作业并进行分割,然后进行基于节点粒度的部署,启动执行调度器将作业分割为具体的任务进行并行处理。
[0026]一种数据并行处理系统,数据并行处理系统采用数据并行处理方法。
[0027]与现有技术相比,本发明的有益效果如下:
[
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1