一种面向深度学习的cpu与gpu混合的集群架构系统的制作方法

文档序号:9474391阅读:568来源:国知局
一种面向深度学习的cpu与gpu混合的集群架构系统的制作方法
【技术领域】
[0001]本发明涉及互联网高性能计算技术领域,特别是涉及一种面向深度学习的CPU与GPU混合的集群架构系统。
【背景技术】
[0002]在2006年,加拿大多伦多大学教授、机器学习领域泰斗--Geoffrey Hinton和他的学生Ruslan Salakhutdinov在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。自2006年以来,深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年,美国国防部DARPA计划首次资助深度学习项目,参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据,就是脑神经系统的确具有丰富的层次结构。一个最著名的例子就是Hubel-Wiesel模型,由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。除了仿生学的角度,目前深度学习的理论研究还基本处于起步阶段,但在应用领域已显现出巨大能量。2011年以来,微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率20%?30%,是语音识别领域十多年来最大的突破性进展。2012年,DNN技术在图像识别领域取得惊人的效果,在ImageNet评测上将错误率从26%降低到15%。在这一年,DNN还被应用于制药公司的Druge Activity预测问题,并获得世界最好成绩,这一重要成果被《纽约时报》报道。
[0003]如今Google、微软、百度等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是大数据时代来临,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件做更精准的预测。深度学习应用包括语音识别、图像识别、自然语言处理、搜索广告CTR预估等,这些应用的计算量十分巨大,其需要大规模计算。
[0004]目前大规模的深度学习系统由纯CPU集群架构组成,或者由纯GPU集群架构组成,但是采用纯CPU集群架构系统,它完全由CPU构成,需要消耗大量的CPU能耗,资源耗能太大,而且CPU集群只能处理一种应用特征的深度学习,不能处理其他种类的深度学习应用,处理深度学习应用的效率太低,而且CPU本身硬件成本就很高,整个CPU集群的成本太高。

【发明内容】

[0005]本发明的目的是提供一种面向深度学习的CPU与GPU混合的集群架构系统,以实现减少资源耗能,提高深度学习处理效率,且降低成本。
[0006]为解决上述技术问题,本发明提供一种面向深度学习的CPU与GPU混合的集群架构系统,该系统包括:
[0007]中央处理器CPU集群,用于运行逻辑密集的深度学习应用;所述CPU集群包括至少1024个CPU节点,每个CPU节点包括两个CPU,所述CPU集群中每个CPU节点均与其它所有的CPU节点相连;
[0008]图像处理器GPU集群,用于运行计算密集的深度学习应用;所述GPU集群包括至少100个GPU,所述GPU集群中每个GPU节点内GPU卡数为至少2个,所述GPU集群中每个GPU节点均与其它所有的GPU节点相连;
[0009]与所述CPU集群相连的第一交换机;
[0010]与所述GPU集群相连的第二交换机;
[0011]与所述第一交换机和第二交换机相连的第三交换机;
[0012]与所述第三交换机相连的并行存储设备,用于为所述CPU集群和所述GPU集群提供共用的数据。
[0013]优选的,所述深度学习应用包括语音深度学习应用、图像深度学习应用或者文字深度学习应用。
[0014]优选的,所述CPU集群中任意两个CPU节点之间采用万兆以太网互联。
[0015]优选的,所述GPU集群中任任意两个GPU节点之间采用56Gb/s的高速网络IB互耳关。
[0016]优选的,所述并行存储设备为高宽带并行Lusre存储设备,用于支持多进程或多线程的并行读写。
[0017]优选的,所述CPU节点采用双路高主频CPU。
[0018]优选的,所述GPU节点由中央处理器CPU构成,所述GPU节点采用双路低主频CPU。
[0019]优选的,所述系统还包括调度机制模块,用于判断数据大小,根据数据大小确定应用规模;当数据小于1GB的数据时,判断数据的应用规模为属于第一级的小规模应用,将数据调度到单个GPU节点运行;当数据大于1GB且小于ITB时,判断数据的应用规模为属于第二级的中等规模应用,将数据调度到4个GPU节点运行;当数据大于ITB时,判断数据的应用规模为属于第三级的大规模应用,将数据调度到整个GPU集群运行。
[0020]本发明所提供的一种面向深度学习的CPU与GPU混合的集群架构系统,包括:中央处理器CPU集群,用于对运行逻辑密集的深度学习应用;所述CPU集群包括至少1024个CPU节点,每个CPU节点包括两个CPU,所述CPU集群中每个CPU节点均与其它所有的CPU节点相连;图像处理器GPU集群,用于运行计算密集的深度学习应用;所述GPU集群包括至少100个GPU,所述GPU集群中每个GPU节点内GPU卡数为至少2个,所述GPU集群中每个GPU节点均与其它所有的GPU节点相连;与所述CPU集群相连的第一交换机;与所述GPU集群相连的第二交换机;与所述第一交换机和第二交换机相连的第三交换机;与所述第三交换机相连的并行存储设备,用于为所述CPU集群和所述GPU集群提供共用的数据。可见,该系统采用CPU与GPU混合的集群架构,GPU集群能够运行计算密集、高度并行的深度学习应用,(PU集群能够运行逻辑密集、并行性不高的深度学习应用,则整个系统能处理不同应用特征的深度学习应用,CPU与GPU协同计算,从而加速深度学习应用处理时间,提升计算效率,提高深度学习处理效率,并且一个GPU节点的数据处理能力相当于4或5个以上CPU节点的数据处理能力,这样不采用纯CPU集群架构系统,在达到同样的数据处理能力的情况下,采用GPU与CPU结合架构系统能够节省成本,也减少系统功耗。
【附图说明】
[0021]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0022]图1为本发明提供的一种面向深度学习的CPU与GPU混合的集群架构系统的结构示意图。
【具体实施方式】
[0023]本发明的核心是提供一种面向深度学习的CPU与GPU混合的集群架构系统,以实现减少资源耗能,提高深度学习处理效率,且降低成本。
[0024]为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025]请参考图1,图1为本发明提供的一种面向深度学习的CPU与GPU混合的集群架构系统的结构示意图,该系统包括:
[0026]处理器CPU集群11,用于运行逻辑密集的深度学习应用;所述CPU集群包括至少1024个CPU节点,每个CPU节点包括两个CPU,CPU集群中每个CPU节点均与其它所有的CPU节点相连;
[0027]图像GPU集群12,用于运行计算密集的深度学习应用;GPU集群包括至少100个GPU, GPU集群中每个GPU节点内GPU卡数为至少2个,GPU集群中每个GPU节点均与其它所有的GPU节点相连;
[0028]其中,深度学习应用包括语音深度学习应用、图像深度学习应用或者文字深度学习应用。具体的,处理器CPU集群运行逻辑密集、并行性不高的深度学习应用,图像GPU集群运行计算密集、高度并行的深度学习应用。GPU集群中每个GPU节点内GPU卡数为至少2个,即每个GPU节点的GPU块数为至少2个。
[0029]其中,CPU集群中任意两个CPU节点之间采用万兆以太网互联,GPU集群中任任意两个GPU节点之间采用56Gb/s的高速网络IB互联;图中的GPU节点有64个,图中虽未具体标出GPU节点之间的互联连接线,但是实际上所有的GPU节点中,任意两个GPU节点之间都是相互连接的,每个GPU节点均与其它所有的GPU节点相连;图中的CPU节点有2000个,图中虽未具体标出CPU节点之间的互联连接线,但是实际上所有的CPU节点中,任意两个GPU节点之间都是相互连接的,每个CPU节点均与其它所有的CPU节点相连。
[0030]其中,CPU节点采用双路高主频CPU ;GPU是图像处理器,也是由处理器CPU构成,GPU节点由中央处理器CPU构成,所述GPU采用双路低主频CPU。
[0031]与处理器CPU集群11相连的第一交换机13 ;
[0032]与图像GPU集群12相连的第二交换机14 ;
[0033]其中,第一交换机与第三交换机之间采用万兆以太网连接,进行通信;第二交换机与第三交换机之间采用IB网络连接,进行通信。
[0034]与第一交换机13和第二交换机14相连的第三交换机15 ;
[0035]与第三交换机15相连的并行存储设备16,用于为CPU集群和所述GPU集群提供共用的数据。
[0036]其中,第三交换机与并行存储设备16之间采用IB网络相连。
[0037]其中,并行存储设备为高宽带并行Lusre存储设备,用于支持多进程或多线程的并行读写,使CPU集群与GPU集群共用一套存储,采用高带宽并行Lustre存储。
[0038]其中,所述系统还包括调度机制模块,用于判断数据大小,根据数据大小确定应用规模;当数据小于1GB的数据时,判断应用规模为属于第一级的小规模应用,将数据调度到单个GPU节点运行;当数据大于1GB且小于ITB时,判断数据的应用规模为属于第二级的中等规模应
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1