一种基于统计时分复用技术的多簇片上网络架构的制作方法

文档序号:7589096阅读:173来源:国知局
专利名称:一种基于统计时分复用技术的多簇片上网络架构的制作方法
技术领域
本发明涉及一种多簇片上网络架构,具体地说是一种能有效降低网络负荷、减小通信延时,进而提高系统整体性能的基于统计时分复用(Statistical Time Division Multiplex,STDM)技术的多簇片上网络(Multi-Cluster Network on chip,MCNoC)架构。
背景技术
随着半导体工艺技术的持续发展,单颗芯片上所能集成的晶体管数目越来越多, 虽然继续通过提高工艺的方法来提升系统性能的方法仍然勉强可行,但是这种做法的商业代价甚至已经超过了其所带来的商业利益,因此业界开始转而寻求新的方法以试图提升系统性能。在这种情况下,单芯片多核处理器(Multi-Processor System on Chip,MPSoC)的概念被提出并受到广泛关注。在MPSoC中,随着核数的上升,如总线等传统架构逐渐无法满足系统通信要求,因此作为一种新的通信架构,NoC概念在1999年左右被提出。其核心思想是计算单元与通信架构相互分离,而其通信部分则借鉴了计算机网络技术,并将其移植到集成电路设计中来,这样便可以从体系结构上解决片上通信的瓶颈问题。然而,当核数进一步上升时,单一层次的NoC架构也同样面临存储墙(Memory Wall)问题,此时,作为分布式存储典范的层次化MCNoC架构被提出,并成为NoC领域的热点问题之一。一般而言,MCNoC系统可分为多个层次①单个处理器核,各核配置私有存储器,即三级存储单元(Memory Level3);②由若干个核构成簇,簇内还包含二级存储单元 (Memory Level2),用于核间数据交互;③若干簇以某种拓扑架构互连,从而构成整个系统, 并配有一级存储单元(Memory Levell),其总体架构如图1所示。由图1可见,在MCNoC中包含三种存储层次,因此各处理器可以分别在不同层次上同时进行访存,增强了系统对存储单元的并发访问能力,因而可以显著提高系统性能。然而,当簇间发生数据交互时,由于该交互过程跨越多个存储单元层次,故其时间开销非常大,成为系统访存瓶颈问题所在。同时,簇内通常采用总线架构,而簇间往往是网络架构,由于这两者之间的天然差别,簇间通信效率将变得格外低下。传统总线通常采用时分复用(Time Division Multiplexing,TDM)技术,即总线上的各主设备(Master)以基于时间片的方式依次使用总线,每一时间片内只有一个主设备拥有总线使用权。某主设备获得总线使用权时,其他主设备均处于等待状态,如图2中基于 TDM技术的总线所示。由图2可见,当主设备1 (Masterl)获得总线使用权后,其他所有Master均处于等待状态,直到Masterl释放总线后,才可以申请使用。因此当MCNoC簇内各Master需要访问远端(不挂接于本总线)从设备(如MCNoC中的Memory Levell)时,其消耗的时间t将显著增加,对于需要从远端返回数据包的读操作而言更是如此。而在此期间,其他各Master 将只能耗费大量时间等待总线使用权,这显然会极大影响系统整体性能。分析可知,时间开销t可分为三段,即①源端传输层处理时间tl ;②网络层传输时间t2 ;③目的端传输层处理时间t3。其中,t2在总时间中所占比例最大,且随着网络尺寸的增加而增加。

发明内容
为了有效降低网络负荷,减小通信延时,进而从整体上提升NoC系统性能,本发明的目的是提供一种基于统计时分复用(Statistical Time Division Multiplex, STDM)技术的多簇片上网络(Multi-Cluster Network on chip,MCNoC)架构。该架构中,在簇内采用基于STDM技术的总线结构,在总线上增设STDM控制单元;同时增设具有等待机制的网络接口,并针对STDM技术特点,采用一种新的数据包格式。本发明能减少簇内和簇间通信的差异、降低网络负荷、减小通信延时,进而提高片上网络系统整体性能。本发明的目的是通过以下技术方案来实现的
一种基于统计时分复用技术的多簇片上网络架构,其特征在于该架构在簇内采用基于统计时分复用技术的总线结构;在总线上设有主设备、从设备、总线部件及统计时分复用控制单元;统计时分复用控制单元与主设备、从设备及总线部件连接;其中,从设备包括存储器及具有等待机制的网络接口 ;总线部件包括仲裁器、解码器以及多路选择器;统计时分复用控制单元统筹控制总线上主设备、从设备来实现统计时分复用机制;具有等待机制的网络接口接收总线上主设备发起的数据传输请求,并在满足触发条件情况下触发传输。针对STDM技术特点,本发明提出一种新的数据包格式。本发明采用的数据包格式为,利用记录在案的多次申请之间的相关性,以第一个记录在案的申请对应的地址为基地址,后续申请对应的地址信息在数据包中仅体现为其与基地址之间的偏移量。本发明中,具有等待机制的网络接口接收总线上主设备发起的数据传输请求,除非满足触发条件,否则将当前请求记录在案,并进入等待状态,直到等待超时后自行触发传输过程。触发条件是指新发起的数据传输请求和原先记录在案的请求之间相关度低或者原先记录在案的请求已达到记录上限。新发起的传输请求和原先记录在案的请求之间的相关度低是指两者请求的网络地址不一致,或者其绝对地址的差值大于某可配置的阈值。本发明在簇内采用基于STDM技术的总线结构,除通常的解码(Decoder)、仲裁 (Arbiter)等模块外,增设STDM控制单元,统筹管理总线上集成的各主、从设备,实现STDM 机制,减小总线与网络之间的通讯差异。同时,针对STDM技术的特点,设计了具有等待机制的网络接口(Network Interface),以使得STDM机制的触发条件更加容易满足。在此基础上,本发明还提出了一种新的数据包格式,以充分利用簇内各核相关性,进一步降低网络负荷,改善系统通讯能力,进而从整体上提升NoC系统性能。与现有技术相比,本发明能有效降低网络负荷、减小通信延时,进而在很大程度上改善NoC系统整体性能。本发明对改善片上网络整体通讯性能有着积极良好的应用价值。。


图1是MCNoC整体架构示意图; 图2是两种机制的总线访问示意图3是基于STDM技术的MCNoC簇内架构意图; 图4是基于STDM技术的总线访问机制示意图; 图5(a)是包体格式中原始的STDM帧格式示意图; 图5(b)是包体格式中改进后的STDM帧格式示意4图6是总线宽度为32位时包格式示意图; 图7是系统级模型整体架构示意图; 图8是簇内各Master内部架构示意图; 图9是基于STDM技术的簇对网络负荷的影响示意图10(a)是曼哈顿距离变动(簇内核数固定为6)情况下基于STDM技术的簇对执行时间的影响示意图10(b)是簇内处理器核数变动(曼哈顿距离固定为6)情况下基于STDM技术的簇对执行时间的影响示意图11是本发明及单核技术与传统MCNoC方案加速比对照示意图。
具体实施例方式一种本发明所在地述的基于统计时分复用技术的多簇片上网络架构,该架构在簇内采用基于统计时分复用技术的总线结构;总线上除了设有主设备、从设备及总线部件外, 还设有与上述各设备及各部件连接的统计时分复用控制单元;其中,从设备具体包括存储器及具有等待机制的网络接口 ;总线部件包括仲裁器、解码器以及多路选择器;统计时分复用控制单元统筹控制总线上主设备、从设备来实现统计时分复用机制;具有等待机制的网络接口接收总线上主设备发起的数据传输请求,并在满足触发条件情况下触发传输。针对STDM技术特点,本发明采用的数据包格式为利用记录在案的多次申请之间的相关性,以第一个记录在案的申请对应的地址为基地址,后续申请对应的地址信息在数据包中仅体现为其与基地址之间的偏移量。具有等待机制的网络接口接收总线上主设备发起的数据传输请求,除非满足触发条件,否则将当前请求记录在案,并进入等待状态,直到等待超时后自行触发传输过程。触发条件是指新发起的数据传输请求和原先记录在案的请求之间相关度低或者原先记录在案的请求已达到记录上限。新发起的传输请求和原先记录在案的请求之间的相关度低是指两者请求的网络地址不一致,或者其绝对地址的差值大于某可配置的阈值。一般而言,簇内各核任务之间有较高的相关度,因此其所需要访问的数据在存储空间上往往具有一定相关性,体现为①访存对象的网络地址一致;②地址之间的偏移小于某设定阈值。一方面,如果充分利用这种相关性,则可以使各Master的访存需求被打包在同一网络包内完成,以此分摊t2的开销。另一方面,考虑到STDM技术中以帧为基本单位这一特点,可以将多个Master访问相同网络地址的任务放置到同一帧内,交由网络接口接 (Network Interface,NI)进行统一打包、传送处理。这样,各Master访存开销t中的t2部分可以共用,而tl和t3部分则分别变为tl’(tl’>tl)和t3’ (t3,H3)。然而,如前所述, t2是t中比重最大的,因此总体时间仍然可以得到有效降低。其具体访问过程如图2中基于STDM技术的总线所示。在实际传输过程中,簇内各核在同一时间点(在数字电路中表现为同一时间周期) 发起访问总线请求的概率不高。针对这一问题,本发明引入等待机制,使得即便多个Master 申请访问总线的时间稍有先后,只要其间隔小于等待时间上限,仍可视其为同时发生请求, 放到同一 STDM帧内处理,从而提高STDM帧形成概率,使系统实用性更强。具体而言,基于STDM技术的MCNoC簇体系结构示意图如图3所示(WHfMaster为例)。由图3可以看出,该架构与传统总线的区别主要在于将传统总线中从设备反馈信号里的部分逻辑分离出来,交由STDM控制单元(STDM Controller)处理,而其他部分则保持不变。其中,STDM Controller和所有涉及到STDM帧处理的单元进行控制交互,尤其是增加了 NI和Controller之间特殊控制信号的交互,以解决上文所述的Master申请访问总线时间稍有先后的问题。本发明中,由STDM Controller和NI两个模块一起构成基于STDM技术的访问机制,并引入了等待计时因素,实现方法如图4所示。当某个Master申请使用总线时,首先对其进行判断,如果该申请和已经记录在案的申请具有相关性,则可以放在同一 STDM帧内处理。同时,STDM Controller将记录下申请号,由NI进入等待计时状态(OT内部包含一个计时器)。如果等待计时t超过了允许上限 t_max,则处理所有已记录的Master申请,并对总线进行锁定,其他Master在处理过程完成之前均无法使用总线。反之,如果在等待时间内有新的Master进行总线申请,则重复上述过程。除了等待时间有上限t_max以外,STDM Controller中所能记录下的Master申请个数也设置了上限(n_maX),如果记录的申请个数达到这一限制,同样会跳出等待状态,进入对申请的处理及锁定总线过程。为了进一步降低网络负荷,提高传输效率,充分利用STDM帧技术特点,设计了一种新的网络包格式。一般情况下,网络包由包头、包体和包尾三部分组成。①包头包含必要的路由和网络控制信息;②包体传输的主体部分,其主要内容为STDM帧,通常由控制信息和有效数据两部分组成;③包尾指示包的结束。由于需要传输的数据往往配有相应的地址信息,因此如果不做任何调整,其在 STDM帧中的格式如图5-a所示。其中虚线框部分表示地址信息,实线框部分表示与该地址相应的数据信息。而在本发明中,对帧格式进行了改进,如图5-b所示。帧中主要包含① 传输起始数据对应的地址信息;②后续数据只传递其与起始地址之间的偏移关系;③有效数据。以数据宽度为32位的总线为例,本发明实际所设计的包格式如图6所示。其中, 数据包由若干flit组成,每个flit为35位。其中,
①包头(header)中R_addr为目的节点路由信息,LS_addr为初始地址;
②包体(body)中payIoadl用于记录后续地址和初始地址之间的偏移关系,payload2 为有效数据;
③包尾(tail)中payl0ad3包含本地子系统的路由信息,用以读操作时的包返回。H_flag用来区分当前flit是包头、包体还是包尾,0_flag用来区分读/写操作。 实施例1
为验证本发明,搭建了一款基于SystemC语言的周期精确系统级仿真模型。该模型采用如图7所示的二维网格架构。其中,网络尺寸可参数化配置,本地子系统分为两类,即图3 所示的基于STDM技术的运算簇和由Memory Levell构成的存储簇,且运算簇内Master的数目也可参数化配置。本模型中各Master的结构如图8所示。本实验中,STDM Controller中所能记录的Master申请个数上限(n_max)设置为 4,等待时间上限设置为30个时钟周期。本实施例中主要关注本发明对网络负荷与执行时间的影响。(1)网络负荷
如图9所示,其中横坐标表示连续传输的相关数据个数,纵坐标表示本发明和传统方案网络负荷的比值。由图可见,本发明可以大幅提高信息密度,降低网络负荷,且由于读操作涉及返回数据包,因此改善效果尤为明显。另外,由图9不难看出,在连续传输个数为4 的倍数时,曲线均出现拐点,主要因为实验环境中将njiiax设为4的缘故。(2)执行时间
在此仅以读操作为例,且每个Master均连续读600次。除本发明自身参数配置以外,实验环境也会对结果造成影响。因为传输过程涉及到全局和簇内两部分,所以主要影响分为全局网络影响和簇内影响。关于全局网络影响,可能影响到实验结果的因素包括网络繁忙程度,路由算法选择,传输距离远近等,本实施例中选取传输距离远近,即曼哈顿距离(hop数)变化来表征(此时簇内核数固定为6)其影响,实验结果如图10-a所示。由图可见,本发明对执行时间有明显改善,最佳状况下其执行时间可降到传统方案的36.7%。同时,随着曼哈顿距离的上升,本发明的改善效果也随之上升。这是因为曼哈顿距离越长,t2在t中所占比例越大,而本发明的主要作用即多个Master分摊这一开销。关于簇内影响,可能影响到实验结果的因素包括访问频率,处理器核个数,数据相关程度等。本实施例中以处理器核数变化为例(曼哈顿距离固定为6)表征其影响,实验结果如图10-b所示。由图可见,当簇内集成核数达到3时,本发明开始体现优势,随着核数上升,改善效果增强并趋于稳定,即约为传统方案执行时间的40%。该实验结果符合实际应用需求,也就是簇内集成处理器核数通常不少于2。
实施例2
为进一步从实用性角度验证本发明,以实际应用中广泛涉及的矩阵运算为例,说明本发明的优势。基于STDM技术的MCNoC主要针对簇内各核访问网络上Memory Levell的性能进行优化,因此更加适用于通信密集型应用。本文采用单核,传统MCNoC (簇内集成6核)以及基于STDM技术MCNoC (簇内集成6核),分别对两个大小为M阶的矩阵进行求和运算。两个初始矩阵均存放在相距运算簇曼哈顿距离为6的Memory Levell内,簇内各核采用循环分行法读取矩阵中相应行进行运算,以实现算法并行化。加速比定义为单核执行时间/多核执行时间,程序最终运行结果如图11所示。 由图11可知,在传统架构下,对于通信密集型应用,各核只能依次通过总线访问网络,因此效率很低,虽然簇内集成了 6核,加速比却仅为1.71。而采用基于STDM技术的簇架构,其加速比提高为3.四,对于提高算法性能有极其显著的作用。本发明可以有效降低网络负荷,减小簇间通信延时,缓解访存压力,对改善片上网络整体通讯性能有着积极良好的应用价值。
权利要求
1.一种基于统计时分复用技术的多簇片上网络架构,其特征在于该架构在簇内采用基于统计时分复用技术的总线结构;在总线上设有主设备、从设备、总线部件及统计时分复用控制单元;统计时分复用控制单元与主设备、从设备及总线部件连接;其中,从设备包括存储器及具有等待机制的网络接口 ;总线部件包括仲裁器、解码器以及多路选择器;统计时分复用控制单元统筹控制总线上主设备、从设备来实现统计时分复用机制;具有等待机制的网络接口接收总线上主设备发起的数据传输请求,并在满足触发条件情况下触发传输。
2.根据权利要求1所述的基于统计时分复用技术的多簇片上网络架构,其特征在于 该架构采用的数据包格式为,利用记录在案的多次申请之间的相关性,以第一个记录在案的申请对应的地址为基地址,后续申请对应的地址信息在数据包中仅体现为其与基地址之间的偏移量。
3.根据权利要求1所述的基于统计时分复用技术的多簇片上网络架构,其特征在于 具有等待机制的网络接口接收总线上主设备发起的数据传输请求,除非满足触发条件,否则将当前请求记录在案,并进入等待状态,直到等待超时后自行触发传输过程。
4.根据权利要求3所述的基于统计时分复用技术的多簇片上网络架构,其特征在于 触发条件是指新发起的数据传输请求和原先记录在案的请求之间相关度低或者原先记录在案的请求已达到记录上限。
5.根据权利要求4所述的基于统计时分复用技术的多簇片上网络架构,其特征在于 新发起的传输请求和原先记录在案的请求之间的相关度低是指两者请求的网络地址不一致,或者其绝对地址的差值大于某可配置的阈值。
全文摘要
本发明公开了一种基于统计时分复用技术的多簇片上网络架构,该架构在簇内采用基于统计时分复用技术的总线结构;在总线上设有主设备、从设备、总线部件及统计时分复用控制单元;统计时分复用控制单元与主设备、从设备及总线部件连接;其中,从设备包括存储器及具有等待机制的网络接口;总线部件包括仲裁器、解码器以及多路选择器;统计时分复用控制单元统筹控制总线上主设备、从设备来实现统计时分复用机制;具有等待机制的网络接口接收总线上主设备发起的数据传输请求,并在满足触发条件情况下触发传输。本发明可以有效降低网络负荷、减小通信延时,进而提高片上网络系统整体性能,因此有着良好的实用价值和广泛的应用前景。
文档编号H04L12/40GK102158380SQ20111004162
公开日2011年8月17日 申请日期2011年2月21日 优先权日2011年2月21日
发明者何书专, 张宇昂, 李丽, 李伟, 沙金, 潘红兵, 王佳文 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1