处理设备及其控制方法

文档序号:10661353阅读:198来源:国知局
处理设备及其控制方法
【专利摘要】提供了处理设备及其控制方法。提供在处理单元之间传输数据的多个传输模块(402?0到402?M),以便分别对应于多个处理单元(401?0到401?M)。对于处理单元(401?0到401?M)中的每一个,第一环形总线(403?0到403?M)连接对应的处理单元内的子单元和对应于该处理单元的传输模块,以便对应的处理单元内的子单元和对应于该处理单元的传输模块形成环形形状。多个传输模块(402?0到402?M)被连接,以便多个传输模块(402?0到402?M)通过第二环形总线(404)来形成环形形状。
【专利说明】处理设备及其控制方法
[0001]对相关申请的交叉引用
[0002]本申请是基于2015年3月25日提交的日本专利申请第2015-062272号,并且要求该日本专利申请第2015-062272号的优先权,其公开的全部内容通过引用的方式合并于此。
【背景技术】
[0003]本发明涉及处理设备,并且可以适用于例如包括多个处理单元的处理设备。
[0004]用于提高处理设备的处理性能的技术之一是并行处理。当在处理设备中实现并行处理时,例如,提供能够并行处理的多个处理单元(例如,参见日本未经审查的专利申请公开第2008-42571号和第H05-181817号)。下面将描述日本未经审查的专利申请公开第2008-42571号和第H05-181817号中所公开的技术。
[0005]首先,将参考图14描述日本未经审查的专利申请公开第2008-42571号中所公开的技术。图14是示出了运动图像处理设备的块配置示例的图,该块配置示例对应于日本未经审查的专利申请公开第2008-42571号的图1中所示出的配置。图14中所示出的运动图像处理设备包括两个运动图像处理单元,即,Codec_EL_0 601-0和Codec_EL_l 601-10Codec_EL_0 601-0和Codec_EL_l 601-1中的每一个包括多个功能子单元。图14中所示出的配置包括可变长度编码单元(VLC)6010、频率转换单元(TRF)6011以及运动补偿单元(MC)6012作为功能子单元。Codec_EL_0 601-0和Codec_EL_l 601-1中的每一个还包括多个输入/输出接口(10:输入/输出)605,这些接口分别连接到多个功能子单元。Codec_EL_0 601-0和Codec_EL_1 601-1被连接为,以便Codec_EL_0 601-0和Codec_EL_l 601-1通过经由输入/输出接口605的环形总线来形成环形形状。位于Codec_EL_0 601-0的尾端的输入/输出接口605连接到位于Code c_EL_l 601 -1的前端的输入/输出接口 605。图14中所示出的运动图像处理设备还包括LM(线存储器)602、DMAC(直接存储器存取控制器)603以及Mem_Cnt 6040DMAC 603是向Codec_EL_0 601-0和Codec_EL_l 601-1传输比特流的直接存储器存取控制器。Mem_Cnt 604是向Codec_EL_0 601_(^PCodec_EL_l 601-1 提供宏块(MB)数据的控制器。例如,LM602是存储CodeC_EL_0 601-0的处理结果的线存储器。
[0006]接下来,将参考图15描述日本未经审查的专利申请公开第H05-181817号中所公开的技术。图15是示出了并行处理设备的块配置示例的图,该块配置示例对应于日本未经审查的专利申请公开第H05-181817号的图2中所示出的配置。图15中所示出的并行处理设备包括多层,每一层包括流水线化的环形总线701,该流水线化的环形总线701连接多个处理元件(PE)700,以便多个处理元件(PE)700形成环形形状。图15中所示出的并行处理设备还包括数据包控制装置703,该数据包控制装置703与每一层的第一行中的PE 700传送数据包。每一层的第二到第四行中的PE 700经由环形总线702,按顺序连接到紧挨着对应的层下面的层中的PE 700,并且具有将对应的层上面的层中的每一个PE 700的输出取回(retrieve)到对应的层的流水线化的环形总线701的功能。层以此方式按顺序连接,由此允许数据包从某个流水线化的环形总线701流动到另一个流水线化的环形总线701,而不会涉及到数据包控制装置703。结果,可以减少数据包控制装置703上的负载。当某个层的第一行中的PE 700的队列被拥塞时,有可能使得数据包从另一个层流出。例如,在使得数据包流向PE(3,4)的情况下,数据包控制装置703可以使得数据包在如由粗箭头所指示的路径(S卩,穿过PE(3,1)、PE(3,2)、PE(3,3)以及PE(3,4)的路径)中流动。当PE(3,1)的队列被拥塞时,数据包控制装置703可以使得数据包在如由粗箭头所指示的路径(g卩,穿过PE(l,l)、PE(l,2)、PE(2,2)、PE(2,3)、PE(3,3)以及PE(3,4)的路径)中流动。

【发明内容】

[0007]然而,日本未经审查的专利申请公开第2008-42571号和第H05-181817号中所公开的技术具有下列问题。
[0008]首先,将参考图14描述日本未经审查的专利申请公开第2008-42571号中公开的技术所具有的问题。在图14中所示出的运动图像处理设备中,Codec_EL_0 601-0和Codec_EL_I 601-1被连接为,以便Codec_EL_0 601-0和Codec_EL_l 601-1通过环形总线形成环形形状。相应地,例如,当Codec_EL_0 601-0内的功能子单元跨过Codec_EL_l 601-1向Codec_EL_0 601 -O内的不同的功能子单元传输数据时,存在传输路径的长度增大的问题。例如,将考虑Codec_EL_0 601-0内的TRF 6011向Codec_EL_0 601-0内的VLC 6010传输数据的情况。在此情况下,数据需要穿过CodeC_EL_l 601-1和LM 602,导致传输路径的长度增大。在此情况下,Codec_EL_0 601-0的数据流向Codec_EL_l 601-1。因此,存在Codec_EL_l 601-1 的总线通信量由于其他Codec_EL_0 601-0的数据而增大的问题。
[0009]接下来,将参考图15描述日本未经审查的专利申请公开第H05-181817号中公开的技术所具有的问题。图15中所示出的并行处理设备包括多层,每一层包括流水线化的环形总线701,该流水线化的环形总线701连接多个PE 700,以便多个PE 700形成环形形状。通过提供多层,每一层包括流水线化的环形总线701,可以解决环形总线的传输路径的长度增大的问题,该问题是日本未经审查的专利申请公开第2008-42571号中公开的技术所具有的问题。然而,使得不是被发往对应的层的PE 700的数据包流过流水线化的环形总线701。因此,由于其他层中的数据包而导致的总线通信量的增大的问题仍未被解决,该问题是日本未经审查的专利申请公开第2008-42571号中公开的技术所具有的问题。
[0010]在下文中,将描述对解决包括上文所提及的问题的多个问题中的至少一个问题有贡献的多个实施例。应该注意的是,上文所提及的问题只是要通过本文中所公开的实施例来解决的多个问题的示例。通过下面的说明书和附图,要通过本发明解决的其他问题和本发明的新颖的特征将变得清楚。
[0011]本发明的第一方面是包括多个传输模块的处理设备,所述多个传输模块被设置为分别对应于多个处理单元,并且在处理单元之间传输数据。对于多个处理单元中的每一个,对应的处理单元内的子单元以及对应于该处理单元的传输模块被连接为,以便对应的处理单元内的子单元以及对应于该处理单元的传输模块通过第一环形总线来形成环形形状。另夕卜,所述多个传输模块被连接为,以便所述多个传输模块通过第二环形总线来形成环形形状。
[0012]本发明的第一方面对解决上文所提及的问题有贡献。
【附图说明】
[0013]根据下面的结合各个附图对某些实施例进行的描述,本发明的以上方面和其他方面、优点和特征将变得更清楚,其中:
[0014]图1是示出了根据第一实施例的运动图像编码/解码设备的块配置示例的图;
[0015]图2是示出了根据第一实施例的运动图像编码/解码设备中的并行处理的示例的图;
[0016]图3是示出了根据第一实施例的运动图像处理单元内的功能子单元的示例的图;
[0017]图4是示出了在相关技术中当在运动图像处理单元内的功能子单元之间传输数据时传输路径的示例的图;
[0018]图5是示出了在第一实施例中当在运动图像处理单元内的功能子单元之间传输数据时传输路径的示例的图;
[0019]图6是示出了在第一实施例中当在不同的运动图像处理单元内的功能子单元之间传输数据时传输路径的示例的图;
[0020]图7是示出了根据第一实施例的运动图像编码/解码设备的块配置示例的图;
[0021]图8是示出了根据第二实施例的运动图像编码/解码设备的块配置示例的图;
[0022]图9是示出了根据第二实施例的运动图像编码/解码设备的修改的示例的块配置示例的图;
[0023]图10是示出了根据第二实施例的运动图像编码/解码设备的修改的示例中的故障检测处理的示例的图;
[0024]图11是示出了根据第二实施例的运动图像编码/解码设备的修改的示例中的故障检测处理的另一示例的图;
[0025]图12是示出了根据第三实施例的内核处理器的块配置示例的图;
[0026]图13是示出了根据第一到第三实施例的处理设备的块配置示例的示意图;
[0027]图14是示出了运动图像处理设备的块配置示例的图,该块配置示例对应于日本未经审查的专利申请公开第2008-42571号中公开的配置;以及
[0028]图15是示出了并行处理设备的块配置示例的图,该块配置示例对应于日本未经审查的专利申请公开第H05-181817号中公开的配置。
【具体实施方式】
[0029]下面将参考附图来描述本发明的具体实施例。为了说明的清楚起见,根据情况省略或简化下面的描述和附图。附图中图示的作为用于执行各种处理的功能块的元件可以通过CPU、存储器和其他电路等硬件来实现,以及可以通过加载到存储器等中的程序等软件来实现。因此,本领域的技术人员可以理解,这些功能块可以以各种形式来实现,包括但不仅限于,仅硬件、仅软件、以及硬件和软件的组合。注意,在附图中,相同元件通过相同附图标记来表示,以及根据需要而省略重复的描述。
[0030](I)第一实施例
[0031](1-1)第一实施例的配置
[0032]第一实施例示出了其中运动图像编码/解码设备被用作处理设备的示例。该运动图像编码/解码设备包括多个运动图像处理单元,每一运动图像处理单元充当处理单元。
[0033]图1是示出了根据第一实施例的运动图像编码/解码设备的块配置示例的图。根据第一实施例的运动图像编码/解码设备包括两个运动图像处理单元,即,CodeC_EL_0 101-0和CodeC_EL_l 101-1。运动图像处理单元的数量不限于如图1中所示的两个。可以提供任意数量的运动图像处理单元,只要提供多个运动图像处理单元即可。
[0034]图2是示出了根据第一实施例的运动图像编码/解码设备中的并行处理的示例的图。例如,根据第一实施例的运动图像编码/解码设备对编码目标图像200执行编码处理和解码处理,如图2中所示。在该情况下,编码目标图像200被划分成X(X是等于或大于I的自然数)+1个并行处理区域O到X,而Codec_EL_0 101_0和Codec_EL_l 101-1并行地处理并行处理区域O到X。例如,CodeC_EL_0 101-0可以按顺序处理偶数编号的并行处理区域,诸如第O个并行处理区域O和第二并行处理区域2。另一方面,CodeC_EL_l 101-1可以按顺序处理奇数编号的并行处理区域,诸如第一并行处理区域I和第三并行处理区域3。参考图2,对于编码树块(CTB)201的每一行,编码目标图像被划分成并行处理区域,假设使用诸如H.265之类的标准。然而,可以使用任何方法以便将编码目标图像划分为并行处理区域。例如,在诸如H.264之类的标准中,对于微块(MB)的每一行,编码目标图像可以被划分成并行处理区域。另外,在并行处理区域O到X中的每一个中,沿着处理方向202,对于每一个TB 201,执行编码处理和解码处理。
[0035]图3是示出了 Codec_EL_0 101-0内的功能子单元的示例的图。Codec_EL_0 101-0包括多个功能子单元,如图3所示。在图3的示例中,与图14的情况相同,提供了可变长度编码单元(VLC) 1010、运动补偿单元(MC) 1013以及频率转换单元(TRF)1H作为功能子单元。在图3的示例中,还提供了整数像素准确度运动估计单元(CME:粗运动估计)1011、部分像素准确度运动估计单元(FME:细运动估计)1012以及去块滤波器处理单元(DEB:去块)1015作为功能子单元。Codec_EL_0 101-0还包括分别连接到多个功能子单元的多个输入/输出接口(1) 113。多个输入/输出接口 113被连接为,以便多个输入/输出接口 113通过第一环形总线111-0来形成环形形状。CodeC_EL_l 101-1具有与图3中示出的配置相同的配置。
[0036I 再次参考图1,根据第一实施例的运动图像编码/解码设备还包括为Codec_EL_0
101-0 提供的 Ctrl_0 103-0、Mem_Cnt_0 102_0、LMC(线存储器控制器)105 以及 DMAC_0 104-0。根据第一实施例的运动图像编码/解码设备还包括为CodeC_EL_l 101-1提供的Ctrl_l103-1、Mem_Cnt_l 102-1、LCB(线控制块)106以及DMAC_1 104-1。根据第一实施例的运动图像编码/解码设备还包括线存储器107、Ctrl_Cmn 108、主控总线109以及总线110。
[0037]Mem_Cnt_0 102_0是控制从和向运动图像存储器(未示出)读取和写入运动图像数据的控制器,该运动图像存储器存储要提供给CodeC_EL_0 101-0的运动图像数据。Mem_Cntj 102-1是控制从和向运动图像存储器(未示出)读取和写入运动图像数据的控制器,该运动图像存储器存储要提供给CodeC_EL_l 101-1的运动图像数据。例如,线存储器107是存储Codec_EL_0 101-0和Codec_EL_l 101-1的处理结果并且由RAM(随机存取存储器)等等构成的线存储器。例如,LMC 105是从和向线存储器107读取和写入控制处理结果的模块。例如,LMC 105将Codec_EL_0 101-0的处理结果写入到线存储器107。另外,LMC 105从LCB 106接收Codec_ELj 101-1的处理结果,并且将接收到的处理结果写入到线存储器107IMC105从线存储器107读取出CodeC_EL_0 101-0的处理结果,并且将读取的处理结果传输到LCB 106。另外,LMC 105从线存储器107读取出Codec_EL_l 101-1的处理结果,并且将读取的处理结果传输到Codec_EL_0 1l-Ot3LCBlOe是将Codec_EL_l 101-1的数据传输到Codec_EL_0 101-0的LMC105的模块。例如,LCB 106将Codec_EL_l 101-1的处理结果传输到LMC105。另外,LCB 106从LMC 105接收Codec_EL_0 101-0的处理结果,并且将接收到的处理结果传输到 Codec_EL_l 101-1 oDMAC_0 104_0是充当用于将1^111_(:1^_0 102-0、Codec_EL_0
101-0等等连接到主控总线109的总线IF的控制器。DMAC_1104-1是充当用于将Mem_Cnt_l
102-1、Codec_EL_l101-1等等连接到主控总线119的总线IF的控制器。Ctrl_0 103-0是控制Codec_EL_0 101_0、Mem_Cnt_0 102-0^LMC 105、DMAC_0 104-0等等的操作的控制器。TheCtrl_l 103-1 是控制Codec_EL_l 101-1、Mem_Cnt_l 102-1、LCB 106、DMAC_1 104-1 等等的操作的控制器。Ctrl_Cmn 108是控制Codec_EL_0 101-0和Codec_EL_l 101-1的全部的控制器。主控总线109是用于将DMAC_0 104-0和DMAC_1 104-1彼此连接的总线。总线110是用于设置Ctrl_0 103-0和Ctrl_l 103-1中的每一个中的寄存器的总线。主控总线109和总线110可以是同一个总线。图1示出了 DMAC_0 104-0和DMAC_1 104-1各自连接到主控总线109,但是DMAC_0 104-0和0祖(:_1 104-1可以连接到不同的总线。
[0038]在第一实施例的运动图像编码/解码设备中,Ctrl_0 103-0、Mem_Cnt_0 102-0、Codec_EL_0 101-0内的功能子单元、LMC 105以及DMAC_0 104-0被连接为,以便Ctrl_0
103-0、Mem_Cnt_0102-0、Codec_EL_0 101-0 内的功能子单元、LMC 105 以及 DMAC_0 104-0通过第一环形总线111-0来形成环形形状。类似地,Ctrl_l 103-1、Mem_Cnt_l 102-1、Codec_EL_l 101-1内的功能子单元、LCB 106以及DMAC_1 104-1被连接为,以便Ctrl_l103-1、Mem_Cnt_l 102-1、Codec_EL_l 101-1 内的功能子单元、LCB 106 以及 DMAC_1 104-1通过第一环形总线111-1来形成环形形状。第一环形总线111-0和111-1是由具有相对的传输方向的两个顺时针和逆时针环形总线构成的双向环形总线。LCB 106和LMC 1 5被连接为,以便LCB 106和LMC 105通过不同于第一环形总线111-0和111-1的第二环形总线112来形成环形形状。
[0039]第一实施例示出了其中Codec_EL_0 101-0和Codec_EL_l 101-1中的每一个包括多个功能子单元的示例。然而,不需要使用这样的分层结构。功能子单元不限于图3中示出的那些。对功能子单元的数量和类型没有特别限制,只要它们可以实现用于对运动图像执行编码处理和解码处理的功能即可。Ctrl_m(m = 0 ,1) 103-m、Mem_Cnt_ml02-m、Codec_EL_m101-m内的子单元、LMC 105(或LCB 106)以及DMAC_m 104_m可以以与第一实施例的顺序不同的顺序连接,并且可以由不同的模块组成,只要它们可以实现用于对运动图像执行编码处理和解码处理的功能即可。
[0040]d-2)第一实施例的操作
[0041]将与相关技术的运动图像编码/解码设备中的传输路径相比较地描述根据第一实施例的运动图像编码/解码设备中的传输路径。
[0042]图4是示出了当在相关技术的运动图像编码/解码设备中的同一Codec_EL内的功能子单元之间传输数据时传输路径的示例的图。图4中示出的相关技术的运动图像编码/解码设备与第一实施例的运动图像编码/解码设备的不同之处在于,CodeC_EL_0 101-0和Codec_EL_l 101-1 被连接为,以便 Codec_EL_0 101-0 和 Codec_EL_l 101-1 通过与日本未经审查的专利申请公开第2008-42571号中所公开的技术中相同的环形总线来形成环形形状。参考图4,Codec_EL_l 101-1包括从第O个Sub_Unit_10 1016到第N(N是等于或大于I的自然数)Sub_Unit_lN 1017的N+1个功能子单元。例如,现在将考虑从Codec_EL_l 101-1内的Sub_Unit_lN 1017 到 Codec_EL_l 101-1 内的 Sub_Unit_10 1016 传输数据的情况。在相关技术中,Codec_EL_0 101-0 和 Codec_EL_l 101-1 被连接为,以便 Codec_EL_0 101-0 和 Codec_EL_1 101-1通过相同环形总线来形成环形形状。因此,数据经由传输路径Pl被传输到Sub_Unit_10 1016,该传输路径 Pl 穿过 LCB 106、DMAC_1 104_l、Ctrl_0 103-0、Mem_Cnt_0 102-0、Codec_EL_0 101-0 内的功能子单元、LMC 105、DMAC_0 104_0、Ctrl_l 103-1 以及 Mem_Cnt_l 102-1。如此,通过非常长的路径来传输数据。另外,由于作为另一个运动图像处理单元的 Codec_EL_l 101-1 的数据流过 Ctrl_0 103-0、Mem_Cnt_0 102-0、Codec_EL_0 101-0、LMC 105以及0祖(:_0 104-0,因此总线通信量增大。
[0043]图5和图6是示出了根据第一实施例的运动图像编码/解码设备中的传输路径的示例的图。在第一实施例中,第一环形总线111-0和111-1中的每一个是具有两个顺时针和逆时针环形总线的双向环形总线。可以使用各种方法来使用双向环形总线。在第一实施例中,假设当CodeC_EL内的功能子单元通过使用第一环形总线来传输数据时,使用顺时针环形总线,而当LMC 105或LCB 106通过使用第一环形总线来传输经由第二环形总线112接收到的数据时,使用逆时针环形总线。
[0044]图5是示出了当在相同CodeC_EL内的功能子单元之间传输数据时传输路径的示例的图。如在上文所描述的情况下,将考虑从Codec_ELj 101-1内的SubJJnit jN 1017到Codec_EL_l 101-1内的Sub_Unit_10 1016传输数据的情况。在第一实施例中,Codec_EL_l101-1内的功能子单元被连接为,以便Codec_EL_l 101-1内的功能子单元通过与Codec_EL_
0101-0分开地提供的第一环形总线111来形成环形形状。Sub_Unit_lN 1017通过使用第一环形总线111-1的顺时针总线来传输数据。因此,数据经由传输路径P2传输到Sub_Unit_101016,该传输路径 P2 穿过 LCB 106、DMAC_1 104-1、Ctrl_l 103-1 以及 Mem_Cnt_l 102-1。如此,与相关技术的传输路径相比,该传输路径可以缩短。另外,CodeC_EL_l 101-1的数据不会流向Codec_EL_0 101-0,这会防止由于Codec_ELj 101-1的数据导致的Codec_EL_0101-0中的总线通信量的增大。
[0045]图6是示出了当在不同的CodeC_EL内的功能子单元之间传输数据时传输路径的示例的图。例如,当对图2中示出的编码目标图像200执行运动图像编码或解码处理时,在某些情况下,在对下部并行处理区域的处理中参考对上部并行处理区域的处理结果。结果,发生跨越Codec_EL_l 101-1和Codec_EL_0 101-0的数据传输。这样的数据传输的一个示例是在线存储器107中的数据传输。因此,不可能仅仅通过分别经过第一环形总线111-0和111-1连接 Codec_EL_l 101_GPCodec_EL_0 101-0,在 Codec_EL_l 101_GPCodec_EL_0 101-0 之间传输数据。因此,LCB 106和LMC 105通过第二环形总线112来连接。这使得能够在Codec_EL_
1101-1和Codec_EL_0 101-0之间进行数据传输。现在将考虑如图6所示的从Codec_EL_l101-1 内的 Sub_Unit_lN 1017 到 Codec_EL_0 101-0 内的 Sub_Uni t_0N 1018 传输数据的情况。在该情况下,数据经由传输路径P3传输到Sub_Uni t_0N1018,该传输路径P3穿过LCB 106和LMC 105。经由第二环形总线112的数据传输使得能够将数据传输到Sub_Uni t_0N 1018。SubJJnitjN 1017通过使用第一环形总线111-1的顺时针环形总线向LCB 106传输数据。LCB 106通过使用第二环形总线112向LMC 105传输数据。如上文所描述的,由于LMC 105已经由第二环形总线112接收到数据,因此通过使用第一环形总线111-0的逆时针环形总线将数据传输到 Sub_Unit_0N 1018。
[0046](1-3)第一实施例的有利效果
[0047]在日本未经审查的专利申请公开第2008-42571号中所公开的技术中,多个运动图像处理单元被连接为,以便多个运动图像处理单元通过相同的环形总线形成环形形状。这会导致发生跨越其他运动图像处理单元进行数据传输的问题,从而导致传输路径的增加。还有另一问题,由于其他运动图像处理单元的数据,总线通信量增大。另一方面,在第一实施例中,每一个运动图像处理单元内的功能子单元被连接为,以便每一个运动图像处理单元内的功能子单元通过为每一个运动图像处理单元单独地提供的环形总线(第一环形总线)来形成环形形状。另外,运动图像处理单元被连接为,以便运动图像处理单元通过另一个环形总线(第二环形总线)来形成环形形状。因此,在第一实施例中,每一个运动图像处理单元中的数据传输是使用第一环形总线来执行的,而运动图像处理单元之间的数据传输是使用第二环形总线来执行的。如此,不会发生跨越其他运动图像处理单元的数据传输,以便可以缩短传输路径。同时,可以防止其他运动图像处理单元中的总线通信量的增大。
[0048]在日本未经审查的专利申请公开第2008-42571号中所公开的技术中,为了通过共享用于存储运动图像数据的运动图像存储器来实现设备的小型化,为多个运动图像处理单元提供了一个Mem_Cnt(这是控制从和向运动图像存储器读取和写入运动图像数据的存储器控制器)以及一个DMAC(这是用于连接外部总线的总线IF)。另一方面,在第一实施例中,由于与通过共享运动图像存储器来实现设备的小型化相比,更加强调配置的可变性和方便性,所以为每一个运动图像处理单元布置了 Mem_Cnt和DMAC,并且将Mem_Cnt和DMAC连接到每一个运动图像处理单元的环形总线(第一环形总线)。另外,LMC和LCB被配置成通过不同于第一环形总线的另一个环形总线(第二环形总线)来连接。因此,在扩展运动图像处理单元的情况下,只需要扩展Ctrl_Cmn并且改变第二环形总线的连接。如此,与在日本未经审查的专利申请公开第2008-42571号中所公开的技术中不同,可以轻松地扩展运动图像处理单
J L ο
[0049]在日本未经审查的专利申请公开第H05-181817号中所公开的技术中,每一层中的多行(第二到第四行)中的PE连接到其他层中的PE。这会导致布线性能的劣化以及面积的增大。另一方面,在第一实施例中,只有LMC和LCB通过环形总线(第二环形总线)连接。如此,与在日本未经审查的专利申请公开第H05-181817号中所公开的技术中不同,可以防止布线性能的劣化以及面积的增大。
[0050](1-4)第一实施例的修改的示例
[0051]图7是示出了根据第一实施例的运动图像编码/解码设备的修改的示例的块配置示例的图。在图1中示出的运动图像编码/解码设备中,为相应的Codec_EL_0 101-0和Codec_EL_l 101-1分开地形成第一环形总线111-0和111-1。与在日本未经审查的专利申请公开第2008-42571号中所公开的技术相比,这对传输路径的长度的减少有贡献。另外,日本未经审查的专利申请公开第2008-42571号公开了用于将环形总线的数据传输方向改变为相反的方向的技术,作为用于缩短传输路径的技术。然而,由于在如上文所描述的第一实施例中可以缩短传输路径,因此该技术不需要改变数据传输方向。因此,不需要为第一环形总线111-0和111-1使用双向环形总线,而是可以为第一环形总线111-0和111-1使用单向环形总线。
[0052]在该修改的示例中,代替作为双向环形总线的第一环形总线111-0和111-1,提供了作为各自具有一个传输方向的单向环形总线的第一环形总线114-0和114-1。尽管图7示出了其中第一环形总线114-0和114-1是顺时针环形总线的示例,但是第一环形总线114-0和114-1不限于这些环形总线。
[0053]注意,在该修改的示例中,第一环形总线114-0和114-1各自由单向环形总线组成。因此,全部数据都在顺时针方向上传输。其他操作类似于第一实施例的那些操作。
[0054]与在图1中示出的配置不同,在该修改的示例中,第一环形总线从双向环形总线变为单向环形总线,以便内部总线的数量可以减少一个。如此,可以实现电路尺寸的进一步的减小和布线性能的改进。当更大数量的比特用于内部总线时,这样的有利效果会变得更加显著。
[0055](2)第二实施例
[0056](2-1)第二实施例的配置
[0057]第二实施例是根据第一实施例的运动图像编码/解码设备的修改的示例。
[0058]图8是示出了根据第二实施例的运动图像编码/解码设备的块配置示例的图。根据第二实施例的运动图像编码/解码设备与图7中示出的第二实施例的运动图像编码/解码设备的不同之处在于,LMC 105和LCB 106被分别替换为LCB/LMC 115-0和LCB/LMC 115-1,并且添加了线存储器116。第二实施例的其他配置与第一实施例的配置相同。在图8中示出的配置中,使用了图7中示出的单向第一环形总线114-0和114-1,但是也可以使用图1中示出的双向第一环形总线111-0和111-1。
[0059]在第一实施例中,分别为Codec_EL_0 101-0和Codec_EL_l 101-1提供了具有不同功能的LMC 105和LCB 106。另一方面,第二实施例具有这样的配置:LMC 105和LCB 106被分别替换为LCB/LMC 115-0和LCB/LMC 115-1,它们是各自具有LCB和LMC两者的功能的模块。另外,在第一实施例中,线存储器107只连接到LMC 105。另一方面,第二实施例还具有这样的配置:线存储器107和线存储器116分别连接到LCB/LMC 115-0和LCB/LMC 115_1。在第二实施例中,线存储器107存储CodeC_EL_0 101-0等等的处理结果,而线存储器116存储Codec_EL_l 101-1等等的处理结果。例如,LCB/LMC 115-0是控制从和向线存储器107读取和写入处理结果等等的模块。例如,LCB/LMC 115-(^#Codec_EL_0 101-0的处理结果写入到线存储器lOTlCB/LMC 115-0从线存储器107读取出Codec_EL_0 101-0的处理结果,并且将读取的处理结果传输到LCB/LMC 115-lSCodec_EL_0 101-00LCB/LMC 115-0从LCB/LMC115-l接收Codec_EL_l 101-1的处理结果,并且将接收到的处理结果传输到Codec_EL_0101-0。例如,LCB/LMC 115-1是控制从和向线存储器116读取和写入处理结果等等的模块。例如,LCB/LMC 115-U_Codec_EL_l 101-1 的处理结果写入到线存储器 lieiCB/LMC 115-1从线存储器116读取出C0dec_EL_l 101-1的处理结果,并且将读取的处理结果传输到LCB/LMC 115-0SCodec_EL_l 101-10LCB/LMC 115-0从LCB/LMC 115-0接收Codec_EL_0 101-0的处理结果,并且将接收到的处理结果传输到Codec_EL_l 101-1。
[0060](2-2)第二实施例的操作
[0061]在第二实施例中,Codec_EL_0101-0 和 Codec_EL_l 101-1 中的每一个包括 LCB/LMC和线存储器。该配置允许Codec_EL_0 101-0和Codec_EL_l 101-1分开地操作。如此,Codec_EL_0 101-0和Codec_EL_l 101-1可以分开地执行不同的编码处理或解码处理。例如,有可能实现这样的配置:Codec_EL_0 101-0执行解码处理,而Codec_EL_l 101_1执行编码处理。另外,Codec_EL_0 101-0和Codec_EL_l 101-1可以分开地执行不同的图像编码处理,并且也可以分开地执行不同的图像组合处理。如在上文所描述的第一和第二实施例中,当然,Codec_EL_0 101-0和Codec_EL_l 101-1可以对同一图像的不同的并行处理区域执行编码处理和解码处理。
[0062](2-3)第二实施例的有利效果
[0063]第二实施例的有利效果类似于第一实施例的有利效果。然而,当在第二实施例中向多个运动图像处理单元分配不同的编码处理或解码处理时,第二实施例在下列方面更优。
[0064]-没有由于运动图像处理单元之间的干扰导致的性能的劣化。如在上文所描述的第一实施例中一样,在第二实施例中不会发生跨越其他运动图像处理单元的数据传输。因此,当向多个运动图像处理单元分配不同的处理时,不会发生由于运动图像处理单元之间的干扰而导致的性能的劣化。
[0065]-易于控制Mem_Cnt和DMAC。在日本未经审查的专利申请公开第2008-42571号中所公开的技术中,为多个运动图像处理单元提供了一个Mem_Cnt和一个DMAC,这使得控制复杂化。另一方面,在第二实施例中,为每一个Codec_EL提供了一个Mem_Cnt和一个DMAC。如此,可以分开地控$_em_Cnt和DMAC,这便利了控制。
[0066]-易于控制时钟的重置和中断。在日本未经审查的专利申请公开第2008-42571号中所公开的技术中,为多个运动图像处理单元提供了一个Mem_Cnt和一个DMAC,并且发生跨越其他运动图像处理单元的数据传输,这使得难以控制时钟的重置和中断。另一方面,在第二实施例中,当向多个运动图像处理单元分配不同的处理时,运动图像处理单元不会彼此干扰,这便利了对时钟的重置和中断的控制。
[0067](2-4)第二实施例的修改的示例
[0068]根据第二实施例,可以使得多个CodeC_EL分开地操作。因此,可以通过将相同的编码处理或解码处理分配给多个Codec_EL并且比较处理结果来实现Codec_EL中的故障检测。
[0069]图9是示出了根据第二实施例的运动图像编码/解码设备的修改的示例的块配置示例的图。该修改的示例对应于这样的配置:提供了M(M是等于或大于I的自然数)+ 1个运动图像处理单元(Codec_EL_0 101-0到Codec_EL_M 101-M),并且在图8中示出的配置中添加了故障检测单元117。注意,在图9中,省略了图8中示出的除CodeC_EL以外的组件的图示。
[0070]故障检测单元117比较Codec_EL_0 101-0到Codec_EL_M 101-M的处理结果,并且基于比较结果来检测Codec_EL_0 101-0到Codec_EL_M 101-M中的故障。
[0071 ]下面将描述根据该修改的示例的故障检测处理。
[0072]图10示出了当M=l时对Codec_EL_0 101-0和Codec_EL_l 101-1执行的故障检测处理的示例。Codec_EL_0 101-0和Codec_EL_l 101-1的处理结果分别被称为“结果O”和“结果I”。当作为对结果O与结果I进行比较的结果,结果O匹配结果I时,故障检测单元117可以确定在Codec_EL_0 101-0和Codec_EL_l 101-1中没有发生故障。另一方面,当作为对结果O与结果I进行比较的结果,结果O和结果I不匹配时,故障检测单元117可以确定在CodeC_EL_O 101-0 或 Codec_EL_l 101-1 中发生了故障。
[0073]图ll示出了当M = 2时对Codec_EL_0 101_0、Codec_EL_l 101-1 以及 Codec_EL_2101-2 执行的故障检测处理的示例。Codec_EL_0 101-0、Codec_EL_l 101-1 以及 Codec_EL_2101-2的处理结果分别被称为“结果O”、“结果I”以及“结果2”。例如,当作为对结果O、结果I以及结果2进行比较的结果,结果O匹配结果I,而结果2不匹配结果O和I时,故障检测单元117可以确定在C0dec_EL_2 101-2中发生了故障。在该情况下,故障检测单元117也可以确定在Codec_EL_0 101-0和Codec_EL_l 101-1中没有发生故障。因此,分别作为Codec_EL_0101-0和Codec_EL_l 101-1的处理结果的结果O和结果I可以用在随后的处理中。
[0074](3)第三实施例
[0075]第三实施例是其中处理设备是内核处理器的示例。该内核处理器包括多个处理器组作为处理单元。
[0076]图12是示出了根据第三实施例的内核处理器的块配置示例的图。根据第三实施例的内核处理器包括M(M是等于或大于I的自然数)+1个处理器组,S卩,Processor_Gr_0 301-0到Processor_G;r_M 301-M。每一个处理器组包括N(N是等于或大于I的自然数)个处理器Pm_n(m=0,...,和M,而n = 0,...,和N_l)3010,并且处理器Pm_N(m=0,..?,和M)3011 各自充当将数据传输到其他处理组的传输模块。
[0077]在根据第三实施例的内核处理器中,Processor_Gr_0 301-0内的处理器Ρ0_η3010和Ρ0_Ν 3011被连接,以便处理器Ρ0_η 3010和Ρ0_Ν 3011通过第一环形总线302-0来形成环形形状。类似地,Processor_Gr_l 301-1内的处理器Pl_n 3010和P1_N 3011被连接为,以便处理器Pl_n 3010和P1_N 3011通过第一环形总线302-1来形成环形形状。类似地,Processor_Gr_M 301-M内的处理器PM_n 3010和PM_N 3011被连接为,以便处理器PM_n3010和PM_N 3011通过第一环形总线302-M来形成环形形状。另外,各自的处理器组中的处理器Pm_N 3011被连接为,以便各自的处理器组中的处理器Pm_N3011通过第二环形总线303来形成环形形状,第二环形总线303是不同于第一环形总线302-0到302-M的环形总线。
[0078]在日本未经审查的专利申请公开第H05-181817号中所公开的技术中,使得不是发往对应的层的PE的数据包流过环形总线701,这会导致存在由于其他层中的数据包导致总线通信量增大的问题。另一方面,在第三实施例中,使用第一环形总线302-0来执行要求密切合作的在各自的处理器组中的处理器(诸如Processor_Gr_0301-0内的处理器Ρ0_0、Ρ0_1,P0_2,...,以及Ρ0_Ν)之间的通信。另外,使用第二环形总线303来执行处理器组之间的通信。利用该配置,阻止其他处理器组的数据流过环形总线(第一环形总线),由此防止由于其他处理器组的数据导致的总线通信量的增大。
[0079]在日本未经审查的专利申请公开第H05-181817号中所公开的技术中,每一层中的多行(第二到第四行)中的PE连接到其他层中的PE。另一方面,在第三实施例中,只有Pm_n3011通过环形总线(第二环形总线)连接。如此,与在日本未经审查的专利申请公开第H05-181817号中所公开的技术不同,可以防止布线性能的劣化以及面积的增大。
[0080](4)第一到第三实施例的概念
[0081]图13是示出了根据上文所描述的第一到第三实施例的处理设备的块配置示例的示意图。图13中示出的处理设备包括M(M是等于或大于I的自然数)+ 1个处理单元401-0到401-M、M+1个传输模块402-0到402-Μ、Μ+1个第一环形总线403-0到403-M、以及第二环形总线404。
[0082]处理单元401-0到401-M是能够并行地执行处理的处理单元,并且处理单元401-0至IJ401-M中的每一个包括N(N是等于或大于I的自然数)个子单元4010。处理单元401-0到401-M分别对应于作为运动图像处理单元的Codec_EL_0 101_(^ljCodec_EL_M 101-M。另外,处理单元401-O到401-M分别对应于作为处理器组的Processor_Gr_0 301-C^!jProcesso;r_Gr_M 301-M。子单元4010分别对应于可变长度编码单元(VLC) 1010、整数像素准确度运动估计单元(CME)1ll、部分像素准确度运动估计单元(FME) 1012、运动补偿单元(MC)1013、频率转换单元(TRF) 1014、以及去块滤波器处理单元(DEB) 1015。子单元4010分别对应于处理器Pm_n(m=0,...,和M,而n = 0,...,和N_l)3010,并且还分别对应于处理器Pm_N(m = 0,...,和Μ)301I。
[0083]传输模块402-0到402-Μ是被设置为分别对应于处理单元401-0到401-M并且在处理单元401-0到401-M之间传输数据的模块。传输模块402-0到402-M对应于LMC 105、LCB106^LCB/LMC 115-0^LCB/LMC 115-1 以及处理器Pm_N(m = 0,...,和M)3011。注意,在图 13中,传输模块402-0到402-M各自被设置在对应的处理单元401的外部,但是也可以被设置在对应的处理单元401之内。
[0084]第一环形总线403-0到403-M是这样的环形总线:所述环形总线被设置为分别对应于处理单元401-0到401-M,并且连接对应的处理单元401内的子单元4010和对应于处理单元401的传输模块402,以便对应的处理单元401内的子单元4010和对应于处理单元401的传输模块402形成环形形状。第一环形总线403-0到403-M对应于第一环形总线111-0、111-1、114-0、114-1以及302-0到302-M。注意,在图13中,第一环形总线403-0到403-M被示出为顺时针单向环形总线。然而,也可以使用逆时针单向环形总线,或具有两个顺时针和逆时针环形总线的双向环形总线。
[0085]第二环形总线404是连接传输模块402-0到402-M以便传输模块402-0到402-M形成环形形状的环形总线。第二环形总线404对应于第二环形总线112和303。
[0086]在图13中示出的处理设备中,每一个处理单元内的子单元被连接,以便每一个处理单元内的子单元通过为每一个处理单元单独地提供的第一环形总线来形成环形形状。另夕卜,处理单元被连接,以便处理单元通过不同于第一环形总线的第二环形总线来形成环形形状。在该配置中,使用第一环形总线来执行每一个处理单元中的数据传输,以及使用第二环形总线来执行处理单元之间的数据传输。
[0087]如此,在数据传输期间不会发生跨越其他处理单元的数据传输,以便可以缩短传输路径。另外,由于其他处理单元的数据不会流向某个处理单元的第一环形总线,这会防止由于其他处理单元的数据而导致的总线通信量的增大。此外,由于只有传输模块连接到其他处理单元,因此可以防止布线性能的劣化和面积的增大。
[0088]上文已参考各实施例描述了发明人做出的本发明。然而,本发明不限于各实施例,以及在不偏离本发明的范围的情况下,可以以各种方式对本发明进行修改。
[0089]可以根据本领域普通技术人员的需要,将第一到第三实施例组合起来。
[0090]尽管已按照几个实施例对本发明进行了描述,但是本领域普通技术人员将认识至IJ,在所附权利要求书的精神和范围内,可以对本发明进行各种修改,以及本发明不限于上文所描述的示例。
[0091]另外,权利要求书的范围不受上文所描述的各实施例限制。
[0092]此外,注意,
【申请人】的意图是要涵盖所有权利要求元素的等效内容,即使是在实施期间在以后进行了修改。
【主权项】
1.一种处理设备,包括: 多个处理单元; 多个传输模块,所述多个传输模块被设置为分别对应于所述多个处理单元,并且在所述处理单元之间传输数据; 多个第一环形总线,多个第一环形总线被设置为分别对应于所述多个处理单元,所述多个第一环形总线中的每一个连接对应的处理单元内的子单元和对应于该处理单元的传输模块,以便对应的处理单元内的子单元和对应于该处理单元的传输模块形成环形形状;以及 第二环形总线,所述第二环形总线连接所述多个传输模块,以便所述多个传输模块形成环形形状。2.根据权利要求1所述的处理设备,其中,所述多个处理单元中的每一个是对运动图像执行编码处理和解码处理的运动图像处理单元。3.根据权利要求2所述的处理设备,还包括存储由所述多个处理单元获得的处理结果的线存储器,其中 所述多个传输模块中的每一个在所述处理单元之间传输所述处理结果,以及 所述多个传输模块中的一个控制从所述线存储器读取所述处理结果和向所述线存储器写入所述处理结果。4.根据权利要求2所述的处理设备,还包括多个线存储器,所述多个线存储器被设置为分别对应于所述多个处理单元,并且存储由对应的处理单元获得的处理结果, 其中,所述多个传输模块中的每一个控制从对应的线存储器读取所述处理结果和向对应的线存储器写入所述处理结果。5.根据权利要求4所述的处理设备,其中,向所述多个处理单元分配不同的编码处理或解码处理。6.根据权利要求4所述的处理设备,其中,向所述多个处理单元分配相同的编码处理或解码处理。7.根据权利要求6所述的处理设备,还包括故障检测单元,所述故障检测单元比较所述多个处理单元的处理结果,并且基于比较的结果,检测所述多个处理单元中的故障。8.根据权利要求2所述的处理设备,还包括: 多个存储器控制器,所述多个存储器控制器被设置为分别对应于所述多个处理单元,并且控制从运动图像存储器读取运动图像和向运动图像存储器写入运动图像,所述运动图像存储器存储要被提供给对应的处理单元的运动图像;以及 多个直接存储器存取控制器,所述多个直接存储器存取控制器被设置为分别对应于所述多个处理单元,所述多个直接存储器存取控制器各自充当用于将对应的处理单元连接到总线的接口。9.根据权利要求1所述的处理设备,其中,所述多个处理单元中的每一个是包括多个处理器作为所述子单元的处理器组。10.根据权利要求1所述的处理设备,其中,所述多个传输模块中的每一个是多个处理器中的一个。11.根据权利要求1所述的处理设备,其中,所述第一环形总线中的每一个是由具有相对的传输方向的两个环形总线构成的双向环形总线。12.根据权利要求11所述的处理设备,其中,当各自的处理单元内的所述子单元通过所述第一环形总线来传输数据时,所述两个环形总线中的一个被使用,以及当所述传输模块通过所述第一环形总线传输经由所述第二环形总线接收到的数据时,所述两个环形总线中的另一个被使用。13.根据权利要求1所述的处理设备,其中,所述第一环形总线中的每一个是具有一个传输方向的单向环形总线。14.一种用于包括多个处理单元的处理设备的控制方法,所述控制方法包括: 提供在所述处理单元之间传输数据的多个传输模块,所述多个传输模块被设置为分别对应于所述多个处理单元; 对于所述多个处理单元中的每一个,连接对应的处理单元内的子单元和对应于该处理单元的传输模块,以便对应的处理单元内的子单元和对应于该处理单元的传输模块通过第一环形路径来形成环形形状;以及 连接所述多个传输模块,以便所述多个传输模块通过第二环形总线来形成环形形状。
【文档编号】H04N19/176GK106028041SQ201610051676
【公开日】2016年10月12日
【申请日】2016年1月26日
【发明人】植田浩司, 望月诚二, 加谷俊之, 岩田宪, 岩田宪一, 松原胜重
【申请人】瑞萨电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1