基于不对称划分模式的高效视频编码加法树并行实现方法_4

文档序号：9814744阅读：来源：国知局

X 32，将SAD64 X 32存储到07P中，W此类推剩下一个块在同一时刻执行同样操作，类中的64 X 32分块模式的值SAD64 X 32计算完成。
[0106] b计算分块模式SAD32 X 64的值，一共2个块，分别是OOOl040508091213、 0203060710111415, W0001040508091213为例，首先判断该值是否后续会被使用，SAD32 X 64会在计算分块模式SAD64X64时被使用，故应该选取下边的PE作为存储的位置。然后开始数据传递，05P中的SAD32 X 32通过路由器传递给13P，在13P中两个SAD32 X 32相加得到32 X 64分块模式的值SAD32 X 64，将SAD32 X 64存储到13P中，W此类推剩下一个块在同一时刻执行同样操作，类中的32 X 64分块模式的值SAD32 X 64计算完成。
[0107] C 计算分块模式48X64^)、48X64(R)、64X48W)、64X48(D)、16X64^)、16X64 (R)、64X16(U)、64X16(D)的SAD值，48X64化）、48X64(R)、64X48化）、64X48(D)，上述4 种分块模式可W在同一时刻执行，分块模式16 X64(X)、16 X64(R)、64 X 16化）、64 X 16化），运4种分块模式可W在同一时刻执行，然后判断上述8种SAD值在后续不会被使用，故选取左上角PE作为存储位置;具体过程如下：
[010引 d分块模式SAD48 X 64化)的计算过程：即010203050607091011131415的计算过程，首先判断SAD48X64化)在后续过程不会被使用，故选取左边的PE作为存储位置。然后开始数据传递，05P中的SAD16 X 32通过路由器传递到13P中、15P中的SAD32 X 64通过路由器传递到13P中，数据传递完成开始合并数据，在13P中将13P接收的SAD16X32和本身存储的SAD16 X 32相加得到SAD16 X 64，将SAD16 X 64和接收的SAD32 X 64相加得到SAD48 X 64化），存储到 13P 中。
[0109] e分块模式SAD16X64化)的计算过程，即00040812块，首先判断SAD16X64化)在后续过程不会被使用故选取上边的PE。然后开始数据传递，12P中的SAD16 X 32通过路由器传递到04P中，在04P中将04P接收SAD16 X 32和本身存储的SAD16 X 32相加得到SAD16 X 64化），存储到04P中。
[0110] f分块模式SAD48 X 64(R)的计算过程：即000102040506080910121314的计算过程，首先判断SAD48X64(R)在后续过程不会被使用，故选取左边的PE作为存储位置。然后开始数据传递，06P中的SAD16X32通过路由器传递到14P中、13P中的SAD32X64通过路由器传递到14P中，数据传递完成开始合并数据，在14P中将14P接收的SAD16X32和本身存储的SAD16 X 32相加得到SAD16 X 64，将SAD16 X 64和接收的SAD32 X 64相加得到SAD48 X 64(R)，存储到 14P 中。
[0111] g分块模式SAD16X64(R)的计算过程，即03071115块，首先判断SAD16X64(R)在后续过程不会被使用，故选取上边的PE。然后开始数据传递，15P中的SAD16X32通过路由器传递到07P中，在07P中将07P接收SAD16 X 32和本身存储的SAD16 X 32相加得到SAD16 X 64(R)，存储到07P中。
[0112] h分块模式SAD64 X 48化)的计算过程：即040506070809101112131415的计算过程，首先判断SAD64X48(U)在后续过程不会被使用故选，取上边的PE作为存储位置。然后开始数据传递，05P中的SAD32 X 16通过路由器传递到07P中、15P中的SAD64 X 32通过路由器传递到07P中，数据传递完成开始合并数据，在07P中将07P接收的SAD32X16和本身存储的SAD32 X 16相加得到SAD64 X 16，将SAD64 X 16和接收的SAD64 X 32相加得到SAD64 X 48化），存储到 07P 中。
[0113] i分块模式SAD64X16化)的计算过程，即00010203块，首先判断SAD64X16化)在后续过程不会被使用，故选取左边的PE。然后开始数据传递，03P中的SAD32X 16通过路由器传递到OlP中，在OlP中将OlP接收SAD32 X 16和本身存储的SAD32 X 16相加得到SAD64 X 16化），存储到OlP中。
[0114] j分块模式SAD64 X 48(D)的计算过程：即000102030405060708091011的计算过程，首先判断SAD64X48(D)在后续过程不会被使用，故选取上边的PE作为存储位置。然后开始数据传递，07P中的SAD64 X 32通过路由器传递到1IP中、09P中的SAD32 X 16通过路由器传递到llP中，数据传递完成开始合并数据，在IlP中将IlP接收的SAD32X 16和本身存储的SAD32 X 16相加得到SAD64 X 16，将SAD64 X 16和接收的SAD64X 32相加得到SAD64 X48(D)，存储到 IlP 中。
[0115] k分块模式SAD64X16(D)的计算过程，即12131415块，首先判断SAD64X16(D)在后续过程不会被使用，故选取左边的PE。然后开始数据传递，15P中的SAD32X 16通过路由器传递至ljl3P中，在13P中将13P接收SAD32 X 16和本身存储的SAD32 X 16相加得到SAD64 X 16化），存储到13P中。
[0116] 1 计算分块模式 SAD64 X 64 的值，即00010405080912130203060710111415块，开始数据传递，07P中的SAD64 X 32通过路由器传递给15P，在15P中两个SAD64 X 32相加得到64 X 64分块模式的值SAD64 X 64，将SAD64 X 64存储到15P中。
[0117] 加法树过程执行结束一共得到37种分块模式的SAD值，一共849个SAD值。
【主权项】
1. 基于不对称划分模式的高效视频编码加法树并行实现方法，在邻接互连的二维处理元阵列上，其特征在于，包括以下步骤：步骤1加法树模块经由缓存区1和缓存区2从外存加载64 X 64亮度块，并且以4 X 4大小的像素块按照自上到下、从左到右的存储方式存放到处理元阵列中，每个处理元存放一个4 X 4大小的亮度块；步骤2加法树模块经由缓存区1和缓存区2从外存中读取64 X 64参考块，并且以4 X 4大小的像素块按照自上到下、从左到右的存储方式，存放到处理元阵列中，每个处理元存放一个4X4大小的参考块；步骤3处理元阵列中的各个处理元，在获取亮度块和参考块的基础上，同时计算4 X 4 分块模式SAD值SAD4X4，计算完成后存放到亮度块和参考块对应的处理元中，一共256个 SAD4X4值；步骤4在步骤3计算得到的SAD4 X 4的基础上进行剩下的三十六种分块模式的SAD值的计算，并且为计算得到的分块模式的SAD值选择存储位置；步骤4中，采用根据该SAD值后续是否被使用选取存储该SAD值的处理元的方法选择分块模式的SAD值的存储位置，如果该SAD值后续被使用则优先选取处理元阵列中右下方的处理元来存储该值，反之则选取左上方的处理元来存储该值。2. 根据权利要求1所述的方法，其特征在于:步骤1中，首先将64 X 64的亮度块，分成大小为32X64的两部分，分别通过缓存区1和缓存区2加载到处理元阵列中。3. 根据权利要求1所述的方法，其特征在于:步骤2中，首先将64 X 64的参考块，分成大小为32X64的两部分，分别通过缓存区1和缓存区2加载到处理元阵列中。4. 根据权利要求1所述的方法，其特征在于，所述步骤3具体为： a大小为4 X 4的亮度块和4 X 4的参考块，存储在处理元中，c〇-cl5表示亮度块，d〇-dl5 表示参考块； b cO与dO做差值并取绝对值、cl与dl做差值并取绝对值，以此类推直到cl5与dl5做差值并取绝对值； c将步骤b得到的16个值求和，得到4 X 4分块模式的SAD值SAD4 X 4; d 256个处理元同时执行上述操作，得到256个SAD4X4的值，并且存储到亮度块和参考块对应的处理元中。5. 根据权利要求1所述的方法，其特征在于，所述步骤4具体为： a每个字符代表一个存储SAD4 X 4值的处理元，4 X 4个处理元表示一个簇，处理元阵列被划分成16个簇，每个数字代表一个簇； b每个簇计算得到十四种分块模式的SAD值，它们分别是8 X 4、4 X 8、8 X 8、16 X 8、8 X 16、12X16L、4X16L、12X16R、4X16R、16X12U、16X4U、16X12D、16X4D、16X16,计算完成后分别存储到簇内的对应处理元中，处理元的选取规则根据后续是否被使用选取SAD值的存储位置； cl6个簇同时执行b操作； d将16个簇以2X2大小，划分成4个组，第一组是00、01、04、05，第二组是02、03、06、07，第三组是08、09、12、13,第四组是10、11、14、15; e每个组计算得到11种分块模式的SAD值，每个组通过数据交互，得到的SAD值分别是32 X16、16X32、24X32L、8X32L、24X32R、8X32R、32X24U、32X8U、32X24D、32X8D、32X 32,计算完成后分别存储到组内对应的处理元中，处理元的选取规则根据后续是否被使用选取SAD值的存储位置； f四个组同时执行上述操作； g将16个簇看做一个类，该类计算得到11种SAD值，它们分别是64X32、32X64、48X 64L、16X64L、48X64R、16X64R、64X48U、64X16U、64X48D、64X16D、64X64,计算完成后分别存储到类内对应的处理元中，处理元的选取规则根据后续是否被使用选取SAD值的存储位置。
【专利摘要】基于不对称划分模式的高效视频编码加法树并行实现方法涉及数字视频编解码技术领域。本发明采用二维处理元阵列结构，对亮度块分割模式的SAD值计算并行处理，有效的提升了运动估计运算效率。通过采用根据该SAD值后续是否被使用选取存储该SAD值的PE的方法，加快加法树的计算速度，提高计算效率。通过采用单PE存储4×4像素块的方式，相对于传统的像素块的存储方式(单PE存储单像素)，处理单元使用的数量缩减至原来的1/16。相对于加法树串行结构的实现方法，该并行结构速度提高了近92倍。三十六种分块模式SAD值的计算均通过4×4分块模式的SAD值合并得到的，可以减少过多的计算过程，提高计算效率。
【IPC分类】H04N19/137, H04N19/436, H04N19/119, H04N19/105, H04N19/176, H04N19/51
【公开号】CN105578189
【申请号】CN201510991839
【发明人】谢晓燕, 崔继兴, 蒋林, 吴进, 芦守鹏
【申请人】西安邮电大学
【公开日】2016年5月11日
【申请日】2015年12月27日

完整全部详细技术资料下载

当前第4页1 2 3 4