基于三维自组织映射的立体视频视差估计方法

文档序号:10580235阅读:288来源:国知局
基于三维自组织映射的立体视频视差估计方法
【专利摘要】本发明公开一种基于三维自组织映射的立体视频视差估计方法,包括模式库的训练和视差模式识别两个过程,先用3DSOM算法对视差序列样本进行学习训练,得到最佳匹配模式库;再用3DSOM算法对视差序列每帧进行视差模式识别,得到视差预测图。与传统的基于块的视差估计方法相比,本方法能得到更好的视差预测图,并且计算量小。
【专利说明】
基于三维自组织映射的立体视频视差估计方法
技术领域
[0001] 本发明涉及图像处理技术领域,具体涉及一种基于三维自组织映射的立体视频视 差估计方法。
【背景技术】
[0002] 视差估计作为立体视频编码的关键技术,已经得到越来越多的重视和关注,各种 算法也相继提出。传统视差估计算法大致可分为两大类,一类是基于区域的视差估计,即把 图像中的某一点或某一块作为基本匹配单元,在另一幅图像中搜索对应的点或块,从而得 到各个点的视差,这类算法可以得到稠密的视差估计。根据匹配策略的不同,基于区域的视 差估计可以分为局部法和全局法。代表性的局部法是基于块的方法,实现复杂度低。代表性 的全局算法有动态规划法、图割法和置信度传播法等。全局法能得到比局部法更好的结果, 但是其计算复杂度高,不便于硬件实现。另一类是基于特征的视差估计,即利用图像的自身 特征来实现匹配,这些特征包括一些特征点(如SIFT关键点等)或几何结构。此类算法只能 得到稀疏的视差估计,且特征的提取比较复杂。可见,目前视差估计技术仍未成熟,没有一 种具有普适性的视差估计方法,而且计算量巨大。

【发明内容】

[0003] 本发明所要解决的技术问题是提供一种基于三维自组织映射的立体视频视差估 计方法,其能提高视差预测图像的质量。
[0004] 为解决上述问题,本发明是通过以下技术方案实现的:
[0005] -种基于三维自组织映射的立体视频视差估计方法,包括如下步骤:
[0006] 步骤1、对视差序列样本进行不断学习训练,得到最佳匹配模式库;
[0007]步骤1.1、对视差序列样本的每帧图像进行分块,每个图像块为一个训练矢量,共 得到含L个训练矢量的训练矢量集;
[0008] 步骤1.2、从训练矢量集中选择N个训练矢量来构成初始化模式库,该初始模式库 中的训练矢量称为模式矢量,且初始模式库中的模式矢量排列成三维立体结构;上述N< < L;
[0009] 步骤1.3、设定初始化邻域函数;
[0010] 步骤1.4、输入一个训练矢量,并分别计算该训练矢量与初始模式库中的各个模式 矢量的失真,从中选择出与训练矢量失真最小的模式矢量作为获胜模式矢量;
[0011] 步骤1.5、调整获胜模式矢量及其三维邻域范围内的模式矢量;
[0012] 步骤1.6、返回步骤步骤1.3重新选择一个训练矢量,直到输入完所有的训练矢量, 得到最佳匹配模式库;
[0013] 步骤2、对待估计的视差序列的每帧图像进行分块处理,并将这些待估计图像块与 最佳匹配模式库中的模式矢量进行视差模式匹配,得到待估计的视差序列的预测图。
[0014] 上述步骤1.2中,采用随机法从训练矢量集中选择N个特征图像块来构成初始模式 库。
[0015] 上述步骤1.4中,采用下式计算训练矢量与模式矢量的失真山(t);
[0016] dj(t)=| |X(t)-ffj(t)2|
[0017] 其中,Wj(t)为模式矢量,X(t)为训练矢量;j = 0,1,…,N-l,N为设定的三维自组织 映射网络的大小;t = 0,1,…,L-l,L为训练矢量集中训练矢量的个数。
[0018] 上述步骤1.5中,根据下式调整获胜模式矢量及其三维邻域范围内的模式矢量 \W ,{i) + a{l)[X{l)-W\1)\ : ie. .U)
[则-叫,' ,
[0020] 其中,Wj(t+1)为第t+1次训练时的模式矢量,Wj(t)为第t次训练时的模式矢量,X (t)为训练矢量,f为获胜模式矢量,为获胜模式矢量f在第 t次训练时的邻域函数,a (t)为第t次训练时的学习速度函数;j = 0,1,…,N-l,N为设定的三维自组织映射网络的大 小;t = 0,1,…,L-l,L为训练矢量集中训练矢量的个数。
[0021] 上述步骤2具体为:
[0022]步骤2.1、将待估计的视差序列的每帧分块,其中待估计的视差序列的每帧分块大 小与视差序列样本的每帧分块大小相一致;
[0023]步骤2.2、分别计算每一个待估计图像块与最佳匹配模式库中各模式矢量的失真, 并选择具有最小失真的模式矢量作为该图像块的预测块;
[0024]步骤2.3、对待估计的视差序列的所有图像进行步骤2.2的处理,得到待估计的视 差序列的预测图。
[0025]与现有技术相比,本发明包括模式库的训练和视差模式识别两个过程,先用3DS0M 算法对视差序列样本进行学习训练,得到最佳匹配模式库;再用3DS0M算法对视差序列每帧 进行视差模式识别,得到视差预测图。与传统的基于块的视差估计方法相比,本方法能得到 更好的视差预测图,并且计算量小。
【附图说明】
[0026] 图1为视差模式库的训练过程。
[0027] 图2为视差模式识别得到视差预测图过程。
[0028]图3为Exit序列视差预测图像的PSNR分布情况。
[0029] 图4为Vassar序列视差预测图像的PSNR分布情况。
【具体实施方式】
[0030] 下面结合实施例,对本
【发明内容】
作进一步地详细说明,但本发明的实施方式不限 于此。
[0031] 一种基于三维自组织映射的立体视频视差估计方法,包括步骤如下:
[0032] 步骤1)对视差序列样本进行不断学习训练,得到最佳匹配模式库。参见图1。
[0033]用3DS0M(三维自组织映射)算法对初始模式库进行学习训练,得到最佳匹配模式 库。根据人脑神经元的组织原理所提出的自组织映射(S0M)算法,是一种具有自组织特性的 人工神经网络算法。该算法模拟了人脑神经系统对某一图形或某一频率特定兴奋的特征, 在模式识别和数据挖掘等领域得到了深入的研究和广泛的应用,是一种高效的数据聚类方 法。SOM算法的核心是寻找最佳分类,即通过对大量的样本序列的不断学习和训练,从而得 到最优匹配的模式库。
[0034]为了提高视差模式库的性能,本发明对S0M算法进行了改进,提出了一种三维自组 织映射算法(3DS0M)。三维S0M网络结构及其算法能有效地将二维输入映射为三维输出,从 而实现三维信号的非线性映射。三维S0M网络将映射层神经元排列成三维立体结构,三维立 体结构的行数、列数和层数可根据应用的需要选取不同的值,排列成不同的三维结构以适 应不同应用;通常三维邻域形状可选取球形邻域、正方形邻域或正交十字邻域,选取不同的 三维邻域形状对算法的性能有一定的影响。S0M网络与普通的竞争网络一样,对于每个输入 模式,在映射层都有相应的获胜节点,获胜节点代表最相似的模式,该节点及其三维邻域范 围内的所有节点均按一定规则调整其权值。与二维平面结构邻域相比,三维立体结构邻域 在相等邻域半径内的节点数量增多,节点被调整的机会增加,因此,更有利于得到最佳匹配 的模式。
[0035]基于3DS0M算法的模式库训练步骤如下:
[0036] 步骤1.1)设定S0M网络大小为(N,M),其中N、M分别为模式库的大小、模式库中模式 矢量的大小。
[0037] 步骤1.2)对视差序列样本的每帧分块,块的大小一般取8X8。每个图像块为一个 训练矢量,共得到含L个训练矢量的训练矢量集{X(t);t = 0,l,…,L-1}。用随机法从训练矢 量集中选择N(N< <L)个训练矢量来构成初始化模式库{Wj(0); j = 0,1,…,N-1},并将初始 模式库中的模式矢量排列成三维立体结构。随机法就是从训练矢量集中按固定的间隔抽取 训练矢量。
[0038]步骤1 ? 3)将初始化邻域设定为Nj(0),j = 0,1,…,N-1。
[0039] 步骤1.4)输入一个训练矢量集中的训练矢量X= (xi,X2,…,xm)t。
[0040] 步骤1.5)选择均方误差失真准则,均方误差为山(t)=| |X(t)_WXt)2| |,分别计算 该训练矢量与模式库中各模式矢量的失真山(t);并选择具有最小失真的模式矢量为获胜 模式矢量f。
[0041] 步骤1.6)按式(1)调整获胜模式矢量f及其三维邻域⑴范围内的模式矢量, 「 1,約,丄 n ?⑴+ _)[卻)-%(/)]: ,/乂/* 和/vr(〇 _2] W + ' clsc1 ⑴
[0043] 其中,〃/ (;)为邻域函数,通常选用单调递减函数~&卜為+_伞_"7>、六1分别为获 胜模式矢量f的最小邻域和最大邻域,^为邻域衰减常数。在训练初始阶段,邻域半径较大, 随着训练次数的增加,网络逐渐趋于稳定,只需对获胜节点进行较细微的权值调整,因而邻 域半径不断缩小。a(t)为学习速度函数,它反映了模式矢量调整的幅度大小,一般选用单调 递减函数冲) = .42#'式中A2为训练开始时的最大学习速度,T2为学习衰减常数。
[0044] 步骤1.7)返回步骤步骤1.4),直到输入完训练矢量集中所有的训练矢量,即得到 最佳匹配模式库。
[0045] 步骤2)对视差序列进行视差模式匹配,得到每帧的视差预测图。参见图2。
[0046] 对视差序列每帧分块,块的大小一般取8X8,然后在视差模式库中寻找与子图像 块最匹配的视差模式作为该子块图像的预测块。对所有子块图像进行处理后得到该帧的视 差预测图。
[0047] 步骤2.1、将待估计的视差序列的每帧分块,其中待估计的视差序列的每帧分块大 小与视差序列样本的每帧分块大小相一致;
[0048] 步骤2.2、分别计算每一个待估计图像块与最佳匹配模式库中各模式矢量的失真, 并选择具有最小失真的模式矢量作为该图像块的预测块;
[0049]采用均方误差准则即下式来计算待估计图像块与最佳匹配模式库中各模式矢量 的失真bW);
[0050] bjCt7 )= | |Y(t7 )2|
[0051 ]其中,Wj (V )为模式矢量,Y(V )为待估计图像块;j = 0,1,…,N-l,N为设定的三维 自组织映射网络的大小;V =0,1,…,K-l,K为待估计图像块的个数。
[0052]步骤2.3、对待估计的视差序列的所有图像进行步骤2.2的处理,得到待估计的视 差序列的预测图。
[0053]为了说明本方法的性能,做了大量的仿真实验,实验采用标准立体视频测试序列 Exi t、Vassar的第1、2视点,图像分辨率为480 X 640,左右视点各8帧。重建图像品质的客观 评价采用峰值信噪比
式中EMSE为原始图像与重建图像之间的均方误 差。在基于三维自组织映射的视差估计方法(3DS0M-DPR)中,图像压缩比为
式 中M为模式矢量的维数,Bo为原始图像的每像素比特数,BC为模式矢量地址比特数。例如,模 式矢量大小为M = 8 X 8,模式库大小设为2048,压缩率为46.5。在基于块的视差估计算法中, 块的大小为M=8X8,横向搜索范围为[-31,32],纵向搜索范围为[-15,16],压缩率为46.5。 [0054] 图3和图4给出了 CFS-3DS0M-DPR方法与基于块的方法的视差预测图像的PSNR分布 情况,其中图3为Exi t序列,图4为Vas sar序列。表1给出了 3DS0M-DPR方法与基于块的方法的 视差预测图像的平均PSNR对比。由表1可以看出,由3DS0M-DPR方法得到的视差预测图像的 平均峰值信噪比(PSNR)较基于块的方法提高了0.14-0.48dB。
[0055]表1 3DS0M-DPR方法与基于块的方法的比较结果(平均峰值信噪比/dB)
[0057]为了克服传统视差估计算法的不足,改善视差补偿预测的性能,本发明提出了基 于模式识别的视差估计算法,其视差预测编码方案采用基于自组织映射算法(S0M)的图像 模式识别作为视差预测器。实验表明,3DS0M-DPR算法的视差预测图像的平均峰值信噪比较 传统基于块的视差估计算法提_ 了0.14_0.48dB。
【主权项】
1. 基于三维自组织映射的立体视频视差估计方法,其特征是,包括如下步骤: 步骤1、对视差序列样本进行不断学习训练,得到最佳匹配模式库; 步骤1.1、对视差序列样本的每帧图像进行分块,每个图像块为一个训练矢量,共得到 含L个训练矢量的训练矢量集; 步骤1.2、从训练矢量集中选择N个训练矢量来构成初始化模式库,该初始模式库中的 训练矢量称为模式矢量,且初始模式库中的模式矢量排列成三维立体结构;上述N< <L; 步骤1.3、设定初始化邻域函数; 步骤1.4、输入一个训练矢量,并分别计算该训练矢量与初始模式库中的各个模式矢量 的失真,从中选择出与训练矢量失真最小的模式矢量作为获胜模式矢量; 步骤1.5、调整获胜模式矢量及其三维邻域范围内的模式矢量; 步骤1.6、返回步骤步骤1.3重新选择一个训练矢量,直到输入完所有的训练矢量,得到 最佳匹配模式库; 步骤2、对待估计的视差序列的每帧图像进行分块处理,并将这些待估计图像块与最佳 匹配模式库中的模式矢量进行视差模式匹配,得到待估计的视差序列的预测图。2. 根据权利要求1所述基于三维自组织映射的立体视频视差估计方法,其特征是,步骤 1.2中,采用随机法从训练矢量集中选择N个训练矢量来构成初始模式库。3. 根据权利要求1所述基于三维自组织映射的立体视频视差估计方法,其特征是,步骤 1.4中,采用下式计算训练矢量与模式矢量的失真山(t); dj(t)= I |x(t)-ffj(t) 112 其中,Wj(t)为模式矢量,X(t)为训练矢量;j = 0,1,…,N-l,N为设定的三维自组织映射 网络的大小;t = 0,1,…,L_1,L为训练矢量集中训练矢量的个数。4. 根据权利要求1所述基于三维自组织映射的立体视频视差估计方法,其特征是,步骤 1.5中,根据下式调整获胜模式矢量及其三维邻域范围内的模式矢量其中,Wj (t+1)为第t+1次训练时的模式矢量,Wj (t)为第t次训练时的模式矢量,X⑴为 训练矢量,f为获胜模式矢量,〃/⑴为获胜模式矢量f在第t次训练时的邻域函数,a(t)为 第t次训练时的学习速度函数;j = 0,1,…,N-1,N为设定的三维自组织映射网络的大小;t = 0,1,…,L-l,L为训练矢量集中训练矢量的个数。5. 根据权利要求1所述基于三维自组织映射的立体视频视差估计方法,其特征是,步骤 2具体为: 步骤2.1、将待估计的视差序列的每帧分块,其中待估计的视差序列的每帧分块大小与 视差序列样本的每帧分块大小相一致; 步骤2.2、分别计算每一个待估计图像块与最佳匹配模式库中各模式矢量的失真,并选 择具有最小失真的模式矢量作为该图像块的预测块; 步骤2.3、对待估计的视差序列的所有图像进行步骤2.2的处理,得到待估计的视差序 列的预测图。
【文档编号】H04N19/597GK105959701SQ201610317547
【公开日】2016年9月21日
【申请日】2016年5月13日
【发明人】黎洪松, 程福林
【申请人】桂林电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1