一种结构保持的宽基线视频拼接方法与流程

文档序号：13808517阅读：288来源：国知局

本发明涉及视频拼接技术，更确切的是将多个宽基线视频拼接生成一个全景视频，属于虚拟现实技术领域和计算机图形图像处理领域。

背景技术：

视频拼接技术是指将多个具有重叠部分的视频拼接融合成一个大型的无缝高分辨率的全景视频，同时也是一个日益流行的研究领域，在宇宙空间探索、海底勘测、医学、气象、地址勘探、军事等领域都有广泛的应用。

视频拼接技术的核心是图像拼接技术，传统的图像拼接技术严格假设多个相机位置处于同一个固定视点，或场景基本处于一个平面，该两点假设均要求图像中无较大深度变化。若视频图像内容存在较大深度变化，最后获得的全景图中会出现明显伪影，这种目标图像和参考图像之间的不对准通常称之为视差。为解决这种视差图像的拼接，人们开始尝试使用新的对准模型。dhw[1j.gao,s.j.kim,andm.s.brown,“constructingimagepanoramasusingdual-homographywarping,”

inproc.ieeeconf.comput.vis.patternrecognit.,jun.2011,pp.49–56.]使用两个单应矩阵分别用于远景和近景的对准；sva[2w.-y.lin,s.liu,y.matsushita,t.-t.ng,andl.-f.cheong,“smoothlyvaryingaffinestitching,”inieeeconf.comput.vis.patternrecognit.,jun.2011,pp.345–352.]使用平滑变化的仿射矩阵进行不同区域的对准，apap[3.j.zaragoza,t.chin,q.tran,m.s.brown,andd.suter,“as-projective-as-

possibleimagestitchingwithmovingdlt,”ieeetrans.patternanal.mach.intell.,vol.36,no.7,pp.1285–1298,2014.]将整张图像划分为一个个的网格，对每个网格都单独求取一个最优的单应矩阵。这些方法在一定程度上可以解决较小视差的图像对准，但是当图像基线过大或者纹理变化不够鲜明时则难以奏效。

针对宽基线视频的全景拼接通常更具挑战性。在实际的日常生活中，监控相机的位置、朝向、规格等属性差异较大，图像质量相比一般的数码相机又有所不及，甚至还会受到相机周围环境的影响，出现遮挡、污染、光照变化剧烈、图像模糊等情况。面对这种宽基线、大视差、低纹理的输入视频，现有的一些拼接算法均无法达到满意的效果，甚至有些基于传统拼接算法的商业拼接软件直接显示无法拼接。

技术实现要素：

本发明的技术解决问题：克服现有技术的不足，提供一种结构保持的宽基线视频拼接方法，根据宽基线视频的具体特点，将多个既相互独立又相互关联的视频拼接成一个大型的无缝全景视频，可用于智能安防监控系统，扩大监控画面的视野，提高监控效率。

本发明的技术解决方案如下：一种结构保持的宽基线视频拼接方法，步骤如下：

(1)视频帧同步阶段，将输入的多个宽基线视频分解为一系列的视频帧，并加入各自宽基线视频帧的缓冲队列，然后利用相机之间的时间差信息和各个宽基线视频的时间戳信息进行帧同步，得到同步后的多个宽基线视频；

(2)视频帧配准阶段，对同步后的多个宽基线视频的第一帧视频图像调用图像拼接算法生成一个初始的拼接模板，所述图像拼接算法的步骤如下：

(21)点匹配、直线匹配、轮廓匹配相结合的三阶段特征匹配：采用基于超像素分割的局部单应模型进行视频帧之间的sift特征点匹配，针对特征点匹配中点对数量低于200的低纹理视频帧，引入直线匹配和轮廓匹配，得到匹配的直线采样点和轮廓采样点，将各个阶段得到的点对集合的并集作为最终的匹配结果；

(22)结构保持的网格优化：首先为所有待拼接视频帧添加初始网格，定义以网格顶点为自变量的目标函数，目标函数约束匹配点对变换到同一点；然后最小化目标函数，得到最优的网格配置；最后根据初始网格和最优网格的对应关系求取多个仿射矩阵进行图像变形；

(23)无缝融合：针对图像变形后的图像对，计算重叠区域的对准误差和颜色差异，对准误差和颜色差异相加得到初始差异图，并将重叠区域的轮廓掩码作用于初始差异图得到最终差异图，在最终差异图上采用图割算法求取累积差异值最小的最优缝合线；

(24)提取(22)中的仿射矩阵和(23)中的最优缝合线作为参数初始化拼接模板；

(3)视频拼接阶段，每次取出各个宽基线视频的同步帧进行拼接，为加速拼接的效率，需要充分利用上一帧的拼接信息，若宽基线视频内容稳定时，采用已有的拼接模板；若宽基线视频内容变化时，重新进行步骤(2)生成新的拼接模板，最后将输出的全景图的宽基线视频帧序列合成一个新的全景视频。

所述步骤(21)的具体过程如下：

(211)对各个视频图像进行sift特征点匹配，得到匹配图像对；对任一图像对采用slic算法进行超像素分割，以超像素为单位对其中的的特征点集合采用dlt算法计算单应矩阵和残差，若残差大于5个像素，则认为该特征点对是内点，得到所有图像对之间的内点集合；

(212)若任一图像对之间的内点数量小于200，则引入直线匹配和轮廓匹配，得到匹配的直线采样点和轮廓采样点；

(213)将(211)中的内点集合和(212)中的采样点集合一起作为匹配结果，得到最终的匹配点对集合；

所述步骤(22)的具体过程如下：

(221)为所有待拼接视频帧添加初始网格；

(222)定义以将网格顶点集合为自变量的目标函数，目标函数包括以下五个约束项：约束匹配点对变换到相同位置的对准约束项、约束网格相似变换的正则约束项、约束图像尺度保持的尺度约束项、约束直线保持的直线约束项和约束轮廓保持的轮廓约束项；

(223)采用共轭梯度法最小化目标函数，得到最优网格配置；

(224)根据初始网格和最优网格的顶点对应关系求取多个仿射矩阵进行图像变形。

所述步骤(23)的具体过程如下：

(231)对变形后的图像对，计算出重叠区域的位置掩码；

(232)计算所有匹配点对的对准误差，按照距离的高斯系数加权到重叠区域的每个像素上，得到重叠区域的对准误差，计算重叠区域每个像素的欧氏距离，得到重叠区域的颜色差异。对准误差和颜色差异相加得到重叠区域的初始差异图；

(233)计算重叠区域的轮廓掩码，将轮廓掩码作用于(232)得到的初始差异图，得到最终差异图；

(234)在(233)得到的最终差异图上采用图割算法求取累计差异值最小的最优缝合线。

所述步骤(3)的具体过程如下：

(31)提取下一帧同步的视频图像；

(32)统计视频图像颜色直方图，计算与上一帧视频图像颜色直方图的像素标准差，若标准差大于20，则进行步骤(2)重新生成拼接模板，否则直接沿用之前的拼接模板；

(33)调用拼接模板生成全景帧；

(34)将所有全景帧合成一个全景视频。

本发明与现有技术相比的优点在于：

(1)传统的图像拼接技术采用一个全局的单应矩阵来进行图像的配准，无法解决宽基线情况下多个平面的对准，导致最终的全景帧中出现重影和断裂。本发明的配准采用点匹配、直线匹配和轮廓匹配相结合的方式，点匹配采用基于超像素分割的局部单应模型，可以有效解决不同平面的配准，直线匹配和轮廓匹配则可以有效弥补低纹理情况下点匹配的不足，减少了全景图中的投影失真。

(2)现有的网格优化技术是以其中一幅待拼接图像作为参考平面，会导致偏离参考平面的图像发生严重的拉伸变形。本发明采用结构保持的网格模型来进行图像变形，没有设定其中某一幅视频帧作为参考平面，而是为所有视频帧添加网格，并在网格约束项中加入了尺度保持的能量函数，使得求取的最优网格自然地收敛到最优的参考平面，减少了全景图中的透视失真。

(3)现有的无缝融合技术在求取缝合线时只考虑缝合线的颜色差异，求得的缝合线经过未对准的区域，使缝合线两侧出现明显错位。本发明综合考虑对准误差、颜色差异和显著性结构三个方面的因素来求取最优的缝合线，求取的最优缝合线既尽量经过对准良好、颜色相近的区域，又尽量不穿过视频帧的轮廓。

(4)本发明在视频拼接阶段检测视频内容是否发生变化，只在视频内容变化的时候才更新拼接模板。这种视频融合策略，既能保证视频内容稳定时的融合效率，又能保证视频内容变化时的融合效果，达到效率和效果的平衡。

附图说明

图1为本发明的视频拼接方法的总体流程示意图；

图2为本发明中的正则约束项的计算方法示意图，左图为初始网格顶点的坐标关系表示图，右图为最优网格顶点的坐标关系表示图；

图3为本发明中的轮廓约束项的计算方法示意图，左图为原始图像轮廓采样点的坐标关系表示图，右图为变形后图像轮廓采样点的坐标关系表示图；

图4为本发明中的显著性结构信息掩码的计算方法示意图，左上为输入图像，右上为轮廓二值图，右下为轮廓的扩展方向示意图，左下为最终的轮廓掩码图。

具体实施方式

本发明的主要内容为：

(1)视频帧同步阶段，将输入的多个宽基线视频分解为一系列的视频帧，并加入各自的缓冲队列，然后利用相机之间的时间差信息和各个视频的时间戳信息进行帧同步。

(2)视频帧配准阶段，对多个宽基线视频的第一帧的视频图像调用图像拼接算法生成一个初始的拼接模板。该拼接算法针对宽基线视频的特殊性，在特征匹配、网格优化、拼缝优化三个方面进行了改进。特征匹配采用特征点匹配、直线匹配和轮廓匹配相结合的方式，首先采用基于超像素分割的局部单应模型进行特征点匹配，针对低纹理的情况，加入直线匹配和轮廓匹配丰富匹配信息。网格优化为所有视频帧添加网格，定义多个约束项优化网格配置，使所有视频帧变换到最优参考平面。拼缝优化充分考虑监控视频的特性，从对准误差、颜色差异和显著性结构三个方面来定义差异图，使缝合线质量更高。

(3)视频拼接阶段，每次取出各个宽基线视频的同步帧进行拼接，为加速拼接的效率，需要充分利用上一帧的拼接信息。若视频内容稳定时，采用上一帧的拼接模板；若视频内容变化时，重新生成新的拼接模板。最后将输出的全景图的帧序列合成一个新的全景视频。

如图1所示，本发明具体步骤如下：

1.对输入的多个宽基线视频进行帧同步。首先，对输入的多个视频提取视频帧；然后，将提取的视频帧依次加入各自的缓冲队列；最后，利用视频的时间戳信息和视频之间的时间差信息进行帧同步。

2.将多个宽基线视频的第一帧视频图像进行拼接生成一个全景融合图像，并生成一个视频帧拼接模板。选取输入视频流的第一帧视频；采用sift检查图像特征点与特征向量，并进行图像间匹配；采用网格模型对各图像进行网格化，并进行图像扭曲变形，同时添加各约束项减少扭曲畸变且保持图像场景特征结构；结合对准误差、颜色差异和显著性结构的保持，计算差异图；图像融合，生成全景图，同时生成与更新拼接模板。

1)获取第一帧视频图像。

2)三阶段的特征匹配。图像间进行特征匹配，采用点匹配、直线匹配和轮廓匹配相结合的方式。点匹配采用基于超像素分割的局部单应模型，若点匹配获取的点对数量小于200时，可在点匹配基础上加入直线匹配和轮廓匹配，提高图像配准率。

a)点匹配。使用sift检测图像的特征点和特征向量，然后图像之间进行匹配。匹配过程为：首先，对图像ii,ij，使用slic算法对图像进行超像素分割，设定分割数目为50；然后，以图像ii为参考图像，对图像ij中的包含相应特征点的超像素为单位使用dlt算法求取单应矩阵h和残差γ，若残差γ小于5个像素，则认为该特征点是内点，得到内点集合s1，再交换ii和ij，重新匹配，得到内点集合s2，则最终的内点集合为s1∩s2。

若图像质量过低，得到的内点数量小于200，则加入直线匹配和轮廓匹配。

b)直线匹配。采用直线检测(lsd)算法检测图像场景中所有直线，对每条直线，将直线周围距离较近的特征点划分为邻居集合，并将其邻居集合对应的单应矩阵作为该直线匹配的单应矩阵，然后计算直线匹配的残差ζ，若残差ζ小于5个像素，则认为是候选匹配，更新投票矩阵，最后从投票矩阵中选取票数最高的候选匹配。

c)轮廓匹配。首先使用sobel算子进行边缘轮廓检测，然后将轮廓的分支节点作为待匹配点，最终将其邻域的灰度信息使用ncc进行相似性度量：

其中，r(i,j)表示相似度，s，t分别表示两幅图像的灰度，m,n表示邻域大小，m,n为自变量。

3)结构保持的网格优化。采用网格模型对图像进行扭曲变形，将所有待拼接的视频帧网格化，然后添加对准约束项、正则约束项、尺度约束项、直线约束项和轮廓约束项，以此减少扭曲畸变且保持图像场景特征结构。各约束项的定义具体如下：

a)对准约束项。约束对应匹配点映射至同一点，计算如下：

其中，ea是对准约束项，c是所有特征点对的集合，pi,pj是其中一个特征点对，pi*,pj*是变换后的坐标，npi,pj是同一网格内的特征点数量。

b)正则约束项。约束相邻网格进行相似变换，即变换前后相邻网格的相对位置关系不变。如图2所示，左图中初始网格顶点va可用vb,vc表示，且与右图中最优网格顶点va*，vb*,vc*的表示关系相同，则正则约束项的计算如下：

其中，er是正则约束项，n是图像数量，m是一幅图像中的三角形数量，va,vb,vc是其中一个三角形的三个顶点坐标，u,v是由初始网格计算出的坐标参数，r90是按逆时针90度旋转的的旋转矩阵。

c)尺度约束项。约束图像变换前后的相对尺度关系不变，计算如下：

其中，es是尺度约束项，i是图像集合，ii是其中一幅图像，s(ii*),s(ii)分别是变换后和变换前的图像尺度矩阵，si是最优缩放因子。

d)直线约束项。约束直线在变换后依然是直线，计算如下：

其中，el是直线约束项，l是所有直线的集合，l是其中一条直线，n表示l上采样点的个数，[al,bl]⊥是直线的正交向量，pi,pi+1分别是直线上的相邻采样点。

e)轮廓约束项。约束图像中的轮廓在变换后保持不变，如图3所示，左图为原始图像的轮廓曲线，右图为变形后图像的轮廓曲线，本发明在轮廓曲线上进行采样，固定曲线的两个端点作为vb,vc，每个采样点依次作为va，则按照正则约束项的方式计算如下：

其中，ec是轮廓约束项，nc是所有轮廓线的数量,nk是一条轮廓线上采样点的数量，vb,vc是轮廓线的两个端点，vkey是采样点，u，v是根据初始轮廓曲线计算出的坐标系数，r90是按逆时针90度旋转的旋转矩阵。

首先通过添加上述约束项可将网格优化问题转化成二次函数的优化问题，然后通过最小化目标函数可以求取最优网格配置，最后根据初始网格和最优网格之间的对应关系获得多个仿射矩阵进行图像的变形。

4)无缝融合。结合对准误差、颜色差异和显著性结构，计算差异图，在差异图的基础上采用缝割算法求取最优缝合线进行图像融合。

a)计算对准误差。将所有特征点的对准误差按照距离加权到重叠区域的每个像素点上。特征点对准误差的高斯平滑为：

其中，ap,q是p,q的特征点对准误差，p,q是一对匹配的特征点，ψi,ψj分别是各自的变换函数，σ1是图像对角线长度。按照距离的加权系数计算如下：

其中，wp,x是特征点p和像素x的距离系数，σ2是图像对角线长度与对准误差的乘积。则重叠区域的像素的对准误差计算如下：其中，sii(x)是图像ii在像素x处的对准误差。最终的对准误差表示为两幅图像的对准误差的均值：

其中salign表示最终的对准误差。

b)计算颜色差异。颜色差异的高斯平滑的计算如下：

其中，scolor是颜色差异，ii,ij分别表示两幅重叠图像，ψi，ψj分别是各自的变换函数，μ,σ分别是均值和标准差。

c)将对准误差和颜色差异相结合，计算公式如下：

其中，stotal是最终的差异值，max，min分别表示salign+scolor的最大值和最小值。

d)加入显著性结构信息。如图4所示，首先，显著性结构信息是将视频帧的边缘轮廓所在位置向各个方向扩展一个像素生成掩码图；然后，将掩码图作用于上述公式计算结果，计算得到最终差异图；最后，使用图割算法来求取累积差异最小的缝合线。

5)生成全景图并更新拼接模板。

3.根据2中生成的全景图与拼接模板，进行视频拼接，获得一个全景视频。

1)获取各视频的下一帧视频图像。判断获取是否成功：若获取失败，则结束；若获取成功，则继续。

2)检测视频内容的变化，若视频内容发生剧烈变化，则之前生成的拼接模板不可用，需要重新进行步骤2中的2)、3)、4)、5)，生成全景图并更新拼接模板。若视频内容相对稳定，则直接根据之前的拼接模板进行全景融合。

3)输出全景视频。

总之，本发明比目前的仅利用传统全局单应变换或者局部相似变换的视频拼接方法更加有效，减少了投影畸变和透视畸变，获得更好的拼接效果。本发明可应用于智能安防监控系统，扩大监控画面的视野，提高监控效率。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周忠;吴威;曹明军;吕伟
技术所有人：北京航空航天大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。