一种去除运动视频中运动物体的全景图拼接方法

文档序号：9327793阅读：671来源：国知局

一种去除运动视频中运动物体的全景图拼接方法
【技术领域】
[0001] 本发明属于视频图像处理领域，特别是涉及一种去除运动视频中运动物体的全景图拼接方法。
【背景技术】
[0002] 不论在学术领域还是工程领域，全景图拼接算法都是图像处理的热点问题之一。它在各类软件中有着大量的应用，如相机全景图合成等等。全景图是观察者从一个固定视点像四周旋转一圈所能够看到的景象，它需要表达完整的真实环境信息。全景图的合成易产生"鬼影"，即运动物体在全景图有多个影像而导致全景图存在运动物体在不同时间的残影，影响了全景图的合成效果。
[0003] 目前的各类算法仍然存在缺陷，如全景合成速度慢，5秒视频需要数十秒的合成时间；合成视觉效果差，不能够完全匹配，即背景无法叠加一致，生成的图像模糊；视频仅仅限制于水平移动，不能够垂直移动；运动物体消除不完全，有残留影像等等。

【发明内容】

[0004] 本发明的目的在于：实现以一定时间长度的视频作为输入，在数秒之内合成一张去除视频内运动物体的全景图。该全景图生成清晰度较高，背景叠加精准，无运动物体的 "鬼影"现象。
[0005] 本发明的技术方案如下：
[0006] -种去除运动视频中运动物体的全景图拼接方法，其特征在于所述方法包括如下步骤：
[0007] (1)依据视频的长度获取合适数量的视频截图；
[0008] (2)将截图所得的图像影射到球面上，以防止最终形成的全景图扭曲变形；
[0009] (3)对每帧图像进行SURF特征点检测，获取特征点的描述子向量，作为匹配的依据；
[0010] (4)特征点匹配；
[0011] (5)由匹配特征点计算每两帧图像的透视单应变换矩阵，计算相邻两帧的正反方向单应矩阵变换；
[0012] (6)由相邻帧的单应变换矩阵，获取全景图大小；
[0013] (7)由全景图反映射至序列帧，为全景图的每个像素点构建候选点链表，去除运动物体，全景图的生成完毕。
[0014] 进一步的，所述步骤（1)中，视频截图选择的具体方式为：若视频长度在2秒之内，则每间隔5帧取一帧图像；若视频长度在2秒至5秒之间，则每间隔10帧取一帧图像；若视频长度超过5秒，则每间隔15帧取一帧图像。
[0015] 进一步的，所述步骤（2)中，图像投影至球面的方法如下：
[0016] 假设世界坐标系为XYZ，照相机坐标系为xyz，且相机坐标系是由世界坐标系绕世界坐标系中的X轴旋转α角度得到；
[0017] 设实景图像f上任意一个像素点P的图像坐标为（X，y)，它在球面投影图像上对应的图像坐标为(? φ)，其中Θ是水平旋转角，φ:是俯仰角，实景图像的高度为H，宽度为 W，并设球体中心为坐标系原点，相机焦距为λ，球半径r为相机焦距；这时点ρ (X，y)在相机坐标系xyz下的坐标为（X - W/2, y - H/2, - λ )，则将它转化为世界坐标系XYZ下的坐标 (U，V，W)为：
其中（？，太）对应于照片平面坐标（x，y)的球面展开平面坐标值；利用上公式，则可以把原始图像投影至平面，生成球面展开平面坐标图像。
[0024] 进一步的，所述步骤（4)中，特征点匹配的方法如下：
[0025] 采用欧氏距离来作为两个特征向量距离的评价的标准函数：
[0027] 其中Pl，P2表示两帧图像中的特征点，kli和k2i表示的是Pl，P2的描述子向量第i个分量；为进一步降低错误匹配率，采用最近邻比次近邻的方法，用ND (Nearest Distance)和NND (Next Nearest Distance)分别表示最近距离和次近距离，则最近和次近距离之比Rod为ND/NND，我们可以设定一个阈值threshold (大于0,小于1的正数），则：
[0029] 根据经验，threshold取值在0· 5至0· 7之间。
[0030] 进一步的，所述步骤（5)中，计算过程采用基于RANSAC匹配方法，由于单应矩阵需要4对匹配点进行计算，故随机选取多个4对匹配点的子集，通过最小误差方法来获取最优子集，并由此估算相邻两帧图像间的单应变换矩阵。
[0031] 进一步的，所述步骤（6)中，具体方法如下：
[0032] 选取所有图像序列帧的中间一帧作为全景图基础坐标帧，由于透视矩阵变换模型在帧与帧之间具有可传递性，故可由相邻帧的变换矩阵计算任意两帧之间的正向或者逆向变换；将其他帧的图像的四个顶点，映射到基础坐标帧内，选取在其中最小的X坐标和最小的y坐标做为全景图的左上角顶点，以最大的X坐标和最大的y坐标做为全景图的右下角顶点，由此可以得到全景图的大小。
[0033] 进一步的，所述步骤（7)中，具体方法如下：
[0034] 从全景图的左上角点开始，按行遍历全景图像的像素；对于像素点P(x，y)利用反变换矩阵来得到在单帧图像坐标系中的位置；由于全景图像素坐标并非在每帧图像都存在反投影点，故仅选择存在反投影点的点作为候选点；
[0035] 对于所有的候选点Pi (xi，yi)按照灰度值进行排序，其中的像素点有可能是前景运动物体的点，也有可能是背景点，为了能够利用背景点对全景图像进行赋值，我们假设在整个帧序列当中，某一个点被运动物体遮挡的时间小于它暴露出来的时间，那么我们可以利用选取候选点的中值作为全景图像素点（x，y)的值；通过这种中值像素选取的方法，我们能够滤除运动物体，而仅仅保留背景；由此，全景图的生成完毕。
[0036] 本发明的有益效果在于：
[0037] (1)全景图合成结果清晰，没有模糊重影。
[0038] 首先SURF特征点的提取具有尺度不变形，即不受图像平移，旋转的影响，它能够完好地提取出图像中的特征点，为匹配提供精确的匹配点集。再者使用最近邻比次近邻的方法来作为特征点的差值度量法，降低了错误匹配率。并且算法采用RANSAC最小误差方法来对两帧图像的特征点进行匹配，它能够找到最优的四对特征点子集。
[0039] (2)全景图合成速度较快，能够在数秒内完成全景图合成。
[0040] SURF特征点检测具有高效实时性，通过设定合适的minHessian阈值参数，能够减少特征点提取时间。RANSAC最小误差方法也具有较高的时效性能，使得整体的图像拼接具有较快的计算速度。
[0041] (3)合成支持视频水平移动和垂直移动，能够生成水平方向和垂直方向的全景图。
[0042] 由于将原始截图图像影射至球面坐标，形成了球面展开平面坐标图像，故在拼接时能够同时处理横向运动与纵向运动，生成水平方向和垂直方向的全景图。
[0043] (4)能够完好地消除运动物体的痕迹，没有残影。
[0044] 算法在全景图中为每一个像素点维持了一个顺序的像素值链表，且采用选取中值的方式确定该像素点的像素值，由于大部分时间内，该处的像素值为背景而非运动物体，故能够选取中值以背景像素点作为该像素点的像素值。
[0045] (5)能够提取运动物体，支持进一步的操作，例如更换背景，插入运动物体等等。
[0046] 由于已经得到了没有运动物体的全景图，只需要使用帧差法就能够提取出运动物体，再进行后续的操作。
[0047] (6)图像视觉较为平滑，避免由于单张图像太明亮或者太昏暗而造成全景图的区域亮度不一致。
[0048] 由于对全景图中每个像素点的候选点排序后是取中值操作，故可能够避免选取过亮或是过暗的像素点，实现了视觉平滑效果。
[0049] (7)算法能够对视频长度做自适应调整，若视频长度较长，则选取帧间隔大，若视频较短，则选取帧间隔小，这样的选择能够兼顾算法执行效率和全景图合成效果。
【附图说明】
[0050] 图1是本发明的世界坐标系XYZ与照相机坐标系xyz的示意图。
[0051 ] 图2是本发明方法的流程图。
【具体实施方式】
[0052] 下面结合附图，对本发明的技术方案作进一步的阐述。
[0053] 如图2所示的本发明方法的流程图。一种去除运动视频中运动物体的全景图拼接方法，其特征在于所述方法包括如下步骤：
[0054] (1)依据视频的长度获取合适数量的视频截图；
[0055] (2)由于通常情况下人们在拍摄习惯是身体不移动而旋转相机进行全景视频的获取，故需要将截图所得的图像影射到球面上，以防止最终形成的全景图扭曲变形；
[0056] (3)对每帧图像进行SURF特征点检测，获取特征点的描述子向量，作为匹配的依据；
[0057] (4)特征点匹配；
[0058] (5)由匹配特征点计算每两帧图像的透视单应变换矩阵，计算相邻两帧的正反方向单应矩阵变换；
[0059] (6)由相邻帧的单应变换矩阵，获取全景图大小；
[0060] (7)由全景图

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨光;周恒;郭宗义;
技术所有人：硅革科技（北京）有限公司;
我是此专利的发明人

上一篇：基于机器视觉的小模数齿轮检测过程中图像拼接的方法
上一篇：一种构建高时空遥感数据的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。