Ptz监控摄像机实时姿态快速估算方法

文档序号:6402071阅读:267来源:国知局
专利名称:Ptz监控摄像机实时姿态快速估算方法
技术领域
本发明涉及一种视频监控的计算方法,尤其涉及一种PTZ监控摄像机实时姿态快速估算方法。
背景技术
PTZ摄像机在监控领域的广泛应用,对AVE监控系统带来了新的挑战。因为使用者可以任意的进行摄像机的PTZ和变焦操作,这就要求对处于任意姿态的摄像机进行快速标定。传统的方法中需要一定的人工干预的交互操作以确定2D-3D间的对应关系,该方法在监控系统中难以满足实时响应的要求。以下方法可以解决PTZ摄像机实时标定的问题:
H.S.Sawhney, A.Arpa, R.Kumar等在〈〈Video Flashlights-Real Time Renderingof Multiple Videos for Immersive Model Visualization》中提出一种新的解决模式,系统首先用摄像机前一帧的姿态作为初始姿态,通过连续跟踪视频中的多边形平面特征实现摄像机的实时姿态估计,系统根据摄像机姿态估计结果,将模型中的多边形平面投影到视频帧中,形成局部边缘增强的图像,并计算图像的方向能量,通过迭代的方式选择方向能量最小的姿态参数作为摄像 机的最佳姿态估计,最后将对应的内参数和外参数关联到模型中的虚拟摄像机上,从而实现固定摄像机的视频投影。在实际使用中,该方法采用投影方法,迭代寻优,对图像的颜色特征依赖度低,并且在大角度改变摄像机PTZ参数时,仍能保证较好的准确性,但也存在PTZ参数改变越大,需要迭代搜索的时间也会越长,从而影响算法的实时性的问题。

发明内容
为克服现有技术的上述缺陷,本发明的目的在于提供一种PTZ监控摄像机实时姿态快速估算方法,基于实时视频与场景结构全景图的快速匹配,解决了实时估算摄像机姿态的问题。本发明采用的技术方案为:一种PTZ监控摄像机实时姿态快速估算方法,采用场景结构全景图作为视频匹配的参考图像,对实时视频进行全景匹配,从而在场景结构全景图中找到实时视频对应的区域,并确定实时视频与所述场景结构全景图的单应关系,通过对所述单应关系和所述场景结构全景图的姿态参数的计算得出实时视频的姿态参数。进一步地,所述全景匹配是指针对实时视频在所述场景结构全景图中进行实时搜索。进一步地,所述单应关系是通过对实时视频与所述场景结构全景图中的相应的特征点的对应关系的计算获得。所述场景结构全景图可以为由摄像机在PTZ操作下产生的多个不同FOV图像构成的全景图。优选地,在所述场景结构全景图中提取显著而有效的特征区域,将所述特征区域与所述场景结构全景图关联,建立全景图特征索引,在需要进行全景匹配时,采用所述全景图特征索引替代所述场景结构全景图进行特征运算。所述全景图特征索引可以为一张有限分辨率的图像。优选地,所述摄像机在工作过程中实时记录自身的姿态参数。在进行全景匹配时,可以利用实时记录的摄像机的姿态参数限定特征匹配算法在所述场景结构全景图或全景图特征索引中的搜索范围。所述实时记录的摄像机的姿态参数可以包括实时视频在场景结构全景图或全景图特征索引中的视频投影区域和搜索区域的参数,以及摄像机的水平偏移、垂直偏移、缩放倍数、水平速度、垂直速度和缩放速度的参数。当实时视频在所述场景结构全景图和全景图特征索引中均匹配失败时,可以直接根据摄像机的水平偏移、垂直偏移、缩放倍数、水平速度、垂直速度和缩放速度的历史参数信息推算实时视频在所述场景结构全景图或全景图特征索引中对应的区域。本发明的有益效果:场景结构全景图包含大量的场景信息,为实时估算任意摄像机的姿态提供了详细的参考信息,并且对于每一个图像点,它在三维模型中的映射关系也是已知的,因此可以将全景图视为一张高分辨率的纹理图像,可以被精确的映射到三维模型中的对应位置,能够唯一确定某个FOV状态下摄像机的姿态参数,采用预先建立全景图的方法实时估算可控摄像机的投影参数,实现了监控视频与三维场景的实时融和。在全景匹配时,采用全景图特征索引替代场景结构全景图,并利用实时记录的摄像机的姿态参数限定特征匹配算法的搜索范围,可有效解决搜索范围与实时性之间的矛盾,快速地在全景图特征索引(进一步地在场景结构全景图)中找到实时视频对应的区域,从而确定实时视频与场景结构全景图的单应关系,进而计算出摄像机的实时姿态。本发明的方法大大提高了摄像机姿态实时估算的效率,平均处理速率可达15-20fps,且平均投影误差较小。


图1是本发明的流程 图2是本发明的全景图特征索引的创建流程图。
具体实施例方式参见图1和图2,本发明提供了一种PTZ (云台控制)监控摄像机实时姿态快速估算方法,采用场景结构全景图作为视频匹配的参考图像,对实时视频进行全景匹配,从而在场景结构全景图中找到实时视频对应的区域,并确定实时视频与所述场景结构全景图的单应关系(可以以单应矩阵的形式体现),通过对所述单应关系和所述场景结构全景图的姿态参数的计算得出实时视频的姿态参数(实时视频的投影矩阵使用单应矩阵与原投影矩阵相乘得到),所述场景结构全景图可以为一张也可以为多张。所述全景匹配是指针对实时视频在所述场景结构全景图中进行实时搜索。所述场景结构全景图中包含了大量的场景信息,并且对于每一个图像点,它在三维模型中的映射关系也是已知的,所以可以将场景结构全景图视为一张高分辨率的纹理图像,可以被精确的映射到三维模型中的对应位置。同理,若已知图像与场景结构全景图的单应关系,也就能将新的图像映射到三维模型的对应位置上去,只要知道实时图像与参考图像的单应关系,就能计算出实时图像所对应摄像机的姿态参数。所述场景结构全景图可以为由摄像机在PTZ操作下产生的多个不同FOV (视频)图像构成的全景图,能够唯一确定某个FOV状态下摄像机的姿态参数。本发明采用预先建立场景结构全景图的方法实现了估算可控摄像机的投影参数,实现了监控视频与三维场景的实时融和。所述场景结构全景图记录了摄像机在几乎所有有效视域内的场景结构特征,为实时估算任意摄像机的姿态提供了详细的参考信息,为了解决实时估算时带来的庞大的时间复杂度,难以满足实时计算的要求的问题,本发明提出全景图特征索引的方法,将所有显著特征放在一张结构特征索引表中。假设基于以下前提:场景中角点特征并不是绝对均匀分布的,场景中的固有对象,即建筑物、灯杆、路面、雕塑、花坛等在相当长时间内是不变的。这也符合绝大多数场景的实际情况,换句话说,在场景结构全景图中有相当大的区域是缺少有效角点的,本发明优选地,在所述场景结构全景图中提取显著而有效的特征区域,将所述特征区域与所述场景结构全景图关联,建立全景图特征索引,在需要进行全景匹配时,采用所述全景图特征索引替代所述场景结构全景图进行特征运算,从而减小特征区域,所述全景图特征索引可以为一张有限分辨率的图像,分为特征点聚类和子图关联两个步骤。特征点聚类:设场景结构全景图中的特征点集为points,对points进行Kneans聚类分析,将聚类结果按照所包含的特征点数量从高到低的排序,找到排序前K个特征聚类,为每个聚类中心点Centerk建立一个m*n大小的矩形区域Rectk,对聚类中的所有特征点做矩形包围盒,将该矩形包围盒内的子图缩放到Rectk规格,记矩形包围盒到Rectk的缩放因子分别为SBR_Wk和SBR_Hk。子图关联:将每个Rectk区域内的图像单独提取出来,按8*8排列构成512*512图像,并记录每个Rectk的聚类中心点坐标。这张512*512图像即为所述全景图特征索引,包含了场景中绝大多数的重要特征区域。监控实时融和的关键部分是将多种视频实时精确的渲染到3D模型上,这里所说的多种视频是指不同类型、不同分辨率的摄像机获取的不同场景下的视频。视频和三维模型存在于两个不同的空间。虽然三维模型的纹理贴图是从多张静态图像获得的,但使用视频进行实时的三维模型纹理映射却与之有较大的区别,为了实现视频无缝渲染,系统需要通过特定的姿态跟踪技术自动求解摄像机的3D姿态,本发明针对这一问题,提出姿态跟踪算法,包括:
(O特征搜索策略
基于单摄像机场景结构全景图以及全景图特征索引,本发明提出适用于可控摄像机实时投影姿态估计的结构特征搜索策略。摄像机姿态实时投影姿态估计的核心是识别摄像机FOV下的真实场景在三维场景模型中的对应位置。根据建立全景图特征索引的假设(场景中角点特征并不是绝对均匀分布的,场景中的固有对象,即建筑物、灯杆、路面、雕塑、花坛等在相当长时间内是不变的),当在场景结构全景图中的特征搜索区域足够大时,总能找到与当前FOV对应的区域,而对于一张分辨率在1080高清级别以上的场景结构全景图,其特征点检测效率很难控制在40ms以内,为了提高搜索的效率,必将缩小每帧视频的搜索范围。本发明提出的结构特征实时搜索策略通过引入匹配上下文和全景图特征索引的概念,解决搜索范围和实时性之间的矛盾。本发明对结构特征实时搜索的前提做如下假设:
假设1:绝大部分情况下,摄像机PTZ及Zoom操作带来的视频内容改变是连续的; 假设2:在所有情况下,前一帧视频所对应的摄像机姿态参数是已知的。对于假设1,目前摄像机的硬件结构和控制方式决定了对摄像机的操作控制过程是一个渐变的过程,在网络及设备正常的情况下,云台及变焦运动不会出现画面跳跃现象。但是不排除因操作不当、网络及设备异常造成的画面跳跃,出现前后两帧视频内容发生根本性改变。对于假设2,可以通过在处理过程中实时记录摄像机的姿态参数来保证其始终成立。这些实时记录的、已知的姿态参数信息为匹配上下文,实时搜索时(进行全景匹配时),利用匹配上下文限定特征匹配算法在所述场景结构全景图或全景图特征索引中的搜索范围。本发明中,匹配 上下文(实时记录的摄像机的姿态参数)包括实时视频在场景结构全景图或全景图特征索引中的视频投影区域(Video Rect,简称vr)和搜索区域(Searching Rect,简称sr)的参数,以及摄像机的水平偏移(Horizontal Moving,简称hm)、垂直偏移(Vertical Moving,简称vm)、缩放倍数(Scale,简称S)、水平速度(HorizontalSpeed,简称hs)、垂直速度(Vertical Speed,简称vs)和缩放速度(Zoom Speed,简称zs)的参数。视频投影区域:用于描述视频内容映射到结构全景图中的精确区域;
搜索区域:用于限定本次特征搜索范围的参数,sr=S*Rect (vr),起中S为比例因子,
Rect O为取最小包围盒矩形操作;
水平偏移:记录摄像机在水平方向的偏移量,偏移参考点为场景结构全景图中心点,水
平向右为正向,水平向左为负向;
垂直偏移:记录摄像机在垂直方向的偏移量,偏移参考点为场景结构全景图中心点,垂
直向上为正向,垂直向下为负向;
缩放倍数:用于描述视频中单位目标大小在场景结构全景图中的缩放比例,
权利要求
1.一种PTZ监控摄像机实时姿态快速估算方法,其特征在于采用场景结构全景图作为视频匹配的参考图像,对实时视频进行全景匹配,从而在场景结构全景图中找到实时视频对应的区域,并确定实时视频与所述场景结构全景图的单应关系,通过对所述单应关系和所述场景结构全景图的姿态参数的计算得出实时视频的姿态参数。
2.如权利要求1所述的PTZ监控摄像机实时姿态快速估算方法,其特征在于所述全景匹配是指针对实时视频在所述场景结构全景图中进行实时搜索。
3.如权利要求2所述的PTZ监控摄像机实时姿态快速估算方法,其特征在于所述单应关系是通过对实时视频与所述场景结构全景图中的相应的特征点的对应关系的计算获得。
4.如权利要求3所述的PTZ监控摄像机实时姿态快速估算方法,其特征在于所述场景结构全景图为由摄像机在PTZ操作下产生的多个不同FOV图像构成的全景图。
5.如权利要求1、2、3或4所述的PTZ监控摄像机实时姿态快速估算方法,其特征在于在所述场景结构全景图中提取显著而有效的特征区域,将所述特征区域与所述场景结构全景图关联,建立全景图特征索引,在需要进行全景匹配时,采用所述全景图特征索引替代所述场景结构全景图进行特征运算。
6.如权利要求5所述的PTZ监控摄像机实时姿态快速估算方法,其特征在于所述全景图特征索引为一张有限分辨率的图像。
7.如权利要求6所述的PTZ监控摄像机实时姿态快速估算方法,其特征在于所述摄像机在工作过程中实时记录自身的姿态参数。
8.如权利要求7所述的PTZ监控摄像机实时姿态快速估算方法,其特征在于在进行全景匹配时,利用实时记录的摄像机的姿态参数限定特征匹配算法在所述场景结构全景图或全景图特征索引中的搜索范围。
9.如权利要求8所述的PTZ监控摄像机实时姿态快速估算方法,其特征在于所述实时记录的摄像机的姿态参数包括实时视频在场景结构全景图或全景图特征索引中的视频投影区域和搜索区域的参数,以及摄像机的水平偏移、垂直偏移、缩放倍数、水平速度、垂直速度和缩放速度的参数。
10.如权利要求9所述的PTZ监控摄像机实时姿态快速估算方法,其特征在于当实时视频在所述场景结构全景图和全景图特征索引中均匹配失败时,直接根据摄像机的水平偏移、垂直偏移、缩放倍数、水平速度、垂直速度和缩放速度的历史参数信息推算实时视频在所述场景结构全景图或全景图特征索引中对应的区域。
全文摘要
本发明涉及一种PTZ监控摄像机实时姿态快速估算方法,采用场景结构全景图作为视频匹配的参考图像,对实时视频进行全景匹配,从而在场景结构全景图中找到实时视频对应的区域,并确定实时视频与所述场景结构全景图的单应关系,通过对所述单应关系和所述场景结构全景图的姿态参数的计算得出实时视频的姿态参数。通过本发明可以快速估算摄像机的实时姿态,平均处理速率可达15-20fps,且平均投影误差较小,可以有效地实现摄像机姿态的实时更新。
文档编号G06T7/00GK103198488SQ201310130949
公开日2013年7月10日 申请日期2013年4月16日 优先权日2013年4月16日
发明者何彬, 李洪涛, 冯亚北 申请人:北京天睿空间科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1