一种确定视频图像中被测对象间位置关系的方法及装置的制造方法

文档序号：9547925阅读：438来源：国知局

一种确定视频图像中被测对象间位置关系的方法及装置的制造方法
【技术领域】
[0001] 本申请涉及三维视觉技术领域，尤其涉及一种确定视频图像中被测对象间位置关系的方法及装置。
【背景技术】
[0002] 在安防监控等领域，一般可以通过摄像头实时拍摄场景画面，从而检测、确定场景中是否有异常行为发生。
[0003] 目前，具体的实现方式通常是在视频画面中选择关注的区域，例如，若要监控自动取款机，则在视频图像中选择自动取款机的区域，然后实时检测该区域内的像素变化，以像素的变化为依据，判断该区域是否有人入侵或者发生其他特定行为，最终得到统计结果。
[0004] 采用上述方式，由于在视频图像中选择被测对象的所在区域并不能真实的反映该被测对象的位置，无法准确判断多个被测对象的位置关系。因此，经常会产生很多的误判情况，也即，视频图像中被测对象间的位置关系与真实场景中的位置关系不符合，检测结果非常不准确。
[0005] 现有技术不足在于：
[0006] 采用现有方法经常导致误判、检测精度较低。

【发明内容】

[0007] 本申请实施例提出了一种确定视频图像中被测对象间位置关系的方法及装置，以解决现有技术中经常导致误判、检测精度较低的技术问题。
[0008] 本申请实施例提供了一种确定视频图像中被测对象间位置关系的方法，包括如下步骤：
[0009] 检测视频图像中的第一被测对象和第二被测对象；
[0010] 确定所述第一被测对象和所述第二被测对象在视频图像中的坐标；
[0011] 将所述第一被测对象和所述第二被测对象在所述视频图像中的二维坐标转换为物理世界中的三维坐标；
[0012] 根据所述第一被测对象和所述第二被测对象的三维坐标，确定所述第一被测对象和所述第二被测对象之间的位置关系。
[0013] 本申请实施例提供了一种确定视频图像中被测对象间位置关系的装置，包括：
[0014] 检测模块，用于检测视频图像中的第一被测对象和第二被测对象；
[0015] 第一确定模块，用于确定所述第一被测对象和所述第二被测对象在视频图像中的坐标；
[0016] 转换模块，用于将所述第一被测对象和所述第二被测对象在所述视频图像中的二维坐标转换为物理世界中的三维坐标；
[0017] 第二确定模块，用于根据所述第一被测对象和所述第二被测对象的三维坐标，确定所述第一被测对象和所述第二被测对象之间的位置关系。
[0018] 有益效果如下：
[0019] 本申请实施例所提供的确定视频图像中被测对象间位置关系的方法及装置，在确定视频图像中检测到的第一被测对象和第二被测对象的坐标后，将所述第一被测对象和所述第二被测对象在视频图像中的二维坐标转换为物理世界中的三维坐标，并根据所述三维坐标来确定所述第一被测对象和所述第二被测对象之间的位置关系，由于本申请实施例中将被测对象的坐标由视频图像转换至真实的物理世界，相比现有技术新增加了一维方向，也即，被测对象的深度信息（z轴），相当于将视频画面中的第一被测对象和第二被测对象还原到了真实的物理世界，这种情况下进行监测的准确度和精度更高，避免了现有技术中经常出现误判的问题。
【附图说明】
[0020] 下面将参照附图描述本申请的具体实施例，其中：
[0021] 图1示出了本申请实施例中确定视频图像中被测对象间位置关系的方法实施的流程示意图；
[0022] 图2示出了本申请实施例中image坐标系的示意图；
[0023] 图3示出了本申请实施例中camera坐标系的示意图；
[0024] 图4示出了本申请实施例中floor坐标系的示意图；
[0025] 图5示出了本申请实施例中Step Counting Mat的场景示意图；
[0026] 图6示出了本申请实施例中Step Counting Mat的投影示意图；
[0027] 图7示出了本申请实施例中Step Counting Mat的效果示意图；
[0028] 图8示出了本申请实施例中Touch Counting Wall的场景示意图；
[0029] 图9示出了本申请实施例中Touch Counting Wall的投影示意图；
[0030] 图10示出了本申请实施例中Touch Counting Wall的效果示意图；
[0031] 图11示出了本申请实施例中Pass Counting Door的场景示意图；
[0032] 图12示出了本申请实施例中Pass Counting Door的投影示意图；
[0033] 图13示出了本申请实施例中People Counting Queue的场景示意图；
[0034] 图14示出了本申请实施例中确定视频图像中被测对象间位置关系的装置的结构示意图。
【具体实施方式】
[0035] 为了使本申请的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。并且在不冲突的情况下，本说明中的实施例及实施例中的特征可以互相结合。
[0036] 针对现有技术的不足，本申请实施例提出了一种确定视频图像中被测对象间位置关系的方法及装置，下面进行说明。
[0037] 图1示出了本申请实施例中确定视频图像中被测对象间位置关系的方法实施的流程示意图，如图所示，所述确定视频图像中被测对象间位置关系的方法可以包括如下步骤：
[0038] 步骤101、检测视频图像中的第一被测对象和第二被测对象；
[0039] 步骤102、确定所述第一被测对象和所述第二被测对象在所述视频图像中的坐标；
[0040] 步骤103、将所述第一被测对象和所述第二被测对象在所述视频图像中的二维坐标转换为物理世界中的三维坐标；
[0041] 步骤104、根据所述第一被测对象和所述第二被测对象的三维坐标，确定所述第一被测对象和所述第二被测对象之间的位置关系。
[0042] 现有技术中通过摄像头监控到的视频图像均为二维图片，并不能真实反映现实的物理世界。
[0043] 当视频画面中出现被测对象时，系统可以自动检测出视频图像中的被测对象，并得到被测对象在视频图像中的坐标位置。由于被测对象一般是有一定体积大小的事物，因此，在具体实施时，可以将每个被测对象抽象为位于被测对象重心位置的一个质点，以减少计算量或简化操作。
[0044] 其中，被测对象可以是视频图像中出现的任一事物，可以是一个或者多个，本申请对此不作限制。另外，检测被测对象可以基于现有技术中的人员检测和追踪技术来实现，本申请在此不做赘述。
[0045] 由于将视频图像中的各像素的坐标位置转换到物理世界中的三维坐标后，增加了深度信息，可以还原出真实世界中各物体之间的位置关系，进而可以得到准确的检测结果。
[0046] 在本申请实施例中，基于深度信息结合数学方法可以建立像素和物理世界位置的对应关系。其中，深度信息可以来自于现有技术中通过结构光（Structured light)、双目、飞行时间（time of flight)等技术实现的深度传感器（depth sensor)。例如：通过结构光实现的深度传感器，是采用一个投影仪来建立光模式，并有一个摄像头用于探测结果；飞行时间实现方式与结构光类似，飞行时间摄像头包括一个图像传感器、一只镜片和一个有源发光源，摄像头根据投射光从光源到投影仪再回到图像传感器的时间，得出距离（也即深度信息或深度值）。
[0047] 现有技术中在视频画面中检测到的被测对象，仅仅是二维平面的坐标，并不能真实反映现实世界中所述被测对象的位置。其次，现有技术在不准确标注的基础上进行统计，统计的依据是像素变化，而像素变化不一定是被测对象引起的，也可能是由于光线或环境变化导致的像素变化，因此统计结果并不准确。本申请实施例增加了景深（或者称深度数据），通过使用RGBD数据还原了真实世界各事物的几何结构，可以准确的计算出被测对象的真实所在位置，进而准确的确定出被测对象之间的位置关系，排除真实区域前面或后面的物体导致误判的情况，确保检测得到的结果更加精准。
[0048] 实施中，所述将所述视频图像中的二维坐标转换为物理世界中的三维坐标，具体可以为：
[0049] 根据所述视频图像image坐标系与所述摄像头camera坐标系的转换关系、以及所述camera坐标系与所述地面floor坐标系的转换关系，将所述image坐标系的坐标转换为所述floor坐标系的坐标；
[0050] 其中，所述image坐标系为预先建立的以所述视频图像的顶点为原点、以与所述顶点相邻的两边为坐标轴的坐标系；所述camera坐标系为预先建立的以camera所在位置为原点、与所述视频画面水平方向平行的方向为X轴、与所述视频画面坚直方向平行的方向为y轴、光轴方向为Z轴的坐标系；所述floor坐标系为预先建立的以物理地面为XoY平面、以所述camera坐标系原点到地面所在平面XoY的投影为原点的坐标系。
[0051] 本申请实施例预先建立了三种坐标系，并预先得到所述image坐标系与所述 camera坐标系、所述camera坐标系与所述floor坐标系之间的转换关系，从而可以通过坐标系的转换，将视频图像中像素的坐标值转换为真实世界中的实际坐标值，由于视频图像是二维平面的，而真实的物理世界是三维空间的，增加了深度信息（也即，物体距离摄像头的远近），因此，通过这种坐标转换后得到的坐标更加符合真实场景。
[0052] 本申请实施例中，仅是提供了一种坐标转换的方式，在具体实施时还可以采用其他的转换方式，例如建立其他类型的坐标系进行转换等。从实践角度来看，采用本申请实施例所提供的坐标转换方式，得到的数据更加准确、符合真实场景。
[0053] 另外，本申请实施例是通过camera坐标系作为中转，将image坐标系转换为 camera坐标系后，再由camera坐标系转换为floor坐标系，在具体实施时，也可以直接将 image坐标系转换为floor坐标系，实现原理与本申请实施例相类似，本领域技术人员只需要进行简单的数据计算就可以实现。很显然，这种方式只是对本申请实施例所提供的公式进行简单计算、叠加，也应该在本申请的保护范围之内。
[0054] 实施中，所述image坐标系转换为所述camera坐标系，具体可以为：
[0055] 确定所述image坐标系的像素位置，所述像素位置=(xinage，y inage);
[0056] 根据所述像素位置确定所述像素位置的深度值depth_value ;
[0057] 根据以下转换公式确定所述image坐标系与所述camera坐标系的转换关系：
[0058] xCamera= camera_param. xzFactor*(x iniage/camera_param. resolution_ X_0. 5)*depth_value ;
[0059] ycanera= camera_param. yzFactor*(0. 5-y iniage/camera_param. resolution_ Y)*depth_value ；
[0060] Zcanera= depth_value ；
[0061] 其中，Xcamel^ycamera Zcamer^lj为所述 camera 坐标系中 x、y、z 轴的坐标值,camera_ param. resolution_X、camera_param. resolution_Y分别为所述视频画面水平方向、垂直方向的像素数，camera_param. xzFactor、camera_param. yzFactor 分另Ij为修正因子。
[0062] 本申请实施例中，可以先确定image坐标系中每个像素点的位置（也即，坐标值），由于image坐标系为二维坐标，像素位置=(x inage，yinage)。在确定像素位置后，可以根据现有的深度传感器、深度摄像头等自带功能得到该像素位置的深度值cbpth_val Ue，也即，该像素位置到摄像头的距离。最终，可以根据转换公式将所述image坐标系的（X_ ge，y_ge) 转换为所述camera坐标系的（x_CTa, yramCTa, zramCTa),转换公式可以为：
[0063] xCamera= camera_param. xzFactor*(x iniage/camera_param. resolution_ X_0. 5)*depth_value ;
[0064] ycamera= camera_param. yzFactor* (0· 5_y image/camera_param. resolution- Y)*depth_value ；
[0065] Zcanera= depth_value ；

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵昕;程士庆;张永杰;王超;
技术所有人：北京格灵深瞳信息技术有限公司;
我是此专利的发明人

上一篇：图像处理装置及图像处理方法
上一篇：基于混合智能优化算法的sar图像特征选择方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。