对象追踪方法和装置与流程

文档序号：12601135阅读：来源：国知局

技术特征：

1.一种对象追踪方法，包括：

获取视频；

针对所述视频的至少部分帧的图像中的每帧图像，利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息；以及

根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象。

2.如权利要求1所述的对象追踪方法，其中，所述针对所述视频的至少部分帧的图像中的每帧图像，利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息包括：

将所述至少部分帧的图像中的每帧图像输入卷积神经网络，以获得所述至少部分帧的图像中的每帧图像的第一特征；

将所述至少部分帧的图像中的每帧图像的第一特征输入所述反馈式神经网络，以获得所述至少部分帧的图像中的每帧图像的第二特征，其中，当前图像的第二特征与在所述当前图像之前的先前图像和在所述当前图像之后的随后图像相关，并且其中所述第二特征包括横向坐标向量、纵向坐标向量和频道向量；以及

基于所述至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息。

3.根据权利要求2所述的对象追踪方法，其中，所述基于所述至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息包括：

针对所述至少部分帧的图像中的任一图像，

对于每个由该图像的第二特征中的横向坐标和纵向坐标所代表的图像点，提取与该图像点相关的一个或多个初始区域；

利用第一分类器确定针对该图像提取的所有初始区域中的每一个包含对象的可能性；

从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域，其中，所述一个或多个选定区域中的每一个的特征由该图像的第二特征中的与该选定区域相对应的元素而定；以及

对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入回归器，以获得该选定区域中包含的对象在该图像中的检测位置信息、在该图像之前的特定数目的先前图像中的预测位置信息、以及在该图像之后的特定数目的随后图像中的预测位置信息。

4.如权利要求3所述的对象追踪方法，其中，在所述针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域之后，所述对象追踪方法进一步包括：

针对所述至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入第二分类器，以确定该选定区域中包含的对象是否是目标对象。

5.如权利要求3所述的对象追踪方法，其中，所述针对所述至少部分帧的图像中的任一图像，利用第一分类器确定针对该图像提取的所有初始区域中的每一个包含对象的可能性包括：

针对所述至少部分帧的图像中的任一图像，将所述针对该图像提取的所有初始区域中的每一个的特征中的频道向量输入所述第一分类器，以确定该初始区域中包含对象的可能性，

其中，所述针对该图像提取的所有初始区域中的每一个的特征由该图像的第二特征中的与该初始区域相对应的元素而定。

6.如权利要求3所述的对象追踪方法，其中，所述针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域包括：

针对所述至少部分帧的图像中的任一图像，

当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为一个时，将该选择的初始区域确定为选定区域；

当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为多个时，针对该图像合并所述可能性最高的多个初始区域中的重叠部分超过预定标准的两个或多于两个初始区域，以获得所述一个或多个选定区域。

7.如权利要求2所述的对象追踪方法，其中，所述反馈式神经网络包括正向反馈式神经网络和反向反馈式神经网络，

所述正向反馈式神经网络用以下公式表示：

$<mrow> <mi>Y</mi> <mo>_</mo> <mi>t</mi> <mo>=</mo> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>&CircleTimes;</mo> <mi>X</mi> <mo>_</mo> <mi>t</mi> <mo>+</mo> <msub> <mi>V</mi> <mn>1</mn> </msub> <mo>&CircleTimes;</mo> <mi>Y</mi> <mo>_</mo> <mo>{</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>}</mo> <mo>+</mo> <msub> <mi>b</mi> <mn>1</mn> </msub> <mo>,</mo> </mrow>$

其中，W₁、V₁和b₁为所述正向反馈式神经网络的参数，X_t为所述视频中的第t帧图像的第一特征，Y_t为所述第t帧图像的正向特征，Y_{t-1}为所述视频中的第t-1帧图像的正向特征；

所述反向反馈式神经网络用以下公式表示：

$<mrow> <mi>Z</mi> <mo>_</mo> <mi>t</mi> <mo>=</mo> <msub> <mi>W</mi> <mn>2</mn> </msub> <mo>&CircleTimes;</mo> <mi>X</mi> <mo>_</mo> <mi>t</mi> <mo>+</mo> <msub> <mi>V</mi> <mn>2</mn> </msub> <mo>&CircleTimes;</mo> <mi>Z</mi> <mo>_</mo> <mo>{</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> <mo>}</mo> <mo>+</mo> <msub> <mi>b</mi> <mn>2</mn> </msub> <mo>,</mo> </mrow>$

其中，W₂、V₂和b₂为所述反向反馈式神经网络的参数，X_t为所述第t帧图像的第一特征，Z_t为所述第t帧图像的反向特征，Z_{t+1}为所述视频中的第t+1帧图像的反向特征；

所述第t帧图像的第二特征H_t通过以下公式计算：

其中，x表示横向坐标向量，y表示纵向坐标向量，c表示频道向量，C为所述第t帧图像的正向特征或反向特征的总频道数。

8.如权利要求3所述的对象追踪方法，其中，所述对象追踪方法进一步包括：

利用多个样本图像对所述卷积神经网络、所述反馈式神经网络、所述第一分类器和所述回归器进行训练，其中，所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。

9.如权利要求1所述的对象追踪方法，其中，所述根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象包括：

如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的预测位置信息之间的关系满足第一预设条件，则将所述特定对象和所述一个或多个参照对象关联在一起，

其中，所述参照图像与所述特定图像相对应。

10.如权利要求1所述的对象追踪方法，其中，所述根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象包括：

如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的预测位置信息满足第二预设条件，并且在所述特定图像中，在根据所述一个或多个参照对象在所述特定图像中的预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象，则基于所述一个或多个参照对象在所述特定图像中的预测位置信息确定与所述特定图像相关的预测对象，并且将所述一个或多个参照对象与所述预测对象关联在一起，

其中，所述参照图像与所述特定图像相对应。

11.如权利要求1所述的对象追踪方法，其中，所述根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象包括：

如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的预测位置信息之间的关系满足第三预设条件，则确定所述特定对象是不可信对象，

其中，所述参照图像与所述特定图像相对应。

12.一种对象追踪装置，包括：

视频获取模块，用于获取视频；

检测预测模块，用于针对所述视频的至少部分帧的图像中的每帧图像，利用反馈式神经网络检测该图像中包含的对象在该图像中的检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息；以及

追踪模块，用于根据所述视频中包含的对象的检测位置信息和预测位置信息追踪对象。

13.如权利要求12所述的对象追踪装置，其中，所述检测预测模块包括：

第一特征获得子模块，用于将所述至少部分帧的图像中的每帧图像输入卷积神经网络，以获得所述至少部分帧的图像中的每帧图像的第一特征；

第二特征获得子模块，用于将所述至少部分帧的图像中的每帧图像的第一特征输入所述反馈式神经网络，以获得所述至少部分帧的图像中的每帧图像的第二特征，其中，当前图像的第二特征与在所述当前图像之前的先前图像和在所述当前图像之后的随后图像相关，并且其中所述第二特征包括横向坐标向量、纵向坐标向量和频道向量；以及

检测预测子模块，用于基于所述至少部分帧的图像中的、任一图像的第二特征的横向坐标向量和纵向坐标向量确定在该图像中包含的对象在该图像中的检测位置信息，并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的预测位置信息。

14.如权利要求13所述的对象追踪装置，其中，所述检测预测子模块包括：

初始区域提取单元，用于针对所述至少部分帧的图像中的任一图像，对于每个由该图像的第二特征中的横向坐标和纵向坐标所代表的图像点，提取与该图像点相关的一个或多个初始区域；

可能性确定单元，用于针对所述至少部分帧的图像中的任一图像，利用第一分类器确定针对该图像提取的所有初始区域中的每一个包含对象的可能性；

选定区域获得单元，用于针对所述至少部分帧的图像中的任一图像，从所述针对该图像提取的所有初始区域中选择可能性最高的一个或多个初始区域以获得一个或多个选定区域，其中，所述一个或多个选定区域中的每一个的特征由该图像的第二特征中的与该选定区域相对应的元素而定；以及

位置信息获得单元，用于针对所述至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入回归器，以获得该选定区域中包含的对象在该图像中的检测位置信息、在该图像之前的特定数目的先前图像中的预测位置信息、以及在该图像之后的特定数目的随后图像中的预测位置信息。

15.如权利要求14所述的对象追踪装置，其中，所述对象追踪装置进一步包括目标对象确定模块，用于针对所述至少部分帧的图像中的任一图像，对于所述一个或多个选定区域中的每一个，将该选定区域的特征输入第二分类器，以确定该选定区域中包含的对象是否是目标对象。

16.如权利要求14所述的对象追踪装置，其中，所述可能性确定单元包括输入子单元，用于针对所述至少部分帧的图像中的任一图像，将所述针对该图像提取的所有初始区域中的每一个的特征中的频道向量输入所述第一分类器，以确定该初始区域中包含对象的可能性，

其中，所述针对该图像提取的所有初始区域中的每一个的特征由该图像的第二特征中的与该初始区域相对应的元素而定。

17.如权利要求14所述的对象追踪装置，其中，所述选定区域获得单元包括区域获得子单元，用于针对所述至少部分帧的图像中的任一图像，当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为一个时，将该选择的初始区域确定为选定区域；当从所述针对该图像提取的所有初始区域中选择的可能性最高的初始区域的个数为多个时，针对该图像合并所述可能性最高的多个初始区域中的重叠部分超过预定标准的两个或多于两个初始区域，以获得所述一个或多个选定区域。

18.如权利要求13所述的对象追踪装置，其中，所述反馈式神经网络包括正向反馈式神经网络和反向反馈式神经网络，

所述正向反馈式神经网络用以下公式表示：

所述反向反馈式神经网络用以下公式表示：

所述第t帧图像的第二特征H_t通过以下公式计算：

其中，x表示横向坐标向量，y表示纵向坐标向量，c表示频道向量，C为所述第t帧图像的正向特征或反向特征的总频道数。

19.如权利要求14所述的对象追踪装置，其中，所述对象追踪装置进一步包括训练模块，用于利用多个样本图像对所述卷积神经网络、所述反馈式神经网络、所述第一分类器和所述回归器进行训练，其中，所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。

20.如权利要求12所述的对象追踪装置，其中，所述追踪模块包括第一关联子模块，用于如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的预测位置信息之间的关系满足第一预设条件，则将所述特定对象和所述一个或多个参照对象关联在一起，

其中，所述参照图像与所述特定图像相对应。

21.如权利要求12所述的对象追踪装置，其中，所述追踪模块包括第二关联子模块，用于如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的预测位置信息满足第二预设条件，并且在所述特定图像中，在根据所述一个或多个参照对象在所述特定图像中的预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象，则基于所述一个或多个参照对象在所述特定图像中的预测位置信息确定与所述特定图像相关的预测对象，并且将所述一个或多个参照对象与所述预测对象关联在一起，

其中，所述参照图像与所述特定图像相对应。

22.如权利要求12所述的对象追踪装置，其中，所述追踪模块包括不可信确定子模块，用于如果所述视频中的特定图像中包含的特定对象的检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的预测位置信息之间的关系满足第三预设条件，则确定所述特定对象是不可信对象，

其中，所述参照图像与所述特定图像相对应。

完整全部详细技术资料下载

当前第2页1 2 3