对象跟踪方法、对象跟踪装置以及计算机可读存储介质与流程

文档序号：16070690发布日期：2018-11-24 13:10阅读：215来源：国知局

本发明涉及图像处理领域，更具体地，本发明涉及对象跟踪方法、对象跟踪装置以及计算机可读存储介质。

背景技术

对象跟踪是图像处理领域中非常重要且关键的一部分，其在安防、监控等领域都有广泛的应用前景。

通常，对象跟踪技术一般是基于对一系列连续帧图像的处理，从复杂的背景中识别出目标，从而实现对目标的连续、准确的跟踪。已知的对象跟踪技术，通过首先对当前图像中进行人脸识别，然后基于人脸识别结果完成对目标的连续跟踪。现有的人脸识别算法需要综合各人脸区域的识别结果进而判定某张人脸是否属于某个人。例如，可以在人脸识别的匹配过程中，会对一个人的左眼、右眼、鼻、口、左耳、右耳等处分别生成一个匹配程度的分数，然后取这几个数的平均值作为输出。然而，当人脸运动幅度比较大或者人脸的部分区域被遮挡时，会得到不完整的人脸信息，在这种情况下，会大大影响对象追踪的效果。

因此，需要提供一种精度更高的对象跟踪方法。

技术实现要素：

有鉴于此，本发明提供了一种对象跟踪方法、对象跟踪装置以及计算机可读存储介质。

根据本发明的一方面，提供了一种对象跟踪方法，包括：获取包含待跟踪对象的连续帧图像；对所述连续帧图像中的当前帧图像执行人脸检测，确定在所述当前帧图像中检测出的行人的脸部的置信度；判断所述置信度是否小于预定值；当所述置信度小于所述预定值时，对所述当前帧图像执行特定部位检测，确定所述当前帧图像中所述行人的特定部位的位置，所述特定部位为人体上不同于脸部的部位；以及基于所述行人的特定部位的位置，确定所述行人是否为所述待跟踪对象。

此外，根据本发明的一个实施例，所述基于所述行人的特定部位的位置，确定所述行人是否为所述待跟踪对象，包括：根据所述行人的特定部位的位置，确定所述行人的特定部位与上一帧图像中所述待跟踪对象的特定部位或脸部的距离；若所述距离小于预定距离，则确定所述行人为所述待跟踪对象；或者，若所述距离为所述当前帧图像中检测出的所有行人的特定部位分别与上一帧图像中所述待跟踪对象的特定部位或脸部的距离中的最小距离，则确定所述行人为所述待跟踪对象。

此外，根据本发明的另一实施例，所述对象跟踪方法还包括：当所述置信度大于或等于所述预定值时，确定脸部位置框，所述脸部位置框用于表示在所述当前帧图像中所述行人脸部的位置；或者，当所述置信度大于或等于所述预定值时，对所述当前帧图像执行人脸识别，确定所述行人是否为所述待跟踪对象。

此外，根据本发明的另一实施例，其中，基于卷积神经网络对所述当前帧图像执行特定部位检测。

此外，根据本发明的另一实施例，其中，所述基于卷积神经网络对所述当前帧图像执行特定部位检测包括：在所述当前帧图像中提出多个位置框；对提出的所述多个位置框进行分类，以获得多个特定部位的位置框；对所述多个特定部位的位置框执行去重处理，以获得所述特定部位的位置框，所述特定部位的位置框用于表示在所述当前帧图像中所述特定部位的位置。

此外，根据本发明的另一实施例，其中，所述卷积神经网络的损失函数l以如下公式定义：

此外，根据本发明的另一实施例，其中，所述特定部位为行人的头部。

根据本发明的另一方面，提供了一种对象跟踪装置，包括：图像获取模块，用于获取包含待跟踪对象的连续帧图像；人脸检测模块，用于对所述连续帧图像中的当前帧图像执行人脸检测，确定在所述当前帧图像中检测出的行人的脸部的置信度；判断模块，用于判断所述置信度是否小于预定值；特定部位检测模块，用于当所述置信度小于所述预定值时，对所述当前帧图像执行特定部位检测，确定所述当前帧图像中所述行人的特定部位的位置，所述特定部位为人体上不同于脸部的部位；以及基于所述行人的特定部位的位置，确定所述行人是否为所述待跟踪对象。

此外，根据本发明的一个实施例，其中，所述特定部位检测模块基于所述行人的特定部位的位置，确定所述行人是否为所述待跟踪对象，包括：根据所述行人的特定部位的位置，确定所述行人的特定部位与上一帧图像中所述待跟踪对象的特定部位或脸部的距离；若所述距离小于预定距离，则确定所述行人为所述待跟踪对象；或者，若所述距离为所述当前帧图像中检测出的所有行人的特定部位分别与上一帧图像中所述待跟踪对象的特定部位或脸部的距离中的最小距离，则确定所述行人为所述待跟踪对象。

此外，根据本发明的另一实施例，其中，所述人脸检测模块还用于：当所述置信度大于或等于所述预定值时，确定脸部位置框，所述脸部位置框用于表示在所述当前帧图像中所述行人脸部的位置；或者，当所述置信度大于或等于所述预定值时，对所述当前帧图像执行人脸识别，确定所述行人是否为所述待跟踪对象。

此外，根据本发明的另一实施例，其中，所述特定部位检测模块基于卷积神经网络对所述当前帧图像执行特定部位检测。

此外，根据本发明的另一实施例，其中，所述特定部位检测模块基于卷积神经网络对所述当前帧图像执行特定部位检测包括：在所述当前帧图像中提出多个位置框；对提出的所述多个位置框进行分类，以获得多个特定部位的位置框；对所述多个特定部位的位置框执行去重处理，以获得所述特定部位的位置框，所述特定部位的位置框用于表示在所述当前帧图像中所述特定部位的位置。

此外，根据本发明的另一实施例，所述卷积神经网络的损失函数l以如下公式定义：

此外，根据本发明的另一实施例，其中，所述特定部位为行人的头部。

根据本发明的又一方面，提供了一种对象跟踪装置，包括：存储器，用于存储非暂时性计算机可读指令；以及处理器，用于运行所述计算机可读指令，使得所述对象跟踪装置执行对象跟踪方法，所述对象跟踪方法包括：获取包含待跟踪对象的连续帧图像；对所述连续帧图像中的当前帧图像执行人脸检测，确定在所述当前帧图像中检测出的行人的脸部的置信度；判断所述置信度是否小于预定值；当所述置信度小于所述预定值时，对所述当前帧图像执行特定部位检测，确定所述当前帧图像中所述行人的特定部位的位置，所述特定部位为人体上不同于脸部的部位；以及基于所述行人的特定部位的位置，确定所述行人是否为所述待跟踪对象。

根据本发明的再一方面，提供了一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行对象跟踪方法，所述对象跟踪方法包括：获取包含待跟踪对象的连续帧图像；对所述连续帧图像中的当前帧图像执行人脸检测，确定在所述当前帧图像中检测出的行人的脸部的置信度；判断所述置信度是否小于预定值；当所述置信度小于所述预定值时，对所述当前帧图像执行特定部位检测，确定所述当前帧图像中所述行人的特定部位的位置，所述特定部位为人体上不同于脸部的部位；以及基于所述行人的特定部位的位置，确定所述行人是否为所述待跟踪对象。

通过根据本发明实施例的对象跟踪方法，在行人的脸部被遮挡或者其他人脸检测不适合当前场景下的对象跟踪的情况下，采用基于特定部位检测的对象跟踪技术，从而能够保证连续的跟踪过程，并且提高了跟踪的精度。

要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是图示根据本发明的实施例的基于神经网络的图像对象跟踪方法的流程图。

图2是示出根据本发明实施例的基于卷积神经网络对所述当前帧图像执行特定部位检测的流程图。

图3是图示根据本发明的实施例的对象跟踪装置的框图。

图4是图示根据本发明的实施例的对象跟踪装置的硬件框图。

图5是图示根据本发明的实施例的计算机可读存储介质的示意图。

图6a、6b和6c是图示根据本发明的实施例的对象跟踪处理的示意图。

具体实施方式

为了使得本发明实施例的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的各个实施例，在本说明书和附图中，具有基本上相同步骤和元素用相同的附图标记来表示，且对这些步骤和元素的重复解释将被省略。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例。基于本发明中描述的实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。而且，为了使说明书更加清楚简洁，将省略对本领域熟知功能和构造的详细描述。以下，将参考附图详细描述本发明的各个实施例。

首先，结合图1来详细说明根据本发明实施例的对象跟踪方法的基本流程。

图1是示出根据本发明实施例的对象跟踪方法的流程图。如图1所示，所述对象跟踪方法可以包括如下步骤：

在步骤s101中，获取包含待跟踪对象的连续帧图像。在本发明的一个实施例中，获取包含待跟踪对象的连续帧图像可以包括：经由有线或者无线方式，接收所述连续帧图像。可替代地，获取包含待跟踪对象的连续帧图像还可以包括：从存储器获取预先存储的包含待跟踪对象的连续帧图像。可替代地，获取包含待跟踪对象的连续帧图像还可以包括：采集包含待跟踪对象的连续帧图像。所述包含待跟踪对象的连续帧图像可以是图像采集设备采集到的原始图像，也可以是对原始图像进行图像预处理之后获得的图像。图像预处理包括但不限于裁剪、缩放或去噪等处理。其中，所述待跟踪对象可以是所述连续帧图像中的一个或多个对象，可以根据不同的应用场景将特定的对象预先设置为待跟踪对象，也可以将在连续帧的第一帧图像中出现的对象作为待跟踪对象。此后，处理进到步骤s102。

在步骤s102中，对所述连续帧图像中的当前帧图像执行人脸检测，确定在所述当前帧图像中检测出的行人的脸部的置信度。在该步骤中，可以确定在所获取的连续帧图像中的当前帧图像中是否包含行人的脸部(即人脸)，并且在待识别图像中包含人脸的情况下在该图像中定位出人脸区域，并且针对在当前帧图像中检测出的行人的脸部，确定所述人脸检测的置信度。其中，所述置信度是指检测出的人脸是否为待跟踪对象的人脸的置信度，所述置信度越小，则说明检测出的人脸是待跟踪对象的人脸的概率越低，反之则说明检测出的人脸是待跟踪对象的人脸的概率越高。

在本发明的一个实施例中，可以利用预先训练好的人脸检测器来在待识别图像中定位人脸区域。例如，首先，可以预先利用哈尔(haar)特征、adaboost算法等人脸检测与识别算法在大量图片的基础上训练出人脸检测器，该预先训练好的人脸检测器能够在所述图像上快速地检测出人脸区域。然后，确定所述人脸检测的置信度可以利用预先训练好的关键点定位器来在所述人脸区域中定位人脸关键点，其中所述关键点可以是脸部区域中一些表征能力强的关键点，例如可以包括眼睛、眼角、眼睛中心、眉毛、鼻子、鼻尖、嘴巴、嘴角和脸部轮廓等。例如，可以预先利用级联回归方法在大量人工标注的人脸图片的基础上训练出关键点定位器。可替代地，也可以采用传统的人脸关键点定位方法，其基于参数形状模型，根据关键点附近的表观特征，学习出一个参数模型，在使用时迭代地优化关键点的位置，最后得到关键点坐标。在本发明的一个实施例中，可以检测在当前帧图像检测出的人脸中的106个关键点，并通过所检测出的所述多个关键点确定所述人脸检测的置信度。具体地，在人脸运动变化过程中，如果检测到的关键点数量变少，则确定所述人脸检测的置信度降低，反之则确定所述人脸检测的置信度升高。此处，人脸识别的置信度降低可能对应多种情况，例如：图像中行人脸部的至少部分区域被遮挡、检测到的人脸关键点的数量变少、图像清晰度低于预设值、图像中脸部的姿态不是正面姿态等。应理解，本发明不受具体采用的人脸检测方法和人脸关键点定位方法的限制，无论是现有的人脸检测方法和人脸关键点定位方法还是将来开发的人脸检测方法和人脸关键点定位方法，都可以应用于根据本发明实施例的活体检测方法中，并且也应包括在本发明的保护范围内。此后，处理进到步骤s103。

在步骤s103中，判断在步骤s102中的所述置信度是否小于预定值。在本发明的一个实施例中，所述预定值可以通过实验确定。可替代地，所述预定值也可以依据经验直接进行设置。通过调节所述预定值，可以针对不同的应用场景需求适当地调节所述对象跟踪方法的执行速度以及精度。

在本发明的一个实施例中，当所述置信度大于或等于所述预定值时，对所述当前帧图像执行人脸识别，确定所述行人是否为所述待跟踪对象。具体地，可以将当前帧图像中所述行人的面部特征与待跟踪对象的面部特征进行对比，若二者的相似度高于阈值，则确定所述行人为所述待跟踪对象。其中，所述人脸识别同样可以采用哈尔(haar)特征、adaboost算法等人脸检测与识别算法，本发明并不对此进行限定，并省略其描述。

在本发明的另一实施例中，当所述置信度大于或等于所述预定值时，还可以确定所述行人的脸部位置框，所述脸部位置框用于表示在所述当前帧图像中所述行人脸部的位置。此时，也可以根据该行人脸部的位置与上一帧图像中待跟踪对象的脸部的位置或特定部位的位置，确定该行人是否为该待跟踪对象。

当所述置信度小于所述预定值时，处理进到步骤s104。

在步骤s104中，当所述置信度小于所述预定值时，对所述当前帧图像执行特定部位检测，确定所述当前帧图像中所述行人的特定部位的位置，所述特定部位为人体上不同于脸部的部位。可选地，还可以通过显示屏在当前帧图像上显示该行人的特定部位的位置框。在一些实施例中，可以在当前帧图像中所述行人脸部附近的区域进行特定部位的检测，其中所述行人脸部附件的区域可以包括与所述行人脸部所在区域的距离小于或等于设定距离的区域，该设定距离可以是根据人体上脸部与特定部位的距离来确定的。在本发明的一个实施例中，可以基于卷积神经网络对所述当前帧图像执行特定部位检测。例如，可以采用更快区域提出卷积神经网络(fasterrcnn)算法，通过大量特定部位数据的训练得到当前帧图像中的特定部位的位置框。应理解，还可以采用其他算法，如ssd(singleshotmultiboxdetector)、r-fcn(region-basedfullyconvolutionalnetworks)等得到当前帧图像中行人的特定部位的位置框。另外，在本发明的一个实施例中，所述特定部位例如可以是行人的头部、手部等任何不同于脸部的部位中的一个或多个。

接下来，结合图2详细说明基于卷积神经网络对所述当前帧图像执行特定部位检测的一个示例的流程。

图2是示出根据本发明实施例的基于卷积神经网络对所述当前帧图像执行特定部位检测的流程图。如图2所示，所述特定部位检测包括以下步骤：

在步骤s201中，在所述当前帧图像中提出多个位置框。在步骤201中提出的位置框为候选位置框。例如，可以采用区域提出网络(regionalproposalnetwork)算法在图像中提出大量的位置框。此后，处理进到步骤s202。

在步骤s202中，对提出的所述多个位置框进行分类，以获得多个特定部位的位置框。例如，可以采用快速区域提出卷积神经网络(fastrcnn)算法对所提出的位置框进行分类，确定出多个所述特定部位的位置框。此后，处理进到步骤s203。

在步骤s203中，对所述多个特定部位的位置框执行去重处理，以获得所述特定部位的位置框，所述特定部位的位置框用于表示在所述当前帧图像中所述特定部位的位置。例如，可以采用非极大值抑制(non-maximumsuppression)等方法消除重叠的特定部位的位置框，得到最终确定的特定部位的位置框。

在本发明的一个实施例中，可以对卷积神经网络进行预先训练，所谓预先训练是指首先需要利用训练图像对卷积神经网络进行训练，以调整神经网络的权重(也可称为参数)，其中，所述神经网络包括输入层、中间层和输出层。

具体地，首先，经由神经网络的输入层输入训练图像。训练图像的获取方式与以上参照图1描述的步骤s101中待跟踪对象的连续帧图像的获取方式类似，即输入训练图像可以是图像采集设备采集到的原始图像，也可以是对原始图像进行标注处理和/或图像预处理之后获得的图像。然后，经由所述中间层执行如上所述的特定部位检测，以及经由输出层输出特定部位的位置框作为训练结果。最后，判断是否满足预定条件。例如，所述预定条件为卷积神经网络的训练次数或训练周期达到预定数目。可替代地，所述预定条件为卷积神经网络的损失函数满足预定条件，如损失函数最小化。

在本发明的一个实施例中，在卷积神经网络的损失函数满足预定条件时，获得训练好的所述卷积神经网络，而在卷积神经网络的损失函数不满足预定条件时，继续输入训练图像以重复执行上述训练过程。其中，所述卷积神经网络的损失函数l可以由如下表达式(1)定义：

其中，i表示所提出的位置框的编号，ncls表示训练样本的类别数量，pi表示位置框i是所述特定部位的位置框的置信度，pi^*表示训练样本中标注的置信度，lcls表示类别损失函数，λ为常数，nreg表示所提出的位置框的个数，lreg表示回归损失函数，ti表示所提出的位置框i的坐标；ti^*表示标注的位置框i的坐标。具体地，pi的取值为0～1之间的数；pi^*表示训练样本中标注的位置框i是所述特定部位的位置框的置信度，pi^*的取值为0或1，pi^*＝0表示标注的位置框i不是特定部位的位置框，pi^*＝1表示标注的位置框i是特定部位的位置框。

具体地，在根据本发明的一个实施例中，可以分为特定部位和非特定部位这两个类别。其中，所述类别损失函数lcls是所述类别的对数损失，可进一步由如下公式(2)定义：

所述回归损失函数lreg，可进一步由如下公式(3)定义：

其中，r表示smoothl1函数。

接下来，返回参考图1，在步骤s104中对所述当前帧图像执行特定部位检测后，处理进到步骤s105。

在步骤s105中，基于所述行人的特定部位的位置，确定所述行人是否为所述待跟踪对象。在本发明的一个实施例中，可以基于距离信息将检测出的特定部位与上一帧的检测结果进行匹配，从而确定所述行人是否为所述待跟踪对象。具体地，根据所述行人的特定部位的位置，确定所述行人的特定部位与上一帧图像中所述待跟踪对象的特定部位或脸部的距离。如上所述，在步骤s103中判断在步骤s102中的所述置信度是否小于预定值，仅当所述置信度小于所述预定值时，对所述当前帧图像执行特定部位检测。因此，对于在上一帧图像已经执行特定部位检测的情况，也即对于上一帧图像在步骤s103中判断所述置信度小于所述预定值时，确定所述行人的特定部位与上一帧图像中所述待跟踪对象的特定部位的距离。另一方面，对于在上一帧图像未执行特定部位检测的情况，也即对于上一帧图像在步骤s103中判断所述置信度大于或等于所述预定值时，确定所述行人的特定部位与上一帧图像中所述待跟踪对象的脸部的距离。然后，可以将所述距离与预定距离进行比较。其中，所述预定距离与以上参照图1描述的步骤s103中预定值的设置方式类似，即所述预定距离可以通过实验确定。可替代地，所述预定距离也可以依据经验直接进行设置。在本发明的一个实施例中，若所述距离小于预定距离，则确定所述行人为所述待跟踪对象。可替代地，在本发明的另一个实施例中，当前帧图像中可能存在多个对象，此时可以将所述当前帧图像中检测出的所有对象的特定部位分别与上一帧图像中所述待跟踪对象的特定部位或脸部的距离进行比较。若所述多个对象中某一个对象的特定部位与上一帧图像中所述待跟踪对象的特定部位或脸部的距离最小，则将该对象确定为所述待跟踪对象。

此外，在将特定的对象预先设置为待跟踪对象的应用场景中，例如系统中预先存储了该待跟踪对象的面部图像，针对连续帧图像中的第一帧，对于确定所述行人是否为所述待跟踪对象的方法，例如可以采用如上所述的哈尔(haar)特征、adaboost算法等人脸检测与识别算法进行识别，以确定第一帧图像中是否存在该待跟踪对象，本发明并不对此进行限定，并省略其描述。

还需要说明的是，在将连续帧的第一帧图像中出现的对象作为待跟踪对象的应用场景中，对于连续帧图像中的第一帧图像，也可以先对该第一帧图像执行人脸检测，若检测出某个行人(如行人a)的脸部的置信度小于预定值，则继续对第一帧图像执行特定部位检测，并确定该行人a的特定部位的位置，还可以通过显示屏在第一帧图像上显示特定部位的位置框。然后，对于第二帧图像，可以根据检测出的行人脸部的位置或行人特定部位的位置来判断该行人是否为第一帧图像中的行人a。

以上，通过图1、2的流程图概述了根据本发明实施例的对象跟踪方法。由上述可见，通过本发明实施例的对象跟踪方法，在人脸运动变化过程中检测出的行人的脸部的置信度低于预定值时，调用特定部位检测的算法从而完成连续的人脸追踪的过程。

应理解，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在下文中将结合图3详细说明根据本发明实施例的对象跟踪装置的配置。

图3是图示根据本发明的实施例的对象跟踪装置的框图。其中，图3所示的根据本发明的实施例的对象跟踪装置30可以用于执行如图1所示的根据本发明的实施例的对象跟踪方法。

如图3所示，根据本发明的实施例的对象跟踪装置30包括图像获取模块301、人脸检测模块302、判断模块303以及特定部位检测模块304。

具体地，图像获取模块301用于获取包含待跟踪对象的连续帧图像。所述图像获取模块301可以与对象跟踪装置30中的其他模块在物理位置上分离，并且经由有线或者无线方式，由所述图像获取模块301发送获取到的图像给对象跟踪装置30中的其他模块。可替代地，所述图像获取模块301可以与对象跟踪装置30中的其他模块或组件物理上位于同一位置甚至位于同一机壳内部，所述对象跟踪装置30中的其他模块或组件经由内部总线接收由所述图像获取模块301发送的图像。

在本发明的一个实施例中，所述图像获取模块301可以是摄像头，图像获取模块301具体用于采集包含待跟踪对象的连续帧图像。在本发明的另一个实施例中，图像获取模块301具体用于经由有线或无线方式，接收包含待跟踪对象的连续帧图像，例如接收图像采集设备或其他设备发送的包含待跟踪对象的连续帧图像。在本发明的另一个实施例中，所述图像获取模块301具体用于从存储器中获取预先存储的包含待跟踪对象的连续帧图像。

此外，在执行如上所述的卷积神经网络的预先训练，所述图像获取模块301还可以获取已经标注有训练目标的训练图像，并将该训练图像提供给所述特定部位检测模块304以执行卷积神经网络的训练。

人脸检测模块302用于对所述连续帧图像中的当前帧图像执行人脸检测，确定在所述当前帧图像中检测出的行人的脸部的置信度。所述人脸检测模块302执行的人脸检测以及确定在所述当前帧图像中检测出的行人的脸部的置信度的具体处理与参照图1描述的相应内容相同，故在此将省略其重复描述。

此外，人脸检测模块302还用于：当所述置信度大于或等于所述预定值时，确定脸部位置框，所述脸部位置框用于表示在所述当前帧图像中所述行人脸部的位置；或者，当所述置信度大于或等于所述预定值时，对所述当前帧图像执行人脸识别，确定所述行人是否为所述待跟踪对象。所述人脸检测模块302执行的人脸识别的具体处理与参照图1描述的相应内容相同，故在此将省略其重复描述。

判断模块303用于判断所述置信度是否小于预定值。所述判断的具体处理与参照图1描述的相应内容相同，故在此将省略其重复描述。

特定部位检测模块304用于当所述置信度小于所述预定值时，对所述当前帧图像执行特定部位检测，确定所述当前帧图像中所述行人的特定部位的位置，所述特定部位为人体上不同于脸部的部位；以及基于所述行人的特定部位的位置，确定所述行人是否为所述待跟踪对象。其中，所述特定部位检测模块304基于卷积神经网络对所述当前帧图像执行特定部位检测。具体地，所述特定部位检测模块304基于卷积神经网络对所述当前帧图像执行特定部位检测包括：在所述当前帧图像中提出多个位置框；对提出的所述多个位置框进行分类，以获得多个特定部位的位置框；对所述多个特定部位的位置框执行去重处理，以获得所述特定部位的位置框，所述特定部位的位置框用于表示在所述当前帧图像中所述特定部位的位置。其中，所述卷积神经网络的损失函数l以如下公式(1)定义：

其中，i表示所提出的位置框的编号，ncls表示训练样本的类别数量，pi表示位置框i是所述特定部位的位置框的置信度，pi*表示训练样本中标注的置信度，lcls表示类别损失函数，λ为常数，nreg表示所提出的位置框的个数，lreg表示回归损失函数，ti表示所提出的位置框i的坐标；ti*表示标注的位置框i的坐标。具体地，在根据本发明的一个实施例中，可以分为特定部位和非特定部位这两个类别。其中，所述类别损失函数lcls是所述类别的对数损失，可进一步由如下公式(2)定义：

所述回归损失函数lreg可进一步由如下公式(3)定义：

其中，r表示smoothl1函数。

此外，所述特定部位检测模块304基于所述行人的特定部位的位置，确定所述行人是否为所述待跟踪对象，包括：根据所述行人的特定部位的位置，确定所述行人的特定部位与上一帧图像中所述待跟踪对象的特定部位或脸部的距离；若所述距离小于预定距离，则确定所述行人为所述待跟踪对象；或者，若所述距离为所述当前帧图像中检测出的所有行人的特定部位分别与上一帧图像中所述待跟踪对象的特定部位或脸部的距离中的最小距离，则确定所述行人为所述待跟踪对象。所述特定部位检测模块304执行的上述特定部位检测的具体处理与参照图1、2描述的相应内容相同，故在此将省略其重复描述。

图4是图示根据本发明的实施例的对象跟踪装置的硬件框图。如图4所示，根据本发明实施例的对象跟踪装置40包括存储器401和处理器402。对象跟踪装置40中的各组件通过总线系统和/或其它形式的连接机构(未示出)互连。

所述存储器401用于存储非暂时性计算机可读指令。具体地，存储器401可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。

所述处理器402可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制对象跟踪装置40中的其它组件以执行期望的功能。在本发明的一个实施例中，所述处理器402用于运行所述存储器401中存储的所述计算机可读指令，使得所述对象跟踪装置40执行基于神经网络的对象跟踪方法。所述对象跟踪方法与参照图1和图2描述的相同，在此将省略其重复描述。

此外，需要理解的是，图4所示的对象跟踪装置40的组件和结构只是示例性的，而非限制性的，根据需要，对象跟踪装置40也可以具有其他组件和结构。例如，图像采集装置和输出装置等(未示出)。图像采集装置可以用于采集包含待跟踪对象的连续帧图像，并且将所拍摄的图像存储在存储器401中以供其它组件使用。当然，也可以利用其他图像采集设备采集所述包含待跟踪对象的连续帧图像，并且将采集的图像发送给对象跟踪装置40，对象跟踪装置40可以将接收到的图像存储到存储器401中。输出装置可以向外部(例如用户)输出各种信息，例如图像信息以及对象跟踪结果。输出装置可以包括显示器、扬声器、投影仪、网卡等中的一个或多个。

图5是图示根据本发明的实施例的计算机可读存储介质的示意图。如图5所示，根据本发明实施例的计算机可读存储介质500其上存储有非暂时性计算机可读指令501。当所述非暂时性计算机可读指令501由处理器运行时，执行参照以上附图描述的根据本发明实施例的对象跟踪方法。

图6a、6b和6c是图示根据本发明的实施例的对象跟踪处理的示意图。

具体地，图6a、6b和6c分别为利用根据本发明的实施例的对象跟踪方法获取的包含待跟踪对象的连续的三帧图像。如图6a所示，在连续的三帧图像中的第一帧图像中，图像中的人物为待跟踪对象，对当前的第一帧图像执行上述根据本发明的实施例的人脸检测，其中图中的方框表示检测出人脸区域的位置框，此时由于该人脸部处于正面，在所述当前帧图像中检测出的行人的脸部的置信度较高，判断所述置信度是否大于预定值。如6b所示，在第二帧图像中，图像中的人物脸部由于转动导致部分脸部区域被头发遮挡，在此情况下，在所述当前第二帧图像中检测出的行人的脸部的置信度降低，并且判断所述置信度是已经小于预定值，此时，对所述当前第二帧图像执行特定部位检测，例如以头部检测作为示例，确定所述当前帧图像中人物的头部位置，其中图中的方框表示检测出的头部的位置框，所述第二帧图像中头部的位置框在距离上与上一帧中检测出的脸部区域的位置框匹配，因此可以确定所述第二帧图像中的人物即为所述待跟踪对象。如图6c所示，在第三帧图像中，图像中的人物脸部完全被头发遮挡，在此情况下，在所述当前第三帧图像中检测出的行人的脸部的置信度进一步降低，判断所述置信度是已经小于预定值，则继续对所述当前第三帧图像执行头部检测，并且由于当前第三帧图像中检测出的头部分别与所述第二帧图像中所述待跟踪对象的特定部位或脸部的距离匹配，可以确定所述第三帧图像中的人物即为所述待跟踪对象。由此可见，通过根据本发明实施例的对象跟踪方法，在脸部被遮挡的情况下，可以采用基于特定部位检测的对象跟踪技术，能够保证连续的跟踪过程，并且提高了跟踪的精度。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“a、b或c的至少一个”的列举意味着a或b或c，或ab或ac或bc，或abc(即a和b和c)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本发明的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本发明的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖泰洪;周舒畅;潘宇超
技术所有人：北京旷视科技有限公司;北京迈格威科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。