视频目标物检测方法、系统及存储介质和服务器与流程

文档序号：23224744发布日期：2020-12-08 15:08阅读：109来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及人工智能的信息处理技术领域，特别涉及视频目标物检测方法、系统及存储介质和服务器。

背景技术：

视频人脸检测技术广泛应用在日常生活中，例如智能监控、金融管控和军事安全等领域。基于深度学习的人脸检测方法主要包括：直接采用训练好的人脸检测模型对视频中的任一帧图像进行特征提取，然后再根据任一帧图像的特征信息对任一帧图像中的人脸进行检测。

这种基于深度学习的人脸检测方法可以很大程度上提高了传统人工人脸检测方法的性能，然而由于真实场景中的视频具有遮挡、模糊以及姿态变化等复杂挑战因素，现有的人脸检测模型不能很好地适应新环境。

技术实现要素：

本发明实施例提供视频目标物检测方法、系统及存储介质和服务器，实现了在经过两次特征融合后再进行目标物检测。

本发明实施例一方面提供一种视频目标物检测方法，包括：

获取待检测视频中多个连续帧图像分别对应的特征；

将所述多个连续帧图像中某些帧图像的特征，融合到所述多个连续帧图像中某一帧图像的特征中，得到首次融合特征，所述某些帧图像是所述多个连续帧图像中除所述某一帧图像之外的其它帧图像；

对所述首次融合特征进行多层的采样分别得到多层采样特征，将所述多层采样特征进行融合，得到二次融合特征；

根据所述二次融合特征对所述某一帧图像中的目标物进行检测。

本发明实施例另一方面提供一种视频目标物检测系统，包括：

特征获取单元，用于获取待检测视频中多个连续帧图像分别对应的特征；

首次融合单元，用于将所述多个连续帧图像中某些帧图像的特征，融合到所述多个连续帧图像中某一帧图像的特征中，得到首次融合特征，所述某些帧图像是所述多个连续帧图像中除所述某一帧图像之外的其它帧图像；

二次融合单元，用于对所述首次融合特征进行多层的采样分别得到多层采样特征，将所述多层采样特征进行融合，得到二次融合特征；

检测单元，用于根据所述二次融合特征对所述某一帧图像中的目标物进行检测。

本发明实施例另一方面还提供一种计算机可读存储介质，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如本发明实施例一方面所述的视频目标物检测方法。

本发明实施例另一方面还提供一种服务器，包括处理器和存储器；

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如本发明实施例一方面所述的视频目标物检测方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。

可见，在本实施例的方法中，视频目标物检测系统会将待检测视频中多个连续帧图像的特征都融合到其中某一帧图像的特征中，形成首次融合特征，然后将首次融合特征中的多层采样特征再融合形成二次融合特征，最后根据二次融合特征对某一帧图像中的目标物进行检测。由于在两次融合特征获取过程中，不仅考虑了待检测视频中各帧图像本身的信息，还考虑了与相邻帧图像之间的序列信息，进一步地考虑了某些重点的特征(即多层采样特征)，使得最终获取的二次融合特征能准确地描述待检测图像中某一帧图像的特征，进而使得根据二次融合特征进行目标物检测的结果也比较准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频目标物检测方法的示意图；

图2是本发明一个实施例提供的一种视频目标物检测方法的流程图；

图3a是本发明一个实施例中获得首次融合特征的一种示意图；

图3b是本发明一个实施例中获得首次融合特征的另一种示意图；

图3c是本发明一个实施例中获得首次融合特征的又一种示意图；

图4是本发明一个实施例中特征金字塔网络的示意图；

图5是本发明一个实施例中训练第二特征模型和目标物检测模型的方法流程图；

图6是本发明应用实施例中提供的视频目标物检测系统的结构示意图；

图7是本发明应用实施例中提供的视频目标物检测方法的示意图；

图8是本发明另一应用实施例中视频目标物检测方法所应用于的分布式系统的示意图；

图9是本发明另一应用实施例中区块结构的示意图；

图10是本发明实施例提供的一种视频目标物检测系统的结构示意图；

图11是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种视频目标物检测方法，如图1所示，主要是由视频目标物检测系统通过如下步骤实现对任一视频中的目标物进行检测，具体包括：

获取待检测视频中多个(图中以k个为例说明)连续帧图像分别对应的特征；将所述多个连续帧图像中某些帧图像的特征，融合到所述多个连续帧图像中某一帧图像的特征中，得到首次融合特征，所述某些帧图像是所述多个连续帧图像中除所述某一帧图像之外的其它帧图像；对所述首次融合特征进行多层(图中以n层为例说明)的采样分别得到多层采样特征，将所述多层采样特征进行融合，得到二次融合特征；根据所述二次融合特征对所述某一帧图像中的目标物进行检测。

上述首次融合特征可以通过预置的第一特征模型获得，二次融合特征可以通过第二特征模型获取，而可以由预置的目标物检测模型来根据二次融合特征对某一帧图像中的目标物进行检测，这里，预置的第一特征模型、第二特征模型和目标物检测模型都具体为基于人工智能的机器学习模型。其中，人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

而机器学习(machinelearning,ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

这样，由于在两次融合特征获取过程中，不仅考虑了待检测视频中各帧图像本身的信息，还考虑了与相邻帧图像之间的序列信息，进一步地考虑了某些重点的特征(即多层采样特征)，使得最终获取的二次融合特征能准确地描述待检测图像中某一帧图像的特征，进而使得根据二次融合特征进行目标物检测的结果也比较准确。

本发明实施例提供一种视频目标物检测方法，主要是由视频目标物检测系统所执行的方法，在实际应用中，视频目标物检测系统可以应用于应用终端或是应用服务器，应用终端或应用服务器可以对待检测视频中的目标物进行检测，比如对人脸、车辆、特定物体等进行识别，一般情况下，应用终端会获取到一段视频作为待检测视频，并按照本实施例中的方法进行视频中目标物的检测，或者应用终端将获取的视频发送给应用服务器，由应用服务器将该段视频作为待检测视频，并按照本实施例的方法进行目标物的检测。其中，对人脸的检测可以应用于金融管控、军事安全和智能监控等应用中，而对车辆的检测可以应用于交通监控中等。具体地本实施例的视频目标物检测方法流程图如图2所示，包括：

步骤101，获取待检测视频中多个连续帧图像分别对应的特征。

可以理解，视频目标物检测系统可以发起对任意视频(即待检测视频)进行目标物检测，检测出视频中各帧图像是否包括目标物，且如果包括目标物，视频目标物检测系统还可以检测出目标物在各帧图像中的位置。

具体地，视频目标物检测系统获取的特征所涉及的多个连续帧图像可以包括任一t帧图像、t-k帧图像及t+k帧图像，k为0到t之间(不包括0与t)的自然数；或者包括任一t帧图像及t+k帧图像；或者包括任一t帧图像及t-k帧图像。

步骤102，将上述多个连续帧图像中某些帧图像的特征，融合到多个连续帧图像中某一帧图像的特征中，得到首次融合特征，其中，某些帧图像是上述多个连续帧图像中除某一帧图像之外的其它帧图像。

由于在待检测视频中连续帧图像之间，同一像素具有一定的运动，像素的运动信息具体可以包括移动速度和方向等，称为光流，在本实施例中，视频目标物检测系统在执行本步骤中的融合时，主要是基于光流进行融合的。具体可以采用但不限于如下几种方法进行融合：

(1)如果上述多个连续帧图像包括某一t帧图像及t-k帧图像时，比如某一t帧图像为待检测视频中的最后一帧图像，如图3a所示，可以采用如下步骤来实现融合：

a1、获取待检测视频中某一帧(比如t帧)图像之前的第k帧(即t-k帧)图像到某一帧图像的第一光流。

具体在获取第一光流时，可以采用预置的光流预测网络来获取，比如采用流网(flownet2)等来获取，一般直接将t-k帧图像和t帧图像输入到光流预测网络，即可输出第一光流。

b1、根据第一光流及某一帧图像之前的第k帧图像的特征得到某一帧图像的第一变换特征。

其中，第一变换特征用于表示某一帧图像之前的第k帧图像中的像素按照第一光流运动后可以变换形成的图像特征，即表示根据某一帧图像之前的第k帧图像的特征ft-k和第一光流w1预测的某一帧图像的特征，具体地，第一变换特征是矫正变换(warp)特征，可以采用如下公式1来表示：

warp(ft-k,w1)(1)

c1、将某一帧图像的特征(这里的特征是某一帧图像的实际特征)和第一变换特征进行融合得到首次融合特征。

具体可以将某一帧图像的特征和第一变换特征经过一定的函数计算，比如求平均或加权平均等计算，即可得到首次融合特征，得到的首次融合特征中考虑到了待检测视频中各帧图像自身的信息及相互之间的时序信息，使得得到的首次融合特征较为准确。

(2)如果上述多个连续帧图像包括某一t帧图像及t+k帧图像时，比如某一t帧图像为待检测视频中的首帧图像，如图3b所示，可以采用如下步骤来实现融合：

a2、获取待检测视频中某一帧图像到某一帧图像之后的第k帧(即t+k帧)图像的第二光流。

具体在获取第二光流时，可以采用预置的光流预测网络来获取，比如采用流网(flownet2)等来获取，一般直接将t帧图像和t+k帧图像输入到光流预测网络，即可输出第二光流。

b2、根据第二光流及某一帧图像之后的第k帧图像的特征得到某一帧图像的第二变换特征。

其中，第二变换特征用于表示根据某一帧图像之后的第k帧图像的特征ft+k和第二光流w2预测的某一帧图像的特征。具体地，第二变换特征是矫正变换(warp)特征，可以采用如下公式2来表示：

warp(ft+k,w2)(2)

c2、将某一帧图像的特征(这里的特征是某一帧图像的实际特征)和第二变换特征进行融合得到首次融合特征。

具体可以将某一帧图像的特征和第二变换特征经过一定的函数计算，比如求平均或加权平均等计算，即可得到首次融合特征，得到的首次融合特征中考虑到了待检测视频中各帧图像自身的信息及相互之间的时序信息，使得得到的首次融合特征较为准确。

(3)如果上述多个连续帧图像包括任一t帧图像、t-k帧图像及t+k帧图像时，即某一t帧图像是待检测视频的中间帧图像，如图3c所示，可以采用如下步骤来实现融合：

a3、获取待检测视频中某一帧(比如t帧)图像之前的第k帧(即t-k帧)图像到某一帧图像的第一光流，及获取待检测视频中某一帧图像到某一帧图像之后的第k帧(即t+k帧)图像的第二光流。

b3、根据第一光流及某一帧图像之前的第k帧图像的特征得到某一帧图像的第一变换特征，及根据第二光流及某一帧图像之后的第k帧图像的特征得到某一帧图像的第二变换特征。

c3、将某一帧图像的特征(这里的特征是某一帧图像的实际特征)、第一变换特征和第二变换特征进行融合得到首次融合特征。

需要说明的是，上述步骤101与102的过程可以采用预置的一个特征模型(比如第一特征模型)获取到，其中，第一特征模型是一种机器学习模型，可以预先根据一定的训练方法训练好后，并将训练好的第一特征模型的运行逻辑设置到视频目标物检测系统中。

步骤103，对首次融合特征进行多层的采样分别得到多层采样特征，并将多层采样特征进行融合，得到二次融合特征。

由于在对首次融合特征进行多层的采样过程中，会先对首次融合特征进行至少一层的采样，这样可以得到首次融合特征中的较多特征，用于表示多个连续帧图像中的纹理特征，称为浅层采样特征；然后再对浅层采样特征继续进行至少一层的采样，可以得到首次融合特征中的主要特征，用于表示多个连续帧图像中的语义特征，称为高层采样特征，本实施例中，可以将浅层采样特征与高层采样特征进行融合得到二次融合特征。

进一步地，在一个具体的实施例中，对首次融合特征进行多层采样过程中，可以对浅层采样特征进行逐层地下采样，分别得到多层下采样特征；然后对高层采样特征进行逐层地上采样，分别得到多层上采样特征，其中，高层采样特征可以由最后一层下采样特征生成，而任一层下采样特征与另一层上采样特征相对应或与高层采样特征相对应，比如大小相同。因此，在将浅层采样特征与高层采样特征进行融合时，视频目标物检测系统会将任一层下采样特征融合到相对应的另一层上采样特征或高层采样特征中。

具体地，视频目标物检测系统在将任一层下采样特征融合到相对应的另一层上采样特征或高层采样特征时，会先为任一层下采样特征设定一权重值，然后根据设定的权重值，将任一层下采样特征的加权值融合到相对应的另一层上采样特征或高层采样特征中。

需要说明的是，在执行步骤103的这个过程可以采用预置的另一个特征模型(比如第二特征模型)获取到，其中，第二特征模型是一种机器学习模型，可以预先根据一定的训练方法训练好后，并将训练好的第二特征模型的运行逻辑设置到视频目标物检测系统中。

例如图4所示为第二特征模型的结构，主要采用特征金字塔网络(featurepyramidnetworks，fpn)，包括如下三个部分：左边自底向上的下采样路径、中间的特征注意力模块和右边自顶向下的上采样路径，其中：

将首次融合特征输入后，自底向上的下采样路径主要是对首次融合特征进行一层下采样后得到浅层采样特征c1，再经过不同比例的逐层下采样可以分别得到下采样特征c2、c3、c4和c5；自顶向下的上采样路径主要是对高层采样特征p5经过不同比例的逐层上采样可以分别得到上采样特征p4、p3和p2。其中，高层采样特征p5是根据最后一层下采样特征c5生成的，与该层下采样特征c5相对应；下采样特征c4与上采样特征p4相对应，即大小相同；下采样特征c3与上采样特征p3相对应，即大小相同；下采样特征c2与上采样特征p2相对应，即大小相同。

特征注意力模块主要是为各层下采样特征c2、c3、c4和c5设定相应的权重值，并根据设定的权重值分别对各层下采样特征c2、c3、c4和c5加权后，输出到相对应的上采样特征p2、p3、p4及高层采样特征p5进行融合。这样，最后一层上采样特征p2输出的特征即为二次融合特征，可以表示上述多个连续帧图像中的浅层纹理特征和高层语义特征。

步骤104，根据二次融合特征对上述某一帧图像中的目标物进行检测。

具体地，视频目标物检测系统会先根据二次融合特征确定出上述某一帧图像中不同尺度(即不同大小)的多个目标物候选框，并获得各个目标物候选框的特征，然后再根据各个目标物候选框的特征，分别确定各个目标物候选框的位置信息及是否属于目标物的类型。

上述步骤104中的检测可以采用预置的目标物检测模型获取到，其中，目标物检测模型是一种机器学习模型，可以预先根据一定的训练方法训练好后，并将训练好的目标物检测模型的运行逻辑设置到视频目标物检测系统中。

在一个具体的实施例中，上述步骤103可以由预置的第二特征模型执行，而上述步骤104可以由预置的目标物检测模型来执行，而第二特征模型和目标物检测模型的训练可以按照如下的方法来实现，流程图如图5所示，包括：

步骤201，确定第二特征初始模型和目标物检测初始模型。

可以理解，视频目标物检测系统在确定第二特征初始模型和目标物检测初始模型时，会确定第二特征初始模型和目标物检测初始模型所包括的多层结构和各层结构中参数的初始值。

具体地，第二特征初始模型具体可以为上述的特征金字塔网络等网络结构，用于对视频中多个连续帧图像的首次融合特征进行多层采样得到多层采样特征，并将多层采样特征进行融合，将得到的二次融合特征传输给目标物检测初始模型；目标物检测初始模型，用于根据二次融合特征对多个连续帧图像中某一帧图像的目标物进行检测，并输出目标物框的位置和是否属于目标物的概率信息。

上述第二特征初始模型和目标物检测初始模型的参数是指第二特征初始模型和目标物检测初始模型中各层结构在计算过程中所用到的固定的，不需要随时赋值的参数，比如参数规模、网络层数、用户向量长度等参数。

步骤202，确定训练样本，训练样本中包括多个样本对，各个样本对包括：视频样本中多个连续帧图像及其中某一帧图像中目标物的标注信息。

步骤203，通过第二特征初始模型分别对各个样本对中多个连续帧图像中基于某一帧图像的首次融合特征进行多层采样得到多层采样特征，并将多层采样特征进行融合得到二次融合特征；目标物检测初始模型根据二次融合特征对各个样本对中某一帧图像进行目标物检测，得到目标物检测结果。

需要说明的是，本实施例中主要是训练第二特征模型和目标物检测模型，在这个过程中，也是需要对各个样本对中的多个连续帧图像先进行上述步骤101和102的操作并得到首次融合特征后，首次融合特征才会输入到第二特征初始模型继续得到二次融合特征。

步骤204，根据第二特征初始模型和目标物检测初始模型得到的目标物检测结果和训练样本中的标注信息，调整第二特征初始模型和目标物检测初始模型，以得到最终的第二特征模型和目标物检测模型。

具体地，视频目标物检测系统会先根据上述步骤203中得到的目标物检测结果，及训练样本中的标注信息，计算与第二特征初始模型和目标物检测初始模型相关的损失函数，该损失函数用于指示第二特征初始模型和目标物检测初始模型得到的任一帧图像的目标物信息，与训练样本中任一帧图像的实际目标物信息(根据标注信息得到)之间的误差，比如交叉熵损失函数等。而第二特征模型和目标物检测模型的训练过程就是需要尽量减少上述误差的值，该训练过程是通过反向传播求导以及梯度下降等一系列数学优化手段不断的优化上述步骤201中确定的第二特征初始模型和目标物检测初始模型中参数的参数值，并使得上述第一损失函数的计算值降至最低。

具体地，当计算的第一损失函数的函数值较大时，比如大于预置的值，则需要改变参数值，比如将某个神经元连接的权重值减小等，使得按照调整后的参数值计算的第一损失函数的函数值减小。

进一步地，为了更精确且快速地学习得到最终的第二特征模型和目标物检测模型，视频目标物检测系统在根据第一损失函数调整第二特征初始模型和目标物检测初始模型中参数值时，可以通过超参数来指导第二特征初始模型和目标物检测初始模型中参数值的调整，其中超参数可以包括学习率，决定了上述损失函数能否收敛到局部最小值以及何时收敛到最小值，用于表示调整第二特征初始模型和目标物检测初始模型中参数值的效率。在本实施例中，视频目标物检测系统在不断学习第二特征初始模型和目标物检测初始模型中参数的过程中，还需要学习基于学习率的超参数，具体地：

视频目标物检测系统在执行上述步骤204之前，还可以确定基于学习率的超参数模型，然后根据第二特征初始模型和目标物检测初始模型得到的目标物检测结果和训练样本中的标注信息，调整该超参数模型，则在执行上述步骤204时，可以根据第二特征初始模型和目标物检测初始模型得到的目标物检测结果和训练样本中的标注信息，及调整后的超参数模型，调整第二特征初始模型和目标物检测初始模型。

另外需要说明的是，上述步骤203到204是通过第二特征初始模型和目标物检测初始模型得到的目标物检测结果对第二特征初始模型和目标物检测初始模型中的参数值的一次调整，而在实际应用中，需要通过不断地循环执行上述步骤203到204，直到对参数值的调整满足一定的停止条件为止。

因此，视频目标物检测系统在执行了上述实施例步骤201到204之后，还需要判断当前对参数值的调整是否满足预置的停止条件，当满足时，则结束流程；当不满足时，则针对调整参数值后的第二特征初始模型和目标物检测初始模型，返回执行上述步骤203到204。其中，预置的停止条件包括但不限于如下条件中的任何一个：当前调整的参数值与上一次调整的参数值的差值小于一阈值，即调整的参数值达到收敛；及对参数值的调整次数等于预置的次数等。

另外需要说明的是，上述步骤201到204的训练方式是针对第二特征模型和目标物检测模型的训练，在其它实施例中，执行上述步骤101和102的第一特征模型也可以与第二特征模型和目标物检测模型一同进行训练，只需在执行上述步骤201的过程中，确定第一特征模型的多层结构各层结构中参数的初始值，且之后需要调整第一特征模型中的参数值，在此不进行赘述。

以下以一个具体的应用实例来说明本实施例的视频目标物检测方法，在本实施例中，如图6所示，视频目标物检测系统具体为视频人脸检测系统，主要是对待检测视频中的人脸进行检测，即上述的目标物具体为人脸，可以包括：第一特征模块、第二特征模块、人脸检测模块和元优化模块，其中：

第一特征模块，主要可以用上述预置的第一特征模型得到视频中多个连续帧图像的首次融合特征，可以包括预测光流的光流预测网络等，具体可以通过光流预测网络先预测t-k帧图像到t帧图像的第一光流和t帧图像到t+k帧图像的第二光流，再根据第一光流和第二光流分别将t-k帧图像和t+k帧图像的特征融合到t帧图像的特征中。

第二特征模块，主要可以用上述预置的第二特征模型根据视频中多个连续帧图像的首次融合特征，得到二次融合特征，在本实施例中，第二特征模块具体为上述图4所示的特征金字塔网络。

人脸检测模块，主要可以用上述预置的人脸检测模型根据二次融合特征进行人脸检测，在本实施例中，具体可以包括区域建议网络和感兴趣区域网络，其中区域建议网络用于根据二次融合特征得到多个尺度的人脸候选框，感兴趣区域网络用于根据人脸候选框输出人脸框的位置和是否属于人脸的概率信息的人脸检测结果。

元优化模块，用于在线实时地根据上述输出的人脸检测结果，对上述的第二特征模块和人脸检测模块(包括特征金字塔网络、区域建议网络和感兴趣区域网络)进行优化。

具体地，参考图7所示，本实施例的视频人脸检测系统可以按照如下步骤进行人脸检测，包括：

步骤301，对于待检测视频中的多个连续帧图像，即t-k帧图像、t帧图像和t+k帧图像，视频人脸检测系统中的第一特征模块可以采用光流预测模型预测t-k帧图像到t帧图像的第一光流w1，及t帧图像到t+k帧图像的第二光流w2；然后再根据第一光流w1和t-k帧图像的特征及上述公式1，即可得到t帧图像的第一变换特征，根据第二光流w2和t+k帧图像的特征及上述公式2，即可得到t帧图像的第二变换特征；最后再将第一变换特征、第二变换特征和t帧图像的特征进行融合得到首次融合特征，并输入到特征金字塔网络中。

其中，光流预测模型在预测光流时，可以采用如下公式3中所示的过程进行预测：

w＝cnn(θ，it-k,it)(3)

其中，it-k和it是待检测视频中两帧图像，θ是卷积神经网络中的参数，将视频序列中的t-k帧图像和t帧图像输入到光流预测模型中，经过卷积、池化等构成的编码模块以及反卷积层等构成的解码模块，就可以输出得到t-k帧图像到t帧的第一光流w1，同样可以得到第二光流。

步骤302，特征金字塔网络中自底向上路径中，会对首次融合特征进行多层下采样，得到浅层采样特征c1，及下采样特征c2、c3、c4和c5；在下采样特征c5上附加一个1×1的卷积层，并附加一个3×3的卷积来生成高层采样特征p5，以减少上采样的混叠效应，在自顶向下的路径中，对高层采样特征p5进行多层上采样，得到上采样特征p4、p3和p2。在这个过程中，特征注意力模块会对各层下采样特征c2、c3、c4和c5加权后，分别输出到相对应的上采样特征p2、p3、p4及高层采样特征p5进行特征融合，最后输出的上采样特征p2即为最终得到的二次融合特征，传输给区域建议网络。

步骤303，区域建议网络根据二次融合特征进行一系列分类和回归操作后，得到多个不同尺度的人脸候选框，并传输给感兴趣区域网络。

步骤304，感兴趣区域网络将各个人脸候选框的特征都归一化为相同尺寸的特征，再对各个人脸候选框进行边界框偏移量回归和类别预测，得到最后的人脸检测结果包括：人脸位置和分类信息。

由于在真实应用环境时，往往会出现视频各帧图像汇总人脸目标模糊、被遮挡或者发生姿态变化等问题，为了准确快速地检测出人脸，本实施例中，采用多方面考虑的二次融合特征来描述各帧图像中的特征，保证了最终的人脸检测的精确性。为了更进一步地提高视频人脸检测的准确性，本实施例中，采用元优化模块会实时地对第二特征模块和人脸检测模块进行优化，具体地：

在进行视频人脸检测操作之前，元优化模块事先可以按照上述图5所示实施例中的方法训练第二特征模块和人脸检测模块。且在针对待检测视频中的各帧图像发起人脸检测流程后，元优化模块还可以根据实际对待检测视频检测的人脸检测结果的准确与否，进一步地优化第二特征模块和人脸检测模块，从而实现自适应学习。在本实施例中，元优化模块在实现训练和优化过程中，计算的损失函数可以通过如下公式4来表示，这样，在根据损失函数对第二特征模块和人脸检测模块中参数进行调整时，可以采用如下公式5来进行调整：

l(f(θt-1,xt),yt)(4)

其中，学习率λt是与第二特征模块和人脸检测模块的参数空间大小一致的超参数，xt和yt是训练或优化过程中，视频中第t帧图像及最终输出的人脸检测结果，是逐元素点乘操作；θt是第二特征模块和人脸检测模块中的参数，同时依赖于θt-1、梯度信息和超参数λt。在本实施例中的自适应学习过程中，还可以构建基于学习率的超参数模型γ，具体可以通过如下公式6来表示：

s.t.λt＝h(λ0,......,λt-1,γ)(6)

其中，h函数可以采用递归神经网络(例如长短时记忆模型)，第二特征模块和人脸检测模块中参数的调整是由超参数λt来指导，在元优化模块执行训练或优化操作的过程中，该超参数λt也是需要不断地调整，学习到最合适的λt来指导第二特征模块和人脸检测模块中参数的调整。

这样，在训练过程中，仅标注少量的视频样本，并将训练好的第二特征模块和人脸检测模块迁移到新环境时，再通过元优化模块对第二特征模块和人脸检测模块进行不断更新优化，实现在线的自适应学习，由此可以很好地适应于新环境，完成增量式学习。

以下以另一具体的应用实例来说明本发明中视频目标物检测方法，本发明实施例中的视频目标物检测系统主要为分布式系统100，该分布式系统可以包括客户端300及多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)，客户端300与节点200之间通过网络通信的形式连接。

以分布式系统为区块链系统为例，参见图8是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端300形成，节点之间形成组成的点对点(p2p，peertopeer)网络，p2p协议是一个运行在传输控制协议(tcp，transmissioncontrolprotocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图8示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其它节点，供其它节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认；还可以包括智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

在本实施例中，节点中的应用还包括实现视频目标物检测功能的代码，该视频目标物检测功能主要包括：

获取待检测视频中多个连续帧图像分别对应的特征；将所述多个连续帧图像中某些帧图像的特征，融合到所述多个连续帧图像中某一帧图像的特征中，得到首次融合特征，所述某些帧图像是所述多个连续帧图像中除所述某一帧图像之外的其它帧图像；对所述首次融合特征进行多层的采样分别得到多层采样特征，将所述多层采样特征进行融合，得到二次融合特征；根据所述二次融合特征对所述某一帧图像中的目标物进行检测。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图9为本发明实施例提供的区块结构(blockstructure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

本发明实施例还提供一种视频目标物检测系统，其结构示意图如图10所示，具体可以包括：

特征获取单元10，用于获取待检测视频中多个连续帧图像分别对应的特征。

首次融合单元11，用于将所述特征获取单元10获取的多个连续帧图像中某些帧图像的特征，融合到所述多个连续帧图像中某一帧图像的特征中，得到首次融合特征，所述某些帧图像是所述多个连续帧图像中除所述某一帧图像之外的其它帧图像。

具体地，首次融合单元11，具体用于获取所述待检测视频中某一帧图像之前的第k帧图像到所述某一帧图像的第一光流；根据所述第一光流及所述某一帧图像之前的第k帧图像的特征得到所述某一帧图像的第一变换特征；将所述某一帧图像的特征和第一变换特征进行融合得到所述首次融合特征。

或者，首次融合单元11，具体用于获取所述待检测视频中某一帧图像到所述某一帧图像之后的第k帧图像的第二光流；根据所述第二光流及所述某一帧图像之后的第k帧图像的特征得到所述某一帧图像的第二变换特征；将所述某一帧图像的特征和第二变换特征进行融合得到所述首次融合特征。

或者，首次融合单元11，具体用于获取所述待检测视频中某一帧图像之前的第k帧图像到所述某一帧图像的第一光流，及获取所述待检测视频中某一帧图像到所述某一帧图像之后的第k帧图像的第二光流；根据所述第一光流及所述某一帧图像之前的第k帧图像的特征得到所述某一帧图像的第一变换特征，及根据所述第二光流及所述某一帧图像之后的第k帧图像的特征得到所述某一帧图像的第二变换特征；将所述某一帧图像的特征、所述第一变换特征和第二变换特征进行融合得到所述首次融合特征。

二次融合单元12，用于对所述首次融合单元11得到的首次融合特征进行多层的采样分别得到多层采样特征，将所述多层采样特征进行融合，得到二次融合特征。

具体地，二次融合单元12，具体用于如果所述多层采样特征包括浅层采样特征和高层采样特征，将所述浅层采样特征与所述高层采样特征进行融合，得到二次融合特征。

进一步地，如果所述多层采样特征还包括对所述浅层采样特征进行下采样分别得到的多层下采样特征，及对所述高层采样特征进行上采样分别得到的多层上采样特征，其中，任一层下采样特征与另一层上采样特征相对应或与高层采样特征相对应；则二次融合单元12在将所述底层采样特征与所述高层采样特征进行融合时，具体用于将所述任一层下采样特征融合到相对应的另一层上采样特征或高层采样特征中。

其中，二次融合单元12在将所述任一层下采样特征融合到相对应的另一层上采样特征或高层采样特征中时，具体用于为所述任一层下采样特征设定权重值；根据所述设定的权重值，将所述任一层下采样特征的加权值融合到相对应的另一层上采样特征或高层采样特征中。

检测单元13，用于根据所述二次融合单元12得到的二次融合特征对所述某一帧图像中的目标物进行检测。

进一步地，在本实施例的视频目标物检测系统中还可以包括：

训练单元14，用于确定第二特征初始模型和目标物检测初始模型，所述第二特征初始模型用于得到所述二次融合特征，所述目标物检测初始模型用于根据所述第二特征初始模型得到的二次融合特征对所述某一帧图像中的目标物进行检测；确定训练样本，所述训练样本中包括多个样本对，各个所述样本对包括：视频样本中多个连续帧图像及其中某一帧图像中目标物的标注信息；通过所述第二特征初始模型分别对所述各个样本对中多个连续帧图像中基于某一帧图像的首次融合特征进行多层采样得到多层采样特征，并将所述多层采样特征进行融合得到二次融合特征；所述目标物检测初始模型根据所述二次融合特征对所述各个样本对中某一帧图像进行目标物检测，得到目标物检测结果；根据所述第二特征初始模型和目标物检测初始模型得到的目标物检测结果和所述训练样本中的标注信息，调整第二特征初始模型和目标物检测初始模型，以得到最终的第二特征模型和目标物检测模型。

该训练单元14，还用于在调整第二特征初始模型和目标物检测初始模型之前，还可以确定基于学习率的超参数模型；根据所述第二特征初始模型和目标物检测初始模型得到的目标物检测结果和所述训练样本中的标注信息，调整所述超参数模型；这样，训练单元14在调整第二特征初始模型和目标物检测初始模型时，具体用于根据所述第二特征初始模型和目标物检测初始模型得到的目标物检测结果和所述训练样本中的标注信息，及调整后的超参数模型，调整第二特征初始模型和目标物检测初始模型。

该训练单元14，还用于当对所述参数值的调整次数等于预置的次数时，或若当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值时，则停止对所述固定参数值的调整。

可见，在本实施例的系统中，在首次融合单元11和二次融合单元12的两次融合特征获取过程中，不仅考虑了待检测视频中各帧图像本身的信息，还考虑了与相邻帧图像之间的序列信息，进一步地考虑了某些重点的特征(即多层采样特征)，使得最终获取的二次融合特征能准确地描述待检测图像中某一帧图像的特征，进而使得根据二次融合特征进行目标物检测的结果也比较准确。

本发明实施例还提供一种服务器，其结构示意图如图11所示，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，cpu)20(例如，一个或一个以上处理器)和存储器21，一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中，存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器20可以设置为与存储介质22通信，在服务器上执行存储介质22中的一系列指令操作。

具体地，在存储介质22中储存的应用程序221包括视频目标物检测的应用程序，且该程序可以包括上述视频目标物检测系统中的特征获取单元10，首次融合单元11，二次融合单元12，检测单元13和训练单元14，在此不进行赘述。更进一步地，中央处理器20可以设置为与存储介质22通信，在服务器上执行存储介质22中储存的视频目标物检测的应用程序对应的一系列操作。

服务器还可以包括一个或一个以上电源23，一个或一个以上有线或无线网络接口24，和/或，一个或一个以上操作系统223，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm等等。

上述方法实施例中所述的由上述视频目标物检测系统所执行的步骤可以基于该图11所示的服务器的结构。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如上述视频目标物检测系统所执行的数据转移方法。

本发明实施例还提供一种服务器，包括处理器和存储器；所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如上述视频目标物检测系统所执行的数据转移方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(rom)、随机存取存储器(ram)、磁盘或光盘等。

以上对本发明实施例所提供的视频目标物检测方法、系统及计算机可读存储介质和服务器进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：崔振;徐静杉;申丽;刘威;许春燕
技术所有人：南京理工大学;腾讯科技(深圳)有限公司
我是此专利的发明人

上一篇：一种建筑工程用喷雾除尘装置的制作方法
上一篇：一种带自密封装置的空气过滤器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。