一种基于ST-SIN的视频物体检测方法及系统与流程

文档序号：17162339发布日期：2019-03-20 00:55阅读：194来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及计算机视觉领域，特别涉及一种基于st-sin的视频物体检测方法、系统、计算机及计算机可读存储介质。

背景技术：

计算机视觉在当今科技发展中占有重要意义，图像和视频检测更是被用到各行各业中，如安防，自动驾驶，医疗成像中。因此不断地追求检测的精度有着十分重要的意义。

目前，视频物体检测的相关技术只在乎物体的空间特征信息，而忽略了其他信息的运用，结果导致视频物体检测的准确度不高。

因此，如何提高视频物体检测的准确度是本领域技术人员需要解决的技术问题。

技术实现要素：

本申请的目的是提供一种基于st-sin的视频物体检测方法、系统、计算机及计算机可读存储介质，能够提高视频物体检测的准确度。

为解决上述技术问题，本申请提供一种基于st-sin的视频物体检测方法，包括：

利用fcn算法对视频的各帧原图进行卷积和池化处理获取对应的空间特征图；

对各个所述空间特征图进行lstm算法处理得到时间-空间特征图；

对所述时间-空间特征图进行rpn算法处理得到各个roi对应的时间-空间特征图；

对各个所述roi对应的时间-空间特征图依次进行池化处理和全连接层处理获取对应的roi一维特征向量；

将各个所述roi一维特征向量进行sin网络处理得到各个所述roi的类别及对应的框的坐标。

优选地，该视频物体检测方法还包括：

对各帧所述原图进行池化处理和全连接层处理获取对应的背景一维特征向量。

优选地，对所述时间-空间特征图进行rpn算法处理得到各个roi对应的时间-空间特征图之后，还包括：

利用各个所述roi对应的时间-空间特征图获取各个所述roi之间的物体关系信息。

优选地，对各个所述roi对应的时间-空间特征图依次进行池化处理和全连接层处理获取对应的roi一维特征向量之后，还包括：

将各个所述roi一维特征向量、所述背景一维特征向量和所述物体关系信息进行所述sin网络处理得到各个所述roi的类别及对应的框的坐标。

本申请还提供一种基于st-sin的视频物体检测系统，包括：

空间特征图获取模块，用于利用fcn算法对视频的各帧原图进行卷积和池化处理获取对应的空间特征图；

lstm算法处理模块，用于对各个所述空间特征图进行lstm算法处理得到时间-空间特征图；

rpn算法处理模块，用于对所述时间-空间特征图进行rpn算法处理得到各个roi对应的时间-空间特征图；

roi一维特征向量获取模块，用于对各个所述roi对应的时间-空间特征图依次进行池化处理和全连接层处理获取对应的roi一维特征向量；

sin网络处理模块，用于将各个所述roi一维特征向量进行sin网络处理得到各个所述roi的类别及对应的框的坐标。

优选地，该视频物体检测系统，还包括：

背景一维特征向量获取模块，用于对各帧所述原图进行池化处理和全连接层处理获取对应的背景一维特征向量。

优选地，该视频物体检测系统，还包括：

物体关系信息获取模块，用于利用各个所述roi对应的时间-空间特征图获取各个所述roi之间的物体关系信息。

优选地，该视频物体检测系统，还包括：

sin网络集成处理模块，用于将各个所述roi一维特征向量、所述背景一维特征向量和所述物体关系信息进行所述sin网络处理得到各个所述roi的类别及对应的框的坐标。

本申请还提供一种计算机，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现上述所述的基于st-sin的视频物体检测方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的基于st-sin的视频物体检测方法的步骤。

本申请所提供的一种基于st-sin的视频物体检测方法，包括：利用fcn算法对视频的各帧原图进行卷积和池化处理获取对应的空间特征图；对各个所述空间特征图进行lstm算法处理得到时间-空间特征图；对所述时间-空间特征图进行rpn算法处理得到各个roi对应的时间-空间特征图；对各个所述roi对应的时间-空间特征图依次进行池化处理和全连接层处理获取对应的roi一维特征向量；将各个所述roi一维特征向量进行sin网络处理得到各个所述roi的类别及对应的框的坐标。

该方法先是获取视频的各帧原图的空间特征图，然后利用lstm算法处理各个所述空间特征图进行得到时间-空间特征图，再对所述时间-空间特征图进行rpn算法处理得到各个roi对应的时间-空间特征图，接着对各个所述roi对应的时间-空间特征图依次进行池化处理和全连接层处理获取对应的roi一维特征向量，最后将各个所述roi一维特征向量进行sin网络处理得到各个所述roi的类别及对应的框的坐标。可见，该方法除了获取了物体的空间特征，还获取了各帧图片中对应感受野的时间特征，提高了视频物体检测的准确度。本申请还提供一种基于st-sin的视频物体检测系统，计算机及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种基于st-sin的视频物体检测方法的流程图；

图2为本申请实施例所提供的fcn算法的流程图；

图3为本申请实施例所提供的使用zf网络实现fcn算法的模型；

图4为本申请实施例所提供的stfcn算法的流程图；

图5为本申请实施例所提供的图模型结构示意图；

图6为本申请实施例所提供的sin网络结构示意图；

图7为本申请实施例所提供的sin网络获取和处理信息的结构示意图；

图8为本申请实施例所提供的一种基于st-sin的完整视频物体检测方法流程图；

图9为本申请实施例所提供的一种基于st-sin的视频物体检测系统的结构框图。

具体实施方式

本申请的核心是提供一种基于st-sin的视频物体检测方法，能够提高视频物体检测的准确度。本申请的另一核心是提供一种基于st-sin的视频物体检测系统、计算机及计算机可读存储介质。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，对于视频物体检测的相关技术只在乎物体的空间特征信息，而忽略了其他信息的运用，结果导致视频物体检测的准确度不高。本申请实施例除了获取了物体的空间特征，还获取了各帧图片中对应感受野的时间特征，提高了视频物体检测的准确度。具体请参考图1，图1为本申请实施例所提供的一种基于st-sin的视频物体检测方法的流程图，该基于st-sin的视频物体检测方法具体包括：

s101、利用fcn算法对视频的各帧原图进行卷积和池化处理获取对应的空间特征图；

stfcn算法(频语义分割的时空域fcn算法)是一种同时包含时间和空间特征的视频语义分割的方法。stfcn算法包含三个部分，首先用fcn算法提取空间特征，然后用lstm算法提取图片中各个感受野的时间特征后得到时间-空间特征图，最后卷积时间空间特征得到基于像素的预期。故本申请实施例先是利用fcn算法对视频的各帧原图进行卷积和池化处理获取对应的空间特征图，即提取空间特征。利用fcn算法对视频的各帧原图进行卷积和池化处理获取对应的空间特征图的具体过程，在此不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。通常将输入fcn算法的各帧原图it分为w×h个图像栅格，特征集中的每一点有m维特征，fcn算法输出的是大小为w′×h′的其中w′＜＜w，h′＜＜h。所以，各帧原图it由特征集表示，每个点(i,j)都有1≤i≤w′，1≤j≤h′，中有w′×h′个成员，每个成员有m维，每个成员表示图片中的一个感受野，每一个感受野嵌入一个lstm网络。如图2所示，图2为本申请实施例所提供的fcn算法的流程图，fcn算法可以通过卷积和池化处理对输入的各帧原图进行空间特征提取，图2中input表示输入图片，conv&pool表示上述卷积和池化处理。此外，图2中的proposal表示通过rpn算法得到的候选框，cls表示分类操作，reg表示候选框的坐标回归操作。fcn算法的其中一种实现方法如图3所示，图3为本申请实施例所提供的使用zf网络实现fcn算法的模型，结构301是zf网络最后一层卷积层前的结构，本申请实施例就是使用结构301对各帧原图进行空间特征的提取。图3中conv表示卷积，maxpool表示最大池化操作，pad表示在图像的周围填充像素，如pad2表示在像素的周围填充两个像素，/2表示将图像整体缩小一半。

s102、对各个空间特征图进行lstm算法处理得到时间-空间特征图；

本申请实施例在利用fcn算法对视频的各帧原图进行卷积和池化处理获取对应的空间特征图后，对各个空间特征图进行lstm算法处理得到时间-空间特征图。根据上文可知，fcn算法能够获取视频的各帧原图的空间特征。因为视频在时间维度上由连续的帧组成，帧与帧之间存在相联的关系。为了进一步地提高精度，在fcn算法的基础上引入lstm算法获取时间特征，令到进行当前帧的物体识别时，能够使之前帧起作用。

lstm算法又称为lstm网络，是一种特殊的rnn结构。lstm算法是解决长序依赖问题的有效技术，即在本申请实施例中可通过嵌入一组lstm以记忆不同帧的相同位置的空间特征。每一个lstm都由一个记忆单元和用于控制信息流和防止重要信息流失的输入门和输出门构成。若st为在时间t输入到lstm网络的信息，则lstm中各部分的状态如下：

it＝σ(wxixt+whiht-1+bi)

ft＝σ(wxfxt+whfht-1+bf)

ot＝σ(wxoxt+whoht-1+bo)

其中，it表示让多少新的信息加入到记忆单元中；ft决定从记忆单元中丢弃什么信息；ot决定输出门输出什么信息；gt为输入修改门；ct为记忆单元；ht为隐藏状态；σ和φ分别表示sigmoid函数和tanh函数；表示元素间的乘法；b表示对应层的偏置值；w表示对应层的权重；x表示当前状态的输入；h表示上个状态的输出。

根据上文可知，stfcn算法包括提取空间特征的fcn算法和提取时间特征的lstm算法。如图4所示，图4为本申请实施例所提供的stfcn算法的流程图，图4中spatio-temporalfeatures表示时间-空间特征，predictions表示预测结果，deconvolution表示反卷积操作，up-sampling表示上采样。在fcn算法输出大小为w′×h′的后，关于it中的每一个区域(感受野区域)被一个ω栅格描述，再将lstm嵌入，因此一共有w′×h′个lstms。其中，中的每个点(i,j)都对应it中的一个感受野区域。元素定义了当前帧原图中的每一个区域的空间特征，这些特征用lstm^(i,j)来处理，这能利用过去帧原图相同位置的空间特征来推导当前帧原图与过去帧原图之间的关系。因此，空间特征和时间特征便都能考虑到，当前帧原图与过去帧原图对应位置的时间-空间特征表达式如下：

ω't(i,j)＝(lstm^(i,j)(ωt(i,j)))，其中ω与ω'的大小是相同的，ω(i,j)表示原图中(i,j)的区域空间特征，ω't(i,j)表示(i,j)的区域时间-空间特征。综合而言，可将上式转化为如下式子：

利用stfcn对视频中的每帧都进行如上操作，即对各个空间特征图进行lstm算法处理，便可得到时间-空间特征图。

s103、对时间-空间特征图进行rpn算法处理得到各个roi对应的时间-空间特征图；

本申请实施例在对各个空间特征图进行lstm算法处理得到时间-空间特征图后，对时间-空间特征图进行rpn算法处理得到各个roi对应的时间-空间特征图。在此对roi(regionofinterest)的数量和类别均不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。每个roi会对应一个框，对于框的大小及坐标在此也不作具体限定。

s104、对各个roi对应的时间-空间特征图依次进行池化处理和全连接层处理获取对应的roi一维特征向量；

本申请实施例在对时间-空间特征图进行rpn算法处理得到各个roi对应的时间-空间特征图后，对各个roi对应的时间-空间特征图依次进行池化处理和全连接层(即fc)处理获取对应的roi一维特征向量，该roi一维特征向量为包含roi空间特征的一维特征向量。

s105、将各个roi一维特征向量进行sin网络处理得到各个roi的类别及对应的框的坐标。

本申请实施例对各个roi对应的时间-空间特征图依次进行池化处理和全连接层处理获取对应的roi一维特征向量后，将各个roi一维特征向量进行sin网络处理得到各个roi的类别及对应的框的坐标。在此对roi的类别不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，例如roi的类别可以为“person(人)”，也可为“horse(马)”。进一步地，对于同一类别的roi的数量也不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。

本申请实施例先是获取视频的各帧原图的空间特征图，然后利用lstm算法处理各个空间特征图进行得到时间-空间特征图，再对时间-空间特征图进行rpn算法处理得到各个roi对应的时间-空间特征图，接着对各个roi对应的时间-空间特征图依次进行池化处理和全连接层处理获取对应的roi一维特征向量，最后将各个roi一维特征向量进行sin网络处理得到各个roi的类别及对应的框的坐标。可见，该方法除了获取了物体的空间特征，还获取了各帧图片中对应感受野的时间特征，提高了视频物体检测的准确度。

基于上述实施例，本实施例中通常还包括：对各帧原图进行池化处理和全连接层处理获取对应的背景一维特征向量。类似于上述对各个roi对应的时间-空间特征图依次进行池化处理和全连接层处理获取对应的roi一维特征向量，本申请实施例对各帧原图进行池化处理和全连接层处理获取对应的背景一维特征向量，该背景一维特征向量是包含背景信息的一维特征向量。在此对上述背景的类型不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，例如背景可以为海面场景，也可为高速公路场景。

进一步地，基于上述实施例，本实施例中对时间-空间特征图进行rpn算法处理得到各个roi对应的时间-空间特征图之后，通常还包括：利用各个roi对应的时间-空间特征图获取各个roi之间的物体关系信息。在此对于获取各个roi之间的物体关系信息的获取方式不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。

基于上述实施例，本实施例中对各个roi对应的时间-空间特征图依次进行池化处理和全连接层处理获取对应的roi一维特征向量之后，还包括：将各个roi一维特征向量、背景一维特征向量和物体关系信息进行sin网络处理得到各个roi的类别及对应的框的坐标。

sin网络将问题形式转化为一个图模型g＝(v，e，s)来表达视频各帧原图的背景信息和物体关系信息，如图5所示，图5为本申请实施例所提供的图模型结构示意图，其中v表示输入图片中被框出的物体即roi，e是边edge表示物体与物体之间的关系即代表各roi之间的关系程度，s则表示背景信息。在背景信息的指导下，物体之间根据关系程度相互交互，其实就是物体接收场景的指导信息，每个物体接收其他物体传递来的信息，只不过关系不同，接收程度不同。所以交互机制也就是消息传递，本申请实施例采用gru来实现。例如，当物体需要接受场景的信息时，那么将该物体的状态作为隐状态，背景信息作为输入，输出即为接收信息更新后的物体状态；同理，当该物体需要接受其他物体的信息时，同样将该物体状态作为隐状态，其他物体传递来的信息作为输入，输出即为接收信息更新后的物体状态。gru的gate结构可以使得隐状态丢弃与输入无关的部分，也可以选择与输入相关的部分根据输入来更新隐状态，所以gru本身是一种很巧妙的实现消息传递的方式。

如图6所示，图6为本申请实施例所提供的sin网络结构示意图，图6中edge表示边，concatenate表示连接(节点与节点形成的边)，bbox表示边框坐标，roiprediction表示通过rpn算法得到的预测的roi，wholeimageroipooling表示整张图进行roi池化操作。sin网络一方面把输入的各帧原图进行roipooling获取各帧原图的空间特征，再对其进行全连接层处理，使其变为包含背景-空间特征的一维特征向量。另一方面，通过rpn算法生成的各个regionproposals(区域候选框)也对其进行全连接层处理，最终形成包含区域候选框空间特征的一维特征向量。最后sin网络会根据各帧原图中物体与物体之间的视觉特征和位置特征生成一个物体与物体之间的关系信息，即为图6中的edge。

如图7所示，图7为本申请实施例所提供的sin网络获取和处理信息的结构示意图，图7详细讲述sin网络如何利用gru处理信息，图7中integratededgemessage表示整合边的信息，nodefeature表示结点(即图7中框中的物体)特征。整张图片的特征fs作为scenegru的输入，并且scenegru的隐藏状态初始是物体vi的空间特征。而表示节点v1传递给vi的信息，由边e1→i控制，具体公式如下：

其中，表示整合当前物体i与图像中其余各个候选框间关系后的信息，为节点vj的视觉特征。e1→i的计算公式如下：

其中，ej→i表示物体j与物体i之间的关系信息，wp和wv都是可学习的权重矩阵。表示vj和vi的空间位置关系，的计算公式如下：

其中，(xi,yi)是roibi的中心坐标，wi和hi是bi的宽度和高度，si表示bi的面积。

对于节点vi而言，它均接受背景信息和来自其他节点的信息，最终我们得到一个关于vi的综合表达ht+1，它表示节点的状态，计算公式如下：

其中，和各表示scenegru和edgegru的输出，ht+1表示t+1时刻将场景信息和与其他物体间的关系信息结合而得到的综合信息。通过structureinference处理后，便可以信息进行分类和回归处理，得到各个roi的类别及对应的框的坐标。

基于上述实施例，可以得到完整的st-sin的视频物体检测方法流程图，如图8，图8为本申请实施例所提供的一种基于st-sin的完整视频物体检测方法流程图。如图8所示，sin网络不仅对空间特征进行了处理，还加入了时间特征、背景信息及物体关系信息，提高了视频物体检测的准确度。

下面对本申请实施例提供的一种基于st-sin的视频物体检测系统、计算机及计算机可读存储介质进行介绍，下文描述的基于st-sin的视频物体检测系统、计算机及计算机可读存储介质与上文描述的基于st-sin的视频物体检测方法可相互对应参照。

请参考图9，图9为本申请实施例所提供的一种基于st-sin的视频物体检测系统的结构框图；该基于st-sin的视频物体检测系统包括：

空间特征图获取模块901，用于利用fcn算法对视频的各帧原图进行卷积和池化处理获取对应的空间特征图；

lstm算法处理模块902，用于对各个空间特征图进行lstm算法处理得到时间-空间特征图；

rpn算法处理模块903，用于对时间-空间特征图进行rpn算法处理得到各个roi对应的时间-空间特征图；

roi一维特征向量获取模块904，用于对各个roi对应的时间-空间特征图依次进行池化处理和全连接层处理获取对应的roi一维特征向量；

sin网络处理模块905，用于将各个roi一维特征向量进行sin网络处理得到各个roi的类别及对应的框的坐标。

基于上述实施例，本实施例中基于st-sin的视频物体检测系统，通常还包括：

背景一维特征向量获取模块，用于对各帧原图进行池化处理和全连接层处理获取对应的背景一维特征向量。

基于上述实施例，本实施例中基于st-sin的视频物体检测系统，通常还包括：

物体关系信息获取模块，用于利用各个roi对应的时间-空间特征图获取各个roi之间的物体关系信息。

基于上述实施例，本实施例中基于st-sin的视频物体检测系统，通常还包括：

sin网络集成处理模块，用于将各个roi一维特征向量、背景一维特征向量和物体关系信息进行sin网络处理得到各个roi的类别及对应的框的坐标。

本申请还提供一种计算机，包括：存储器和处理器；其中，存储器用于存储计算机程序，处理器用于执行计算机程序时实现上述任意实施例的基于st-sin的视频物体检测方法的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的基于st-sin的视频物体检测方法的步骤。

该计算机可读存储介质可以包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种基于st-sin的视频物体检测方法、系统、计算机及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄国恒;朱俊文;邓桂扬
技术所有人：广东工业大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。