一种基于运动边界小位移的高效运动表征方法及装置与流程

文档序号：24157667发布日期：2021-03-05 12:54阅读：114来源：国知局

[0001]
本发明涉及视觉感知和人工智能技术，尤其涉及一种基于运动边界小位移的高效运动表征方法及装置，主要通过对浅层神经网络提取的特征图在特征空间进行差异计算和累积，能够有效建模运动边界小位移作为运动表征。

背景技术：

[0002]
运动表征在近年来的计算机视觉研究中被广泛采用，尤其是视频理解任务。当前主流的基于视频的深度学习任务，比如：动作识别、视频描述、视频预测等，除了原始彩色3通道rgb图像作为输入来提供外观信息外，还需要运动表征作为其中一种输入模态，用以提供时序相关的短程运动信息作为学习辅助。运动表征的建模逐渐成为视觉感知和人工智能领域的一个重要研究方向。视频理解在现实场景中有很多潜在的应用，比如：智能监控、视频检索、智慧安防、异常行为检测等。
[0003]
当前主流的视频理解方法依赖于光流作为运动表征，由于光流卓越的性能表现，光流常被用于建模短程运动。但是，光流的预先计算需要消耗大量的计算资源和存储空间，这约束了基于光流的视频理解方法在实时场景中的应用。为了克服光流计算效率低下的问题，最近一些方法设计卷积神经网络用于快速光流估计。虽然光流估计的速度得到了较大提升，但是这类方法仍然存在两大问题：（1）先计算光流再送入深度神经网络这一过程是两阶段的，不可以端到端训练，实时场景中的应用仍然受限；（2）光流估计的准确率和最终视频理解任务的性能表现没有很好的相关性。还有一些方法试图直接从rgb图像中重建光流，然而在训练阶段，仍然需要提取好的光流作为监督信息，这严重制约了训练的速度。
[0004]
由于视频时序信息的复杂性，运动信息的建模始终是视频理解任务的一个巨大的挑战。如何在网络端到端的训练过程中，快速有效地建模视频中的时序短程运动信息，对于动作识别以及其他基于视频的智能视觉感知任务而言，是非常重要的。

技术实现要素：

[0005]
本发明针对当前主流视频理解方法严重依赖光流作为运动表征，计算复杂度高、耗时的问题，提出一种基于运动边界小位移的高效运动表征方法及装置。本发明通过对浅层神经网络提取的特征图在特征空间进行差异计算和累积，能够快速有效建模运动边界小位移作为深度神经网络中所需要的运动表征；由于无需预先计算的光流作为运动辅助信息，方法及装置的运行速度满足实时视频理解的要求。
[0006]
本发明所采用的技术方案如下：一种基于运动边界小位移的高效运动表征方法，包括以下步骤：步骤1、抽取视频序列中的相邻n帧的原始图像；步骤2、利用卷积神经网络处理相邻n帧的原始图像，获得相应的浅层特征图；步骤3、对相邻n帧的所有相邻两帧的浅层特征图进行差异计算，获得所有相邻两帧在特征空间中的差异图；
步骤4、将所有相邻两帧在特征空间中的差异图沿着通道维度进行差异累积；步骤5、按编码方案对差异累积结果进行编码，从而获得本发明所述的高效运动表征。
[0007]
进一步地，步骤1中所述相邻n帧为在时序关系上相邻的n个图像帧，n为预先设定好的大于等于2的整数，则一段视频序列抽取相邻n帧的原始图像作为采样帧。
[0008]
进一步地，步骤2中所述卷积神经网络包括卷积层、批正则化层、relu层；所述卷积神经网络的输入是n个相邻采样帧的原始图像，输出是卷积神经网络特定层对应n组帧级别的特征图，作为该帧在特征空间上的外观表征。
[0009]
进一步地，步骤3中所述差异计算具体指在特征空间层面对特征图进行对应通道对应像素位置的差异计算；设定这n帧的特征图通道数为c，则对相邻n帧的所有相邻两帧的特征图进行逐通道差异计算后，获得n-1组特征差异图，每组特征差异图的通道数仍为c。
[0010]
进一步地，步骤4中所述差异累积以组为单位，每组特征差异图的差异累积沿着该组的通道维度进行，差异累积操作完成后，通道数变为1，则n-1组通道数为c的特征差异图在差异累积后的通道数变为1。
[0011]
进一步地，步骤5中所述编码方案用于对差异结果进行编码，不同的任务需采用不同的编码方案，进而得到任务相关的所述高效运动表征。
[0012]
所述差异计算的具体步骤为：设定一段视频序列抽取相邻两帧的原始图像作为采样帧，所述卷积神经网络输出的相邻两帧浅层特征图为集合{f
i
(p,t)}和{f
i
(p,t+δt)}，通道数为c，空间分辨率“宽度
×
高度”为“w
×
h”；其中，c、w和h均为大于等于1的整数，i代表通道索引，i的取值范围为闭区间[1,c]，p=(x,y)为特征图空间维度上的任意一点坐标，x的取值范围为闭区间[1,w]，y的取值范围为[1,h]，t代表相邻两帧中靠前的一帧的时间戳，t+δt代表相邻两帧中靠后的一帧的时间戳；则对相邻两帧浅层特征图进行差异计算所得到的第i个通道的差异图元素d
i
(p,δt)可以表示为：d
i
(p,δt)=f
i
(p,t+δt)-f
i
(p,t)；则所述对相邻两帧浅层特征图进行差异计算后将会得到1组c个空间分辨率为w
×
h的差异图，表示为集合{d
i
(p,δt)}。
[0013]
所述差异累积的具体步骤为：设定相邻两帧浅层特征图进行差异计算后得到的差异图为集合{d
i
(p,δt)}，则沿着通道维度进行差异累积可以表示为：；上式d为差异累积结果，通道数由c压缩为1，空间分辨率不变，仍为w
×
h。
[0014]
所述编码方案为：设定对相邻n帧的所有相邻两帧的浅层特征图进行差异计算和差异累积后得到n-1个通道数为1的差异累积结果，将他们按时序进行通道合并，则得到1组通道数为n-1的特征作为所述运动表征。
[0015]
具体的，所述采样帧的原始图像为3通道rgb彩色图像。
[0016]
具体的，所述浅层特征图为只通过卷积神经网络的第一层部分，即只经过一组卷积层输出的特征图。
[0017]
本发明还提出了一种基于运动边界小位移的高效运动表征装置，可以用于视频信号或者图像序列中运动表征的提取。所采取的技术方案如下：所述装置包括相邻帧采样单元、浅层特征提取单元、差异计算单元、差异累积单元和编
码单元；所述相邻帧采样单元，用于对视频序列的相邻多帧进行采样处理，获得多个相邻采样帧的原始图像；所述浅层特征提取单元，用于利用浅层卷积神经网络对采样帧进行抽象化处理，获得所述用于代表各采样帧的浅层特征图；所述差异计算单元，用于对所述相邻n帧的所有相邻两帧的浅层特征图进行差异计算，获得在特征空间中的差异图；所述差异累积单元，用于对所述所有相邻两帧在特征空间中的差异图沿着通道维度进行差异累积，获得所述差异累积结果；所述编码单元，用于采用编码方案对差异累积结果进行编码，获得本发明所述的高效运动表征。
[0018]
具体的，所述相邻帧采样单元的输出作为浅层特征提取单元的输入；所述浅层特征提取单元的输出作为差异计算单元的输入；所述差异计算单元的输出作为差异累积单元的输入；所述差异累积单元的输出作为编码单元的输入；所述编码单元的输出结果即为本发明方法所述的基于运动边界小位移的高效运动表征。
[0019]
由于采取了上述技术手段，本发明具有如下优点和有益效果：1. 本发明方法的输入仅为原始彩色3通道rgb采样帧，无需额外预先花费大量计算资源和时间计算光流图片作为输入，保障了方法的实时性，而且整个网络端到端可训练，学习的运动表征更加任务相关，学习过程更加专注；2. 本发明方法仅在浅层特征空间上进行差异计算和累积，相较于传统的光流计算和光流估计等方法，网络模型浅、参数量少，最终运动表征计算模型的占用空间小，可以进行快速运动表征建模，并能应用于嵌入式设备；3. 本发明提出了一种基于运动边界小位移的高效运动表征方法，通过充分利用卷积神经网络浅层特征的特点，并能进行任务相关的编码；本方法可以充分挖掘特征空间中的潜在运动信息，有效避免需要预先进行的密集光流提取，提高视频理解任务的效率；4. 本发明方法的可解释性强：能建模运动边界是因为卷积神经网络的浅层特征图更加关注于图像外观特征中的边界、纹理等信息；能建模小位移是因为特征空间中的一个点对应到输入空间是一个区域，这个区域通常又称为感受野。因此浅层特征的差异计算和累积能很好地反映出输入空间的运动边界小位移；5. 本发明装置硬件配置要求低，故造价成本小，维护较为容易。
附图说明
[0020]
图1示出本发明所述方法的总体流程图。
[0021]
图2示出本发明所述方法的计算过程示意图。
[0022]
图3示出本发明一实施例中所得运动表征的可视化结果。
[0023]
图4示出本发明所述装置的示意图。
具体实施方式
[0024]
下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。
[0025]
图1为根据一示例示出一种基于运动边界小位移的高效运动表征方法的总体流程图，具体包括如下步骤：步骤1：相邻采样s1，抽取视频序列中的相邻n帧的原始图像；所述相邻n帧为在时序关
系上相邻的n个图像帧，n为预先设定好的大于等于2的整数，则一段视频序列抽取相邻n帧的原始图像作为采样帧；步骤2：卷积神经网络浅层处理s2，利用卷积神经网络处理相邻n帧的原始图像，获得相应的浅层特征图；所述卷积神经网络包括卷积层、批正则化层、relu层；所述卷积神经网络的输入是n个相邻采样帧的原始图像，输出是卷积神经网络特定层对应n组帧级别的特征图，作为该帧在特征空间上的外观表征；步骤3：差异计算s3，对相邻n帧的所有相邻两帧的浅层特征图进行差异计算，获得所有相邻两帧在特征空间中的差异图；所述差异计算具体指在特征空间层面对特征图进行对应通道对应像素位置的差异计算；设定这n帧的特征图通道数为c，则对相邻n帧的所有相邻两帧的特征图进行逐通道差异计算后，获得n-1组特征差异图，每组特征差异图的通道数仍为c；步骤4：差异累积s4，将所有相邻两帧在特征空间中的差异图沿着通道维度进行差异累积；所述差异累积以组为单位，每组特征差异图的差异累积沿着该组的通道维度进行，差异累积操作完成后，通道数变为1，则n-1组通道数为c的特征差异图在差异累积后的通道数变为1；步骤5：编码操作s5，按编码方案对差异累积结果进行编码，不同的任务需采用不同的编码方案，从而获得本发明所述的高效运动表征。
[0026]
所述差异计算的具体步骤为：设定一段视频序列抽取相邻两帧的原始图像作为采样帧，所述卷积神经网络输出的相邻两帧浅层特征图为集合{f
i
(p,t)}和{f
i
(p,t+δt)}，通道数为c，空间分辨率“宽度
×
高度”为“w
×
h”；其中，c、w和h均为大于等于1的整数，i代表通道索引，i的取值范围为闭区间[1,c]，p=(x,y)为特征图空间维度上的任意一点坐标，x的取值范围为闭区间[1,w]，y的取值范围为[1,h]，t代表相邻两帧中靠前的一帧的时间戳，t+δt代表相邻两帧中靠后的一帧的时间戳；则对相邻两帧浅层特征图进行差异计算所得到的第i个通道的差异图元素d
i
(p,δt)可以表示为：d
i
(p,δt)=f
i
(p,t+δt)-f
i
(p,t)；则所述对相邻两帧浅层特征图进行差异计算后将会得到1组c个空间分辨率为w
×
h的差异图，表示为集合{d
i
(p,δt)}。
[0027]
所述差异累积的具体步骤为：设定相邻两帧浅层特征图进行差异计算后得到的差异图为集合{d
i
(p,δt)}，则沿着通道维度进行差异累积可以表示为：；上式d为差异累积结果，通道数由c压缩为1，空间分辨率不变，仍为w
×
h。
[0028]
所述编码方案为：设定对相邻n帧的所有相邻两帧的浅层特征图进行差异计算和差异累积后得到n-1个通道数为1的差异累积结果，将他们按时序进行通道合并，则得到1组通道数为n-1的特征作为所述运动表征。
[0029]
所述采样帧的原始图像为3通道rgb彩色图像。
[0030]
所述浅层特征图只通过卷积神经网络的第一层部分，即只经过一组卷积层输出的特征图。
[0031]
图2为根据一示例示出一种相邻两帧的基于运动边界小位移的高效运动表征方法
的计算过程示意图，以此阐明经过每一步操作后的数据维度大小；设定数据维度表示方法“c
×
t
×
w
×
h”为“通道数
×
时序长度
×
空间宽度
×
空间高度”，则其中：1-抽取得到的视频序列中相邻两帧的原始图像，相邻采样帧序列为3通道rgb彩色图像，故数据维度为3
×2×
w
×
h；2-卷积神经网络处理相邻两帧的原始图像，所述卷积神经网络包括卷积层、批正则化层、relu层；所述卷积神经网络的输入是两个相邻采样帧的原始图像，输出是卷积神经网络特定层对应两组帧级别的特征图，设定通道数为c，空间维度未进行下采样，则数据维度为c
×2×
w
×
h；3-相邻两帧在特征空间中的差异图，所述差异计算具体指在特征空间层面对特征图进行对应通道对应像素位置的差异计算，则其数据维度为c
×1×
w
×
h；4-所述差异累积结果，所述差异累积以组为单位，每组特征差异图的差异累积沿着该组的通道维度进行，差异累积操作完成后，通道数变为1，则示例差异累积结果的维度为1
×1×
w
×
h。
[0032]
图3为根据一示例示出本发明一实施例中所得运动表征的可视化结果。1-相邻两帧中靠前的一帧3通道rgb彩色图像；2-相邻两帧中靠后的一帧3通道rgb彩色图像；3-本发明方法得到的运动表征；4-传统tvl-1光流方法得到的光流水平方向分量图片；5-传统tvl-1光流方法得到的光流垂直方向分量图片。可视化结果证明本发明方法相较于传统光流方法，能更加有效地建模运动边界小位移。在单块nvidia titan x深度学习处理器上对传统tvl-1光流方法和本发明方法做速度对比，同时保证其他硬件配置完全相同。在输入图片分辨率为224
×
224的情况下，本发明方法的处理速度为每秒1855帧，传统tvl-1光流方法的处理速度为每秒15帧。由此速度评估证明本发明提供的运动表征计算方法所需计算时间远低于传统光流计算方法，能够满足工程上运动表征的快速计算要求。
[0033]
图4为根据一示例示出一种基于运动边界小位移的高效运动表征装置的示意图，该装置可以用于视频信号或者图像序列中快速运动表征的建模。所采取的技术方案如下：所述装置包括：1-相邻帧采样单元；2-浅层特征提取单元；3-差异计算单元；4-差异累积单元和5-编码单元；所述相邻帧采样单元，用于对视频序列的相邻多帧进行采样处理，获得多个相邻采样帧的原始图像；所述浅层特征提取单元，用于利用浅层卷积神经网络对采样帧进行抽象化处理，获得所述用于代表各采样帧的浅层特征图；所述差异计算单元，用于对所述相邻n帧的所有相邻两帧的浅层特征图进行差异计算，获得在特征空间中的差异图；所述差异累积单元，用于对所述所有相邻两帧在特征空间中的差异图沿着通道维度进行差异累积，获得所述差异累积结果；所述编码单元，用于采用编码方案对差异累积结果进行编码，获得本发明所述的高效运动表征。
[0034]
具体的，所述相邻帧采样单元的输出作为浅层特征提取单元的输入；所述浅层特征提取单元的输出作为差异计算单元的输入；所述差异计算单元的输出作为差异累积单元的输入；所述差异累积单元的输出作为编码单元的输入；所述编码单元的输出结果即为本发明方法所述的基于运动边界小位移的高效运动表征。
[0035]
上述实施例仅仅是为清楚地说明本发明所作的描述，而并非对实施方式的限定，对于所属领域的技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无需也无法对所有的实施方式予以穷举，而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围之中。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邹月娴;张粲
技术所有人：北京大学深圳研究生院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。