时序行为检测、响应方法及装置、设备、介质与流程

文档序号:24068579发布日期:2021-02-26 14:05阅读:115来源:国知局
时序行为检测、响应方法及装置、设备、介质与流程

[0001]
本申请属于图像识别技术,具体涉及一种时序行为检测、响应方法及其各自相应的神经网络实现装置、电子设备、非易失性存储介质。


背景技术:

[0002]
采用神经网络进行视频时序行为识别的技术日益成熟,时下较为流行视频行为识别方法,采用r-c3d算法实现。r-c3d是region convolutional 3d network for temporal activity detection(时序活动检测用区域卷积3d网络)的缩写,该算法主要是以c3d网络为基础,借鉴了faster rcnn的思路,对于任意的输入视频l,先进行proposal(提议,旨在提供时序候选框),然后进行池化(3d-pooling),最后进行分类和回归操作。
[0003]
r-c3d主要包括特征提取网络、时序候选框建议模块、行为识别网络,对于输入的视频,先通过c3d多层卷积网络提取后续供时序候选框建议模块和行为识别网络共享的特征,然后通过时序候选框建议模块优选出存在目标行为的若干候选框,最后,由行为识别网络对这些候选框中的目标行为进行分类,从而实现行为识别。
[0004]
r-c3d算法的实施,可以针对任意长度视频、任意长度行为进行端到端的检测,其检测速度很快,可达此前同类其他网络的5倍,实测多种不同数据集,效果均较佳,具有通用性,广受业内欢迎。
[0005]
但是,r-c3d算法基于锚点回归策略实现,通过假定时序上等长的多个多锚点区来生成候选框,其在进行池化时,采用roi pooling(感应趣区域池化)的方式来对各个候选框相对应的特征进行提取后,直接送至全连接层进行分类和回归,在这一过程中,导致时序特征丢失,导致神经网络的整体分类能力较弱。


技术实现要素:

[0006]
本申请的目的旨在提供一种时序行为检测方法,在此基础上提供一种应用该方法的时序行为响应方法,同时提供一种神经网络实现装置,以及与该视频响应方法相应的一种电子设备和一种非易失性存储介质。
[0007]
为满足本申请的各个目的,本申请采用如下技术方案:
[0008]
适应于本申请的目的之一而提供的一种时序行为检测方法,包括如下步骤:
[0009]
对视频流进行特征提取获得包含空间和时序特征信息的空时特征图;
[0010]
依据所述空时特征图确定多个时序候选框,获得所述时序候选框的偏移量及其包含目标时序行为的概率分数,根据所述概率分数优选出具有较高置信度的若干个候选框;
[0011]
根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图;
[0012]
将结果特征图输出至全连接层,由全连接层完成视频行为分类和回归,输出所述视频流的分类结果数据。
[0013]
一类实施例中,根据所述时序候选框从所述空时特征图中对应提取包含了时序特
征的待池化特征图,将其池化为结果特征图的步骤,包括:
[0014]
根据优选出的各个候选框,从所述空时特征图中提取出对应的待池化特征图;
[0015]
将待池化特征图分割成多个空时子特征图,在多个空时子特征之间保留该候选框相对应的时序特征;
[0016]
适用最大值池化函数对所述空时子特征图进行池化获得结果特征图。
[0017]
另一类实施例中,根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图的步骤,包括:
[0018]
根据优选出的各个候选框所占时序长度从所述空时特征图中提取其本身及其之前与之后的属于连续片段的待池化特征图;
[0019]
将各个片段的待池化特征图分割成空时子特征图,且在多个空时子特征之间保留该候选框相对应的时序特征;
[0020]
适用最大值池化函数分别对各个片段的所述空时子特征图进行池化并统一为结果特征图。
[0021]
再一类实施例中,将候选框池化为多个具有相同维度的特征图并输出至全连接层的步骤中,包括:
[0022]
根据优选出的各个候选框所占时序长度从所述空时特征图中提取其本身及其之前与之后的属于连续片段的待池化特征图;
[0023]
将各个片段的待池化特征图分割成空时子特征图,且在多个空时子特征之间保留该候选框相对应的时序特征;
[0024]
适用最大值池化函数分别对各个片段的所述空时子特征图进行池化并统一为结果特征图;
[0025]
基于所述各个片段的空时子特征图及结果特征图,在保留其结构化编码特征的基础上,对特征在同一空间点上沿着时序维度进行相关性计算,获得相应的编码特征相应的结果特征图。
[0026]
具体的实施例中,对视频流进行特征提取获得包含空间和时序特征信息的空时特征图的步骤中:利用c3d网络的多个卷积层,在保持时序分辨率不变的条件下,将所述视频流逐级下采样降低空间分辨率,获得所述的空时特征图。
[0027]
较佳的实施例中,依据所述空时特征图确定多个时序候选框,获得所述时序候选框的偏移量及其包含目标时序行为的概率分数,根据所述概率分数优选出具有较高置信度的若干个候选框的步骤,包括:
[0028]
依据所述空时特征图进行池化,获得仅保留了时序特征信息的一维特征图;
[0029]
评估所述一维特征图中各个时序点的控制区域属于目标时序行为内的第一概率分数,并行地,评估所述一维特征图的时序点中一系列候选框的偏移量及该候选框包含目标时序行为的第二概率分数;
[0030]
根据所述第一概率分数和第二概率分数优选出具有较高置信度的若干个候选框。
[0031]
进一步的实施例中,评估所述一维特征图中各个时序点的控制区域属于目标时序行为内的第一概率分数的步骤,包括:
[0032]
采用预设长度的时序窗口在所述一维特征图上滑动以获取每个时序点的特征及其上下文信息;
[0033]
将该时序窗口对应的特征全连接到预设的前景与背景二分类网络,确定出相应的时序点控制区域属于目标时序行为内的第一概率分数。
[0034]
进一步的实施例中,评估所述一维特征图的时序点中一系列候选框的偏移量及该候选框包含目标时序行为的第二概率分数的步骤,包括:
[0035]
采用预设长度的时序窗口在所述一维特征图上滑动以获取每个时序点的特征及其上下文信息;
[0036]
将该时序窗口对应的特征全连接到预设的与行为类别无关的二分类网络,确定出相应的时序点控制区域对应的候选框的偏移量及该候选框包含目标时序行为的第二概率分数。
[0037]
进一步实施例中,根据所述概率分数优选出具有较高置信度的若干个候选框的步骤,包括:
[0038]
统计各个候选框相对应的所述第一概率分数获得各候选框的第一概率总分;
[0039]
将各个候选框统相对应的第一概率总分及其第二概率分数进行加权平均,获得加权总分;
[0040]
对所述加权总分进行排序,选出具有较高置信度的若干个候选框。
[0041]
适应于本申请的目的之一而提供的一种时序行为响应方法,包括如下步骤:
[0042]
获取直播用户的视频流;
[0043]
将所述视频流导入至人工神经网络中实施视频行为识别,该人工神经网络执行所述的时序行为检测方法,相应产生所述视频流的分类结果数据;
[0044]
根据该人工神经网络输出的分类结果数据,向直播间用户输出预设且相应的通知消息。
[0045]
适应本申请的目的之一而提供的一种神经网络实现装置,其包括:
[0046]
特征提取网络,用于对视频流进行特征提取获得包含空间和时序特征信息的空时特征图;
[0047]
时序候选网络,用于依据所述空时特征图确定多个时序候选框,获得所述时序候选框的偏移量及其包含目标时序行为的概率分数,根据所述概率分数优选出具有较高置信度的若干个候选框;
[0048]
子行为编码模块,用于根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图;
[0049]
时序行为分类模块,用于将结果特征图输出至全连接层,由全连接层完成视频行为分类和回归,输出所述视频流的分类结果数据。
[0050]
适应于本申请的目的之一而提供的一种电子设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行所述的时序行为响应方法。
[0051]
适应于本申请的目的之一而提供一种非易失性存储介质,其以计算机可读指令的形式存储用依据所述的时序行为响应方法所述实现的计算机程序,该计算机程序被计算机调用时,执行该方法所包括的步骤。
[0052]
相对于现有技术,本申请具有如下优势:本申请基于r-c3d算法做出改进,在利用人工神经网络处理视频流的过程中,根据该算法的原理,利用多层卷积从导入的视频流中
提取作为共享特征的空时特征图,先利用该空时特征图产生相应的时序候选框,后利用候选框从空时特征图中提取对应的特征进行池化,在此一池化阶段,特别保留各候选框相对应的时序特征,然后将池化形成的结果特征图输出至两个全连接层分别进行时序行为相关的分类操作和回归操作,最终获得相关分类结果数据。由于本申请的结果特征图保留了时序特征,丰富了全连接层进行分类的特征数据,因此,可以提升人工神经网络的时序行为检测能力。
附图说明
[0053]
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0054]
图1为适于部署本申请的一种网络架构的原理示意图;
[0055]
图2为用于执行本申请的时序行为检测方法的人工神经网络的结构示意图;
[0056]
图3为本申请的时序行为检测方法的典型实施例的流程示意图;
[0057]
图4为图3中步骤s12所包括的具体步骤所形成的流程示意图;
[0058]
图5和图6均为图4中步骤s122所包括的具体步骤所形成的流程示意图,其中图5和图6属于并行实施的流程;
[0059]
图7为图4中步骤s123所包括的具体步骤所形成的流程示意图;
[0060]
图8为本申请的步骤s13中适用多种编码方式所对应的原理示意图,其中proposal指候选框,3d feature map指空时特征图;
[0061]
图9、图10、图11分别为图3中步骤s13的各种不同具体实施方式所体现的流程示意图;
[0062]
图12为本申请的时序行为检测方法被应用于实验时,为论证有效性而与r-c3d传统算法相比较而获得的平时时序候选框统计图;
[0063]
图13为本申请的时序行为检测方法被应用于实验时,为论证有效性而与r-c3d传统算法相比较而获得的召回率曲线图;
[0064]
图14为本申请的时序行为响应方法的典型实施例的流程示意图。
具体实施方式
[0065]
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
[0066]
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0067]
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术
语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0068]
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;pcs(personal communications service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;pda(personal digital assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(global positioning system,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是pda、mid(mobile internet device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
[0069]
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
[0070]
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
[0071]
请参阅图1,本申请相关技术方案实施时所需的硬件基础可按图中所示的架构进行部署。本申请所称的服务器80部署在云端,主要用于部署本申请的人工神经网络,其仅为逻辑概念上的服务器,代表着用于实现该人工神经网络的整个服务机群,通过这一逻辑上的服务器来为相关的第三方服务器、终端设备例如图中所示的智能手机81和个人计算机82等调用方提供服务,对调用方提供的视频流进行视频行为识别,识别出视频流中的行为类型。在网络直播平台的应用场景中,本服务器也可作为一个后台监控服务运行时,例如,可以用于对网络直播平台中的媒体服务器所接收的视频流进行视频行为分析,实现对其中的视频流内容的监控,及时识别出不良内容,通知网络直播平台的运维接口,为网络内容的健康发展保驾护航。
[0072]
在理解上述所揭示的与本申请技术方案相关的相关应用环境和开发环境的基础
上,请参阅如下说明继续了解本申请的多种实施方式。需要指出的是,本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
[0073]
本申请所实施的方案可以在传统的r-c3d算法的原理框架(未图示)上直接实现,即包括特征提取网络(c3d网络)、时序行为候选网络(temporal proposal subnet)以及行为分类网络(activity classification subnet)构成的框架,其中的行为分类网络包括依据时序候选框提取结果特征图的子行为编码模块,以及将结果特征图进行全连接实现分类和回归的时序行为分类模块。
[0074]
本申请所实施例的方案也可以适用图2所示的人工神经网络原理框架实现,相比于主流基线算法r-c3d,图2的框架能在不牺牲速度的条件下大幅提高时序行为定位的准确率。该框架基于经典的r-c3d两阶段框架改进,主要包含四个部分:
[0075]
(a)特征提取网络:采用c3d中conv1a到conv5b五层卷积层作为特征提取器获得空时特征图。
[0076]
(b)时序候选网络:其依据空时特征图获取保留了时序特征的一维特征图,包含若干依据一维特征图进行工作的模块:时序位置感知模块(temporal locality-aware network,tlan)、时序候选框建议模块(temporal proposal suggestion network,tpsn)、时序候选框决策模块(temporal proposal decision module,tpdm),三个模块相互配合生成时序候选框,用于对生成的时序候选框进行非极大值抑制,按置信度从高到低排序,选取前n个时序候选框。
[0077]
(c)组成行为识别网络(temporal action classification network,tacn)的子行为编码模块,用于实施子行为编码,产生与各个优选出的时序候选框相对应的结果特征图;
[0078]
(d)组成行为识别网络的时序行为分类模块,用于将结果特征图送入全连接层进行分类和边界精修。
[0079]
本申请中,四元组[t,h,w,c]用来表示三维卷积层,其中t,h,w表示三维卷积核大小(时序,高,宽),c表示滤波器数(输出通道数)。符号x1×
x2×
x3×
x4用以表示特征图大小。
[0080]
以上先给出本申请所适用的人工神经网络架构,后续的描述将结合这两种架构展开说明,比较r-c3d的架构与图2所揭示的本申请提出的架构可知,两者最大的区别在于对时序候选网络的内部结构的改进,并且,两者在涉及子行为编码模块的功能部分,均采用本申请提出的相关替代方案。
[0081]
请结合图2和图3,本申请的典型实施例中,一种时序行为检测方法,主要由依照该方法实现的人工神经网络负责实施,包括如下步骤:
[0082]
步骤s11、对视频流进行特征提取获得包含空间和时序特征信息的空时特征图:
[0083]
本步骤可由预构建的人工神经网络中的视频特征提取网络来实施。
[0084]
以网络直播场景为例,直播用户产生的视频流被上传到网络直播平台部署的媒体服务器时,便可利用本方法对所述的视频流进行处理。具体而言,可利用c3d网络的多个卷积层,在保持时序分辨率不变的条件下,将所述视频流逐级下采样降低空间分辨率,获得所
述的空时特征图:
[0085]
本申请前述所涉及的两个网络架构,均采用相同的技术手段,利用c3d网络的多个卷积层,一般是五个卷积层,对所述视频流进行逐层卷积。在保持时序分辨率不变的条件下,各卷积层顺次逐层对视频流进行降采样,逐级压缩视频流的空间分辨率,最终在第五个卷积层conv5b之后输出该视频流的空时特征图,该空时特征图后续将在后续被共享调用。具体的,通过三层卷积核为3
×3×
3的三维卷积层来扩大时序感受野,并在保持时序分辨率不变的条件下逐层地降低空间分辨率。最终输出空时特征图
[0086]
步骤s12、依据所述空时特征图确定多个时序候选框,获得所述时序候选框的偏移量及其包含目标时序行为的概率分数,根据所述概率分数优选出具有较高置信度的若干个候选框:
[0087]
根据本申请所揭示的两个架构,即传统r-c3d算法架构及本申请图2所示的架构,根据两者原理上的不同,本步骤可以分两种方式实施。
[0088]
方式之一是按照r-c3d传统算法,利用所述的空时特征图,适用锚点机制,直接从空时特点图中生成一系列时序候选框,获得所述时序候选框的偏移量及其包含目标时序行为的概率分数,根据所述概率分数优选出具有较高置信度的若干个候选框,然后将这些具有较高置信度的时序候选框直接送子行为编码模块中做进一步的处理。因r-c3d的时序候选网络所实现的功能已为本领域技术人员所掌握,故此处不再详述。需要提醒的是,根据r-c3d算法原理,由此获得的时序候选框相对于图2所示的候选框,由于在生成候选框的过程中未考虑时序特征,因此其准确率可能相对低下。因此,本申请建议适用下一种方式来实施相关方法,以便追求最佳实施效果。
[0089]
方式之二将在下文中详述,其遵照图2所示的人工神经网络架构,请参阅图4,按照如下具体步骤进行具体处理:
[0090]
步骤s121、依据所述空时特征图进行池化,获得仅保留了时序特征信息的一维特征图:
[0091]
在所述空时特征图的基础上,为了获得保留了视频流的时序特征的一维特征图,增加一个小的三维卷积网络来实现。通过3d池化方式将空时特征图的空间分辨率下采样到1
×
1,生成一维特征图c
pgn/pool
。这一思路通过多层级空间分辨率的下采样,避免基线算法中可能由于大尺度平均池化所导致的空间信息丢失。由此获得的一维特征图,可用于进一步进行行为时序位置感知和候选框提议。
[0092]
步骤s122、评估所述一维特征图中各个时序点的控制区域属于目标时序行为内的第一概率分数,并行地,评估所述一维特征图的时序点中一系列候选框的偏移量及该候选框包含目标时序行为的第二概率分数:
[0093]
本具体步骤包括两个并行运行的评估步骤,均基于所述的一维特征图而实施。
[0094]
请参阅图5,所述评估所述一维特征图中各个时序点的控制区域属于目标时序行为内的第一概率分数的步骤,可由人工神经网络中时序候选网络内预构建的时序位置感知模块(tlan)负责实施,该步骤包括:
[0095]
步骤s1221、采用预设长度的时序窗口在所述一维特征图上滑动以获取每个时序点的特征及其上下文信息:
[0096]
时序位置感知模块(tlan)中,先用一个长度为l的时序窗口在所述的一维特征图c
pgn/pool
上滑动,以此能让每一个时序点获得足够的上下文信息。所述时序窗口的长度可预设,本申请的一个实施例中,所述时序窗口l设置为3。按照这一长度进行卷积,对应将每一个时序窗口先映射到一个512-d的特征,为此,本实施例将这一个过程采用一个三维的卷积层进行模拟([3,1,1,512])实现。
[0097]
步骤s1222、将该时序窗口对应的特征全连接到预设的前景与背景二分类网络,确定出相应的时序点控制区域属于目标时序行为内的第一概率分数:
[0098]
将长度为l的时序窗口下的512-d的特征全连接到一个前景/背景二分类网络进行类别无关的前景/背景二分类,该二分类网络为全连接层,用来计算出时序点对应的控制区域属于目标时序行为内的概率,作为第一概率分数(也称行为分数:actionness score),实现时序点前景/背景二分类。同理,这个过程也用一个三维的卷积层模拟([1,1,1,2])。
[0099]
请参阅图6,所述评估所述一维特征图的时序点中一系列候选框的偏移量及该候选框包含目标时序行为的第二概率分数的步骤,可由人工神经网络中时序候选网络内预构建的时序候选框建议模块负责实施,该步骤包括:
[0100]
步骤s1221’、采用预设长度的时序窗口在所述一维特征图上滑动以获取每个时序点的特征及其上下文信息:
[0101]
与时序位置感知模块的实现同理,本步骤中,将时序窗口长度设置为3,先使用三维卷积层([3,1,1,512])在所述一维特征图的每一个时序点上编码上下文信息。
[0102]
步骤s1222’、将该时序窗口对应的特征全连接到预设的与行为类别无关的二分类网络,确定出相应的时序点控制区域对应的候选框的偏移量及该候选框包含目标时序行为的第二概率分数:
[0103]
然后,将每个时序点对应的特征用来预测一系列候选框的偏移量和候选框类别无关的二分类分数,作为第二概率分数,表示候选框内包含目标时序行为的概率。这一过程同理可以使用两个三维卷积层模拟实现([1,1,1,2k],[1,1,1,2k])。其中k表示每个时序点上预设值的候选框个数。
[0104]
以上可知,步骤s122中存在两类彼此并行运行的步骤,分别用于评估所述第一概率分数和第二概率分数,在所述的人工神经网络中,通过增设时序位置感知模块,实施估第一概率分数的步骤,分别通过时序位置感知模块和时序候选框建议模块负责实施。其中,时序位置感知模块(tlan)输入特征图并输出一系列行为分数(actionness score,表示特征图上时序点的控制区域属于目标时序行为内的概率);时序候选框建议模块(tpsn)输入相同的特征图并输出一系列的时序行为候选框。
[0105]
时序位置感知模块(tlan)和时序候选框建议模块(tpsn)被设计为双胞胎结构,在人工神经网络中实现多任务学习机制,将时序片段场景分类任务和时序回归学习任务进行联合全监督学习,有助于网络提取更具区分性的特征。
[0106]
步骤s123、根据所述第一概率分数和第二概率分数优选出具有较高置信度的若干个候选框:
[0107]
前述时序位置感知模块的设计不仅可以通过多任务学习的方式有效的提高时序区域的分类能力,抑制背景时序片段的干扰,而且其输出的概率分数(类别无关的二分类分
数,actionness score)同样也可以用来生成更加精确的时序候选框。具体可利用时序位置感知模块生成的第一概率分数对时序候选框建议模块生成的时序候选框对应的第二概率分数进行修订,然后重新排序选取前n个时序候选框。
[0108]
优选的实施例中,请参阅图7,可通过如下具体步骤执行:
[0109]
步骤s1231、统计各个候选框相对应的所述第一概率分数获得各候选框的第一概率总分:
[0110]
经由时序行为建议模块生成的时序候选框,与时序位置感知模块生成的第一概率分数之间存在时序上的对应关系,因在,可以对各个候选框相对应的所述第一概率分数进行汇总。
[0111]
具体而言,给定一个时序候选框p
i
=[s
i
,e
i
]和tlan输出的类别无关行为分数按行为分数统计该时序候选框的置信度获得各候选框的第一概率总分:
[0112][0113]
步骤s1232、将各个候选框统相对应的第一概率总分及其第二概率分数进行加权平均,获得加权总分。
[0114]
由于时序候选框模块生成了各个候选框相对应的第二概率总分,因此,通过本步骤对所述第一概率总分数与原始的tpsn时序候选框的第二概率分数进行加权平均。具体而言,假设时序候选建议模块tpsn得到的候选框i的分数是score(p
i
)。那么新生成加权总分为:
[0115]
p

i
=α*score(p
i
)+(1-α)*action_score(p
i
)
[0116]
步骤s1233、对所述加权总分进行排序,选出具有较高置信度的若干个候选框:
[0117]
在获得各个候选框的加权总分的基础上,依据所述加权总分对各候选框进行排序,最终选取前n个具有较高置信度的候选框作为该阶段生成的时序候选框用于进行全连接操作。此处,n可由本领域技术人员按需设定,例如本实施例中设定为100,表示从排序结果中选取前100个候选框进行后续处理。
[0118]
在优选较高置信度的候选框时,对所述的候选框实施非极大值抑制(nms),以便优选出相对较为优质的候选框。nms的阈值iou可以由本领域技术人员按需设定,加权总分高于该阈值的候选框便可确认为优质候选框。
[0119]
可见,通过时序位置感知模块对目标行为的时序位置进行感知形成所述的第一概率分数,进一步汇总获得各候选框的第一概率总分,然后利用各候选框相对应的第一概率总分与第二概率分数进行加权汇总,对加权总分进行排序最终选取出具有较高置信度的候选框,这一过程,对增设的时序位置感知模块的输出进行了利用,将其用于校正时序候选框建议模块产生的候选框的评分,能够提高人工神经网络推荐候选框的精准度。
[0120]
步骤s13、根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图:
[0121]
如前所述,c3d多层卷积后输出的空时特征图作为共享特征,在本步骤中被共享调
用。图2所示的框架与r-c3d算法所实现的框架在适用本步骤时同理,根据前一步骤优选出的候选框从空时特征图中提取特征进行池化,获得相应的结果特征图。本步骤可由所述人工神经网络子行为编码模块负责实施。
[0122]
传统的r-c3d算法中,应用roi(region of interest,感兴趣区域)池化进行特征编码,以共享的所述空时特征图的特征为输入,将其划分为多个空时子特征图,之后再在每个空时子特征图中用最大值池化提取结果特征图,所得的结果特征图最终被输出至全连接层进行视频行为分类和回归处理,获得视频行为相对应的开始时点和结果时点。假设c3d输出的是512xl/8x7x7大小的特征图,假设其中有一个候选框的长度(时序长度)为t
s
,那么这个候选框的大小为512xt
s
x7x7,此处利用一个动态大小的池化核t
s
×
h
s
×
w
s
。最终得到512x1x4x4大小的特征图。请注意,以传统的roi池化进行处理时,对时域的划分局限于一个单位,如图8(a)3d roi pooling部分所示,其最终获得的特征图为1x4x4大小,尽管也可实现对本申请优选出的候选框的利用,遗憾的是,其中时序信息在此处已丢失,导致后续全连接层的分类决策依据略嫌不足。
[0123]
鉴于roi方案的上述不足,本申请不再采用roi方案,而适应本步骤提出下列各种实施方式,这些实施方式的基础共同点在于为克服roi的这些不足而力求在结果特征图中保留时序候选框相对应的时序特征。详见下述:
[0124]
步骤s13所采用的编码原理相对应的第一实施例中,在roi pooling的基础上进行改进,简称为sstp编码方式,旨在为全连接层提供更为丰富的时序特征,其实现过程可以定义为如下表达式:
[0125]
vf
sstp
=max_pooling(s(f(p
i
)))
[0126]
其中,给定一个时序候选框p
i
=[s
i
,e
i
],f(
·
)函数表示从特征图上取出p
i
对应的特征s(
·
)函数表示分割为相同大小的t
s
×
h
s
×
w
s
个空时子特征图(sub-volumes)。本实施例中,将t
s
设置为大于1的单位,优选设置为4,通过这一时域参数来保留更多的时序特征信息。
[0127]
请参阅图9,为实现该公式表达的方案,本实施例中,步骤s13包括如下具体步骤:
[0128]
步骤s1311、根据优选出的各个候选框,从所述空时特征图中提取出对应的待池化特征图:
[0129]
本步骤中,根据前一步骤优选出的具有较高置信度的时序候选框,对应从所述空时特征图中提取出相应的待池化特征图。
[0130]
步骤s1312、将待池化特征图分割成多个空时子特征图,在多个空时子特征之间保留该候选框相对应的时序特征:
[0131]
区别于现有技术之处在于,参数t
s
被设置为4,因此,本申请在将候选框相对应的空时特征图分割成多个空时子特征图时,保留了时序长度,通过扩展时序至多个单位,来丰富时序维度上的特征信息。
[0132]
步骤s1313、适用最大值池化函数对所述空时子特征图进行池化获得结果特征图:
[0133]
在获取所述空时子特征图的基础上,应用最大值池他,将相关最大值映射到一个
统一尺寸的结果特征图中,获得如图8(b)部分所示4x2x2的结果特征图。
[0134]
步骤s13所采用的编码原理相对应的第二实施例中,在前述第一实施例的基础上进行改进,简称为csstp编码方式,具体可在扩展时序特征的基础上,进一步扩展候选框编码上下文信息,其实现过程可以定义为如下表达式:
[0135]
vf
csstp
=max_pooling(s(f(e(p
i
))))
[0136]
其中,给定一个时序候选框p
i
=[s
i
,e
i
],时序候选框p
i
持续的时间可以写为d
i
=e
i-s
i
。函数e(
·
)表示上下文特征编码。具体的,将每个时序候选框p
i
扩展到p
i
'=[s
i
',e
i
'],其中s
i
'=s
i-d
i
/2,e
i
'=e
i
+d
i
/2。然后,可以将p
i
'分为三个连续的片段:和随后,独立的计算该三个部分的特征向量and然后将它们连接在一起。具体的,在本实施例中,每个时序候选框的每一个部分的特征图可以分为t
s
×
h
s
×
w
s
个空时子特征图。本实施例中视频帧的高(h)和宽(w)都是112,所以分类网络输入的特征图为(h)和宽(w)都是112,所以分类网络输入的特征图为和被分为1
×2×
2个子网格,被分为2
×2×
2个子网格。
[0137]
请参阅图10,为实现该公式表达的方案,本实施例中,步骤s13包括如下具体步骤:
[0138]
步骤s1321、根据优选出的各个候选框所占时序长度从所述空时特征图中提取其本身及其之前与之后的属于连续片段的待池化特征图:
[0139]
如该公式所表达,除了获取候选框本身的片段的待池化特征图外,还获取该片段之前及之后的片段,这两个扩展片段的长度一般不超过该候选框所占据的总时长的一半,以此获得的池化特征图可以进一步丰富视频内容的特征信息。
[0140]
步骤s1322、将各个片段的待池化特征图分割成空时子特征图,且在多个空时序特征之间保留该候选框相对应的时序特征:
[0141]
同时,对于各个片段而言,其待池化特征图被分割为多个空时子特征图,并且,由于参数t
s
大于1,如前所述设置为4,因此,时序上的跨度也被扩增,从而合独每个候选框的空时子特征图不仅被丰富了上下文信息,而且也被丰富了时序特征信息。
[0142]
步骤s1323、适用最大值池化函数分别对各个片段的所述空时子特征图进行池化并统一为结果特征图:
[0143]
同理,在获取各个片段的所述空时子特征图后,通过最大值池化获得结果特征图,如图8(c)部分所示,本实施例获得的特征图中,候选框自身片段被池化为2x2x2大小,而其之前和之后的片段均被池化为1x2x2大小,最终将这些图连接4x2x2大小的统一尺寸。
[0144]
步骤s13所采用的编码原理相对应的第三实施例中,在前述第二实施例的步骤s1323的基础上追加改进,简称为sce编码方式,对该步骤中获得的各个空时子特征图进行相关性编码,其中包括各个片段的空时子特征图以及这些片段连接生成的空时子特征图,如图11所示,其增设如下步骤:
[0145]
步骤s1324、基于所述各个片段的空时子特征图及结果特征图,在保留其结构化编码特征的基础上,对特征在同一空间点上沿着时序维度进行相关性计算,获得相应的编码
特征相应的结果特征图:
[0146]
具体而言,步骤s1324旨在执行对同一空间点在各片段空时子特征图及其结果特征图之间的结构关系进行组织,通过编码表达各图之间的相关性,以便后续传递给全连接层参照,其原理可参阅图8(d)部分所示:
[0147]
假设经过csstp后得到的四个不同部件(即各片段的空时子特征图及由其统一而成的结果特征图)的时序特征表示为:
[0148][0149]
在保留这些结构化编码特征的基础上,此处对特征在同一空间点上沿着时序维度上进行相关性计算,计算公式如下所示:
[0150][0151]
其中表示再编码后的特征,w
i
表示待学习权值参数,f
i
表示时序行为经过分段池化后的部件特征。自然地,该线性函数可以用三维卷积网络实现,卷积层的大小为([4,1,1,512])。
[0152]
步骤s13中,无论是对于传统的r-c3d算法架构,还是对于图2所示的架构,均可由所述的子行为编码模块实施前述三种实施例中的任意一种以便通过池化实施编码。针对动态结构性挑战,以上所列三种实施例基本遵循四条准则:上下文编码、结构化编码、原子间时序相关性编码和端到端联调。这些准则不仅仅涉及到池化的具体操作,还包含着池化方法和网络设计的综合考虑。可以看出,步骤s13中,从区域级和实例级特征编码出发,抛开传统roi池化方式,本申请探索了不同的池化方式和特征编码方式,通过不同实施例在不同程度上相应提高时序行为分类准确率。
[0153]
步骤s14、根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图:
[0154]
本步骤中,本申请所适用的两种框架,即图2所示的框架和传统r-c3d框架,均可延用传统的r-c3d算法原理实现,其将池化所得的结果特征图输出至两个全连接层,包括分类全连接层和回归全连接层,其中分类全连接层依据结果特征图对视频行为进行各类别评分以实现分类,回归全连接层则依据结果特征图进行边界修剪,实现边框回归,获得视频行为相对应的开始时间和结束时间,由此完成视频行为识别。
[0155]
对于图2所示的框架,在进行全连接时,可以适用如下方案来设计相关代价函数(或称损失函数、目标函数):
[0156]
本申请实现了端到端两阶段定位框架,其中发挥关键作用之处主要包含三个子网络:时序候选框建议模块(tpsn)、时序位置感知模块(tlan)以及时序行为分类模块(tacn)。特别地,对于时序行为分类模块(tacn),交叉熵损失函数和smooth l1损失函数分别用于分类任务和回归任务。其中,tacn的损失函数定义如下所示:
[0157]
[0158]
其中,该公式的前半部分表示分类损失,后半部分表示回归损失。λ表示平衡参数,实验中设置为1。i表示时序行为候选框的索引,p
i
表示该时序行为候选框i属于某一特定类别时序行为的预测概率(此处类别数包含背景类别在内),表示该时序行为候选框i的监督信息。表示预测的时序行为候选框i的相对偏移量,表示时序行为候选框i与目标时序行为的真实偏移量。
[0159]
同样的,公式(4.2)也适用于时序候选框建议模块(tpsn)。不同的是表示的是锚点框i属于目标时序行为的概率(类别无关的前景/背景二分类),训练阶段中,如果候选框(锚点框)属于正样本就置为1,否则就置为0。相应的p
i
表示锚点框i的预测分数。表示预测的锚点框i与标注真实时序行为之间的相对偏移量。
[0160]
时序位置感知模块(tlan)本质上是一个分类器,所以也适用交叉熵损失函数。具体的,tlan的目标函数如下所示:
[0161][0162]
其中,n表示所有的时序位置,在实验中由于输入视频帧数为l,时序下采样步长为8,因此n为l/8。a
i
表示预测的第i个时序位置控制区域在目标行为之内的概率(类别无关的前景/背景二分类)。是第i个时序点监督信息,在训练阶段,如果时序点i为正样本就置为1,如果为负样本就置为0,否则就置为-1。因此,此处提出的端到端网络损失函数定义如下:
[0163]
l=αl
tpsn
+βl
tlan
+γl
tacn
ꢀꢀ
(4.4)
[0164]
其中,α,β和γ都是平衡参数,在此处实验中均置为1。
[0165]
为论证本申请的技术方案所实现的人工神经网络结构的有效性,基于本申请的方案中图2所示所实现的人工神经网络,采用标准数据集thumos14进行实验,以下简要报告实验结果:
[0166]
首先,参阅图12,比较r-c3d相关方法和本申请的方法在相同tiou条件下的召回率-平均时序候选框统计图发现:当取相同的时序候选数量时,本申请的技术方案生成的时序候选框的召回率明显高于r-c3d将近3%-5%。
[0167]
其次,r-c3d与本申请在相同候选框数量下,召回率-tiou的对比图如图13所示:在相同的召回率条件下,本申请的方法生成的时序候选框tiou明显的高出3%-7%,表明了本申请的方法生成的时序候选框在边界更加的精确。
[0168]
最后,以map为评价指标统计了本方法对比r-c3d算法的性能提升如下表所示,可见各项指标均优于依靠传统的r-c3d实施的方法:
[0169][0170]
为论证本申请的技术方案所实现的编码方式的有效性,基于本申请的方案所实现的人工神经网络,采用标准数据集thumos14进行实验,以下简要报告实验结果:
[0171]
首先,直接对比r-c3d与本申请在thumos14数据集上的map报告。值得关注的是,该实验是仅仅替换了r-c3d中的池化方法,即仅在r-c3d原有算法的基础上替换为步骤s13部分的内容,并没有直接修改tpsn中的时序候选框。因此该实验可以有效的证明本申请步骤s13对于时序行为分类能力的提升。如下表所示:
[0172][0173]
由上表可见,本申请所采用的方案相对于r-c3d在所有的tiou条件下,map都要远远超出8%-10%,特别是在加入子行为相关性编码对应的实施例后,相对于未进行相关性编码的实施例,在其基础上又有十分明显的性能提升。该实验充分表明了本申请的有效性。
[0174]
其次,本申请继续补充证明了其方法并未对时序候选框的生成产生过多的正面影响。如下表所示:
[0175][0176]
上表示出,本申请步骤s13(sce-net)在其与r-c3d独立结合时,在不同的时序候选框数量下,平均召回率均只有不到0.4%-1%的性能提升。因此,这两个实验充分的表明了,本申请步骤s13中由于提升了网络的分类能力,从而提升了视频时序行为检测能力(map)。
[0177]
请参阅图14所示,本申请为了充分利用其所实现的人工神经网络,而提出的一种时序行为响应方法,包括如下步骤:
[0178]
步骤s21、获取直播用户的视频流:
[0179]
网络直播平台中各方直播用户陆续向媒体服务器上传其自身产生的视频流,这些视频流被媒体服务器接收后,便可将这些视频流提交给本申请所实现的人工神经网络进行时序行为检测。具体可由媒体服务器调用该人工神经网络提供的接口来检测,也可由一个监听进程来主动采集所述的视频流进行检测。
[0180]
步骤s22、将所述视频流导入至人工神经网络中实施视频行为识别,该人工神经网络执行所述的时序行为检测方法,相应产生所述视频流的分类结果数据:
[0181]
获得所述视频流后,便可将相应的视频流传入所述的人工神经网络中实施视频行为识别,人工神经网络执行本申请所述的时序行为检测方法,从直播用户的视频流中检测其实施的行为,然后确定相应的分类结果数据,主要包括视频行为相关的类型以及其开始时间和结束时间,以便通过这一分类结果数据确定相关视频行为所属的视频段。
[0182]
步骤s23、根据该人工神经网络输出的分类结果数据,向直播间用户输出预设且相应的通知消息:
[0183]
根据人工神经网络反馈的分类结果数据从视频流中识别出相应的视频行为甚至获得相应的视频段后,便可根据预设的逻辑,根据具体视频行为做出相应的控制,例如产生
相应的通知消息反馈给网络直播平台的运维接口或者通知视频流的直播用户等,从而便于相关方对视频流实施进一步的控制和监管。
[0184]
可以理解,由于适用了本申请的时序行为检测方法,能够更为精准地从实时产生的视频流中及时识别具体视频行为,对于提升网络平台的智能化程度而言,事半功倍。
[0185]
进一步的,可以通过将上述的时序行为检测方法中的各个实施例进行功能化,构造出本申请的一种神经网络实现装置,按照这一思路,请重新参阅图2,其典型实施例中,该装置包括:
[0186]
适应本申请的目的之一而提供的一种神经网络实现装置,其包括:
[0187]
特征提取网络a,用于对视频流进行特征提取获得包含空间和时序特征信息的空时特征图;
[0188]
时序候选网络b,用于依据所述空时特征图确定多个时序候选框,获得所述时序候选框的偏移量及其包含目标时序行为的概率分数,根据所述概率分数优选出具有较高置信度的若干个候选框;
[0189]
子行为编码模块c,用于根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图;
[0190]
时序行为分类模块d,用于将结果特征图输出至全连接层,由全连接层完成视频行为分类和回归,输出所述视频流的分类结果数据。
[0191]
为了便于本申请的执行,提供一种电子设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中计算机程序以执行如前述的一种时序行为检测/响应方法的步骤。
[0192]
可以看出,存储器适宜采用非易失性存储介质,通过将前述的方法实现为计算机程序,安装到手机之类电子设备中,相关程序代码和数据便被存储到电子设备的非易失性存储介质中,进一步通过电子设备的中央处理器运行该程序,将其从非易性存储介质中调入内存中运行,便可实现本申请所期望的目的。因此,可以理解,本申请的一个实施例中,还可提供一种非易失性存储介质,其以计算机可读指令的形式存储有依据所述的时序行为检测/响应方法的各个实施例所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
[0193]
综上所述,本申请能够提升人工神经网络识别视频行为的准确率,显著提升视频行为在线检测效果,广泛适用于需要进行在线时序行为检测的各种互联网应用场景中。
[0194]
本技术领域技术人员可以理解,本申请包涉及用于执行本申请中所述操作、方法中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其存储器之内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、rom(read-only memory,只读存储器)、ram(random access memory,随即存储器)、eprom(erasable programmable read-only memory,可擦写可编程只读存储器)、eeprom(electrically erasable programmable read-only memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息
的任何介质。
[0195]
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
[0196]
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0197]
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1