一种行为检测方法、装置及设备与流程

文档序号：23055097发布日期：2020-11-25 17:33阅读：74来源：国知局

本申请涉及图像处理技术领域，尤其是一种行为检测方法、装置及设备。

背景技术：

视频是连续的图像序列，由连续的图像构成。由于人眼的视觉暂留效应，当视频以一定速率播放时，人眼看到的就是动作连续的图像序列。

视频行为检测是从视频中定位出行为发生的时间区间(如何时开始，何时结束等)和空间位置(如行为发生的位置)，并进行行为类别分类的技术。视频行为检测可以广泛应用于安防监控领域、人机交互领域、智能园区、智慧课堂、智慧农场等应用场景，例如，可以检测监控视频中目标跌倒行为、目标攀爬行为以进行安全防护；可以检测课堂中学生举手行为、起立行为以分析课堂师生互动氛围；可以检测工业生产流程中是否符合标准行为规范等。

目前，视频行为检测技术存在检测准确性不高，检测方式复杂等问题。

技术实现要素：

本申请提供一种行为检测方法，所述方法包括：

获取待检测视频，所述待检测视频包括多个待检测图像；

将所述待检测视频输入给已训练的目标图像行为检测模型，由所述目标图像行为检测模型输出多个候选待检测图像中的每个候选待检测图像中的对象位置；所述候选待检测图像是所述多个待检测图像中存在对象的待检测图像；

基于候选待检测图像中的对象位置，从所述多个候选待检测图像中选取出同一个目标对象的多个目标待检测图像，并基于每个目标待检测图像中所述目标对象的对象位置确定所述目标对象的目标框位置；

根据所述目标框位置获取待检测行为序列，所述待检测行为序列包括基于所述目标框位置从每个目标待检测图像中选取的目标框子图像；

将所述待检测行为序列输入给已训练的目标行为序列识别模型，由所述目标行为序列识别模型输出与所述待检测行为序列对应的目标行为类别。

本申请提供一种行为检测装置，所述装置包括：获取模块，用于获取待检测视频，所述待检测视频包括多个待检测图像；输入模块，用于将所述待检测视频输入给已训练的目标图像行为检测模型，由所述目标图像行为检测模型输出多个候选待检测图像中的每个候选待检测图像中的对象位置；其中，所述候选待检测图像是所述多个待检测图像中存在对象的待检测图像；确定模块，用于基于候选待检测图像中的对象位置，从所述多个候选待检测图像中选取出同一个目标对象的多个目标待检测图像，并基于每个目标待检测图像中所述目标对象的对象位置确定所述目标对象的目标框位置；所述获取模块，还用于根据所述目标框位置获取待检测行为序列，所述待检测行为序列包括基于所述目标框位置从每个目标待检测图像中选取的目标框子图像；所述输入模块，还用于将所述待检测行为序列输入给已训练的目标行为序列识别模型，由所述目标行为序列识别模型输出与所述待检测行为序列对应的目标行为类别。

本申请提供一种行为检测设备，包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；

所述处理器用于执行机器可执行指令，以实现如下的步骤：

获取待检测视频，所述待检测视频包括多个待检测图像；

根据所述目标框位置获取待检测行为序列，所述待检测行为序列包括基于所述目标框位置从每个目标待检测图像中选取的目标框子图像；

将所述待检测行为序列输入给已训练的目标行为序列识别模型，由所述目标行为序列识别模型输出与所述待检测行为序列对应的目标行为类别。

由以上技术方案可见，本申请实施例中，可以使用目标图像行为检测模型提取待检测视频中潜在的行为目标，通过目标跟踪关联产生行为目标轨迹，即得到同一个目标对象的多个目标待检测图像，并基于多个目标待检测图像获取待检测行为序列，再使用目标行为序列识别模型输出与待检测行为序列对应的目标行为类别，完成行为分类(或去误报)的功能，上述视频行为检测的准确性高，检测方式简单，是一种自动化的通用视频行为检测方法，能够提升行为检测技术应用的通用性，降低使用门槛，便于在各个领域的快速推广。

附图说明

为了更加清楚地说明本申请实施例或者现有技术中的技术方案，下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本申请实施例的这些附图获得其他的附图。

图1是本申请一种实施方式中的行为检测方法的流程图；

图2是本申请另一种实施方式中的模型训练过程的示意图；

图3a和图3b是本申请一种实施方式中的样本框位置的示意图；

图4是本申请另一种实施方式中的部署检测过程的示意图；

图5是本申请一种实施方式中的行为检测装置的结构图；

图6是本申请一种实施方式中的行为检测设备的结构图。

具体实施方式

在本申请实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在介绍本申请的技术方案之前，先介绍与本申请实施例有关的概念。

机器学习：机器学习是实现人工智能的一种途径，用于研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身性能。深度学习属于机器学习的子类，是一种使用数学模型对真实世界中的特定问题进行建模，以解决该领域内相似问题的过程。神经网络是深度学习的实现方式，为了方便描述，本文以神经网络为例，介绍神经网络的结构和功能，对于机器学习的其它子类，与神经网络的结构和功能类似。

神经网络：神经网络包括但不限于卷积神经网络(简称cnn)、循环神经网络(简称rnn)、全连接网络等，神经网络的结构单元包括但不限于卷积层(conv)、池化层(pool)、激励层、全连接层(fc)等，对此不做限制。

在实际应用中，可以根据不同需求，将一个或多个卷积层，一个或多个池化层，一个或多个激励层，以及一个或多个全连接层进行组合构建神经网络。

在卷积层中，通过使用卷积核对输入数据特征进行卷积运算，使输入数据特征增强，该卷积核可以是m*n大小的矩阵，卷积层的输入数据特征与卷积核进行卷积，可以得到卷积层的输出数据特征，卷积运算实际是一个滤波过程。

在池化层中，通过对输入数据特征(如卷积层的输出)进行取最大值、取最小值、取平均值等操作，从而利用局部相关性的原理，对输入数据特征进行子抽样，减少处理量，并保持特征不变性，池化层运算实际是一个降采样过程。

在激励层中，可以使用激活函数(如非线性函数)对输入数据特征进行映射，从而引入非线性因素，使得神经网络通过非线性的组合增强表达能力。

该激活函数可以包括但不限于relu(rectifiedlinearunits，整流线性单元)函数，该relu函数用于将小于0的特征置0，而大于0的特征保持不变。

在全连接层中，用于将输入给本全连接层的所有数据特征进行全连接处理，从而得到一个特征向量，且该特征向量中可以包括多个数据特征。

神经网络(如卷积神经网络)的训练过程和部署过程：可以利用样本数据训练神经网络内的各神经网络参数，如卷积层参数(如卷积核参数)、池化层参数、激励层参数、全连接层参数等，对此不做限制。通过训练神经网络内的各神经网络参数，可以使神经网络拟合出输入和输出的映射关系。

在神经网络训练完成后，可以将已训练的神经网络部署到各设备，以使各设备基于该神经网络实现人工智能处理，对此人工智能处理过程不做限制。

图像行为检测模型：基于机器学习算法实现的网络模型，如基于深度学习算法实现的网络模型，以基于深度学习算法中的神经网络实现图像行为检测模型为例。为了方便描述，将未完成训练的图像行为检测模型称为初始图像行为检测模型，将已完成训练的图像行为检测模型称为目标图像行为检测模型。

行为序列识别模型：基于机器学习算法实现的网络模型，如基于深度学习算法实现的网络模型，以基于深度学习算法中的神经网络实现行为序列识别模型为例。为了方便描述，将未完成训练的行为序列识别模型称为初始行为序列识别模型，将已完成训练的行为序列识别模型称为目标行为序列识别模型。

样本训练视频：样本训练视频是训练过程中的视频，即，在初始图像行为检测模型和初始行为序列识别模型的训练过程中，基于样本训练视频进行训练。样本训练视频包括多个样本训练图像，这些样本训练图像是连续图像，如样本训练视频包括连续的样本训练图像1、样本训练图像2、…、样本训练图像m。

待检测视频：待检测视频是检测过程中的视频，即，在将目标图像行为检测模型和目标行为序列识别模型部署到设备后，可以基于目标图像行为检测模型和目标行为序列识别模型对待检测视频进行检测，从而检测出待检测视频中的目标行为类别。待检测视频包括多个待检测图像，这些待检测图像是连续图像，如待检测视频包括连续的待检测图像1、待检测图像2、…、待检测图像n。

以下结合具体实施例，对本申请实施例的技术方案进行说明。

本申请实施例中提出一种行为检测方法，参见图1所示，为行为检测方法的流程示意图，该方法可以应用于任意设备(如模拟摄像机、ipc(ipcamera，网络摄像机)，后台服务器，应用服务器等)，该方法可以包括：

步骤101，获取待检测视频，该待检测视频包括多个待检测图像。

步骤102，将该待检测视频输入给已训练的目标图像行为检测模型，由目标图像行为检测模型输出多个候选待检测图像中的每个候选待检测图像中的对象位置。示例性的，候选待检测图像是多个待检测图像中存在对象的待检测图像。

步骤103，基于候选待检测图像中的对象位置，从多个候选待检测图像中选取出同一个目标对象的多个目标待检测图像，并基于每个目标待检测图像中该目标对象的对象位置确定该目标对象的目标框位置。

示例性的，基于候选待检测图像中的对象位置，可以采用跟踪算法(如多目标跟踪算法，对此跟踪算法的类型不做限制)确定出目标对象，并采用跟踪算法确定该候选待检测图像中的对象位置是否存在该目标对象的对象位置；若是，则可以将该候选待检测图像确定为该目标对象的目标待检测图像。

步骤104，根据该目标框位置获取待检测行为序列，该待检测行为序列包括基于该目标框位置从每个目标待检测图像中选取的目标框子图像。

步骤105，将该待检测行为序列输入给已训练的目标行为序列识别模型，由目标行为序列识别模型输出与该待检测行为序列对应的目标行为类别。

在一种可能的实施方式中，步骤105之后，还可以根据该目标行为类别进行报警处理。或者，若目标图像行为检测模型还输出与待检测视频对应的初始行为类别，则可以根据该目标行为类别和该初始行为类别进行报警处理。

在一种可能的实施方式中，目标图像行为检测模型的训练过程，可以包括但不限于：获取样本训练视频，该样本训练视频包括多个样本训练图像，多个样本训练图像可以包括发生指定行为的多个标定样本训练图像。将该标定样本训练图像和该标定样本训练图像的标定信息输入给初始图像行为检测模型，以通过该标定样本训练图像和该标定信息对初始图像行为检测模型进行训练，得到已训练的目标图像行为检测模型。该标定信息至少可以包括：每个标定样本训练图像中发生指定行为的对象所处的对象位置，指定行为的行为类别。

在一种可能的实施方式中，目标行为序列识别模型的训练过程，可以包括但不限于：将样本训练视频输入给已训练的目标图像行为检测模型，由目标图像行为检测模型输出多个候选样本训练图像中的每个候选样本训练图像中的对象位置，该候选样本训练图像是多个样本训练图像中存在对象的样本训练图像。基于候选样本训练图像中的对象位置，从多个候选样本训练图像中选取出同一样本对象的多个目标样本训练图像，并基于每个目标样本训练图像中该样本对象的对象位置确定该样本对象的样本框位置，并根据该样本框位置获取样本行为序列，该样本行为序列可以包括基于该样本框位置从每个目标样本训练图像中选取的样本框子图像。将该样本行为序列和该样本行为序列的标定信息输入给初始行为序列识别模型，以通过该样本行为序列和该样本行为序列的标定信息对初始行为序列识别模型进行训练，得到已训练的目标行为序列识别模型。

示例性的，基于候选样本训练图像中的对象位置，从多个候选样本训练图像中选取出同一个样本对象的多个目标样本训练图像，可以包括但不限于：基于候选样本训练图像中的对象位置，可以采用跟踪算法(如多目标跟踪算法，对此跟踪算法的类型不做限制)确定出目标对象，并采用跟踪算法确定该候选样本训练图像中的对象位置是否存在该样本对象的对象位置；若是，则可以将该候选样本训练图像确定为该样本对象的目标样本训练图像。

示例性的，样本行为序列的标定信息可以包括但不限于：样本行为序列的预测行为类别，而样本行为序列的预测行为类别的确定方式，可以包括但不限于：基于每个标定样本训练图像中标定对象的对象位置确定该标定对象的标定框位置，基于该标定框位置和上述样本框位置确定空域匹配度。基于多个标定样本训练图像的起始时刻和终止时刻，及多个目标样本训练图像的起始时刻和终止时刻，确定时域匹配度。根据该空域匹配度，该时域匹配度以及指定行为的行为类别，确定该样本行为序列的预测行为类别。

比如说，若该空域匹配度大于空域匹配度阈值，且该时域匹配度大于时域匹配度阈值，则确定该样本行为序列的预测行为类别与指定行为的行为类别相同；否则，确定该样本行为序列的预测行为类别与指定行为的行为类别相反。

示例性的，上述执行顺序只是为了方便描述给出的一个示例，在实际应用中，还可以改变步骤之间的执行顺序，对此执行顺序不做限制。而且，在其它实施例中，并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其它实施例中可能被分解为多个步骤进行描述；本说明书中所描述的多个步骤，在其它实施例也可能被合并为单个步骤进行描述。

以下结合具体应用场景，对本申请实施例的上述技术方案进行说明。

本申请实施例中提出一种自动化的通用视频行为检测方法，能够基于视频行为的标注，自动化的完成模型训练，并自动完成模型部署，从视频中定位出行为发生的时间区间(如何时开始、何时结束等)和空间位置(如行为发生的位置)，并进行行为类别的分类。该方法可以应用于安防监控领域、人机交互领域、智能园区、智慧课堂、智慧农场等应用场景。例如，检测视频中目标跌倒行为、目标攀爬行为以进行安全防护；检测课堂中学生举手行为、起立行为以分析课堂师生互动氛围；检测工业生产流程中是否符合标准行为规范等。

本申请实施例中，可以涉及模型训练过程和部署检测过程。可以通过视频行为标定模块，图像行为检测数据组建模块，图像行为检测模型自动训练模块，行为序列数据集组建模块，行为序列识别模型自动训练模块等实现模型训练过程。可以通过自动推理模块和行为检测结果可视化模块等实现部署检测过程。

参见图2所示，为模型训练过程的示意图，通过模型训练过程，可以得到已训练的目标图像行为检测模型和已训练的目标行为序列识别模型。

视频行为标定模块：获取样本视频，对于样本视频中发生的指定行为(包括但不限于行人、车辆、动物、机器等发生的指定行为)进行标定，标定方式可以是：在指定行为发生期间，按特定的时间间隔(包括但不限于固定时间间隔，随机时间间隔等)，通过拉框(包括但不限于矩形框、圆形框、多边形框等)标定出行为的空间位置，并给出行为类别的标注信息。视频行为标定模块的输入是样本视频，输出是样本视频对应的标定信息，该标定信息包括但不限于样本视频中指定行为的时间信息，指定行为的空间信息，指定行为的行为类别。

比如说，用户向视频行为标定模块输入样本视频，该样本视频包括100帧图像，假设第10-19帧图像发生指定行为(如跌倒行为)，则视频行为标定模块可以为该样本视频添加标定信息，该标定信息包括指定行为的时间信息(如第10帧图像的时刻t10和第19帧图像的时刻t19，表示时刻t10-时刻t19之间的时间区间发生指定行为)，指定行为的空间信息(如第10-19帧图像中每帧图像的空间位置，或者，第10-19帧图像中部分帧图像的空间位置，对此不做限制)，指定行为的行为类别(如跌倒类别，表示指定行为是跌倒行为)。

针对第10帧图像的空间位置，可以通过拉框的方式，选中第10帧图像中发生跌倒行为的对象(如人)，以矩形框为例，则矩形框包括发生跌倒行为的对象，第10帧图像的空间位置就是对象位置，该对象位置可以包括但不限于矩形框的坐标信息，如左上角坐标(如左上角横坐标和左上角纵坐标)和右下角坐标(如右下角横坐标和右下角纵坐标)，或者，左下角坐标(如左下角横坐标和左下角纵坐标)和右上角坐标(如右上角横坐标和右上角纵坐标)。当然，上述只是矩形框的坐标信息的两个示例，对此不做限制。比如说，坐标信息可以为左上角坐标，矩形框的宽和高，通过左上角坐标、矩形框的宽和高能够确定出右下角坐标。又例如，坐标信息可以为左下角坐标，矩形框的宽和高，通过左下角坐标、矩形框的宽和高能够确定出右上角坐标。显然，通过该坐标信息可以确定出第10帧图像中发生跌倒行为的对象的矩形框，即对象位置。针对第11-19帧图像的空间位置，与第10帧图像的空间位置类似，在此不再赘述。

综上所述，针对第10-19帧图像，可以标定发生跌倒行为的对象位置。

图像行为检测数据组建模块：视频行为标定模块可以将大量样本视频以及每个样本视频对应的标定信息输入给图像行为检测数据组建模块，图像行为检测数据组建模块可以将这些样本视频划分为样本训练视频和样本测试视频，样本训练视频和样本测试视频的数量可以相同，也可以不同，对此不做限制。例如，图像行为检测数据组建模块获取到100个样本视频，将其中的70个样本视频作为样本训练视频，并将剩余30个样本视频作为样本测试视频。

针对每个样本训练视频来说，该样本训练视频包括多个样本训练图像，图像行为检测数据组建模块可以按照预设策略(包括但不限于随机选取、固定偏移选取等)从样本训练视频中抽取出发生指定行为的样本训练图像，将抽取出的这些样本训练图像作为标定样本训练图像。参见上述实施例，发生指定行为的样本训练图像具有标定信息，因此，标定样本训练图像也具有标定信息。

图像行为检测数据组建模块可以自动组建图像行为检测数据集，该图像行为检测数据集包括标定样本训练图像和标定样本训练图像的标定信息。

比如说，样本训练视频包括100帧图像，样本训练视频的标定信息包括指定行为的时间信息(如第10帧图像的时刻t10和第19帧图像的时刻t19)，指定行为的空间信息(如第10-19帧图像中每帧图像的对象位置)，指定行为的行为类别(如跌倒类别)。基于此，图像行为检测数据组建模块基于该时间信息获知第10-19帧图像是发生指定行为的样本训练图像，按照预设策略从这些样本训练图像中抽取出全部或者部分样本训练图像，作为标定样本训练图像。

针对每个标定样本训练图像，该标定样本训练图像的标定信息可以包括：该标定样本训练图像的空间信息，该标定样本训练图像的行为类别。示例性的，标定样本训练图像的空间信息可以是标定样本训练图像中发生指定行为(如跌倒行为)的对象所处的对象位置(即发生跌倒行为的对象位置，如对象的坐标信息等)，上述行为类别是指定行为的行为类别(如跌倒类别)。

综上所述，图像行为检测数据组建模块的输入是样本训练视频，图像行为检测数据组建模块的输出是图像行为检测数据集，该图像行为检测数据集包括多个标定样本训练图像以及每个标定样本训练图像的标定信息。

图像行为检测模型自动训练模块：图像行为检测数据组建模块可以将图像行为检测数据集输入给图像行为检测模型自动训练模块，该图像行为检测数据集可以包括标定样本训练图像和标定样本训练图像的标定信息。图像行为检测模型自动训练模块可以将标定样本训练图像和标定样本训练图像的标定信息输入给初始图像行为检测模型，以通过该标定样本训练图像和该标定信息对初始图像行为检测模型进行训练，得到已训练的目标图像行为检测模型。

示例性的，由于标定信息包括标定样本训练图像中发生指定行为的对象所处的对象位置，指定行为的行为类别，因此，目标图像行为检测模型用于拟合图像特征向量与行为类别的映射关系，图像特征向量与对象位置的映射关系。

示例性的，图像行为检测模型自动训练模块加载预设的检测器模板(包括但不限于fasterrcnn,yolo-v3等类型的检测器模板，该检测器模板作为初始图像行为检测模型)，基于图像行为检测数据集对初始图像行为检测模型进行自动训练。例如，将图像行为检测数据集输入给初始图像行为检测模型后，基于训练参数(如训练迭代次数、训练优化策略、训练停止条件策略等)对初始图像行为检测模型进行自动训练，对此训练过程不做限制，在训练过程结束后，将已经完成训练的初始图像行为检测模型作为目标图像行为检测模型。

综上所述，图像行为检测模型自动训练模块的输入是图像行为检测数据集，输出是目标图像行为检测模型。图像行为检测模型自动训练模块的输出还可以包括初始图像行为检测模型的训练进度、关键训练状态信息等，对此不做限制。

行为序列数据集组建模块：行为序列数据集组建模块可以自动组建行为序列数据集，该行为序列数据集可以包括样本行为序列和样本行为序列的标定信息，比如说，行为序列数据集组建模块的输入是样本训练视频，输出是行为序列数据集，以下结合具体步骤，对行为序列数据集的组建过程进行说明：

步骤a1、将该样本训练视频输入给已训练的目标图像行为检测模型，由该目标图像行为检测模型输出多个候选样本训练图像中的每个候选样本训练图像中的对象位置，该候选样本训练图像是多个样本训练图像中存在对象的样本训练图像。

比如说，可以将该样本训练视频输入给目标图像行为检测模型，且该样本训练视频包括多个样本训练图像。参见上述实施例，目标图像行为检测模型用于拟合图像特征向量与行为类别的映射关系，图像特征向量与对象位置的映射关系，因此，针对每个样本训练图像，目标图像行为检测模型可以对该样本训练图像进行处理，对此处理方式不做限制，得到该样本训练图像的图像特征向量。若该样本训练图像的图像特征向量对应有行为类别和对象位置，则目标图像行为检测模型将该样本训练图像作为候选样本训练图像，并输出候选样本训练图像对应的行为类别和对象位置。若该样本训练图像的图像特征向量未对应有行为类别和对象位置，则将该样本训练图像不作为候选样本训练图像。

综上所述，目标图像行为检测模型可以输出候选样本训练图像中的对象位置和行为类别，该候选样本训练图像是存在对象(如发生跌倒行为的对象)的样本训练图像，该对象位置表示该对象在候选样本训练图像中的坐标信息，该行为类别表示该对象发生的指定行为的行为类别。

步骤a2、基于候选样本训练图像中的对象位置，从多个候选样本训练图像中选取出同一个样本对象的多个目标样本训练图像。比如说，基于每个候选样本训练图像中的对象位置，采用跟踪算法确定出样本对象，并采用跟踪算法确定该候选样本训练图像中的对象位置是否存在该样本对象的对象位置；若是，则可以将该候选样本训练图像确定为该样本对象的目标样本训练图像。

示例性的，针对每个候选样本训练图像，可以输出该候选样本训练图像中的至少一个对象位置，每个对象位置对应一个对象，不同候选样本训练图像中的对象可以相同，也可以不同。在此基础上，基于所有候选样本训练图像中的对象位置，可以采用跟踪算法(如mot(多目标跟踪)算法等)，确定出属于同一个对象(将该对象记为样本对象)的多个对象位置，将这些对象位置所在的候选样本训练图像确定为该样本对象的目标样本训练图像。

例如，基于候选样本训练图像1中对象1的对象位置11和对象2的对象位置21，候选样本训练图像2中对象1的对象位置12和对象3的对象位置32，候选样本训练图像3中对象3的对象位置33等对象位置，采用跟踪算法，可以确定出属于同一个对象1的对象位置11和对象位置12，对此跟踪过程不做限制，只要能够跟踪得到同一个对象的对象位置即可。然后，可以将候选样本训练图像1和候选样本训练图像2确定为对象1的目标样本训练图像。

示例性的，采用多目标跟踪算法确定出属于同一个样本对象的多个对象位置时，可以将目标图像行为检测模型输出的所有对象位置输入给多目标跟踪算法。基于此，在一种可能的实施方式中，多目标跟踪算法先选定一个对象作为样本对象，从所有对象位置中识别出该样本对象的多个对象位置，并输出该样本对象的多个对象位置，然后选定另一个对象作为样本对象，从所有对象位置中识别出该样本对象的多个对象位置，并输出该样本对象的多个对象位置，以此类推，一直到输出每个样本对象的多个对象位置。在另一种可能的实施方式中，多目标跟踪算法可以并行对所有对象位置中的多个样本对象进行跟踪，即，并行跟踪多个样本对象的对象位置，多目标跟踪算法能够识别出每个样本对象的多个对象位置，并输出每个样本对象的多个对象位置。

综上所述，针对每个样本对象，基于多目标跟踪算法可以得到该样本对象的多个对象位置，并将该样本对象的多个对象位置所在的候选样本训练图像确定为该样本对象的目标样本训练图像。

示例性的，采用多目标跟踪算法确定出属于同一个样本对象的多个对象位置时，对此多目标跟踪算法的实现过程不做限制，比如说，多目标跟踪算法可以根据每一帧图像中目标的检测结果，匹配已有的目标轨迹；对于新出现的目标，需要生成新的目标；对于已经离开的目标，需要终止轨迹的跟踪。这一过程中，目标与检测的匹配可以看作为目标的重识别，例如，当跟踪多个行人时，将已有的轨迹的行人图像集合看作为图像库，而检测图像看作为查询图像，检测与轨迹的匹配关联过程可以看作由查询图像检索图像库的过程。

步骤a3、基于每个目标样本训练图像中该样本对象的对象位置确定该样本对象的样本框位置，该样本框位置表示所有目标样本训练图像中该样本对象的对象位置的空间范围(包括但不限于外接矩形框、外接圆形框、外接多边形框)。

在一种可能的实施方式中，以外接矩形框为例，在以目标样本训练图像的左上角位置为坐标原点建立坐标系，以水平向右为横轴，以水平向下为纵轴时，该对象位置可以包括左上角横坐标，左上角纵坐标，右下角横坐标和右下角纵坐标。在此基础上，基于每个目标样本训练图像中样本对象的左上角横坐标(即该对象位置的外接矩形框的左上角横坐标)选取左上角横坐标的最小值(即所有目标样本训练图像中该样本对象的左上角横坐标中的最小值)；基于每个目标样本训练图像中样本对象的左上角纵坐标选取左上角纵坐标的最小值；基于每个目标样本训练图像中样本对象的右下角横坐标选取右下角横坐标的最大值；基于每个目标样本训练图像中样本对象的右下角纵坐标选取右下角纵坐标的最大值；根据左上角横坐标的最小值，左上角纵坐标的最小值，右下角横坐标的最大值和右下角纵坐标的最大值确定样本对象的样本框位置。

比如说，参见图3a所示，可以以目标样本训练图像的左上角位置为坐标原点建立坐标系，以水平向右为横轴，以水平向下为纵轴，采用跟踪算法确定出属于同一个样本对象的所有对象位置时，每个对象位置可以包括左上角坐标(左上角横坐标left_top_x，左上角纵坐标left_top_y)和右下角坐标(右下角横坐标right_bottom_x，右下角纵坐标right_bottom_y)。然后，基于所有的左上角横坐标选取出左上角横坐标的最小值，记为min({left_top_x})，基于所有的左上角纵坐标选取出左上角纵坐标的最小值，记为min({left_top_y})。基于所有的右下角横坐标选取出右下角横坐标的最大值，记为max({right_bottom_x}，基于所有的右下角纵坐标选取出右下角纵坐标的最大值，记为max({right_bottom_y})。

然后，将min({left_top_x})和min({left_top_y}))组成一个坐标点a1，将max({right_bottom_x}和max({right_bottom_y})组成一个坐标点a2，而基于坐标点a1和坐标点a2组成的矩形框，就是该样本对象的样本框位置。

在另一种可能的实施方式中，以目标样本训练图像的左下角位置为坐标原点建立坐标系，以水平向右为横轴，以水平向上为纵轴，该对象位置包括左下角横坐标，左下角纵坐标，右上角横坐标和右上角纵坐标。在此基础上，基于每个目标样本训练图像中样本对象的左下角横坐标选取左下角横坐标的最小值；基于每个目标样本训练图像中样本对象的左下角纵坐标选取左下角纵坐标的最小值；基于每个目标样本训练图像中样本对象的右上角横坐标选取右上角横坐标的最大值；基于每个目标样本训练图像中样本对象的右上角纵坐标选取右上角纵坐标的最大值；根据左下角横坐标的最小值，左下角纵坐标的最小值，右上角横坐标的最大值和右上角纵坐标的最大值确定样本对象的样本框位置。

比如说，参见图3b所示，可以以目标样本训练图像的左下角位置为坐标原点建立坐标系，以水平向右为横轴，以水平向上为纵轴，采用跟踪算法确定出属于同一个样本对象的所有对象位置时，每个对象位置可以包括左下角坐标(左下角横坐标left_bottom_x，左下角纵坐标left_bottom_y)和右上角坐标(右上角横坐标right_top_x，右上角纵坐标right_top_y)。然后，基于所有的左下角横坐标选取出左下角横坐标的最小值，记为min({left_bottom_x})，基于所有的左下角纵坐标选取出左下角纵坐标的最小值，记为min({left_bottom_y})。基于所有的右上角横坐标选取出右上角横坐标的最大值，记为max({right_top_x}，基于所有的右上角纵坐标选取出右上角纵坐标的最大值，记为max({right_top_y})。

然后，将min({left_bottom_x})和min({left_bottom_y})组成一个坐标点b1，将max({right_top_x}和max({right_top_y})组成一个坐标点b2，而基于坐标点b1和坐标点b2组成的矩形框，就是该样本对象的样本框位置。

当然，上述方式只是两个示例，对此不做限制，只要能够确定所有目标样本训练图像中该样本对象的对象位置的空间范围(如外接矩形框)即可。

步骤a4、根据该样本框位置获取样本行为序列，该样本行为序列可以包括基于该样本框位置从每个目标样本训练图像中选取的样本框子图像。

参见上述实施例，可以得到样本对象的多个目标样本训练图像和该样本对象的样本框位置，针对每个目标样本训练图像，从该目标样本训练图像中截取与该样本框位置匹配的子图像，该子图像作为样本框子图像。比如说，基于该样本框位置确定一个矩形框，该矩形框的左上角横坐标可以为上述左上角横坐标的最小值，该矩形框的左上角纵坐标可以为上述左上角纵坐标的最小值，该矩形框的右下角横坐标可以为上述右下角横坐标的最大值，该矩形框的右下角纵坐标可以为上述右下角纵坐标的最大值，在得到该矩形框后，可以将目标样本训练图像中与该矩形框匹配的子图像作为样本框子图像。

在得到每个目标样本训练图像中的样本框子图像后，可以将这些样本框子图像组成样本行为序列，即该样本行为序列可以包括多个样本框子图像。

步骤a5、确定样本行为序列的标定信息，如样本行为序列的预测行为类别。

示例性的，参见上述实施例，样本训练视频包括标定样本训练图像，且标定样本训练图像的标定信息包括发生指定行为的对象(记为标定对象)所处的对象位置，指定行为的行为类别(如跌倒类别)。基于此，可以基于每个标定样本训练图像中标定对象的对象位置确定该标定对象的标定框位置。基于标定对象的对象位置确定该标定对象的标定框位置的方式，与基于样本对象的对象位置确定该样本对象的样本框位置的方式类似，只是将步骤a3中的样本对象替换为标定对象，将样本框位置替换为标定框位置即可，在此不再重复赘述。

示例性的，参见上述实施例，可以得到样本框位置和标定框位置，基于该标定框位置和该样本框位置可以确定空域匹配度。例如，基于样本框位置可以得到样本框，基于标定框位置可以得到标定框，以空域匹配度为siou为例，可以采用如下公式确定siou，当然，如下方式只是示例，对此不做限制。

siou＝(样本框和标定框的相交面积)/(样本框和标定框的相并面积)。

示例性的，可以基于多个标定样本训练图像的起始时刻和终止时刻，及多个目标样本训练图像的起始时刻和终止时刻，确定时域匹配度。确定每个标定样本训练图像的采集时刻，将标定样本训练图像的采集时刻中最早的采集时刻，作为多个标定样本训练图像的起始时刻，将标定样本训练图像的采集时刻中最晚的采集时刻，作为多个标定样本训练图像的终止时刻。确定每个目标样本训练图像的采集时刻，将目标样本训练图像的采集时刻中最早的采集时刻，作为多个目标样本训练图像的起始时刻，将目标样本训练图像的采集时刻中最晚的采集时刻，作为多个目标样本训练图像的终止时刻。以时域匹配度为tiou为例，可以采用如下公式确定tiou，当然，如下方式只是示例，对此不做限制。

ta1表示标定样本训练图像的起始时刻，ta2表示标定样本训练图像的终止时刻，tb1表示目标样本训练图像的起始时刻，tb2表示目标样本训练图像的终止时刻。

示例性的，可以根据空域匹配度，时域匹配度以及指定行为的行为类别(即标定样本训练图像的标定信息)，确定该样本行为序列的预测行为类别。比如说，若空域匹配度大于空域匹配度阈值(可以根据经验进行配置)，且时域匹配度大于时域匹配度阈值(可以根据经验进行配置)，则确定该样本行为序列的预测行为类别与指定行为的行为类别相同，如指定行为的行为类别是跌倒类别时，该样本行为序列的预测行为类别为跌倒类别，即该样本行为序列作为正样本(真实行为样本)。若空域匹配度不大于空域匹配度阈值，和/或，时域匹配度不大于时域匹配度阈值，则确定该样本行为序列的预测行为类别与指定行为的行为类别相反，如指定行为的行为类别是跌倒类别时，该样本行为序列的预测行为类别为非跌倒类别，即该样本行为序列作为负样本(误报行为样本)。

步骤a6、构建行为序列数据集，该行为序列数据集可以包括该样本行为序列和该样本行为序列的标定信息，如样本行为序列的预测行为类别。

示例性的，参见步骤a4和步骤a5，可以得到样本行为序列和样本行为序列的标定信息，将该样本行为序列和该标定信息组合起来，得到行为序列数据集。

比如说，假设样本训练视频中用户标注了100次挥手和120次喝水两种行为，经过目标图像行为检测模型检测跟踪，获得了大量挥手的轨迹和喝水的轨迹，这些轨迹中包含了行为出现的时间和空间信息。通过自动与用户标注的行为进行时空匹配，最多可以产生100个挥手子轨迹和120个喝水子轨迹，子轨迹是原有轨迹经时间匹配后剩余的部分轨迹。对于匹配失败的轨迹，则自动构建为误报行为样本，基于匹配成功的轨迹和匹配失败的轨迹，可以从样本训练视频中抽取出对应时空范围内的图像序列，构成行为序列数据集。

行为序列识别模型自动训练模块：行为序列数据集组建模块可以将行为序列数据集输入给行为序列识别模型自动训练模块，该行为序列数据集可以包括该样本行为序列和该样本行为序列的标定信息。行为序列识别模型自动训练模块可以将该样本行为序列和该样本行为序列的标定信息输入给初始行为序列识别模型，以通过该样本行为序列和该样本行为序列的标定信息对该初始行为序列识别模型进行训练，得到已训练的目标行为序列识别模型。

示例性的，由于标定信息包括样本行为序列的预测行为类别，因此，目标行为序列识别模型用于拟合特征向量与行为类别的映射关系。

行为序列识别模型自动训练模块加载预设的行为识别模型模板(包括但不限于tsn、c3d、p3d、i3d、slowfast-net等类型的行为识别模型模板，行为识别模型模板作为初始行为序列识别模型)，基于行为序列数据集对初始行为序列识别模型进行自动训练。例如，将行为序列数据集输入给初始行为序列识别模型后，基于训练参数(如训练迭代次数、训练优化策略、训练停止条件策略等)对初始行为序列识别模型进行自动训练，对此训练过程不做限制，在训练过程结束后，将已经完成训练的初始行为序列识别模型作为目标行为序列识别模型。

综上所述，行为序列识别模型自动训练模块的输入是行为序列数据集，输出是目标行为序列识别模型。行为序列识别模型自动训练模块的输出还可以包括初始行为序列识别模型的训练进度、关键训练状态信息等，对此不做限制。

参见图4所示，为部署检测过程的示意图，通过部署检测过程，可以基于已训练的目标图像行为检测模型和已训练的目标行为序列识别模型对待检测视频进行检测，得到与该待检测视频对应的目标行为类别。示例性的，可以通过自动推理模块和行为检测结果可视化模块等实现部署检测过程。

自动推理模块：自动推理模块基于目标图像行为检测模型和目标行为序列识别模型完成待检测视频的行为检测，以下结合具体步骤检测过程进行说明：

步骤b1、获取待检测视频，该待检测视频包括多个待检测图像。

步骤b2、将该待检测视频输入给已训练的目标图像行为检测模型，由该目标图像行为检测模型输出多个候选待检测图像中的每个候选待检测图像中的对象位置，该候选待检测图像是多个待检测图像中存在对象的待检测图像。

比如说，可以将待检测视频输入给目标图像行为检测模型，由于目标图像行为检测模型用于拟合图像特征向量与行为类别和对象位置的映射关系，因此，针对每个待检测图像，目标图像行为检测模型可以对该待检测图像进行处理，得到该待检测图像的图像特征向量。若该待检测图像的图像特征向量对应有行为类别和对象位置，则目标图像行为检测模型将该待检测图像作为候选待检测图像，并输出候选待检测图像对应的初始行为类别和对象位置。若该待检测图像的图像特征向量未对应有行为类别和对象位置，则不作为候选待检测图像。

综上所述，目标图像行为检测模型可以输出候选待检测图像中的对象位置和初始行为类别，该候选待检测图像是存在对象(如发生跌倒行为的对象)的待检测图像，该对象位置表示该对象在候选待检测图像中的坐标。

步骤b3、基于候选待检测图像中的对象位置，从多个候选待检测图像中选取出同一个目标对象的多个目标待检测图像。比如说，基于每个候选待检测图像中的对象位置，可以采用跟踪算法确定出目标对象，并采用跟踪算法确定该候选待检测图像中的对象位置是否存在该目标对象的对象位置；若是，则将该候选待检测图像确定为该目标对象的目标待检测图像。

示例性的，基于所有候选待检测图像中的对象位置，可以采用跟踪算法(如多目标跟踪算法等)，确定出属于同一个对象(将该对象记为目标对象)的多个对象位置，将这些对象位置所在的候选待检测图像确定为该目标对象的目标待检测图像。步骤b3的实现过程与步骤a2的实现过程类似，在此不再赘述。

步骤b4、基于每个目标待检测图像中该目标对象的对象位置确定该目标对象的目标框位置，该目标框位置表示所有目标待检测图像中该目标对象的对象位置的空间范围(包括但不限于外接矩形框、外接圆形框、外接多边形框)。

在一种可能的实施方式中，以外接矩形框为例，以目标待检测图像的左上角位置为坐标原点建立坐标系，以水平向右为横轴，以水平向下为纵轴时，对象位置包括左上角横坐标，左上角纵坐标，右下角横坐标和右下角纵坐标，基于每个目标待检测图像中目标对象的左上角横坐标选取左上角横坐标的最小值；基于每个目标待检测图像中目标对象的左上角纵坐标选取左上角纵坐标的最小值；基于每个目标待检测图像中目标对象的右下角横坐标选取右下角横坐标的最大值；基于每个目标待检测图像中目标对象的右下角纵坐标选取右下角纵坐标的最大值。然后，根据左上角横坐标的最小值，左上角纵坐标的最小值，右下角横坐标的最大值和右下角纵坐标的最大值确定目标对象的目标框位置。

在另一种可能的实施方式中，以外接矩形框为例，以目标待检测图像的左下角位置为坐标原点建立坐标系，以水平向右为横轴，以水平向上为纵轴时，对象位置包括左下角横坐标，左下角纵坐标，右上角横坐标和右上角纵坐标，基于每个目标待检测图像中目标对象的左下角横坐标选取左下角横坐标的最小值；基于每个目标待检测图像中目标对象的左下角纵坐标选取左下角纵坐标的最小值；基于每个目标待检测图像中所述目标对象的右上角横坐标选取右上角横坐标的最大值；基于每个目标待检测图像中目标对象的右上角纵坐标选取右上角纵坐标的最大值。根据左下角横坐标的最小值，左下角纵坐标的最小值，右上角横坐标的最大值和右上角纵坐标的最大值确定目标对象的目标框位置。

步骤b4的实现过程与步骤a3的实现过程类似，在此不再重复赘述。

步骤b5、根据该目标框位置获取待检测行为序列，该待检测行为序列包括基于该目标框位置从每个目标待检测图像中选取的目标框子图像。

示例性的，针对每个目标待检测图像，从该目标待检测图像中截取与该目标框位置匹配的子图像，该子图像作为目标框子图像。比如说，基于该目标框位置确定一个矩形框，在得到该矩形框后，可以将目标待检测图像中与该矩形框匹配的子图像作为目标框子图像。

示例性的，使用目标框位置可以从每个目标待检测图像中依次截取感兴趣区域，这些感兴趣区域构成了一个目标行为时空立方，即上述待检测行为序列。这种待检测行为序列的提取方式，在保留目标行为不损失信息的情况下，大幅减少了背景信息，更利于待检测行为序列的检测，提高检测的准确性。

在得到每个目标待检测图像中的目标框子图像后，可以将这些目标框子图像组成待检测行为序列，即该待检测行为序列可以包括多个目标框子图像。

步骤b6、将该待检测行为序列输入给已训练的目标行为序列识别模型，由目标行为序列识别模型输出与该待检测行为序列对应的目标行为类别。

比如说，可以将该待检测行为序列输入给目标行为序列识别模型，由于目标行为序列识别模型用于拟合特征向量(即样本行为序列的特征向量)与行为类别的映射关系，因此，目标行为序列识别模型可以对该待检测行为序列进行处理，得到该待检测行为序列的特征向量，并确定与该特征向量对应的行为类别，该行为类别是与该待检测行为序列对应的目标行为类别。综上所述，目标行为序列识别模型可以输出与该待检测行为序列对应的目标行为类别。

在一种可能的实施方式中，自动推理模块还可以采用时间滑窗的形式，按照一定时间窗口大小(包括但不限于固定帧数、变化帧数等)进行滑窗分片(包括但不限于无重叠滑窗、有重叠滑窗、连续帧滑窗、变化帧间隔滑窗等)，获取待检测行为序列。比如说，基于所有目标待检测图像，按照一定时间窗口大小进行滑窗分片，选取全部或者部分目标待检测图像，如选取第一帧目标待检测图像，第三帧目标待检测图像，第五帧目标待检测图像，以此类推。基于该目标框位置从选取的每个目标待检测图像中截取目标框子图像，将这些目标框子图像组成待检测行为序列。当然，上述方式只是示例，对此不做限制。

步骤b7、根据该目标行为类别进行报警处理。或者，根据该目标行为类别和该初始行为类别(由目标图像行为检测模型输出)进行报警处理。

在一种可能的实施方式中，可以根据该目标行为类别进行报警处理，比如说，假设目标行为类别为类别a(如跌倒类别)，则可以产生针对类别a的报警消息，该报警消息可以携带类别a的信息，表示待检测视频中存在类别a的行为。该报警消息还可以携带目标对象的多个目标待检测图像的时间信息(如起始时刻和终止时刻)，表示处于该时间信息的待检测图像发生类别a的行为。该报警消息还可以携带目标框位置，表示该目标框位置发生类别a的行为。

在另一种可能的实施方式中，可以根据该目标行为类别和该初始行为类别进行报警处理，比如说，若该目标行为类别为类别a，且该初始行为类别为类别a，即目标行为类别与初始行为类别相同，则可以产生针对类别a的报警消息，该报警消息可以携带类别a的信息，表示待检测视频中存在类别a的行为。

若目标行为类别为类别a，且初始行为类别为类别b，即目标行为类别与初始行为类别不同，则可以产生针对类别a的报警消息(该报警消息可以携带类别a的信息，表示待检测视频中存在类别a的行为)，也可以产生针对类别b的报警消息(该报警消息可以携带类别b的信息，表示待检测视频中存在类别b的行为)，还可以不产生针对类别a的报警消息和针对类别b的报警消息。

示例性的，还可以配置报警控制策略(包括但不限于控制相同目标报警次数、控制相同行为报警次数、控制报警空间区域、控制报警目标存留时间长度等)，从而降低系统报警次数。比如说，针对每种行为的报警次数为3，若需要产生针对类别a的报警消息，先确定针对类别a的报警次数是否达到3次，若否，则产生针对类别a的报警消息，若是，则不产生针对类别a的报警消息。

行为检测结果可视化模块：根据设置的感兴趣行为集合(可以包括多种类型的目标行为)进行个性化显示。在自动推理模块检测出目标行为后，行为检测结果可视化模块可以分析该目标行为是否位于感兴趣行为集合，若是，则记录该目标行为的时间信息(如多个目标待检测图像的时间信息，如起始时刻和终止时刻)和空间信息(如目标框位置)。当待检测视频播放到与该时间信息对应的待检测图像时，可以在待检测图像的画面中叠加目标框位置，并叠加目标行为类别和置信度等信息，方便用户根据报警结果进行分析和响应。

在一种可能的实施方式中，图像行为检测数据组建模块将样本视频划分为样本训练视频和样本测试视频之后，还可以将样本测试视频发送给自动推理模块，该样本测试视频包括多个样本测试图像，所述多个样本测试图像中存在标定样本测试图像，且标定样本测试图像的标定信息包括实际行为类别。

自动推理模块基于目标图像行为检测模型和目标行为序列识别模型完成样本测试视频的行为检测，得到样本测试视频的目标行为类别。样本测试视频的行为检测与待检测视频的行为检测类似，参见步骤b1-步骤b6，在此不再赘述。

在得到样本测试视频的目标行为类别后，可以比较样本测试视频的目标行为类别与标定样本测试图像的实际行为类别是否相同，若相同，则样本测试视频的行为检测结果正确，若不同，则样本测试视频的行为检测结果错误。

在对大量样本测试视频进行上述处理后，可以统计检测结果正确的数量和检测结果错误的数量，基于检测结果正确的数量和检测结果错误的数量，就可以统计目标图像行为检测模型和目标行为序列识别模型的检测性能(包括但不限于行为检测率和系统误报次数)。若检测性能较高，则可以部署目标图像行为检测模型和目标行为序列识别模型的检测性能，基于目标图像行为检测模型和目标行为序列识别模型的检测性能对待检测视频进行检测。若检测性能较低，则可以重新对目标图像行为检测模型和目标行为序列识别模型进行训练。

在自动训练阶段，仅需要用户完成视频中行为样本的标定，自动进行训练视频和测试视频的划分，自动组建图像行为检测数据集，用于完成第一级的图像行为检测模型的训练。基于图像行为检测模型完成视频中潜在行为样本的抽取，通过与用户标定自动匹配，自动生成场景中的行为序列数据集(如容易误报的难例序列样本集)，基于行为序列数据集自动完成第二级的行为序列识别模型的训练，该行为序列识别模型能明显降低场景中易误报的样本。

在自动推理阶段，可以使用第一级的图像行为检测模型提取出待检测视频中潜在的行为目标，通过目标跟踪关联产生行为目标轨迹，对连续存在的行为目标进行触发并抽取待检测行为序列，再使用第二级的行为序列识别模型对待检测行为序列进行识别，完成行为分类(或去误报)的功能。

在上述方式中，用户只需要完成感兴趣行为的标定，可以自动完成图像行为检测模型和行为序列识别模型的训练，并在视频中挖掘出潜在的误报，自适应的组建行为序列数据集，保障了图像行为检测模型和行为序列识别模型适配当前场景的误报分布情况，可以很好地降低系统整体的误报。

综上所述，基于视频行为标定，能够自动完成多个行为检测数据集组建、自动完成图像行为检测模型和行为序列识别模型的训练，自动完成性能评估，降低了用户使用本系统的门槛，便于在多个场景多个任务下推广使用。基于图像行为检测模型自动抽取场景下行为序列数据集的方法，完成了场景中行为样本和背景样本的自适应抽取，明显降低场景中误报，提升了行为检测系统的场景适应性。用户完成视频上传和标注后，可以关注到训练和推理的进度，最终可以获得系统整体性能评估数据，从而提升了用户使用体验。

基于与上述方法同样的申请构思，本申请实施例中还提出一种行为检测装置，如图5所示，为所述装置的结构图，所述装置包括：获取模块51，用于获取待检测视频，所述待检测视频包括多个待检测图像；输入模块52，用于将所述待检测视频输入给已训练的目标图像行为检测模型，由所述目标图像行为检测模型输出多个候选待检测图像中的每个候选待检测图像中的对象位置；其中，所述候选待检测图像是所述多个待检测图像中存在对象的待检测图像；确定模块53，用于基于候选待检测图像中的对象位置，从所述多个候选待检测图像中选取出同一个目标对象的多个目标待检测图像，并基于每个目标待检测图像中所述目标对象的对象位置确定所述目标对象的目标框位置；所述获取模块51，还用于根据所述目标框位置获取待检测行为序列，所述待检测行为序列包括基于所述目标框位置从每个目标待检测图像中选取的目标框子图像；所述输入模块52，还用于将所述待检测行为序列输入给已训练的目标行为序列识别模型，由所述目标行为序列识别模型输出与所述待检测行为序列对应的目标行为类别。

在一种可能的实施方式中，所述确定模块53基于候选待检测图像中的对象位置，从所述多个候选待检测图像中选取出同一个目标对象的多个目标待检测图像时具体用于：基于候选待检测图像中的对象位置，采用跟踪算法确定出目标对象，确定所述候选待检测图像中的对象位置是否存在所述目标对象的对象位置；若是，则将所述候选待检测图像确定为所述目标对象的目标待检测图像。

在一种可能的实施方式中，所述装置还包括(在图中未示出)：

处理模块，用于根据所述目标行为类别进行报警处理；或者，

若所述目标图像行为检测模型还输出与所述待检测视频对应的初始行为类别，则根据所述目标行为类别和所述初始行为类别进行报警处理。

在一种可能的实施方式中，所述装置还包括(在图中未示出)：

训练模块，用于训练所述目标图像行为检测模型；所述训练模块训练所述目标图像行为检测模型时具体用于：获取样本训练视频，所述样本训练视频包括多个样本训练图像，所述多个样本训练图像包括发生指定行为的多个标定样本训练图像；将所述标定样本训练图像和所述标定样本训练图像的标定信息输入给初始图像行为检测模型，以通过所述标定样本训练图像和所述标定信息对所述初始图像行为检测模型进行训练，得到已训练的目标图像行为检测模型；其中，所述标定信息至少包括：所述标定样本训练图像中发生所述指定行为的对象所处的对象位置，所述指定行为的行为类别。

在一种可能的实施方式中，所述训练模块，还用于训练所述目标行为序列识别模型；所述训练模块训练目标行为序列识别模型时具体用于：将所述样本训练视频输入给已训练的目标图像行为检测模型，由所述目标图像行为检测模型输出多个候选样本训练图像中的每个候选样本训练图像中的对象位置；其中，所述候选样本训练图像是所述多个样本训练图像中存在对象的样本训练图像；基于候选样本训练图像中的对象位置，从所述多个候选样本训练图像中选取出同一样本对象的多个目标样本训练图像，并基于每个目标样本训练图像中所述样本对象的对象位置确定所述样本对象的样本框位置；根据所述样本框位置获取样本行为序列，所述样本行为序列包括基于所述样本框位置从每个目标样本训练图像中选取的样本框子图像；将所述样本行为序列和所述样本行为序列的标定信息输入给初始行为序列识别模型，以通过所述样本行为序列和所述样本行为序列的标定信息对所述初始行为序列识别模型进行训练，得到已训练的目标行为序列识别模型。

在一种可能的实施方式中，所述样本行为序列的标定信息包括所述样本行为序列的预测行为类别，所述训练模块还用于：基于每个标定样本训练图像中标定对象的对象位置确定所述标定对象的标定框位置，基于所述标定框位置和所述样本框位置确定空域匹配度；基于多个标定样本训练图像的起始时刻和终止时刻，及多个目标样本训练图像的起始时刻和终止时刻，确定时域匹配度；根据所述空域匹配度，所述时域匹配度以及所述指定行为的行为类别，确定所述样本行为序列的预测行为类别。

在一种可能的实施方式中，所述训练模块根据所述空域匹配度，所述时域匹配度以及所述指定行为的行为类别，确定所述样本行为序列的预测行为类别时具体用于：若所述空域匹配度大于空域匹配度阈值，所述时域匹配度大于时域匹配度阈值，则确定所述预测行为类别与所述指定行为的行为类别相同；否则，确定所述预测行为类别与所述指定行为的行为类别相反。

基于与上述方法同样的申请构思，本申请实施例中还提出一种行为检测设备，本申请实施例提供的行为检测设备，从硬件层面而言，行为检测设备的硬件架构示意图可以参见图6所示。行为检测设备可以包括：处理器61和机器可读存储介质62，所述机器可读存储介质62存储有能够被处理器61执行的机器可执行指令；所述处理器61用于执行机器可执行指令，以实现本申请上述示例公开的方法。例如，处理器61用于执行机器可执行指令，以实现如下步骤：

获取待检测视频，所述待检测视频包括多个待检测图像；

根据所述目标框位置获取待检测行为序列，所述待检测行为序列包括基于所述目标框位置从每个目标待检测图像中选取的目标框子图像；

将所述待检测行为序列输入给已训练的目标行为序列识别模型，由所述目标行为序列识别模型输出与所述待检测行为序列对应的目标行为类别。

基于与上述方法同样的申请构思，本申请实施例还提供一种机器可读存储介质，其中，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被处理器执行时，能够实现本申请上述示例公开的方法。

例如，所述计算机指令被处理器执行时，能够实现如下步骤：

获取待检测视频，所述待检测视频包括多个待检测图像；

根据所述目标框位置获取待检测行为序列，所述待检测行为序列包括基于所述目标框位置从每个目标待检测图像中选取的目标框子图像；

将所述待检测行为序列输入给已训练的目标行为序列识别模型，由所述目标行为序列识别模型输出与所述待检测行为序列对应的目标行为类别。

示例性的，上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：ram(radomaccessmemory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵飞
技术所有人：杭州海康威视数字技术股份有限公司
我是此专利的发明人

上一篇：一种钒酸铵盐的生产方法与流程
上一篇：一种外用皮肤药膏及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。