训练数据集确定方法、行为分析方法、装置、系统及介质与流程

文档序号：23340129发布日期：2020-12-18 16:35阅读：153来源：国知局

本申请实施例涉及深度学习技术领域，特别涉及一种训练数据集确定方法、行为分析方法、装置、系统及介质。

背景技术：

随着深度学习技术的发展，对视频中对象的行为进行分析的行为分析网络模型广泛普及。行为分析网络模型通常是通过训练数据集训练得到，然后被部署在服务器中或者终端设备(如智能摄像头)上，用于识别视频中存在的行为以及行为的位置等。其中，训练数据集包括视频段和视频段对应的标注信息。

在相关技术中，对于训练数据集的确定，通常是由研发人员在计算机设备上标注视频段中行为的位置等，得到对应的标注信息，将视频段和对应的标注信息作为训练数据集。

然而，通过研发人员确定训练数据集，技术门槛比较高，而且用户想要定制某个特定行为的行为分析网络模型时，定制周期比较长。

技术实现要素：

本申请实施例提供了一种训练数据集确定方法、行为分析方法、装置、系统及介质，能够降低确定训练数据集的技术门槛，缩短定制行为分析网络模型的定制周期。所述技术方案如下：

一方面，提供了一种训练数据集确定方法，所述方法包括：

显示多个视频段中每个视频段包括的视频图像；

当检测到所述多个视频段的视频图像中一个或多个行为的标注操作时，确定所述多个视频段中每个视频段对应的标注信息；

显示网络结构和/或训练参数不同的多个初始分析网络模型的性能信息，所述多个初始分析网络模型均用于视频中的行为分析；

当基于显示的性能信息检测到模型选择操作时，根据所述多个视频段以及对应的标注信息，确定所述模型选择操作所选择的初始分析网络模型对应的训练数据集。

可选地，所述多个初始分析网络模型包括网络结构和/或训练参数不同的多个初始图像分析网络模型，以及网络结构和/或训练参数不同的多个初始视频分析网络模型；

所述根据所述多个视频段以及对应的标注信息，确定所述模型选择操作所选择的初始分析网络模型对应的训练数据集，包括：

根据所述多个视频段以及对应的标注信息，确定图像数据集，将所述图像数据集作为所述模型选择操作所选择的初始图像分析网络模型对应的训练数据集；和/或

根据所述多个视频段以及对应的标注信息，确定视频数据集，将所述视频数据集作为所述模型选择操作所选择的初始视频分析网络模型的训练数据集。

可选地，所述标注信息包括行为标签和行为位置之间的对应关系，所述行为位置包括行为发生的帧号和图像区域，所述多个视频段中的每个视频段具有一个或多个行为标签，每个行为标签对应多个帧号，每个帧号对应一个图像区域；

所述根据所述多个视频段以及对应的标注信息，确定图像数据集，包括：

对于所述多个视频段中的第一视频段，提取所述第一视频段中经过标注的部分或全部的视频图像，得到多个第一视频图像，所述第一视频段为所述多个视频段中的一个；

从所述对应关系中获取所述多个第一视频图像中每个第一视频图像的帧号所对应的行为标签以及行为位置，作为相应的第一视频图像对应的标注信息；

将所述多个视频段中提取出的视频图像以及对应的标注信息，确定为所述图像数据集。

可选地，所述标注信息包括行为标签和行为位置之间的对应关系，所述行为位置包括行为发生的帧号和图像区域，所述多个视频段中的每个视频段具有一个或多个行为标签，每个行为标签对应多个帧号，每个帧号对应一个图像区域，所述多个帧号包括一个起始帧号和一个结束帧号；

所述根据所述多个视频段以及对应的标注信息，确定视频数据集，包括：

对于所述多个视频段中的第一视频段，提取所述第一视频段的各个行为标签所对应的起始帧号和结束帧号之间的视频片段，得到一个或多个第一子视频段，所述第一视频段为所述多个视频段中的一个；

从所述对应关系中获取各个第一子视频段的行为标签所对应的行为位置，将各个第一子视频段的行为标签和对应的行为位置作为相应的第一子视频段对应的标注信息；

将所述多个视频段中提取出的子视频段以及对应的标注信息，确定为所述视频数据集。

可选地，所述根据所述多个视频段以及对应的标注信息，确定所述模型选择操作所选择的初始分析网络模型对应的训练数据集之后，所述方法还包括：

根据所述图像数据集，对所述模型选择操作所选择的初始图像分析网络模型进行训练，得到图像行为分析网络模型；和/或，

根据所述视频数据集，对所述模型选择操作所选择的初始视频分析网络模型进行训练，得到视频行为分析网络模型。

可选地，对所述模型选择操作所选择的初始分析网络模型进行训练之前，所述方法还包括：

显示所述模型选择操作所选择的初始分析网络模型的网络结构和/或训练参数的调整指示信息；

当基于所述调整指示信息检测到调整操作时，按照所述调整操作对所述模型选择操作所选择的初始分析网络模型的网络结构和/或训练参数进行调整。

可选地，对所述模型选择操作所选择的初始分析网络模型进行训练之后，所述方法还包括：

显示模型测试提示信息；

当基于所述模型测试提示信息检测到确定测试指令时，根据测试数据集，对训练得到的行为分析网络模型进行测试，得到测试结果；

显示所述测试结果；

当基于所述测试结果检测到训练调整指令时，根据所述训练调整指令，重新训练所述模型选择操作所选择的初始分析网络模型。

可选地，所述方法还包括：

显示模型发布提示信息；

当基于所述模型发布提示信息检测到模型发布指令时，将训练得到的行为分析网络模型部署在分析设备上，所述分析设备为服务器和/或终端设备。

另一方面，提供了一种视频中的行为分析的方法，所述方法包括：

获取待进行行为分析的目标视频段；

通过行为分析网络模型对所述目标视频段中的行为进行分析，得到行为分析结果；

其中，所述行为分析网络模型是用户从网络结构和/或训练参数不同的多个初始分析网络模型中选择出初始分析网络模型之后，通过训练数据集训练得到，所述训练数据集是通过所述用户对多个视频段的视频图像中的行为进行标注之后确定得到的。

可选地，所述行为分析网络模型包括图像行为分析网络模型和视频行为分析网络模型；

所述通过行为分析网络模型对所述目标视频段中的行为进行分析，得到行为分析结果，包括：

通过所述图像行为分析网络模型对所述目标视频段中的行为进行分析，得到一个或多个候选帧号；

根据所述目标视频段以及所述一个或多个候选帧号，确定一个或多个第二子视频段；

通过所述视频行为分析网络模型对所述一个或多个第二子视频段中的行为进行分析，得到所述行为分析结果。

可选地，所述根据所述目标视频段以及所述一个或多个候选帧号，确定一个或多个第二子视频段，包括：

对于所述一个或多个候选帧号中的第一候选帧号，提取所述目标视频段中从所述第一候选帧号对应的视频图像开始连续的参考帧数或参考时长的视频片段，得到一个第二子视频段，所述第一候选帧号为所述一个或多个候选帧号中的一个。

另一方面，提供了一种训练数据集确定装置，所述装置包括：

第一显示模块，用于显示多个视频段中每个视频段包括的视频图像；

第一确定模块，用于当检测到所述多个视频段的视频图像中一个或多个行为的标注操作时，确定所述多个视频段中每个视频段对应的标注信息；

第二显示模块，用于显示网络结构和/或训练参数不同的多个初始分析网络模型的性能信息，所述多个初始分析网络模型均用于视频中的行为分析；

第二确定模块，用于当基于显示的性能信息检测到模型选择操作时，根据所述多个视频段以及对应的标注信息，确定所述模型选择操作所选择的初始分析网络模型对应的训练数据集。

所述第二确定模块包括：

第一确定单元，用于根据所述多个视频段以及对应的标注信息，确定图像数据集，将所述图像数据集作为所述模型选择操作所选择的初始图像分析网络模型对应的训练数据集；和/或

第二确定单元，用于根据所述多个视频段以及对应的标注信息，确定视频数据集，将所述视频数据集作为所述模型选择操作所选择的初始视频分析网络模型的训练数据集。

所述第一确定单元包括：

第一提取子单元，用于对于所述多个视频段中的第一视频段，提取所述第一视频段中经过标注的部分或全部的视频图像，得到多个第一视频图像，所述第一视频段为所述多个视频段中的一个；

第一获取子单元，用于从所述对应关系中获取所述多个第一视频图像中每个第一视频图像的帧号所对应的行为标签以及行为位置，作为相应的第一视频图像对应的标注信息；

第一确定子单元，用于将所述多个视频段中提取出的视频图像以及对应的标注信息，确定为所述图像数据集。

所述第二确定单元包括：

第二提取子单元，用于对于所述多个视频段中的第一视频段，提取所述第一视频段的各个行为标签所对应的起始帧号和结束帧号之间的视频片段，得到一个或多个第一子视频段，所述第一视频段为所述多个视频段中的一个；

第二获取子单元，用于从所述对应关系中获取各个第一子视频段的行为标签所对应的行为位置，将各个第一子视频段的行为标签和对应的行为位置作为相应的第一子视频段对应的标注信息；

第二确定子单元，用于将所述多个视频段中提取出的子视频段以及对应的标注信息，确定为所述视频数据集。

可选地，所述装置还包括：

第一训练模块，用于根据所述图像数据集，对所述模型选择操作所选择的初始图像分析网络模型进行训练，得到图像行为分析网络模型；和/或，

第二训练模块，用于根据所述视频数据集，对所述模型选择操作所选择的初始视频分析网络模型进行训练，得到视频行为分析网络模型。

可选地，所述装置还包括：

第三显示模块，用于显示所述模型选择操作所选择的初始分析网络模型的网络结构和/或训练参数的调整指示信息；

调整模块，用于当基于所述调整指示信息检测到调整操作时，按照所述调整操作对所述模型选择操作所选择的初始分析网络模型的网络结构和/或训练参数进行调整。

可选地，所述装置还包括：

第四显示模块，用于显示模型测试提示信息；

测试模块，用于当基于所述模型测试提示信息检测到确定测试指令时，根据测试数据集，对训练得到的行为分析网络模型进行测试，得到测试结果；

第五显示模块，用于显示所述测试结果；

第三训练模块，用于当基于所述测试结果检测到训练调整指令时，根据所述训练调整指令，重新训练所述模型选择操作所选择的初始分析网络模型。

可选地，所述装置还包括：

第六显示模块，用于显示模型发布提示信息；

部署模块，用于当基于所述模型发布提示信息检测到模型发布指令时，将训练得到的行为分析网络模型部署在分析设备上，所述分析设备为服务器和/或终端设备。

另一方面，提供了一种视频中的行为分析装置，所述装置包括：

获取模块，用于获取待进行行为分析的目标视频段；

分析模块，用于通过行为分析网络模型对所述目标视频段中的行为进行分析，得到行为分析结果；

可选地，所述行为分析网络模型包括图像行为分析网络模型和视频行为分析网络模型；

所述分析模块包括：

第一分析单元，用于通过所述图像行为分析网络模型对所述目标视频段中的行为进行分析，得到一个或多个候选帧号；

第一确定单元，用于根据所述目标视频段以及所述一个或多个候选帧号，确定一个或多个第二子视频段；

第二分析单元，用于通过所述视频行为分析网络模型对所述一个或多个第二子视频段中的行为进行分析，得到所述行为分析结果。

可选地，所述第一确定单元包括：

提取子单元，用于对于所述一个或多个候选帧号中的第一候选帧号，提取所述目标视频段中从所述第一候选帧号对应的视频图像开始连续的参考帧数或参考时长的视频片段，得到一个第二子视频段，所述第一候选帧号为所述一个或多个候选帧号中的一个。

另一方面，提供了一种云平台系统，所述系统包括用户设备和服务器，所述云平台系统通过所述用户设备和所述服务器实现上述训练数据集确定方法的步骤。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器、通信接口、存储器和通信总线，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信，所述存储器用于存放计算机程序，所述处理器用于执行所述存储器上所存放的程序，以实现上述所述训练数据集确定方法的步骤，或者实现上述所述视频中的行为分析方法的步骤。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述所述训练数据集确定方法的步骤，或者实现上述所述视频中的行为分析方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的训练数据集确定方法的步骤，或者实现上述所述视频中的行为分析方法的步骤。

本申请实施例提供的技术方案至少可以带来以下有益效果：

在本申请实施例中，提供多个不同的初始分析网络模型给用户选择，自动根据多个视频段以及对应的标注信息，确定用户选择的初始分析网络模型对应的训练数据集，本方案的技术门槛较低，不需要用户有深度学习经验，仅通过简单标注操作以及模型选择操作，即可自动确定出所选择的模型对应的训练数据集，这样，用户可以快速定制得到用于分析特定行为的行为分析模型，定制周期较短。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种训练数据集确定方法的流程图；

图2是本申请实施例提供的一种训练数据集确定方法的流程图；

图3是本申请实施例提供的一种云平台系统的基本使用示意图；

图4是本申请实施例提供的一种用户操作云平台系统的整体流程图；

图5是本申请实施例提供的一种模型训练过程的示意图；

图6是本申请实施例提供的一种视频中的行为分析方法的流程图；

图7是本申请实施例提供的一种训练数据集确定装置的结构示意图；

图8是本申请实施例提供的一种视频中的行为分析装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图；

图10是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

随着深度学习技术的发展，对视频中对象的目标行为进行分析的行为分析网络模型广泛普及。但是通常训练行为分析网络模型所涉及的训练数据集由研发人员来确定，后续训练过程所涉及的网络模型构建和调整、训练参数设置和调整等等，均需要具备深度学习技术经验的研发人员来完成，如果普通用户有视频中的行为分析需求时，自主研发的技术门槛太高，需要向专业的研发人员定制服务，但是这样的定制周期较长。通过本申请实施例提供的方案，普通用户也能够经过简单操作来确定训练数据集，后续还能够快速得到用于分析特定行为的行为分析网络模型，以用于视频中的行为分析。

接下来对本申请实施例提供的一种训练数据集确定方法所涉及的系统架构进行介绍。

图1是本申请实施例提供的一种训练数据集确定方法所涉及的系统架构图。参见图1，该系统架构包括用户设备101和服务器102。用户设备101与服务器102以有线或无线方式连接以进行通信。

本申请实施例提供的训练数据集确定方法通过云平台系统实现，用户设备101作为云平台系统的前端设备，服务器102作为云平台系统的后端设备，用户设备101用于根据检测到的用户操作，通过网页或客户端等形式登录云平台系统，通过用户设备101的交互界面与用户交互，以实现用户与云平台系统的交互，为用户提供云服务，云服务包括确定训练数据集，也即是，用户设备101和服务器102用于根据本申请实施例提供的训练数据集确定方法来确定训练数据集。

其中，云平台系统通过用户设备101显示视频段包括的视频图像，并根据检测到的关于视频图像的标注操作，确定视频段对应的标注信息，云平台系统通过服务器存储视频段以及对应的标注信息。云平台系统还能够通过用户设备101显示多个分析网络模型，由用户选择分析网络模型，根据存储的视频段以及对应标注信息，确定用户所选择的分析网络模型对应的训练数据集，以用于训练对应的分析网络模型，后续通过训练得到的行为分析网络模型进行视频中的行为分析。

可选地，云平台系统提供的云服务还包括模型训练，也即根据确定的训练数据集训练对应的分析网络模型，将训练得到的行为分析网络模型部署在分析设备上。例如，部署在服务器102或者其他服务器上，以提供视频分析的在线云服务。又如，云平台系统提供模型下载服务，用户设备101可以从服务器102上下载行为分析网络模型到本地，再通过用户设备101将行为分析网络模型部署在终端设备上，终端设备如智能摄像头等。又如，云平台系统通过服务器102直接将行为分析网络模型发送至终端设备上，以在终端设备上部署。

可选地，用户设备101用于在本地存储视频段，并将本地存储的视频段上传至云平台系统，以存储在服务器102中，也即通过离线方式上传视频段。

可选地，该系统架构还包括视频采集设备103，视频采集设备103用于采集视频段。视频采集设备103与用户设备101通过有线或无线方式连接，以将采集的视频段发送至用户设备101，通过用户设备101显示视频段包括的视频图像，通过用户操作来标注视频图像中的行为，用户设备101还用于将接收到的视频段上传至服务器102，也即通过离线方式上传视频段。或者，视频采集设备103与服务器102通过有线或无线方式连接，以将采集的视频段发送至服务器102，也即通过在线方式上传视频段，如视频采集设备103为网络摄像头，网络摄像头通过互联网实时上传所采集的视频段。

可选地，视频采集设备103与终端设备为相同的设备，或者为不同的设备。

在本申请实施例中，用户设备101为台式电脑、笔记本电脑、平板电脑或智能手机等设备。服务器102为一台服务器，或者为多台服务器构成的服务器集群，或者为一个云计算服务中心。视频采集设备103为ipc(internetprotocolcamera，网络摄像头)、nvr(networkvideorecorder，网络数字硬盘录像机)等。

接下来对本申请实施例提供的训练数据集确定方法进行详细的解释说明。

图2是本申请实施例提供的一种训练数据集确定方法的流程图，该方法应用于云平台系统。请参考图2，该方法包括如下步骤。

步骤201：显示多个视频段中每个视频段包括的视频图像。

由前述可知，本申请实施例提供的训练数据集的确定方法通过云平台系统实现，用户设备作为云平台系统的前端设备，服务器作为云平台系统的后端设备，云平台系统提供网页或者客户端等形式的登录入口，用户设备通过网页或者客户端等登录入口来登录云平台系统。

在本申请实施例中，当通过用户设备检测到标注请求时，在用户设备上显示多个视频段中每个视频段包括的视频图像。

示例性地，在用户设备上将每个视频段包括的视频图像逐帧显示，显示完一帧图像并标注之后，自动显示后一帧图像。可选地，用户设备上还可以显示‘前一帧’和‘后一帧’两个选项，当检测到关于‘前一帧’的选择操作时，显示前一帧视频图像，当检测到关于‘后一帧’的选择操作时，显示后一帧视频图像。可选地，用户设备上还可以显示‘上个视频’和‘下个视频’两个选项，当检测到关于‘上个视频’的选择操作时，显示上个视频段的第一帧视频图像或最近一次操作的一帧视频图像，当检测到关于‘下个视频’的选择操作时，显示下一个视频段的第一帧视频图像或最近一次操作的一帧视频图像。

可选地，用户设备中存储有多个视频段，例如，用户设备接收视频采集设备发送的多个视频段并在本地存储，当通过用户设备检测到标注请求时，在用户设备上显示该多个视频段中每个视频段包括的视频图像。或者，服务器中存储有多个视频段，例如服务器接收用户设备或视频采集设备发送的多个视频段并存储，当通过用户设备检测到标注请求时，用户设备将服务器中存储的多个视频段缓存至本地，并显示该多个视频段包括的视频图像，也即临时存储该多个视频段。

可选地，在本申请实施例中，在用户设备显示该多个视频段中每个视频段包括的视频图像之前，当检测到上传指令时，服务器获取该多个视频段，也即在服务器中存储该多个视频段。示例性地，在用户设备上显示上传按键，当检测到关于上传按键的点击操作时，服务器开始获取该多个视频段。

可选地，将在用户设备中本地存储的多个视频段上传至服务器，也即通过离线方式上传。或者，由视频采集设备实时将采集到的视频段上传至服务器，也即通过在线方式上传，如通过ipc、nvr等通过互联网上传。或者，由用户设备上传一部分视频段，由视频采集设备上传另一部分视频段，也即将离线方式和在线方式结合。

可选地，服务器中配置有数量阈值和/或数据量阈值，当获取到的视频段的总数量(单位如个)达到数量阈值，和/或，总空间大小(单位如兆m)达到数据量阈值时，服务器将获取到的所有视频段作为该多个视频段，服务器不再继续获取视频段，或者服务器也可以继续获取视频段。

可选地，由于同一用户可能会多种类型的行为分析需求，不同用户也可能有不同类型的行为分析需求，每种类型的行为分析需求对应一个或多个目标行为，云平台系统能够为同一用户提供针对多种行为分析需求中每种行为分析需求的服务，也能够为不同用户提供对应的服务。基于此，为了便于云平台系统的管理和维护，用户可以通过用户设备针对每种行为分析需求创建一个分析任务，例如为每个分析任务创建任务名称、任务详情介绍、任务发布者、使用者等，通过用户设备将所创建的分析任务提交至云平台系统的服务器中，以在服务器中存储分析任务，并执行对应的分析任务，后续可以将任务的执行情况反馈给对应的用户。

需要说明的是，当通过用户设备检测到创建任务指令时，服务器开始获取该多个视频段，也即开始执行任务。

步骤202：当检测到该多个视频段的视频图像中一个或多个行为的标注操作时，确定该多个视频段中每个视频段对应的标注信息。

在本申请实施例中，云平台系统提供标注功能，例如提供标注客户端或标注模块，用户可以通过操作用户设备，来标注所显示的视频段包括的视频图像中存在的行为，当检测到该视频段的视频图像中一个或多个行为的标注操作时，确定该多个视频段中每个视频段对应的标注信息。

可选地，用户通过离线方式标注视频段的视频图像中存在的行为，例如，用户通过安装的标注客户端或网页方式提供的标注模块，来标注本地存储的多个视频段，在对多个视频段均标注完之后，将该多个视频段对应的标注信息上传至云平台系统。或者，用户通过在线方式标注视频段的视频图像中存在的行为，例如，用户设备通过标注客户端或标注模块将服务器中存储的视频段逐个缓存至本地，当检测到关于每个视频段的标注操作时，确定相应视频段的标注信息并上传至服务器，直至将该多个视频段逐个均标注完并上传完为止。

示例性地，用户可以通过框选的方式来标注视频图像中的行为位置，并标记行为的行为标签，框选的形状可以为任意多边形(如矩形、三角形等)、圆形等。对于该多个视频段中的一个视频段，用户在该视频段中选定某个行为发生的起始帧，在该起始帧中用框选标注该行为发生的图像区域，从起始帧开始继续往后按照逐帧或隔帧的方式标注该行为发生的图像区域，直至标注完该行为的结束帧，也即标注完该行为结束的视频图像，这样也即标注完该视频段中的一个行为。如果一个视频图像中存在多个行为，则每个行为都按照前述方法标注，如果一个视频段中存在多个行为，则每个行为都按照前述方法标注。经过上述标注，标注完一个视频段，标注完的视频段对应一个或多个行为标签，每个行为标签对应多个帧号，该多个帧号中的每个帧号对应一个图像区域。

在本申请实施例中，在标注完一个视频段中的一个行为，或者在标注完一个视频段中的所有行为，或者在标注完该多个视频段中的所有行为之后，云平台系统自动生成标注文件(可以称为标定真值文件)，可选地，为每个视频段生成对应的标注文件，或者为该多个视频段生成一个标注文件。

表1是本申请实施例提供的一种标注文件的格式，参见表1，以为该多个视频段生成一个标注文件为例，视频段名为视频段对应的视频标识，如1.mp4、2.mp4等，行为标签为行为标识，如行为1、行为2等，行为发生的帧号，如n1、n2、n3…等，行为发生的图像区域用多个坐标或距离等来标识。

可选地，将视频图像在视频段中的相对时间作为该视频图像的帧号，例如一帧视频图像的帧号为‘00:12:45’，或者，将视频图像在视频段中的序号作为帧号，例如一帧视频图像是视频段中的第3帧图像，序号为3，那么该视频图像的帧号为3，或者，以其他方式定义帧号。需要说明的是，将相对时间或者序号作为帧号的方式中，帧号能够表征时间先后。

可选地，一个视频段的一个行为标签对应的多个帧号按照相应视频图像的时间顺序排列，那么第一个帧号为起始帧号，最后一个帧号为结束帧号，或者在帧号能够表征时间先后的情况下，该多个帧号可以以任一种顺序排列。示例性地，假设将相对时间作为帧号，1.mp4中行为1对应的行为发生的帧号包括n1、n2、n3，假设该多个帧号按照时间顺序排序，那么n1为起始帧，n3为结束帧。

可选地，假设以矩形框标注一个图像区域，那么该图像区域以该矩形框的四个顶点坐标表示，假设以三角形框标注一个图像区域，那么该图像区域以该三角形框的三个顶点坐标表示，假设以圆形框标注一个图像区域，那么该图像区域以该圆形框的圆心坐标和半径表示，表1中仅以多边形框为例介绍。

表1

在本申请实施例中，标注信息以标注文件的形式存储在服务器中，或者以其他形式存储在服务器中，标注信息包括行为标签和行为位置之间的对应关系，行为位置包括行为发生的帧号和图像区域，该多个视频段中的每个视频段具有一个或多个行为标签，每个行为标签对应多个帧号，每个帧号对应一个图像区域，该多个帧号包括一个起始帧号和一个结束帧号。

步骤203：显示网络结构和/或训练参数不同的多个初始分析网络模型的性能信息，该多个初始分析网络模型均用于视频中的行为分析。

在本申请实施例中，云平台系统还能够通过用户设备显示多个初始分析网络模型的性能信息，该多个初始分析网络模型均用于视频中的行为分析，该多个初始分析网络模型的网络结构和/或训练参数不同。也即是，云平台系统提供给用户多种模型来选择，每种模型的性能不同，用户可以根据需求来选择合适的模型。

可选地，该多个初始分析网络模型包括网络结构和/或训练参数不同的多个初始图像分析网络模型，以及网络结构和/或训练参数不同的多个初始视频分析网络模型，也即是，本申请实施例提供有两类初始模型，分别为初始图像分析网络模型和初始视频分析网络模型，对于初始图像分析网络模型，又包括多个网络结构和/或训练参数不同的模型，对于初始视频分析网络模型，也包括多个网络结构和/或训练参数不同的模型。

用户设备上显示的性能信息包括模型描述信息、效率信息、精度信息等，用户可以根据需求选择一个初始图像分析网络模型和/或初始视频分析网络模型。示例性地，假设提供3个初始图像分析网络模型和3个初始视频分析网络模型，也即显示6个选项，其中，这3个初始图像分析网络模型的性能信息分别为‘高效率、低精度的图像分析模式’、‘较高效率、较高精度的图像分析模式’、‘低效率、高精度的图像分析模式’，这3个初始视频分析网络模型的性能信息分别为‘高效率、低精度的视频分析模式’、‘较高效率、较高精度的视频分析模式’、‘低效率、高精度的视频分析模式’。除此之外，还可以提示用户单选或者多选，其中，单选一个初始图像分析网络模型，对应的性能信息为‘分析速度快、准确度低’，单选一个初始视频分析网络模型，对应的性能信息为‘分析速度慢，准确度较高’，多选为选择一个初始图像分析网络模型和一个初始视频分析网络模型，对应的性能信息为‘分析速度较高，准确度高’。在该示例中，单选有6种选择，多选有9种组合选择，也即用户共有15种选择。

可选地，在用户设备上先显示三种分析模式选项，分别为图像分析模式、视频分析模式、图像加视频分析模式，这3种模式对应的性能信息分别为‘分析速度快、准确度低’、‘分析速度慢，准确度较高’、‘分析速度较高，准确度高’，用户选择其中一个分析模型选项之后，在用户设备上再显示对应的多个初始图像分析网络模型和/或多个初始视频分析网络模型的提示信息。例如，仍以提供3个初始图像分析网络模型和3个初始视频分析网络模型为例，用户选择图像分析模式后，显示对应的3个初始图像分析网络模型的提示信息，用户选择视频分析模式后，显示对应的3个初始视频分析网络模型的提示信息，用户选择图像加视频分析模式之后，显示对应的9种组合的提示信息。

步骤204：当基于显示的性能信息检测到模型选择操作时，根据该多个视频段以及对应的标注信息，确定该模型选择操作所选择的初始分析网络模型对应的训练数据集。

在本申请实施例中，由前述可知，用户可以基于显示的性能信息来选择模型，当基于显示的性能信息检测到模型选择操作时，云平台系统的服务器根据该多个视频段以及对应的标注信息，确定该模型选择操作所选择的初始分析网络模型对应的训练数据集。

由前述可知，该多个初始分析网络模型包括网络结构和/或训练参数不同的多个初始图像分析网络模型，以及网络结构和/或训练参数不同的多个初始视频分析网络模型，用户的模型选择操作所选择的初始分析网络模型包括一个初始图像分析网络模型和/或视频分析网络模型。基于此，服务器根据该多个视频段以及对应的标注信息，确定图像数据集，将图像数据集作为该模型选择操作所选择的初始图像分析网络模型对应的训练数据集，和/或，根据该多个视频段以及对应的标注信息，确定视频数据集，将视频数据集作为该模型选择操作所选择的初始视频分析网络模型的训练数据集。

也即是，在模型选择操作所选择的初始分析网络模型包括一个初始图像分析网络模型的情况下，训练数据集包括图像数据集。在模型选择操作所选择的初始分析网络模型包括一个初始视频分析网络模型的情况下，训练数据集包括视频数据集。在模型选择操作所选择的初始分析网络模型包括一个初始图像分析网络模型和一个视频分析网络模型的情况下，训练数据集包括图像数据集和视频数据集。

接下来首先介绍根据该多个视频段以及对应的标注信息，确定图像数据集的方法。

由前述可知，视频段的标注信息包括行为标签和行为位置之间的对应关系，行为位置包括行为发生的帧号和图像区域，多个视频段中的每个视频段具有一个或多个行为标签，每个行为标签对应多个帧号，每个帧号对应一个图像区域。

基于此，对于该多个视频段中的第一视频段，服务器提取第一视频段中经过标注的部分或全部的视频图像，得到多个第一视频图像，第一视频段为该多个视频段中的一个，从标注信息包括的对应关系中获取该多个第一视频图像中每个第一视频图像的帧号所对应的行为标签以及行为位置，作为相应的第一视频图像对应的标注信息，将该多个视频段中提取出的视频图像以及对应的标注信息，确定为图像数据集。

示例性地，假设服务器提取视频段中经过标注的全部的视频图像，以表1为例中1.mp4为例，假设1.mp4具有的行为标签包括行为1和行为2，其中，行为1对应的帧号包括n1、n2、n3，行为2对应的帧号包括n3、n4、n5，服务器将1.mp4的视频段中n1、n2、n3、n4、n5对应的视频图像全部提取出来，得到对应的5个视频图像，依次为n1、n2、n3、n4、n5，将行为1以及(x1，y1，x2，y2，…)作为n1对应的标注信息，将行为1以及(x3，y3，x4，y4，…)作为n2对应的标注信息，将行为1以及(x5，y5，x6，y6，…)、行为2(x7，y7，x8，y8，…)作为n3对应的标注信息，将行为2以及(x9，y9，x10，y10，…)作为n4的标注信息，将行为2以及(x11，y11，x12，y12，…)作为n5的标注信息。

需要说明的是，在本申请实施例中，服务器提取视频段中经过标注的部分或全部的视频图像，在服务器提取视频段中经过标注的全部的视频图像的方式中，服务器所确定的图像数据集的数据量很足。在服务器提取第一视频段中经过标注的部分的视频图像的方式中，服务器以随机选择的方式确定提取的经过标注的部分的视频图像，或者，服务器以隔帧的方式提取经过标注的部分的视频图像，由于连续的几帧视频图像存在相同的行为的概率较大，且行为发生的图像范围的重合度也较高，服务器以隔帧的方式提取经过标注的连续的几帧视频图像中的部分视频图像，可以降低所提取的视频图像的相似度，也即减少冗余数据，提高图像数据集的质量。

由上述可知，服务器将视频段中行为发生的全部或部分的视频图像提取出来，将提取的视频图像以及对应的标注信息作为用于训练模型的图像训练集。

接下来介绍根据该多个视频段以及对应的标注信息，确定视频数据集的方法。

由前述可知，视频段的标注信息包括行为标签和行为位置之间的对应关系，行为位置包括行为发生的帧号和图像区域，该多个视频段中的每个视频段具有一个或多个行为标签，每个行为标签对应多个帧号，每个帧号对应一个图像区域，该多个帧号包括一个起始帧号和一个结束帧号。

基于此，对于该多个视频段中的第一视频段，服务器提取第一视频段的各个行为标签所对应的起始帧号和结束帧号之间的视频片段，得到一个或多个第一子视频段，第一视频段为多个视频段中的一个，从标注信息包括的对应关系中获取各个第一子视频段的行为标签所对应的行为位置，将各个第一子视频段的行为标签和对应的行为位置作为相应的第一子视频段对应的标注信息，将该多个视频段中提取出的子视频段以及对应的标注信息，确定为视频数据集。

示例性地，以表1为例中1.mp4为例，假设1.mp4具有的行为标签包括行为1和行为2，行为1对应的起始帧号和结束帧号分别为n1和n3，行为2对应的起始帧号和结束帧号分别为n3和n5，那么，服务器从1.mp4中提取n1至n3之间的视频片段，得到一个子视频段m1(包括n1和n3)，从1.mp4中提取n3至n5之间的视频片段，得到一个子视频段m2(包括n3和n5)，将行为1以及n1(x1，y1，x2，y2，…)、n2(x3，y3，x4，y4，…)、n3(x5，y5，x6，y6，…)作为m1对应的标注信息，将行为2以及n3(x7，y7，x8，y8，…)、n4(x9，y9，x10，y10，…)、n5(x11，y11，x12，y12，…)作为m2对应的标注信息。

可选地，在帧号为相对时间的方式中，服务器将第一视频段的每个行为标签对应的各个帧号均减去起始帧号，得到相应的子视频段对应的帧号。在帧号为序号的方式中，服务器将第一视频段的每个行为标签对应的各个帧号均减去起始帧号再加1，得到相应的子视频段对应的帧号。

由上述可知，服务器将每个视频段中每个行为发生的子视频段提取出来，将提取的子视频段以及对应的标注信息作为用于训练模型的视频数据集。

可选地，上述步骤203也可以在步骤201之前执行，步骤204中的模型选择操作也可以在步骤201之前执行，也即是，先显示多个初始分析网络模型的性能信息，检测用户的模型选择操作，确定出所选择的初始分析网络模型，再显示视频段，检测用户的标注操作，确定标注信息，之后，再根据视频段以及对应的标注信息，确定训练数据集。也即是，图2仅为一种示例性地说明，并不构成对本申请实施例的限定。

可选地，云平台系统还设置有默认配置，在未检测到用户的模型选择操作的情况下，云平台系统根据默认配置确定初始行为分析模型，并根据该多个视频段以及对应的标注信息，确定对应的训练数据集。例如，默认配置为选择一个初始图像分析网络模型和一个初始视频分析网络模型，该初始图像分析网络模型的性能为较高效率、较高精度，该初始视频分析网络模型的性能为较高效率、较高精度。

以上介绍了通过云平台系统确定训练数据集的过程，在本申请实施例中，云平台系统还能够根据确定的训练数据集，对所选择的初始分析网络模型进行训练，得到用于视频中行为分析的行为分析网络模型，接下来对此进行介绍。

由前述可知，模型选择操作所选择的初始图像分析网络模型包括一个初始图像分析网络模型和/或一个初始视频分析网络模型，相应地，训练数据集包括图像数据集和/或视频数据集。基于此，服务器根据图像数据集，对模型选择操作所选择的初始图像分析网络模型进行训练，得到图像行为分析网络模型，和/或，根据视频数据集，对模型选择操作所选择的初始视频分析网络模型进行训练，得到视频行为分析网络模型。

也即是，在用户选择了一个初始图像分析网络模型，训练数据集包括图像数据集的情况下，云平台系统自动训练得到一个图像行为分析网络模型。在用户选择了一个初始视频分析网络模型，训练数据集包括视频数据集的情况下，云平台系统自动训练得到一个视频行为分析网络模型。在用户选择了一个初始图像分析网络模型和一个初始视频分析网络模型的，训练数据集包括图像数据集和视频数据集的情况下，云平台系统自动训练得到一个图像行为分析网络模型和一个视频行为分析网络模型。

可选地，在用户未选择模型，而是按照默认配置确定的初始分析网络模型的情况下，云平台系统自动按照默认配置训练得到相应的模型。

由前述可知，模型选择操作所选择的初始视频分析网络模型的网络结构和训练参数为云平台系统配置的固定数据，可选地，云平台系统还提供训练调整功能，可以由用户调整或者自定义网络结构和/或训练参数。

在本申请实施例中，云平台系统通过用户设备显示该模型选择操作所选择的初始分析网络模型的网络结构和/或训练参数的调整指示信息，当基于调整指示信息检测到调整操作时，按照该调整操作对该模型选择操作所选择的初始分析网络模型的网络结构和/或训练参数进行调整。

示例性地，在用户设备上显示几种网络结构的调整指示信息，假设其中一种为卷积神经网络，所显示的调整指示信息包括卷积层数输入框、卷积核大小输入框、学习步长的调整滑块、迭代次数的调整滑块等，用户可以向输入框中输入数据、拖动调整滑块等方式，来调整卷积神经网络的卷积层数、卷积核大小、学习步长、迭代次数等。

云平台系统按照检测到的调整操作，调整初始分析网络模型的网络结构和/或训练参数，按照调整之后数据训练初始分析网络模型。

可选地，云平台系统中配置有默认训练指标，如准确率、精准率、召回率等指标，如果云平台系统训练得到的行为分析网络模型未达到指标，云平台系统自动调整网络结构和/或训练参数，重新训练初始分析网络模型，直至训练达标后，确定训练完成。

在本申请实施例中，云平台系统还提供模型测试功能，云平台系统通过服务器对该模型选择操作所选择的初始分析网络模型进行训练之后，在用户设备上显示模型测试提示信息，当基于模型测试提示信息检测到确定测试指令时，根据测试数据集，对训练得到的行为分析网络模型进行测试，得到测试结果。之后，在用户设备上显示测试结果，当基于测试结果检测到训练调整指令时，根据训练调整指令，重新训练模型选择操作所选择的初始分析网络模型。

示例性地，云平台系统在训练得到图像行为分析网络模型和/或视频行为分析网络模型之后，通过用户设备显示‘训练已完成，是否进行模型测试’的提示信息，用户可以选择测试模型。用户通过用户设备上传测试数据集到云平台系统的服务器，服务器根据测试数据集对训练得到的行为分析网络模型进行测试。在测试完之后，在用户设备上显示测试结果，例如显示测试用的视频段中分析出的行为发生的位置，显示测试准确率等。

在本申请实施例中，云平台系统还提供模型发布功能，在模型测试通过之后，或者模型训练完成之后，用户可以选择发布模型，以将训练得到的行为分析网络模型用于视频中的行为分析。

可选地，在用户设备上显示模型发布提示信息，当基于模型发布提示信息检测到模型发布指令时，云平台系统将训练得到的行为分析网络模型部署在分析设备上，分析设备为服务器和/或终端设备，该服务器为云平台系统的服务器，或者其他服务器，例如其他的云服务器，终端设备例如智能摄像头。

示例性地，将训练得到的行为分析网络模型发送至云服务器上，在云服务器上部署行为分析网络模型，以提供视频分析的在线云服务。或者，云平台系统提供模型下载服务，用户设备可以从云平台系统的服务器上下载行为分析网络模型到本地，再通过用户设备将行为分析网络模型部署在终端设备上，终端设备如智能摄像头等。又如，云平台系统通过服务器直接将行为分析网络模型发送至终端设备上，以在终端设备上部署。

可选地，在训练得到一个图像行为分析网络模型和一个视频行为分析网络模型的情况下，云平台系统通过服务器将训练得到的两个模型合并为一个模型包，提供下载服务，用户设备可以将服务器中的模型包下载至本地，再通过其他工具将模型包部署在终端设备中，用于视频中的行为分析。

可选地，在得到两个模型的模型包之后，用户也可以选择将其中一个或两个模型部署在终端设备或服务器上。也即是，不论云平台系统是按照用户选择训练得到了两个模型，还是按照默认配置训练得到了两个模型，之后，用户均可以选择部署其中一个模型或者部署两个模型。可选地，用户也可以在部署了两个模型之后，随时选择使用其中的一个模型或两个模型用于视频中的行为分析。

以上介绍了本申请实施例提供的一种训练数据集确定方法，以及训练得到行为分析网络模型的方法，接下来参照图3、图4和图5对本申请实施例提供的云平台系统再次解释说明。

图3是本申请实施例提供的一种云平台系统的基本使用示意图。参见图3，云平台系统的使用过程主要包括数据获取、数据标注、模型训练和模型部署。其中。数据获取包括离线视频数据的获取和在线视频数据的获取，数据标注主要通过云平台系统提供的标注客户端或标注模块实现，以通过用户设备与用户交互来标注视频段，并确定标注信息，例如自动根据标注操作生成标注文件。模型训练通过云平台系统提供的训练平台实现。模型部署包括部署在服务器上，以提供视频中行为分析的在线云服务，和/或，部署在终端设备(如ai(artificialintelligence，人工智能)设备)上，以直接在终端设备提供视频中的行为分析服务。

图4是本申请实施例提供的一种用户操作云平台系统的整体流程图。参见图4，用户操作的整体流程主要包括创建行为分析模型任务(分析任务)、上传数据集(视频段)、数据集标注(确定标注信息)、模型训练(确定训练数据集以及训练模型)、模型测试和模型发布。

图5是本申请实施例提供的一种模型训练过程的示意图。参见图5，云平台系统的服务器根据原始数据集(包括视频段以及对应的标注信息)分别拆分得到图像数据集和视频片段子集(视频数据集)，根据图像数据集训练得到图像分析模型，根据视频片段子集训练得到视频分析模型，之后，将训练得到的两个模型合并为一个行为分析模型包，作为训练好的行为分析网络模型。

由上述可知，本方案提供的云平台系统可以为用户提供可定制的、自动化的模型生产服务，极大提高了行为分析模型的生产效率。

综上所述，在本申请实施例中，提供多个不同的初始分析网络模型给用户选择，自动根据多个视频段以及对应的标注信息，确定用户选择的初始分析网络模型对应的训练数据集，本方案的技术门槛较低，不需要用户有深度学习经验，仅通过简单标注操作以及模型选择操作，即可自动确定出所选择的模型对应的训练数据集，这样，用户可以快速定制得到用于分析特定行为的行为分析模型，定制周期较短。

本申请实施例还提供了一种视频中的行为分析方法，接下来对该方法进行介绍。

图6是本申请实施例提供的一种视频中的行为分析方法的流程图，该方法应用于终端设备或服务器，终端设备或服务器中部署有经过前述实施例提供的模型训练方法得到的行为分析网络模型。以该方法应用于终端设备为例，参见图6，该方法包括如下步骤。

步骤601：获取待进行行为分析的目标视频段。

在本申请实施例中，行为分析网络模型是用户从网络结构和/或训练参数不同的多个初始分析网络模型中选择出初始分析网络模型之后，通过训练数据集训练得到，训练数据集是通过用户对多个视频段的视频图像中的行为进行标注之后确定得到的。也即是，终端设备中部署的行为分析网络模型为前述图2至图5实施例中训练得到的行为分析网络模型，具体训练过程参见前述介绍，这里不再赘述。

在本申请实施例中，如果终端设备具备视频采集功能，如终端设备为智能摄像头、智能手机等，那么终端设备可以直接采集得到待进行行为分析的目标视频段，或者也可以接收其他设备发送的或通过工具(如u盘等)上传的视频段，得到目标视频段。如果终端设备不具备视频采集功能，那么终端设备可以接收其他设备发送的或者通过工具上传的视频段，得到待进行行为分析的目标视频段。也即是，本申请实施例不限定终端设备获取目标视频段的方式。

可选地，对于部署有行为分析网络模型的服务器来说，服务器通过接收其他设备发送的目标视频段，例如接收网络摄像头、手机、电脑等设备发送的待进行行为分析的视频段。

步骤602：通过行为分析网络模型对目标视频段中的行为进行分析，得到行为分析结果。

在本申请实施例中，终端设备通过部署的行为分析网络模型对目标视频段中的行为进行分析，得到行为分析结果。

由前述实施例可知，行为分析模型包括图像行为分析网络模型和/或视频行为分析网络模型，基于此，终端设备通过行为分析网络模型对目标视频段进行分析的实现方式有三种。

第一种实现方式、行为分析网络模型包括图像行为分析网络模型和视频行为分析网络模型，终端设备通过图像行为分析网络模型对目标视频段中的行为进行分析，得到一个或多个候选帧号，根据目标视频段以及该一个或多个候选帧号，确定一个或多个第二子视频段，通过视频行为分析网络模型对该一个或多个第二子视频段中的行为进行分析，得到行为分析结果。

其中，终端设备根据目标视频段以及该一个或多个候选帧号，确定一个或多个第二子视频段的实现方式为：对于该一个或多个候选帧号中的第一候选帧号，提取目标视频段中从第一候选帧号对应的视频图像开始连续的参考帧数或参考时长的视频片段，得到一个第二子视频段，第一候选帧号为该一个或多个候选帧号中的一个。

示例性地，假设参考帧数为16，那么终端设备提取目标视频段中从每个候选帧号对应的视频图像开始连续的16帧视频图像，得到一个子视频段。假设参考时长为10秒或1分钟，那么终端设备提取目标视频段中每个候选帧号对应的视频图像开始连续的10s或1分钟的视频片段，得到一个子视频段。

需要说明的是，图像行为分析网络模型能够分析出目标视频段中存在行为的视频图像，输出存在行为的帧号，作为候选帧号。

可选地，参考帧数或参考时长为用户在终端设备上配置的参数，或者参考帧数或参考时长为云平台系统根据训练所用的视频段的标注信息，通过统计的方式确定的。例如，标注信息包括行为标签和行为位置的对应关系，根据一个行为标签对应的行为位置包括的多个帧号，能够确定该行为发生的总帧数或总时长，统计标注信息中各个行为标签所标注的行为发生的总帧数或总时长，得到多个总帧数或多个总时长，将该多个总帧数或多个总时长的均值(或中值等)作为参考帧数或参考时长。可选地，用户可以随时调整参考帧数或参考时长。

在这种实现方式中，首先通过图像行为分析网络模型初步分析出目标视频段中可能存在行为的子视频段，再通过视频行为分析网络模型对各个子视频段进一步分析，得到行为分析结果，这样，经过两次分析，能够更加精确地分析视频中的行为，且先经过第一次分析筛选出子视频段，可以减少第二次视频分析需要处理的数据量，加快视频分析网络模型的分析速率。

第二种实现方式、行为分析网络模型包括图像行为分析网络模型，终端设备通过图像行为分析网络模型对目标视频段中的行为进行分析，得到行为分析结果。

需要说明的是，图像分析网络模型不仅能输出目标视频段中存在行为的帧号，还能够输出行为标签以及行为发生的图像区域，也即是，行为分析结果包括行为标签以及行为位置。

在第二种实现方式中，仅通过图像分析网络模型以快速分析出目标视频段中可能存在行为的位置，也即分析速率很高。

第三种实现方式、行为分析网络模型包括视频行为分析网络模型，终端设备通过视频行为分析网络模型对目标视频段中的行为进行分析，得到行为分析结果。

需要说明的是，视频分析网络模型能够输出目标视频段中存在行为的行为标签以及行为位置(包括帧号和图像区域)，也即是，行为分析结果包括行为标签以及行为位置。

图7是本申请实施例提供的一种训练数据集确定装置700的结构示意图，该训练数据集确定装置700可以由软件、硬件或者两者的结合实现成为计算机设备的部分或者全部，可选地，该计算机设备可以为前述实施例中云平台系统的用户设备或服务器。请参考图7，该装置700包括：第一显示模块701、第一确定模块702、第二显示模块703和第二确定模块704。

第一显示模块701，用于显示多个视频段中每个视频段包括的视频图像；

第一确定模块702，用于当检测到多个视频段的视频图像中一个或多个行为的标注操作时，确定多个视频段中每个视频段对应的标注信息；

第二显示模块703，用于显示网络结构和/或训练参数不同的多个初始分析网络模型的性能信息，多个初始分析网络模型均用于视频中的行为分析；

第二确定模块704，用于当基于显示的性能信息检测到模型选择操作时，根据多个视频段以及对应的标注信息，确定模型选择操作所选择的初始分析网络模型对应的训练数据集。

可选地，多个初始分析网络模型包括网络结构和/或训练参数不同的多个初始图像分析网络模型，以及网络结构和/或训练参数不同的多个初始视频分析网络模型；

第二确定模块包括：

第一确定单元，用于根据多个视频段以及对应的标注信息，确定图像数据集，将图像数据集作为模型选择操作所选择的初始图像分析网络模型对应的训练数据集；和/或

第二确定单元，用于根据多个视频段以及对应的标注信息，确定视频数据集，将视频数据集作为模型选择操作所选择的初始视频分析网络模型的训练数据集。

可选地，标注信息包括行为标签和行为位置之间的对应关系，行为位置包括行为发生的帧号和图像区域，多个视频段中的每个视频段具有一个或多个行为标签，每个行为标签对应多个帧号，每个帧号对应一个图像区域；

第一确定单元包括：

第一提取子单元，用于对于多个视频段中的第一视频段，提取第一视频段中经过标注的部分或全部的视频图像，得到多个第一视频图像，第一视频段为多个视频段中的一个；

第一获取子单元，用于从对应关系中获取多个第一视频图像中每个第一视频图像的帧号所对应的行为标签以及行为位置，作为相应的第一视频图像对应的标注信息；

第一确定子单元，用于将多个视频段中提取出的视频图像以及对应的标注信息，确定为图像数据集。

可选地，标注信息包括行为标签和行为位置之间的对应关系，行为位置包括行为发生的帧号和图像区域，多个视频段中的每个视频段具有一个或多个行为标签，每个行为标签对应多个帧号，每个帧号对应一个图像区域，多个帧号包括一个起始帧号和一个结束帧号；

第二确定单元包括：

第二提取子单元，用于对于多个视频段中的第一视频段，提取第一视频段的各个行为标签所对应的起始帧号和结束帧号之间的视频片段，得到一个或多个第一子视频段，第一视频段为多个视频段中的一个；

第二获取子单元，用于从对应关系中获取各个第一子视频段的行为标签所对应的行为位置，将各个第一子视频段的行为标签和对应的行为位置作为相应的第一子视频段对应的标注信息；

第二确定子单元，用于将多个视频段中提取出的子视频段以及对应的标注信息，确定为视频数据集。

可选地，该装置700还包括：

第一训练模块，用于根据图像数据集，对模型选择操作所选择的初始图像分析网络模型进行训练，得到图像行为分析网络模型；和/或，

第二训练模块，用于根据视频数据集，对模型选择操作所选择的初始视频分析网络模型进行训练，得到视频行为分析网络模型。

可选地，该装置700还包括：

第三显示模块，用于显示模型选择操作所选择的初始分析网络模型的网络结构和/或训练参数的调整指示信息；

调整模块，用于当基于调整指示信息检测到调整操作时，按照调整操作对模型选择操作所选择的初始分析网络模型的网络结构和/或训练参数进行调整。

可选地，该装置700还包括：

第四显示模块，用于显示模型测试提示信息；

测试模块，用于当基于模型测试提示信息检测到确定测试指令时，根据测试数据集，对训练得到的行为分析网络模型进行测试，得到测试结果；

第五显示模块，用于显示测试结果；

第三训练模块，用于当基于测试结果检测到训练调整指令时，根据训练调整指令，重新训练模型选择操作所选择的初始分析网络模型。

可选地，该装置700还包括：

第六显示模块，用于显示模型发布提示信息；

部署模块，用于当基于模型发布提示信息检测到模型发布指令时，将训练得到的行为分析网络模型部署在分析设备上，分析设备为服务器和/或终端设备。

在本申请实施例中，提供多个不同的初始分析网络模型给用户选择，自动根据多个视频段以及对应的标注信息，确定用户选择的初始分析网络模型对应的训练数据集，本方案的技术门槛较低，不需要用户有深度学习经验，仅通过简单标注操作以及模型选择操作，即可自动确定出所选择的模型对应的训练数据集，这样，用户可以快速定制得到特定行为的行为分析模型，定制周期较短。

需要说明的是：上述实施例提供的训练数据集确定装置在确定训练数据集时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的训练数据集确定装置与训练数据集确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本申请实施例提供的一种视频中的行为分析装置800的结构示意图，该行为分析装置800可以由软件、硬件或者两者的结合实现成为计算机设备的部分或者全部，可选地，该计算机设备为前述实施例中的终端设备或服务器。请参考图8，该装置800包括：获取模块801和分析模块802。

获取模块801，用于获取待进行行为分析的目标视频段；

分析模块802，用于通过行为分析网络模型对目标视频段中的行为进行分析，得到行为分析结果；

其中，行为分析网络模型是用户从网络结构和/或训练参数不同的多个初始分析网络模型中选择出初始分析网络模型之后，通过训练数据集训练得到，训练数据集是通过用户对多个视频段的视频图像中的行为进行标注之后确定得到的。

可选地，行为分析网络模型包括图像行为分析网络模型和视频行为分析网络模型；

分析模块包括：

第一分析单元，用于通过图像行为分析网络模型对目标视频段中的行为进行分析，得到一个或多个候选帧号；

第一确定单元，用于根据目标视频段以及一个或多个候选帧号，确定一个或多个第二子视频段；

第二分析单元，用于通过视频行为分析网络模型对一个或多个第二子视频段中的行为进行分析，得到行为分析结果。

可选地，第一确定单元包括：

提取子单元，用于对于一个或多个候选帧号中的第一候选帧号，提取目标视频段中从第一候选帧号对应的视频图像开始连续的参考帧数或参考时长的视频片段，得到一个第二子视频段，第一候选帧号为一个或多个候选帧号中的一个。

需要说明的是：上述实施例提供的视频中的行为分析装置在分析视频中的行为时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频中的行为分析装置与视频中的行为分析方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本申请实施例提供的一种计算机设备900的结构框图。该计算机设备900可以是智能手机、平板电脑、笔记本电脑或台式电脑等。

通常，计算机设备900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、9核心处理器等。处理器901可以采用dsp(digitalsignalprocessing，数字信号处理)、fpga(field－programmablegatearray，现场可编程门阵列)、pla(programmablelogicarray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(centralprocessingunit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有gpu(graphicsprocessingunit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括ai(artificialintelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的训练数据集确定方法或视频中的行为分析方法。

在一些实施例中，计算机设备900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、触摸显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射rf(radiofrequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它计算机设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括nfc(nearfieldcommunication，近距离无线通信)有关的电路，本申请实施例对此不加以限定。

显示屏905用于显示ui(userinterface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置于计算机设备900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在计算机设备900的不同表面或呈折叠设计；在其他一些实施例中，显示屏905可以是柔性显示屏，设置在计算机设备900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用lcd(liquidcrystaldisplay，液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在计算机设备的前面板，后置摄像头设置在计算机设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位计算机设备900的当前地理位置，以实现导航或lbs(locationbasedservice，基于位置的服务)。定位组件908可以是基于美国的gps(globalpositioningsystem，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源909用于为计算机设备900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以计算机设备900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测计算机设备900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对计算机设备900的3d动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在计算机设备900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在计算机设备900的侧边框时，可以检测用户对计算机设备900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时，由处理器901根据用户对触摸显示屏905的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置计算机设备900的正面、背面或侧面。当计算机设备900上设置有物理按键或厂商logo时，指纹传感器914可以与物理按键或厂商logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制触摸显示屏905的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏905的显示亮度；当环境光强度较低时，调低触摸显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在计算机设备900的前面板。接近传感器916用于采集用户与计算机设备900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与计算机设备900的正面之间的距离逐渐变小时，由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与计算机设备900的正面之间的距离逐渐变大时，由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对计算机设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图10是本申请实施例提供的一种服务器的结构示意图。该服务器可以为上述实施例中的服务器，服务器1000包括中央处理单元(cpu)1001、包括随机存取存储器(ram)1002和只读存储器(rom)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(i/o系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说，大容量存储设备1007可以包括诸如硬盘或者cd-rom驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、eprom、eeprom、闪存或其他固态存储其技术，cd-rom、dvd或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例，服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由cpu执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的训练数据集确定方法或视频中的行为分析方法的指令。

在一些实施例中，还提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中训练数据集确定方法或视频中的行为分析方法的步骤。例如，所述计算机可读存储介质可以是rom、ram、cd-rom、磁带、软盘和光数据存储设备等。

值得注意的是，本申请实施例提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。

也即是，在一些实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的训练数据集确定方法或视频中的行为分析方法的步骤。

应当理解的是，本文提及的“至少一个”是指一个或多个，“多个”是指两个或两个以上。在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，a/b可以表示a或b；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：童俊艳;赵飞;任烨
技术所有人：杭州海康威视数字技术股份有限公司
我是此专利的发明人

上一篇：一种方便升降的服装加工用工作台的制作方法
上一篇：缠绕检测方法、装置、干衣机和介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。