一种视频分类的方法、装置、终端及存储介质与流程

文档序号：26007668发布日期：2021-07-23 21:26阅读：65来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请属于计算机技术领域，尤其涉及一种视频分类的方法、装置、终端及存储介质。

背景技术：

视频分类是指通过分析视频信息，将视频分到其对应的类别中去。视频分类在现实应用中起着重要作用，例如视频分类可应用在视频搜索、视频推荐等情形中。然而传统的视频分类方法分类结果并不准确，因此，急需提高视频分类的准确性。

技术实现要素：

有鉴于此，本申请实施例提供了一种视频分类的方法、装置、终端及存储介质，以解决传统的视频分类方法分类结果不准确的问题。

本申请实施例的第一方面提供了一种视频分类的方法，包括：

获取待处理视频对应的多个单帧图像；

将所述多个单帧图像输入到已训练的全局特征提取模型中处理，得到每个单帧图像对应的标记有全局特征的第一目标图像；所述全局特征包括人体关节点特征、人员属性特征以及场景特征；

基于至少一个所述第一目标图像，生成第一目标视频；

将所述第一目标视频输入到已训练的视频分类模型中处理，得到所述第一目标视频对应的分类结果。

可选的，所述全局特征提取模型包括人体姿态关节点提取模型、人员属性识别模型和场景识别模型；所述将所述多个单帧图像输入到已训练的全局特征提取模型中处理，得到每个单帧图像对应的标记有全局特征的第一目标图像，包括：

针对每个单帧图像，将所述单帧图像输入所述人体姿态关节点提取模型中处理，得到标记有人体关节点特征的第一图像；

将所述单帧图像输入所述人员属性识别模型中处理，得到标记有人员属性特征的第二图像；

将所述单帧图像输入所述场景识别模型中处理，得到标记有场景特征的第三图像；

对于所述第一图像、所述第二图像和所述第三图像，以其中任一图像为基础，将另外两个图像中标记的特征融合至所述任一图像中，得到所述第一目标图像。

可选的，所述针对每个单帧图像，将所述单帧图像输入所述人体姿态关节点提取模型中处理，得到标记有人体关节点特征的第一图像，包括：

通过所述人体姿态关节点提取模型获取每个所述单帧图像对应的人体特征图；

识别并标记所述人体特征图中的各个人体关节点特征；

基于每个所述单帧图像以及每个所述单帧图像对应的各个人体关节点特征，生成每个所述单帧图像对应的第一图像。

可选的，所述针对每个单帧图像，将所述单帧图像输入所述人体姿态关节点提取模型中处理，得到标记有人体关节点特征的第一图像，包括：

通过所述人体姿态关节点提取模型获取每个所述单帧图像对应的人体特征图；

识别并标记所述人体特征图中的各个人体关节点特征；

通过已训练的空间注意力网络为每个所述单帧图像对应的各个人体关节点特征分配权重值；

基于每个所述单帧图像对应的权重值大于第一预设阈值的人体关节点特征以及每个所述单帧图像，生成每个所述单帧图像对应的第一图像。

可选的，所述基于至少一个所述第一目标图像，生成第一目标视频，包括：

通过已训练的时间注意力网络为每个所述第一目标图像分配权重值；

基于权重值大于第二预设阈值的第一目标图像生成所述第一目标视频。

可选的，所述将所述单帧图像输入所述人员属性识别模型中处理，得到标记有人员属性特征的第二图像，包括：

通过所述人员属性识别模型获取所述单帧图像对应的人体图像；

识别并标记所述人体图像中的人员属性特征；

基于所述单帧图像以及所述人员属性特征生成所述第二图像。

可选的，所述将所述单帧图像输入所述场景识别模型中处理，得到标记有场景特征的第三图像，包括：

通过所述场景识别模型提取所述单帧图像中的场景特征；

基于所述场景特征确定所述单帧图像对应的场景类别；

基于所述单帧图像以及所述场景类别生成所述第三图像。

可选的，所述将所述第一目标视频输入到已训练的视频分类模型中处理，得到所述第一目标视频对应的分类结果，包括：

通过所述视频分类模型获取所述第一目标视频对应的语义特征；

对所述语义特征进行分类，得到所述分类结果。

本发明实施例的第二方面提供了一种视频分类的装置，该装置包括：

获取单元，用于获取待处理视频对应的多个单帧图像；

第一处理单元，用于将所述多个单帧图像输入到已训练的全局特征提取模型中处理，得到每个单帧图像对应的标记有全局特征的第一目标图像；所述全局特征包括人体关节点特征、人员属性特征以及场景特征；

生成单元，用于基于至少一个所述第一目标图像，生成第一目标视频；

第二处理单元，用于将所述第一目标视频输入到已训练的视频分类模型中处理，得到所述第一目标视频对应的分类结果。

可选的，所述全局特征提取模型包括人体姿态关节点提取模型、人员属性识别模型和场景识别模型；所述第一处理单元包括：

第一图像生成单元，用于针对每个单帧图像，将所述单帧图像输入所述人体姿态关节点提取模型中处理，得到标记有人体关节点特征的第一图像；

第二图像生成单元，用于将所述单帧图像输入所述人员属性识别模型中处理，得到标记有人员属性特征的第二图像；

第三图像生成单元，用于将所述单帧图像输入所述场景识别模型中处理，得到标记有场景特征的第三图像；

第一目标图像生成单元，用于对于所述第一图像、所述第二图像和所述第三图像，以其中任一图像为基础，将另外两个图像中标记的特征融合至所述任一图像中，得到所述第一目标图像。

可选的，所述第一图像生成单元具体用于：

通过所述人体姿态关节点提取模型获取每个所述单帧图像对应的人体特征图；

识别并标记所述人体特征图中的各个人体关节点特征；

基于每个所述单帧图像以及每个所述单帧图像对应的各个人体关节点特征，生成每个所述单帧图像对应的第一图像。

可选的，所述第一图像生成单元具体用于：

通过所述人体姿态关节点提取模型获取每个所述单帧图像对应的人体特征图；

识别并标记所述人体特征图中的各个人体关节点特征；

通过已训练的空间注意力网络为每个所述单帧图像对应的各个人体关节点特征分配权重值；

基于每个所述单帧图像对应的权重值大于第一预设阈值的人体关节点特征以及每个所述单帧图像，生成每个所述单帧图像对应的第一图像。

可选的，所述生成单元具体用于：

通过已训练的时间注意力网络为每个所述第一目标图像分配权重值；

基于权重值大于第二预设阈值的第一目标图像生成所述第一目标视频。

可选的，所述第二图像生成单元具体用于：

通过所述人员属性识别模型获取所述单帧图像对应的人体图像；

识别并标记所述人体图像中的人员属性特征；

基于所述单帧图像以及所述人员属性特征生成所述第二图像。

可选的，所述第三图像生成单元具体用于：

通过所述场景识别模型提取所述单帧图像中的场景特征；

基于所述场景特征确定所述单帧图像对应的场景类别；

基于所述单帧图像以及所述场景类别生成所述第三图像。

可选的，所述第二处理单元具体用于：

通过所述视频分类模型获取所述第一目标视频对应的语义特征；

对所述语义特征进行分类，得到所述分类结果。

本发明实施例的第三方面提供了一种视频分类的终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持终端执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行以下步骤：

获取待处理视频对应的多个单帧图像；

基于至少一个所述第一目标图像，生成第一目标视频；

将所述第一目标视频输入到已训练的视频分类模型中处理，得到所述第一目标视频对应的分类结果。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待处理视频对应的多个单帧图像；

基于至少一个所述第一目标图像，生成第一目标视频；

将所述第一目标视频输入到已训练的视频分类模型中处理，得到所述第一目标视频对应的分类结果。

本申请实施例提供的一种视频分类的方法、装置、终端及存储介质，具有以下有益效果：

本申请实施例，获取待处理视频对应的多个单帧图像；将多个单帧图像输入到已训练的全局特征提取模型中处理，得到每个单帧图像对应的标记有全局特征的第一目标图像；基于至少一个第一目标图像，生成第一目标视频；将第一目标视频输入到已训练的视频分类模型中处理，得到第一目标视频对应的分类结果。本申请中，通过已训练的全局特征提取模型对单帧图像进行处理，提取到了单帧图像对应的全局特征，即该单帧图像对应的人体关节点特征、人员属性特征以及场景特征，这使得提取到的单帧图像对应的特征非常全面、丰富。进而基于带有全局特征的图像生成目标视频，通过已训练的视频分类模型对该目标视频进行处理时，提取到的语义特征更丰富、更准确；因此基于该语义特征进行分类时，分类结果更准确，从而提升了视频分类的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种视频分类的方法的实现流程图；

图2是本申请另一实施例提供的一种视频分类的方法的实现流程图；

图3是本申请一实施例提供的一种视频分类的装置的示意图；

图4是本申请另一实施例提供的一种视频分类的终端的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

请参见图1，图1是本发明实施例提供的一种视频分类的方法的示意流程图。本实施例中视频分类的方法的执行主体为终端，终端包括但不限于智能手机、平板电脑、计算机、个人数字助理(personaldigitalassistant，pda)等移动终端，还可以包括台式电脑等终端。如图1所示的视频分类的方法可包括：

s101：获取待处理视频对应的多个单帧图像。

待处理视频指需要进行视频分类的视频。终端获取待处理视频对应的多个单帧图像，可以是在获取到待处理视频后，以单帧图像为最小的分割单元，对待处理视频进行分割处理，得到该待处理视频对应的多个单帧图像。例如，待处理视频由64个视频帧构成，每个视频帧相当于一个单帧图像，终端对该视频进行分割处理，得到64个单帧图像。

终端获取待处理视频对应的多个单帧图像，也可以是本终端或者其他终端预先对待处理视频进行分割处理，得到该待处理视频对应的多个单帧图像，本终端获取该待处理视频对应的多个单帧图像。例如，本终端在数据库中获取待处理视频对应的多个单帧图像，或者其他终端将待处理视频对应的多个单帧图像发送至本终端，本终端接收其他终端发送的待处理视频对应的多个单帧图像。此处仅为示例性说明，对此不做限定。

s102：将所述多个单帧图像输入到已训练的全局特征提取模型中处理，得到每个单帧图像对应的标记有全局特征的第一目标图像；所述全局特征包括人体关节点特征、人员属性特征以及场景特征。

每个单帧图像对应的全局特征可以包括该单帧图像对应的人体关节点特征、人员属性特征和场景特征等。其中，人体关节点特征可以是单帧图像中的人体的各个关节点的特征，例如，人体的头、肩、胳膊肘、手腕、手、膝盖、胯、脚腕等这些关节点对应的特征。人员属性特征可以是单帧图像中的人员对应的各个属性，例如，人员的上衣类型、裤子类型、裙子类型、鞋子类型、携带物品种类、头发长短等属性特征。场景特征可以是单帧图像对应的场景类型，例如，自习室场景、办公室场景、操场、交通路口、公交车内、地铁内等场景特征。

第一目标图像是单帧图像经过全局特征提取模型处理后得到的图像，该第一目标图像中标记有全局特征，即标记有人体关节点特征、人员属性特征和场景特征。其中，人体关节点特征可以标记出各个关节点所在的位置以及对应的关节点名称，人员属性特征可在对应的属性上标记出类型，可在第一目标图像中非人体的位置标记场景特征。

可将多个单帧图像依次输入到已训练的全局特征提取模型中处理，全局特征提取模型依次输出每个单帧图像对应的第一目标图像；也可将多个单帧图像乱序输入到已训练的全局特征提取模型中处理，全局特征提取模型按照每个单帧图像的输入顺序对应输出第一目标图像。

示例性的，已训练的全局特征提取模型可以包括人体姿态关节点提取模型、人员属性识别模型和场景识别模型，上述s102可以包括s1021～s1024，具体如下：

s1021：针对每个单帧图像，将所述单帧图像输入所述人体姿态关节点提取模型中处理，得到标记有人体关节点特征的第一图像。

第一图像是单帧图像经过人体姿态关节点提取模型处理后得到的图像，第一图像中标记有人体关节点特征。例如，可以通过人体姿态关节点提取模型先提取单帧图像中的人体特征图，识别人体特征图中的各个人体关节点特征。其中，可通过圆点、方块、描粗、标红等方式标记每个人体关节点，同时还可标记各个人体关节点对应的关节点名称等。将对每个人体关节点的标记映射至单帧图像中，可得到第一图像。

人体姿态关节点提取模型是使用机器学习算法，基于第一样本训练集对初始人体姿态关节点提取网络训练得到。第一样本训练集中包括多个第一样本图像以及与每个第一样本图像对应的标记有人体关节点特征的第一标记图像。

示例性的，终端通过训练好的人体姿态关节点提取模型对每个单帧图像进行处理时，s1021可以包括s10211～s10213，具体如下：

s10211：通过所述人体姿态关节点提取模型获取每个所述单帧图像对应的人体特征图。

针对每个单帧图像，对输入人体姿态关节点提取模型中的单帧图像进行检测，检测出单帧图像中人体所在的位置，并截取出人体所在区域的图像，即得到人体图像。通过人体姿态关节点提取模型中的网络层对人体图像提取人体图像的特征向量，得到对应的人体特征图。

s10212：识别并标记所述人体特征图中的各个人体关节点特征。

人体姿态关节点提取模型可以包括多个卷积层、多个采样层、全连接层。示例性地，第一个卷积层对人体特征图进行卷积处理，提取该人体特征图对应的特征，并基于提取的特征输出一个特征图。第一个卷积层将其输出的特征图输入第一个采样层，第一个采样层对该特征图进行特征选择，即选择该特征图中的人体关节点特征，并基于选择的特征重构新的特征图。第一个采样层将新的特征图传递至第二个卷积层，第二个卷积层对新的特征图进行二次特征提取，并基于提取的特征再次输出特征图，第二个卷积层将再次输出的特征图传递至第二个采样层，第二个采样层进行二次特征选择，即再次选择这个特征图中的人体关节点特征，基于再次选择的特征重构特征图。以此类推，直至人体姿态关节点提取模型中的最后一个采样层对特征图处理完成，此时人体姿态关节点提取模型识别并提取出了人体特征图中所有的人体关节点特征。人体姿态关节点提取模型中的最后一个采样层将最终采样结果传递至全连接层，通过全连接层对人体特征图中所有的人体关节点特征进行标记，并输出标记了各个人体关节点特征之后的图。示例性地，可通过圆点、方块、描粗、标红等方式标记每个人体关节点，同时还可标记各个人体关节点对应的关节点名称等。

s10213：基于每个所述单帧图像以及每个所述单帧图像对应的各个人体关节点特征，生成每个所述单帧图像对应的第一图像。

获取各个人体关节点特征在人体特征图中被标记的位置。将每个人体关节点特征在人体特征图中被标记的位置映射至单帧图像中，生成每个单帧图像对应的第一图像。也可以同时将每个人体关节点特征在人体特征图中被标记的位置以及关节点名称均映射至单帧图像中，生成每个单帧图像对应的第一图像。

示例性的，在另一种实现方式中，终端通过训练好的人体姿态关节点提取模型对每个单帧图像进行处理时，s1021可以包括s10214～s10217。值得说明的是，s10211～s10213与s10214～s10217并列，并非在s10211～s10213后执行s10214～s10217，具体执行方式以实际为准，对此不做限定。s10214～s10217具体如下：

s10214：通过所述人体姿态关节点提取模型获取每个所述单帧图像对应的人体特征图。

s10215：识别并标记所述人体特征图中的各个人体关节点特征。

本实施例中的s10214、s10215与上述s10211、s10212中的执行过程相同，此处不再赘述。

s10216：通过已训练的空间注意力网络为每个所述单帧图像对应的各个人体关节点特征分配权重值。

已训练的空间注意力网络用于为单帧图像中的各个人体关节点特征分配权重值，即该空间注意力网络可根据各个人体关节点在该单帧图像中的不同重要性，为其分配不同的权重值。可在网络中获取已训练好的空间注意力网络应用在本终端上。已训练的空间注意力网络对单帧图像进行初步检测，预测该单帧图像中人体的动作，并根据预测结果为各个人体关节点特征分配权重值。

例如，某个单帧图像中有两个人，站立在右边的人出拳攻击左边的人，左边的人躲避攻击。此时，已训练的空间注意力网络对该单帧图像进行初步检测，预测到该单帧图像中右边人体的动作为出拳攻击，左边人体的动作为躲避拳头。对于该单帧图像中的动作，显然上半身的各个人体关节点更为重要，该空间注意力网络为这些重要的人体关节点特征分配比较大的权重值，如手、头、躯干中心等，对于不重要的人体关节点特征分配比较小的权重值，如膝盖、脚等。其中，具体权重值的大小可预先设定，只需一个单帧图像中所有人体关节点各自对应的权重值总和为1即可。

s10217：基于每个所述单帧图像对应的权重值大于第一预设阈值的人体关节点特征以及每个所述单帧图像，生成每个所述单帧图像对应的第一图像。

第一预设阈值用于与各个人体关节点特征对应的权重值进行比较，根据比较结果可判断每个单帧图像对应的重要人体关节点特征是哪些。第一预设阈值可预先设定、调整，对此不做限定。

针对每个单帧图像，已训练的空间注意力网络对各个人体关节点特征分配不同的权重值后，比较每个权重值与第一预设阈值的大小，将权重值大于第一预设阈值的人体关节点特征进行重点标记。具体的标记方式可以是通过大圆点对权重值比第一预设阈值大的人体关节点特征进行标记，也可以直接将每个人体关节点特征对应的权重值标记在图像中，对此不做限定。其中，大圆点标记是与该图中的小圆点标记相对来说的，即对该图中权重值比第一预设阈值大的人体关节点特征进行大圆点标记，对该图中权重值小于或等于第一预设阈值的人体关节点特征进行小圆点标记。

获取进行重点标记的人体关节点特征在人体特征图中被标记的位置。将每个进行重点标记的人体关节点特征在人体特征图中被标记的位置映射至单帧图像中，生成每个单帧图像对应的第一图像。也可以同时将每个进行重点标记的人体关节点特征在人体特征图中被标记的位置以及关节点名称均映射至单帧图像中，生成每个单帧图像对应的第一图像。

示例性地，还可以是将标记的每个人体关节点特征对应的权重值、人体关节点特征在人体特征图中被标记的位置以及关节点名称均映射至单帧图像中，生成每个单帧图像对应的第一图像。

本实施例中，通过已训练的空间注意力网络每个单帧图像对应的各个人体关节点特征分配了权重值，再基于每个单帧图像对应的权重值大于第一预设阈值的人体关节点特征以及每个单帧图像，生成每个单帧图像对应的第一图像。通过这种方式提取了每个单帧图像中重要的人体关节点特征，这些重要的人体关节点特征可作为后续视频分类的有效特征，进而提升了视频分类的准确性；且由于提取了重要的人体关节点特征，在后续视频分类时，终端可只针对重要的人体关节点特征进行处理，无需对所有的人体关节点特征进行处理，进一步提升了视频分类的速度。

在执行s1021之前，还可包括：基于第一样本训练集对初始人体姿态关节点提取网络进行训练，得到人体姿态关节点提取模型。

具体地，第一样本训练集中包括多个第一样本图像以及与每个第一样本图像对应的标记有人体关节点特征的第一标记图像。将第一样本训练集中的第一样本图像输入到初始人体姿态关节点提取网络中处理，得到每个第一样本图像对应的标记有人体关节点特征的第一标记图像。初始人体姿态关节点提取网络在训练过程中对应的网络结构，与在实际应用过程中使用的人体姿态关节点提取模型对应的网络结构相同。初始人体姿态关节点提取网络对每个第一样本图像的处理过程与人体姿态关节点提取模型对每个单帧图像的处理过程相同，可参考上述步骤s10211～s10213中的描述，此处不再赘述。

根据第一预设损失函数计算初始人体姿态关节点提取网络对第一样本图像进行处理后得到的标记有人体关节点特征的图像，与该第一样本图像在第一样本训练集中对应的第一标记图像之间的第一损失值；在该示例中，可以利用激活函数(sigmod函数)作为损失函数，通过该激活函数计算第一损失值。此处仅为示例性说明，对此不做限定。

在计算得到第一损失值时，判断第一损失值是否大于第一预设阈值，当第一损失值大于第一预设阈值时，调整初始人体姿态关节点提取网络中的参数，并返回执行将第一样本训练集中的第一样本图像输入到初始人体姿态关节点提取网络中处理，得到每个第一样本图像对应的标记有人体关节点特征的第一标记图像的步骤。当第一损失值小于或等于第一预设阈值时，判定当前的初始人体姿态关节点提取网络符合预期要求，停止训练初始人体姿态关节点提取网络。将此时的初始人体姿态关节点提取网络作为训练好的人体姿态关节点提取模型。

s1022：将所述单帧图像输入所述人员属性识别模型中处理，得到标记有人员属性特征的第二图像。

第二图像是单帧图像经过人员属性识别模型处理后得到的图像，第二图像中标记有人员属性特征。人员属性识别模型是使用机器学习算法，基于第二样本训练集对初始人员属性识别网络训练得到。第二样本训练集中包括多个第二样本图像以及与每个第二样本图像对应的标记有人员属性特征的第二标记图像。其中，第二样本图像可与第一样本图像相同，也可不同，对此不做限定。

示例性的，终端通过训练好的人员属性识别模型对每个单帧图像进行处理时，s1022可以包括s10221～s10223，具体如下：

s10221：通过所述人员属性识别模型获取所述单帧图像对应的人体图像。

针对每个单帧图像，对输入人员属性识别模型中的单帧图像进行预处理；获取到每个单帧图像对应的人体图像。具体地，可检测出单帧图像中人体所在的区域，并提取人体所在区域对应的这部分图像，得到该人体图像。

s10222：识别并标记所述人体图像中的人员属性特征。

人员属性识别模型对人体图像进行卷积处理，得到人体图像对应的特征向量1；将该特征向量1均匀切成水平块，对切分后的每个水平块分别进行全局的平均池化，得到特征向量2。对特征向量2进行属性分类，得到人体图像中的人员属性特征。例如，将特征向量2分别输入到多个不同的全连接层进行不同属性的分类，可得到人员的上衣类型、裤子类型、裙子类型、鞋子类型、携带物品种类、头发长短等分类结果，这些分类结果作为人体图像中的人员属性特征。

人员属性识别模型对人体图像中的人员属性特征进行标记，即在人体图像中人员身体的各个位置对应标记人员属性特征。例如，在人体图像中人员的头顶位置标记帽子类型，人员上身位置标记上衣类型，人员下身位置标记裙子类型等。此处仅为示例性说明，对此不做限定。

s10223：基于所述单帧图像以及所述人员属性特征生成所述第二图像。

获取人员属性特征在人体图像中被标记的位置以及被标记的类型，将人员属性特征在人体图像中被标记的位置以及被标记的类型均映射至单帧图像中，生成每个单帧图像对应的第二图像。

在执行s1022之前，还可包括：基于第二样本训练集对初始人员属性识别网络进行训练，得到人员属性识别模型。

具体地，第二样本训练集中包括多个第二样本图像以及与每个第二样本图像对应的标记有人员属性特征的第二标记图像。将第二样本训练集中的第二样本图像输入到初始人员属性识别网络中处理，得到第二样本图像对应的标记有人员属性特征的第二标记图像。初始人员属性识别网络在训练过程中对应的网络结构，与在实际应用过程中使用的人员属性识别模型对应的网络结构相同。初始人员属性识别网络对每个第二样本图像的处理过程与人员属性识别模型对每个单帧图像的处理过程相同，可参考上述步骤s10221～s10223中的描述，此处不再赘述。

根据第二预设损失函数计算初始人员属性识别网络对第二样本图像进行处理后得到的标记有人员属性特征的图像，与该第二样本图像在第二样本训练集中对应的第二标记图像之间的第二损失值；在该示例中，可以利用激活函数作为损失函数，通过该激活函数计算第二损失值。此处仅为示例性说明，对此不做限定。

在计算得到第二损失值时，判断第二损失值是否大于第二预设阈值，当第二损失值大于第二预设阈值时，调整初始人员属性识别网络中的参数，并返回执行将第二样本训练集中的第二样本图像输入到初始人员属性识别网络中处理，得到第二样本图像对应的标记有人员属性特征的第二标记图像的步骤。当第二损失值小于或等于第二预设阈值时，判定当前的初始人员属性识别网络符合预期要求，停止训练初始人员属性识别网络。将此时的初始人员属性识别网络作为训练好的人员属性识别模型。

s1023：将所述单帧图像输入所述场景识别模型中处理，得到标记有场景特征的第三图像。

第三图像是单帧图像经过场景识别模型处理后得到的图像，第三图像中标记有场景特征。场景识别模型是使用机器学习算法，基于第三样本训练集对初始场景识别网络训练得到。第三样本训练集中包括多个第三样本图像以及与每个第三样本图像对应的标记有场景特征的第三标记图像。其中，第三样本图像可与第一样本图像、第二样本图像相同，也可不同，对此不做限定。

示例性的，终端通过训练好的场景识别模型对每个单帧图像进行处理时，s1023可以包括s10231～s10233，具体如下：

s10231：通过所述场景识别模型提取所述单帧图像中的场景特征。

针对每个单帧图像，对输入场景识别模型中的单帧图像进行分割，得到每个单帧图像对应的多个图像块，通过场景识别模型中的网络层对各个图像块进行深度特征提取，得到各个图像块对应的深度特征向量。通过聚类算法对各个深度特征向量进行聚类，得到单帧图像中对应的场景特征。例如，将各个深度特征向量代入至所采用的聚类算法对应的函数中进行计算，得到单帧图像中对应的场景特征。其中，聚类算法可以采用k均值聚类算法(k～meansclusteringalgorithm，k～means)聚类算法、局部聚集描述子向量(vectoroflocallyaggregateddescriptors，vlad)算法等，对此不做限定。

s10232：基于所述场景特征确定所述单帧图像对应的场景类别。

将单帧图像中的场景特征输入至场景识别模型中的全连接层进行分类，得到该场景特征对应的场景类别。例如，自习室场景、办公室场景、操场、交通路口、公交车内、地铁内、会议室、篮球场、足球场、候机厅等。

s10233：基于所述单帧图像以及所述场景类别生成所述第三图像。

获取每个单帧图像对应的场景类别，并在对应的单帧图像中进行标记，生成每个单帧图像对应的第三图像。

在执行s1023之前，还可包括：基于第三样本训练集对初始场景识别网络进行训练，得到场景识别模型。

具体地，第三样本训练集中包括多个第三样本图像以及与每个第三样本图像对应的标记有场景特征的第三标记图像。将第三样本训练集中的第三样本图像输入到初始场景识别网络中处理，得到第三样本图像对应的标记有场景特征的第三标记图像。初始场景识别网络在训练过程中对应的网络结构，与在实际应用过程中使用的场景识别模型对应的网络结构相同。初始场景识别网络对每个第三样本图像的处理过程与场景识别模型对每个单帧图像的处理过程相同，可参考上述步骤s10231～s10233中的描述，此处不再赘述。

根据第三预设损失函数计算初始场景识别网络对第三样本图像进行处理后得到的标记有场景特征的图像，与该第三样本图像在第三样本训练集中对应的第三标记图像之间的第三损失值；在该示例中，可以利用激活函数作为损失函数，通过该激活函数计算第三损失值。此处仅为示例性说明，对此不做限定。

在计算得到第三损失值时，判断第三损失值是否大于第三预设阈值，当第三损失值大于第三预设阈值时，调整初始场景识别网络中的参数，并返回执行将第三样本训练集中的第三样本图像输入到初始场景识别网络中处理，得到第三样本图像对应的标记有场景特征的第三标记图像的步骤。当第三损失值小于或等于第三预设阈值时，判定当前的初始场景识别网络符合预期要求，停止训练初始场景识别网络。将此时的初始场景识别网络作为训练好的场景识别模型。

s1024：对于所述第一图像、所述第二图像和所述第三图像，以其中任一图像为基础，将另外两个图像中标记的特征融合至所述任一图像中，得到所述第一目标图像。

以第一图像、第二图像和第三图像这三个图像中的任一图像为基础，将另外两个图像中标记的特征融合至作为基础的任一图像中，得到第一目标图像。例如，以第一图像为基础，获取人员属性特征在第二图像中被标记的位置以及被标记的类型，并对应添加至第一图像中；获取场景特征在第三图像中被标记的位置以及被标记的类型，并对应添加至第一图像中，即可得到标记有全局特征的第一目标图像。同理，以第二图像为基础，将第一图像和第三图像中标记的特征融合至第二图像中；或者以第三图像为基础，将第一图像和第二图像中标记的特征融合至第三图像中，均可得到标记有全局特征的第一目标图像。

s103：基于至少一个所述第一目标图像，生成第一目标视频。

可基于所有的第一目标图像生成第一目标视频，即基于待处理视频对应的所有单帧图像所对应的第一目标图像，生成第一目标视频。也可基于部分第一目标图像生成第一目标视频。

具体地，获取每个第一目标图像对应的时间，基于各个第一目标图像的时间先后顺序以及各个第一目标图像，生成第一目标视频。示例性地，可获取每个第一目标图像对应的单帧图像在待处理视频中的时间，得到每个第一目标图像对应的时间，基于时间先后顺序对第一目标图像进行排序，组合生成第一目标视频。由于第一目标图像都标记有全局特征，生成的第一目标视频中的各个视频帧中也均标记有全局特征。

s104：将所述第一目标视频输入到已训练的视频分类模型中处理，得到所述第一目标视频对应的分类结果。

视频分类模型是使用机器学习算法，基于第四样本训练集对初始视频分类网络训练得到。第四样本训练集中包括多个视频样本以及与视频样本对应的分类结果。

示例性的，终端通过已训练的视频分类模型对第一目标视频进行处理时，s104可以包括s1041～s1042，具体如下：

s1041：通过所述视频分类模型获取所述第一目标视频对应的语义特征。

视频分类模型中的网络层提取第一目标视频中各个视频帧的全局特征，将各个全局特征输入至全连接层进行处理，得到第一目标视频对应的语义特征。也可以是获取每个视频帧的全局特征，基于每个视频帧的全局特征确定每个视频帧对应的语义特征，在每个视频帧对应的语义特征中选出相同语义特征数量最多的语义特征作为第一目标视频对应的语义特征。例如，第一目标视频中各个视频帧对应的语义特征有“运动员在操场打篮球”、“运动员在操场打架”、“运动员在室内打篮球”等，选择出现次数最多的语义特征作为第一目标视频对应的语义特征。

s1042：对所述语义特征进行分类，得到所述分类结果。

将第一目标视频对应的语义特征输入视频分类模型中的分类器进行分类，得到第一目标视频对应的分类结果，即得到待处理视频对应的分类结果。该分类器在构建过程中会收集大量的不同的语义特征，以及各个语义特征对应的分类结果，因此将第一目标视频对应的语义特征输入该分类器中进行分类处理，即可得到对应的分类结果。

在执行s104之前，还可包括：基于第四样本训练集对初始视频分类网络进行训练，得到视频分类模型。

具体地，第四样本训练集中包括多个视频样本以及与视频样本对应的分类结果。将第四样本训练集中的视频样本输入到初始视频分类网络中处理，得到每个视频样本对应的真实分类结果。初始视频分类网络在训练过程中对应的网络结构，与在实际应用过程中使用的视频分类模型对应的网络结构相同。初始视频分类网络对每个视频样本的处理过程与视频分类模型对第一目标视频的处理过程相同，可参考上述步骤s1041～s1042中的描述，此处不再赘述。

根据第四预设损失函数计算初始视频分类网络对视频样本处理后得到的真实分类结果，与该视频样本在第四样本训练集中对应的分类结果之间的第四损失值；在该示例中，可以利用激活函数作为损失函数，通过该激活函数计算第四损失值。此处仅为示例性说明，对此不做限定。

在计算得到第四损失值时，判断第四损失值是否大于第四预设阈值，当第四损失值大于第四预设阈值时，调整初始视频分类网络中的参数，并返回执行将第四样本训练集中的视频样本输入到初始视频分类网络中处理，得到每个视频样本对应的真实分类结果的步骤。当第四损失值小于或等于第四预设阈值时，判定当前的初始视频分类网络符合预期要求，停止训练初始视频分类网络。将此时的初始视频分类网络作为训练好的视频分类模型。

示例性地，在另一种实现方式中，终端获取到每个单帧图像对应的标记有全局特征的第一目标图像后，将这些第一目标图像输入至长短期记忆网络(longshort～termmemory，lstm)中进行处理，得到待处理视频对应的语义特征，对该语义特征进行分类，得到待处理视频对应的分类结果。具体地，lstm根据每个第一目标图像对应的时间进行排序，lstm提取第一个第一目标图像中的全局特征并传递至第二个第一目标图像中。第二个第一目标图像融合前一个第一目标图像的全局特征，并将融合结果特征传递至第三个第一目标图像。第三个第一目标图像融合第二个第一目标图像的融合结果特征，并将融合结果传递至第四个第一目标图像。以此类推，直至对所有的第一目标图像处理完毕，此时最后一个第一目标图像对应的融合特征融合了前面所有第一目标图像中的全局特征，该融合特征可代表待处理视频对应的语义特征。通过s1042中的方式对该语义特征进行分类，得到待处理视频对应的分类结果。

本实施例中，通过已训练的全局特征提取模型对单帧图像进行处理，提取到了单帧图像对应的全局特征，即该单帧图像对应的人体关节点特征、人员属性特征以及场景特征，这使得提取到的单帧图像对应的特征非常全面、丰富。进而基于带有全局特征的图像生成目标视频，通过已训练的视频分类模型对该目标视频进行处理时，提取到的语义特征更丰富、更准确；因此基于该语义特征进行分类时，分类结果更准确，从而提升了视频分类的准确度。

请参见图2，图2是本发明另一实施例提供的一种视频分类的方法的示意流程图。本实施例中视频分类的方法的执行主体为终端，终端包括但不限于智能手机、平板电脑、计算机、个人数字助理等移动终端，还可以包括台式电脑等终端。

本实施例与图1对应的实施例的区别为s203～s204，本实施例中s201、s202、s205与上一实施例中的s101、s102、s104完全相同，具体请参阅上一实施例中s101、s102、s104的相关描述，此处不赘述。

s201：获取待处理视频对应的多个单帧图像。

s202：将所述多个单帧图像输入到已训练的全局特征提取模型中处理，得到每个单帧图像对应的标记有全局特征的第一目标图像；所述全局特征包括人体关节点特征、人员属性特征以及场景特征。

s203：通过已训练的时间注意力网络为每个所述第一目标图像分配权重值。

已训练的时间注意力网络用于为每个第一目标图像分配权重值，即该时间注意力网络可根据各个第一目标图像的不同重要性，为其分配不同的权重值。可在网络中获取已训练好的时间注意力网络应用在本终端上。已训练的时间注意力网络对所有第一目标图像中的人员做出的动作进行预测，得到预测动作，基于预测动作以及待处理视频的时长确认所有第一目标图像中的重要图像，为这些重要图像分配的权重值大，其余的非重要的第一目标图像分配的权重值小。例如，有20个第一目标图像，时间注意力网络对这20个第一目标图像中的人员所做的动作进行预测，得到的预测动作为出拳攻击，获取到待处理视频的时长为5秒，判断第2秒到第4秒所对应的第一目标图像比较重要，如若获取到这几秒时间对应的是第6个第一目标图像至第12个第一目标图像，则为第6个第一目标图像至第12个第一目标图像分配的权重值大，为第1～5个第一目标图像、以及第13～20个第一目标图像分配的权重值小。其中，具体权重值的大小可预先设定，只需所有第一目标图像对应的权重值总和为1即可。

s204：基于权重值大于第二预设阈值的第一目标图像生成所述第一目标视频。

第二预设阈值用于与各个第一目标图像对应的权重值进行比较，根据比较结果可判断重要的第一目标图像是哪些。第二预设阈值可预先设定、调整，对此不做限定。

已训练的时间注意力网络对每个第一目标图像分配权重值后，比较每个权重值与第二预设阈值的大小，将权重值大于第二预设阈值的第一目标图像提取出来，基于提取出来的第一目标图像生成第一目标视频。具体的生成第一目标视频的方法已在s103中描述，此处不再赘述。

本实施例中，通过已训练的时间注意力网络提取了所有第一目标图像中的重要图像，在后续视频分类时，终端可只针对基于重要图像生成的视频进行处理，无需对所有的第一目标图像进行处理，进一步提升了视频分类速度。

s205：将所述第一目标视频输入到已训练的视频分类模型中处理，得到所述第一目标视频对应的分类结果。

为了便于理解，对图1对应的实施例以及图2对应的实施例中的实现方式进行概括说明。示例性地，一种可实现方式为：获取待处理视频对应的多个单帧图像；将多个单帧图像输入到已训练的全局特征提取模型中处理，得到每个单帧图像对应的标记有全局特征的第一目标图像；基于每个单帧图像对应的第一目标图像，生成第一目标视频；将第一目标视频输入到已训练的视频分类模型中处理，得到第一目标视频对应的分类结果，即得到待处理视频对应的分类结果。

其中，将多个单帧图像输入到已训练的全局特征提取模型中处理，得到每个单帧图像对应的标记有全局特征的第一目标图像，包括：通过人体姿态关节点提取模型获取每个单帧图像对应的人体特征图；识别并标记人体特征图中的各个人体关节点特征；基于每个单帧图像以及每个单帧图像对应的各个人体关节点特征，生成每个单帧图像对应的第一图像；将单帧图像输入所述人员属性识别模型中处理，得到标记有人员属性特征的第二图像；将单帧图像输入所述场景识别模型中处理，得到标记有场景特征的第三图像；对于第一图像、第二图像和第三图像，以其中任一图像为基础，将另外两个图像中标记的特征融合至所述任一图像中，得到第一目标图像。

该实现方式中，通过已训练的全局特征提取模型对单帧图像进行处理，提取到了单帧图像对应的全局特征，即该单帧图像对应的人体关节点特征、人员属性特征以及场景特征，这使得提取到的单帧图像对应的特征非常全面、丰富。进而基于带有全局特征的图像生成目标视频，通过已训练的视频分类模型对该目标视频进行处理时，提取到的语义特征更丰富、更准确；因此基于该语义特征进行分类时，分类结果更准确，从而提升了视频分类的准确度。

示例性地，另一种可实现方式为：获取待处理视频对应的多个单帧图像；将多个单帧图像输入到已训练的全局特征提取模型中处理，得到每个单帧图像对应的标记有全局特征的第一目标图像；基于每个单帧图像对应的第一目标图像，生成第一目标视频；将第一目标视频输入到已训练的视频分类模型中处理，得到第一目标视频对应的分类结果，即得到待处理视频对应的分类结果。

其中，将多个单帧图像输入到已训练的全局特征提取模型中处理，得到每个单帧图像对应的标记有全局特征的第一目标图像，包括：通过人体姿态关节点提取模型获取每个单帧图像对应的人体特征图；识别并标记人体特征图中的各个人体关节点特征；通过已训练的空间注意力网络为每个单帧图像对应的各个人体关节点特征分配权重值；基于每个单帧图像对应的权重值大于第一预设阈值的人体关节点特征以及每个单帧图像，生成每个单帧图像对应的第一图像；将单帧图像输入所述人员属性识别模型中处理，得到标记有人员属性特征的第二图像；将单帧图像输入所述场景识别模型中处理，得到标记有场景特征的第三图像；对于第一图像、第二图像和第三图像，以其中任一图像为基础，将另外两个图像中标记的特征融合至所述任一图像中，得到第一目标图像。

该实现方式在上一实现方式的基础上引入了已训练的空间注意力网络，通过该空间注意力网络提取了每个单帧图像中重要的人体关节点特征，这些重要的人体关节点特征可作为后续视频分类的有效特征，进而提升了视频分类的准确性；由于提取了重要的人体关节点特征，在后续视频分类时，终端可只针对重要的人体关节点特征进行处理，无需对所有的人体关节点特征进行处理，使得在提升视频分类准确度的基础上进一步提升了视频分类的速度。

示例性地，又一种可实现方式为：获取待处理视频对应的多个单帧图像；将多个单帧图像输入到已训练的全局特征提取模型中处理，得到每个单帧图像对应的标记有全局特征的第一目标图像；通过已训练的时间注意力网络为每个第一目标图像分配权重值；基于权重值大于第二预设阈值的第一目标图像生成第一目标视频；将第一目标视频输入到已训练的视频分类模型中处理，得到第一目标视频对应的分类结果，即得到待处理视频对应的分类结果。

该实现方式中，引入了已训练的时间注意力网络，通过该时间注意力网络提取了所有第一目标图像中的重要图像，在后续视频分类时，终端可只针对基于重要图像生成的视频进行处理，无需对所有的第一目标图像进行处理，进一步提升了视频分类速度。

示例性地，再一种可实现方式为：获取待处理视频对应的多个单帧图像；将多个单帧图像输入到已训练的全局特征提取模型中处理，得到每个单帧图像对应的标记有全局特征的第一目标图像；通过已训练的时间注意力网络为每个第一目标图像分配权重值；基于权重值大于第二预设阈值的第一目标图像生成第一目标视频；将第一目标视频输入到已训练的视频分类模型中处理，得到第一目标视频对应的分类结果，即得到待处理视频对应的分类结果。

该实现方式中，引入了已训练的空间注意力网络和已训练的时间注意力网络，前者用于提取每个单帧图像中重要的人体关节点特征，后者用于提取所有第一目标图像中的重要图像，这两个的配合获取到了可作为视频分类的有效特征以及重要图像，减小了非重要特征以及非重要图像的干扰性，使得视频分类的准确性进一步提升；且无需终端对所有的人体关节点特征以及所有的第一目标图像进行处理，使视频分类的速度得到了更进一步地提升。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

请参见图3，图3是本申请一实施例提供的一种视频分类的装置的示意图。该视频分类的装置包括各单元用于执行图1、图2对应的实施例中的各步骤。具体请参阅图1、图2各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图3，包括：

获取单元310，用于获取待处理视频对应的多个单帧图像；

第一处理单元320，用于将所述多个单帧图像输入到已训练的全局特征提取模型中处理，得到每个单帧图像对应的标记有全局特征的第一目标图像；所述全局特征包括人体关节点特征、人员属性特征以及场景特征；

生成单元330，用于基于至少一个所述第一目标图像，生成第一目标视频；

第二处理单元340，用于将所述第一目标视频输入到已训练的视频分类模型中处理，得到所述第一目标视频对应的分类结果。

可选的，所述全局特征提取模型包括人体姿态关节点提取模型、人员属性识别模型和场景识别模型；所述第一处理单元320包括：

第一图像生成单元，用于针对每个单帧图像，将所述单帧图像输入所述人体姿态关节点提取模型中处理，得到标记有人体关节点特征的第一图像；

第二图像生成单元，用于将所述单帧图像输入所述人员属性识别模型中处理，得到标记有人员属性特征的第二图像；

第三图像生成单元，用于将所述单帧图像输入所述场景识别模型中处理，得到标记有场景特征的第三图像；

可选的，所述第一图像生成单元具体用于：

通过所述人体姿态关节点提取模型获取每个所述单帧图像对应的人体特征图；

识别并标记所述人体特征图中的各个人体关节点特征；

基于每个所述单帧图像以及每个所述单帧图像对应的各个人体关节点特征，生成每个所述单帧图像对应的第一图像。

可选的，所述第一图像生成单元具体用于：

通过所述人体姿态关节点提取模型获取每个所述单帧图像对应的人体特征图；

识别并标记所述人体特征图中的各个人体关节点特征；

通过已训练的空间注意力网络为每个所述单帧图像对应的各个人体关节点特征分配权重值；

基于每个所述单帧图像对应的权重值大于第一预设阈值的人体关节点特征以及每个所述单帧图像，生成每个所述单帧图像对应的第一图像。

可选的，所述生成单元330具体用于：

通过已训练的时间注意力网络为每个所述第一目标图像分配权重值；

基于权重值大于第二预设阈值的第一目标图像生成所述第一目标视频。

可选的，所述第二图像生成单元具体用于：

通过所述人员属性识别模型获取所述单帧图像对应的人体图像；

识别并标记所述人体图像中的人员属性特征；

基于所述单帧图像以及所述人员属性特征生成所述第二图像。

可选的，所述第三图像生成单元具体用于：

通过所述场景识别模型提取所述单帧图像中的场景特征；

基于所述场景特征确定所述单帧图像对应的场景类别；

基于所述单帧图像以及所述场景类别生成所述第三图像。

可选的，所述第二处理单元340具体用于：

通过所述视频分类模型获取所述第一目标视频对应的语义特征；

对所述语义特征进行分类，得到所述分类结果。

请参见图4，图4是本申请另一实施例提供的一种视频分类的终端的示意图。如图4所示，该实施例的终端4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机可读指令42。所述处理器40执行所述计算机可读指令42时实现上述各个视频分类的方法实施例中的步骤，例如图1所示的s101至s104。或者，所述处理器40执行所述计算机可读指令42时实现上述各实施例中各单元的功能，例如图3所示单元310至340功能。

示例性的，所述计算机可读指令42可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器41中，并由所述处理器40执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令42在所述终端4中的执行过程。例如，所述计算机可读指令42可以被分割为获取单元、第一处理单元、生成单元以及第二处理单元，各单元具体功能如上所述。

所述视频分类的终端可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端4的示例，并不构成对终端4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端还可以包括输入输出终端、网络接入终端、总线等。

所称处理器40可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field～programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述终端4的内部存储单元，例如终端4的硬盘或内存。所述存储器41也可以是所述终端4的外部存储终端，例如所述终端4上配备的插接式硬盘，智能存储卡(smartmediacard，smc)，安全数字(securedigital，sd)卡，闪存卡(flashcard)等。进一步地，所述存储器41还可以既包括所述终端4的内部存储单元也包括外部存储终端。所述存储器41用于存储所述计算机可读指令以及所述终端所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神范围，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董强;李雪;孙芯彤
技术所有人：西安天和防务技术股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。