一种视频分类的方法、视频分类模型训练的方法及装置与流程

文档序号：18740351发布日期：2019-09-21 01:42阅读：来源：国知局

技术特征：

1.一种视频分类的方法，其特征在于，包括：

从所述待分类视频中获取目标视频帧所对应的L个前瞻视频帧，其中，所述待分类视频包括T个视频帧，所述L个前瞻视频帧包括所述目标视频帧，所述T为大于1的整数，所述L为大于或等于1，且小于所述T的整数；

通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量，其中，所述计划跳帧向量包括每个前瞻视频帧对应的分值元素，所述分值元素用于表示所述前瞻视频帧的选择情况；

根据所述计划跳帧向量选择所述待分类视频所对应的待分类视频帧，其中，所述待分类视频帧所对应的分值元素为第一分值；

根据所述待分类视频帧，通过所述视频分类模型中的分类器确定所述待分类视频的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述从所述待分类视频中获取目标视频帧所对应的L个前瞻视频帧之后，所述方法还包括：

通过卷积神经网络CNN获取所述L个前瞻视频帧所对应的L个前瞻视频帧特征，其中，每个前瞻视频帧对应一个前瞻视频帧特征；

所述通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量，包括：

通过视频分类模型中的跳帧器获取所述L个前瞻视频帧特征所对应的计划跳帧向量。

3.根据权利要求2所述的方法，其特征在于，所述通过视频分类模型中的跳帧器获取所述L个前瞻视频帧特征所对应的计划跳帧向量，包括：

通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第一估计向量，其中，所述第一估计向量包括L个第一元素，所述第一元素用于表示前瞻视频帧属于边界帧的概率；

通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第二估计向量，其中，所述第二估计向量包括L个第二元素，所述第二元素用于表示前瞻视频帧在所述待分类视频中的重要程度；

根据所述第一估计向量以及所述第二估计向量，确定所述计划跳帧向量。

4.根据权利要求3所述的方法，其特征在于，所述通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第一估计向量，包括：

获取所述跳帧器的第一跳帧器参数以及第二跳帧器参数；

根据所述L个前瞻视频帧特征中的前瞻视频帧特征、所述第一跳帧器参数以及第二跳帧器参数，计算得到所述前瞻视频帧特征所对应的第一元素；

根据L个所述前瞻视频帧特征所对应的第一元素，生成所述第一估计向量。

5.根据权利要求4所述的方法，其特征在于，所述根据所述L个前瞻视频帧特征中的前瞻视频帧特征、所述第一跳帧器参数以及第二跳帧器参数，计算得到所述前瞻视频帧特征所对应的第一元素，包括：

采用如下方式计算所述前瞻视频帧特征所对应的第一元素：

其中，所述表示第i个前瞻视频帧特征所对应的第一元素，i∈{0,1,...,L-1}，所述L表示所述第一估计向量中第一元素的个数，所述Wθ表示所述第一跳帧器参数，所述Wφ表示所述第二跳帧器参数，所述()^T表示转置运算，所述|| ||2表示L2范数，所述xt+i表示第(t+i)个前瞻视频帧特征，所述xt+i+1表示第(t+i+1)个前瞻视频帧特征。

6.根据权利要求3所述的方法，其特征在于，所述通过所述跳帧器获取所述L个前瞻视频帧特征所对应的第二估计向量，包括：

根据所述L个前瞻视频帧特征获取L个注意力值，其中，每个注意力值对应一个前瞻视频帧特征；

获取目标隐状态，其中，所述目标隐状态表示输入至所述分类器的最后一个视频帧所对应的隐状态；

根据注意力值以及所述目标隐状态，计算得到所述前瞻视频帧特征所对应的第二元素；

根据L个所述前瞻视频帧特征所对应的第二元素，生成所述第二估计向量。

7.根据权利要求6所述的方法，其特征在于，所述根据注意力值以及所述目标隐状态，计算得到所述前瞻视频帧特征所对应的第二元素，包括：

采用如下方式计算所述前瞻视频帧特征所对应的第二元素：

其中，所述表示第i个前瞻视频帧特征所对应的第二元素，i∈{0,1,...,L-1}，所述L表示所述第二估计向量中第二元素的个数，所述σ()表示sigmoid函数，所述max()表示取最大值，所述W1表示所述跳帧器的第一参数矩阵，所述W2表示所述跳帧器的第二参数矩阵，所述hm表示所述目标隐状态，所述xt+i表示第(t+i)个前瞻视频帧特征，所述ct+i表示所述第(t+i)个前瞻视频帧特征对应的注意力值。

8.根据权利要求3所述的方法，其特征在于，所述根据所述第一估计向量以及所述第二估计向量，确定计划跳帧向量，包括：

采用如下方式计算所述计划跳帧向量：

其中，所述st表示所述计划跳帧向量，所述fbinarize()表示二值化函数，所述表示所述第一估计向量，所述表示所述第二估计向量。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量之后，所述方法还包括：

若所述计划跳帧向量包括第一分值，则确定所述第一分值所对应的前瞻视频帧属于所述待分类视频帧；

若所述计划跳帧向量包括第二分值，则确定所述第二分值所对应的前瞻视频帧属于待跳过视频帧。

10.根据权利要求1所述的方法，其特征在于，所述从所述待分类视频中获取目标视频帧所对应的L个前瞻视频帧，包括：

从所述待分类视频中获取第一目标视频帧所对应的L个第一前瞻视频帧，其中，所述L个第一前瞻视频帧包括所述第一目标视频帧；

所述通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量，包括：

通过所述视频分类模型中的所述跳帧器获取所述L个第一前瞻视频帧所对应的第一计划跳帧向量；

所述根据所述计划跳帧向量选择所述待分类视频所对应的待分类视频帧，其中，所述待分类视频帧所对应的分值元素为第一分值，包括：

若所述第一计划跳帧向量包括第一分值，则获取第二目标视频帧，其中，所述第二目标视频帧对应于所述第一分值；

根据所述第二目标视频帧获取L个第二前瞻视频帧；

通过所述视频分类模型中的所述跳帧器获取所述L个第二前瞻视频帧所对应的第二计划跳帧向量；

若所述第二计划跳帧向量包括第一分值，则获取第三目标视频帧，其中，所述第三目标视频帧对应于所述第一分值；

将所述第二目标视频帧以及所述第三目标视频帧确定为所述待分类视频帧。

11.一种视频分类模型训练的方法，其特征在于，包括：

获取待训练视频集合，其中，所述待训练视频集合包括至少一个待训练视频；

通过待训练跳帧器获取待训练视频所对应的跳帧预测结果，其中，所述跳帧预测结果表示所述待训练视频中输入至待训练分类器的视频帧；

通过所述待训练分类器获取所述待训练视频所对应的分类预测结果；

根据所述跳帧预测结果以及所述分类预测结果，采用目标损失函数训练得到所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，其中，所述目标损失函数包括第一损失函数以及第二损失函数，所述第一损失函数用于训练所述待训练分类器，所述第二损失函数用于训练所述待训练跳帧器；

根据所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，生成视频分类模型，其中，所述视频分类模型包括跳帧器以及分类器。

12.一种视频分类装置，其特征在于，包括：

获取模块，用于从所述待分类视频中获取目标视频帧所对应的L个前瞻视频帧，其中，所述待分类视频包括T个视频帧，所述L个前瞻视频帧包括所述目标视频帧，所述T为大于1的整数，所述L为大于或等于1，且小于所述T的整数；

所述获取模块，还用于通过视频分类模型中的跳帧器获取所述L个前瞻视频帧所对应的计划跳帧向量，其中，所述计划跳帧向量包括每个前瞻视频帧对应的分值元素，所述分值元素用于表示所述前瞻视频帧的选择情况；

选择模块，用于根据所述获取模块获取的所述计划跳帧向量生成所述待分类视频所对应的目标视频；

确定模块，用于通过所述视频分类模型中的分类器确定所述选择模块生成的所述目标视频的分类结果。

13.一种视频分类模型训练装置，其特征在于，包括：

获取模块，用于获取待训练视频集合，其中，所述待训练视频集合包括至少一个待训练视频；

所述获取模块，还用于通过待训练跳帧器获取待训练视频所对应的跳帧预测结果，其中，所述跳帧预测结果表示所述待训练视频中输入至待训练分类器的视频帧；

所述获取模块，还用于通过所述待训练分类器获取所述待训练视频所对应的分类预测结果；

训练模块，用于根据所述获取模块获取的所述跳帧预测结果以及所述分类预测结果，采用目标损失函数训练得到所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，其中，所述目标损失函数包括第一损失函数以及第二损失函数，所述第一损失函数用于训练所述待训练分类器，所述第二损失函数用于训练所述待训练跳帧器；

选择模块，用于根据所述训练模块训练得到的所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，生成视频分类模型，其中，所述视频分类模型包括跳帧器以及分类器。

14.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述计划跳帧向量选择所述待分类视频所对应的待分类视频帧，其中，所述待分类视频帧所对应的分值元素为第一分值；

根据所述待分类视频帧，通过所述视频分类模型中的分类器确定所述待分类视频的分类结果；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

15.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待训练视频集合，其中，所述待训练视频集合包括至少一个待训练视频；

通过待训练跳帧器获取待训练视频所对应的跳帧预测结果，其中，所述跳帧预测结果表示所述待训练视频中输入至待训练分类器的视频帧；

通过所述待训练分类器获取所述待训练视频所对应的分类预测结果；

根据所述待训练跳帧器的模型参数以及所述待训练分类器模型参数，生成视频分类模型，其中，所述视频分类模型包括跳帧器以及分类器；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

完整全部详细技术资料下载

当前第2页1 2 3