视频质量识别模型的训练方法、视频质量识别方法和装置与流程

文档序号:31884589发布日期:2022-10-22 00:01阅读:34来源:国知局
视频质量识别模型的训练方法、视频质量识别方法和装置与流程

1.本公开涉及视频处理技术领域,尤其涉及一种视频质量识别模型的训练方法、视频质量识别方法、装置、电子设备、存储介质和计算机程序产品。


背景技术:

2.随着视频处理技术的发展,出现了一种对视频质量进行识别,以过滤掉视频质量较低的视频,并推荐视频质量较高的视频的技术。其中,对视频质量进行识别,主要是为了识别视频的低质特征。
3.相关技术中,目前的视频质量识别方法,主要是通过训练后的视频质量识别模型来实现;该模型在训练时,通常是对某个预训练模型进行微调,使得微调后的模型能够对视频质量进行预测,则将该微调后的模型作为训练后的视频质量识别模型。但是,视频的低质特征包括很多类型,而该预训练模型的功能较为局限,只能关注某个特定的视频低质特征,导致微调后的模型输出的视频质量预测结果不够准确,进而导致视频质量的识别准确率较低。


技术实现要素:

4.本公开提供一种视频质量识别模型的训练方法、视频质量识别方法、装置、电子设备、存储介质和计算机程序产品,以至少解决相关技术中视频质量的识别准确率较低的问题。本公开的技术方案如下:
5.根据本公开实施例的第一方面,提供一种视频质量识别模型的训练方法,包括:
6.获取样本视频和所述样本视频对应的视频质量标注结果;
7.将所述样本视频输入预训练模型组合,得到所述样本视频的第一视频质量特征和第一视频质量预测结果,以及将所述样本视频输入待训练的视频质量识别模型,得到所述样本视频的第二视频质量特征和第二视频质量预测结果;所述预训练模型组合包括至少两个与视频质量关联的目标预训练模型;所述第一视频质量特征根据各个目标预训练模型对应输出的所述样本视频的第一目标视频特征得到,所述第一视频质量预测结果根据所述第一视频质量特征得到;不同目标预训练模型所输出的第一目标视频特征不相同;
8.根据所述第一视频质量预测结果与所述视频质量标注结果之间的差异,所述第二视频质量预测结果与所述视频质量标注结果之间的差异,以及所述第一视频质量特征与所述第二视频质量特征之间的差异,对所述待训练的视频质量识别模型进行训练,得到训练完成的视频质量识别模型。
9.在一示例性实施例中,所述将所述样本视频输入目标预训练模型组合,得到所述样本视频的第一视频质量特征和第一视频质量预测结果,包括:
10.分别将所述样本视频输入各个目标预训练模型,得到所述样本视频的各个第一目标视频特征;
11.根据所述各个第一目标视频特征对应的重要性参数,对所述各个第一目标视频特
征进行融合处理,得到所述样本视频的第一视频质量特征;
12.对所述第一视频质量特征进行分类处理,得到所述样本视频的第一视频质量分类结果,作为所述第一视频质量预测结果。
13.在一示例性实施例中,所述分别将所述样本视频输入各个目标预训练模型,得到所述样本视频的各个第一目标视频特征,包括:
14.分别将所述样本视频输入各个目标预训练模型,得到所述样本视频的各个第一初始视频特征;
15.对所述样本视频的各个第一初始视频特征进行维度转换处理,得到所述样本视频的各个第一目标视频特征。
16.在一示例性实施例中,在根据所述各个第一目标视频特征对应的重要性参数,对所述各个第一目标视频特征进行融合处理,得到所述样本视频的第一视频质量特征之前,还包括:
17.针对所述样本视频的每一第一初始视频特征,向门控网络输入所述每一第一初始视频特征,得到用于输出所述每一第一初始视频特征的目标预训练模型的重要性参数;
18.将每一目标预训练模型的重要性参数,确认为所述每一目标预训练模型对应输出的第一目标视频特征的重要性参数。
19.在一示例性实施例中,所述分别将所述样本视频输入各个目标预训练模型,得到所述样本视频的各个第一初始视频特征,包括:
20.针对各个目标预训练模型,在所述目标预训练模型属于视频模型的情况下,将所述样本视频输入所述目标预训练模型,得到所述样本视频的第一初始视频特征;
21.在所述目标预训练模型属于图像模型的情况下,将所述样本视频的各个样本视频帧输入所述目标预训练模型,得到所述各个样本视频帧的图像特征,对所述各个样本视频帧的图像特征进行融合处理,得到所述样本视频的第一初始视频特征。
22.在一示例性实施例中,所述将所述样本视频输入待训练的视频质量识别模型,得到所述样本视频的第二视频质量特征和第二视频质量预测结果,包括:
23.将所述样本视频输入待训练的视频质量识别模型,得到所述样本视频的第二初始视频特征;
24.将所述样本视频的第二初始视频特征进行维度转换处理,得到所述样本视频的第二目标视频特征,作为所述样本视频的第二视频质量特征;所述第二目标视频特征的维度与所述第二初始视频特征的维度不相同;
25.对所述第二视频质量特征进行分类处理,得到所述样本视频的第二视频质量分类结果,作为所述第二视频质量预测结果。
26.在一示例性实施例中,所述根据所述第一视频质量预测结果与所述视频质量标注结果之间的差异,所述第二视频质量预测结果与所述视频质量标注结果之间的差异,以及所述第一视频质量特征与所述第二视频质量特征之间的差异,对所述待训练的视频质量识别模型进行训练,得到训练完成的视频质量识别模型,包括:
27.根据所述第一视频质量预测结果与所述视频质量标注结果之间的差异,得到第一损失值,根据所述第二视频质量预测结果与所述视频质量标注结果之间的差异,得到第二损失值,以及根据所述第一视频质量特征与所述第二视频质量特征之间的差异,得到第三
损失值;将所述第一损失值、所述第二损失值和所述第三损失值进行融合处理,得到目标损失值;
28.根据所述目标损失值,对所述待训练的视频质量识别模型进行训练,直到达到训练结束条件;达到所述训练结束条件的训练后的视频质量识别模型为所述训练完成的视频质量识别模型。
29.在一示例性实施例中,所述方法还包括:
30.构建预训练模型库;所述预训练模型库中包括多个与视频质量关联的预训练模型;每个预训练模型的模型结构之间的结构差异满足预设条件;
31.针对所述预训练模型库中的每一个预训练模型,在利用所述预训练模型得到的学生模型的视频质量识别效果高于利用所述预训练模型得到的更新模型的视频质量识别效果的情况下,将所述预训练模型作为候选预训练模型;其中,所述学生模型为以所述预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的,所述更新模型为对所述预训练模型进行训练后得到的;
32.根据所述候选预训练模型,构建候选预训练模型集合;
33.从所述候选预训练模型集合中,筛选出所述目标预训练模型;
34.根据所述目标预训练模型,构建所述预训练模型组合。
35.在一示例性实施例中,所述从所述候选预训练模型集合中,筛选出所述目标预训练模型,包括:
36.从所述候选预训练模型集合中,筛选出第一视频质量识别效果最高的k个候选预训练模型,从所述k个候选预训练模型中,筛选出第二视频质量识别效果最高的候选预训练模型,作为目标预训练模型;
37.其中,所述第一视频质量识别效果为利用候选预训练模型得到的第一学生模型的视频质量识别效果,所述第一学生模型为以所述候选预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的;所述第二视频质量识别效果为利用筛选出的候选预训练模型和筛选出的目标预训练模型得到的第二学生模型的视频质量识别效果;所述第二学生模型为以所述筛选出的候选预训练模型和所述筛选出的目标预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的;k为正整数;
38.在一示例性实施例中,所述方法还包括:
39.在所述目标预训练模型的数量小于n时,从所述候选预训练模型集合中删除所述目标预训练模型,得到更新后的候选预训练模型集合;
40.将所述更新后的候选预训练模型集合,作为所述候选预训练模型集合,并跳转至所述从所述候选预训练模型集合中,筛选出第一视频质量识别效果最高的k个候选预训练模型,从所述k个候选预训练模型中,筛选出第二视频质量识别效果最高的候选预训练模型,作为目标预训练模型的步骤,直到筛选出的目标预训练模型的数量为n;n为正整数。
41.根据本公开实施例的第二方面,提供一种视频质量识别方法,包括:
42.获取待识别视频;
43.将所述待识别视频输入训练完成的视频质量识别模型,得到所述待识别视频的视频质量预测结果;所述训练完成的视频质量识别模型为采用样本视频、所述样本视频的视频质量标注结果、第一视频质量特征和第一视频质量预测结果,对待训练的视频质量识别
模型训练得到的;所述第一视频质量特征根据至少两个与视频质量关联的目标预训练模型对应输出的所述样本视频的第一目标视频特征得到,所述第一视频质量预测结果根据所述第一视频质量特征得到;不同目标预训练模型所输出的第一目标视频特征不相同。
44.在一示例性实施例中,所述将所述待识别视频输入训练完成的视频质量识别模型,得到所述待识别视频的视频质量预测结果,包括:
45.将所述待识别视频输入训练完成的视频质量识别模型,得到所述待识别视频的初始视频特征;
46.将所述初始视频特征进行维度转换处理,得到所述待识别视频的目标视频特征,作为所述待识别视频的视频质量特征;
47.对所述视频质量特征进行分类处理,得到所述待识别视频的视频质量分类结果,作为所述视频质量预测结果。
48.根据本公开实施例的第三方面,提供一种视频质量识别模型的训练装置,包括:
49.样本获取单元,被配置为执行获取样本视频和所述样本视频对应的视频质量标注结果;
50.样本处理单元,被配置为执行将所述样本视频输入预训练模型组合,得到所述样本视频的第一视频质量特征和第一视频质量预测结果,以及将所述样本视频输入待训练的视频质量识别模型,得到所述样本视频的第二视频质量特征和第二视频质量预测结果;所述预训练模型组合包括至少两个与视频质量关联的目标预训练模型;所述第一视频质量特征根据各个目标预训练模型对应输出的所述样本视频的第一目标视频特征得到,所述第一视频质量预测结果根据所述第一视频质量特征得到;不同目标预训练模型所输出的第一目标视频特征不相同;
51.模型训练单元,被配置为执行根据所述第一视频质量预测结果与所述视频质量标注结果之间的差异,所述第二视频质量预测结果与所述视频质量标注结果之间的差异,以及所述第一视频质量特征与所述第二视频质量特征之间的差异,对所述待训练的视频质量识别模型进行训练,得到训练完成的视频质量识别模型。
52.在一示例性实施例中,所述样本处理单元,还被配置为执行分别将所述样本视频输入各个目标预训练模型,得到所述样本视频的各个第一目标视频特征;根据所述各个第一目标视频特征的重要性参数,对所述各个第一目标视频特征进行融合处理,得到所述样本视频的第一视频质量特征;对所述第一视频质量特征进行分类处理,得到所述样本视频的第一视频质量分类结果,作为所述第一视频质量预测结果。
53.在一示例性实施例中,所述样本处理单元,还被配置为执行分别将所述样本视频输入各个目标预训练模型,得到所述样本视频的各个第一初始视频特征;对所述样本视频的各个第一初始视频特征进行维度转换处理,得到所述样本视频的各个第一目标视频特征。
54.在一示例性实施例中,所述装置还包括参数确定单元,被配置为执行针对所述样本视频的每一第一初始视频特征,向门控网络输入所述每一第一初始视频特征,得到用于输出所述每一第一初始视频特征的目标预训练模型的重要性参数;将每一目标预训练模型的重要性参数,确认为所述每一目标预训练模型对应输出的第一目标视频特征的重要性参数。
55.在一示例性实施例中,所述样本处理单元,还被配置为执行针对各个目标预训练模型,在所述目标预训练模型属于视频模型的情况下,将所述样本视频输入所述目标预训练模型,得到所述样本视频的第一初始视频特征;在所述目标预训练模型属于图像模型的情况下,将所述样本视频的各个样本视频帧输入所述目标预训练模型,得到所述各个样本视频帧的图像特征,对所述各个样本视频帧的图像特征进行融合处理,得到所述样本视频的第一初始视频特征。
56.在一示例性实施例中,所述样本处理单元,还被配置为执行将所述样本视频输入待训练的视频质量识别模型,得到所述样本视频的第二初始视频特征;将所述样本视频的第二初始视频特征进行维度转换处理,得到所述样本视频的第二目标视频特征,作为所述样本视频的第二视频质量特征;所述第二目标视频特征的维度与所述第二初始视频特征的维度不相同;对所述第二视频质量特征进行分类处理,得到所述样本视频的第二视频质量分类结果,作为所述第二视频质量预测结果。
57.在一示例性实施例中,所述模型训练单元,还被配置为执行根据所述第一视频质量预测结果与所述视频质量标注结果之间的差异,得到第一损失值,根据所述第二视频质量预测结果与所述视频质量标注结果之间的差异,得到第二损失值,以及根据所述第一视频质量特征与所述第二视频质量特征之间的差异,得到第三损失值;将所述第一损失值、所述第二损失值和所述第三损失值进行融合处理,得到目标损失值;根据所述目标损失值,对所述待训练的视频质量识别模型进行训练,直到达到训练结束条件;达到所述训练结束条件的训练后的视频质量识别模型为所述训练完成的视频质量识别模型。
58.在一示例性实施例中,所述装置还包括模型筛选单元,被配置为执行构建预训练模型库;所述预训练模型库中包括多个与视频质量关联的预训练模型;每个预训练模型的模型结构之间的结构差异满足预设条件;针对所述预训练模型库中的每一个预训练模型,在利用所述预训练模型得到的学生模型的视频质量识别效果高于利用所述预训练模型得到的更新模型的视频质量识别效果的情况下,将所述预训练模型作为候选预训练模型;其中,所述学生模型为以所述预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的,所述更新模型为对所述预训练模型进行训练后得到的;根据所述候选预训练模型,构建候选预训练模型集合;从所述候选预训练模型集合中,筛选出所述目标预训练模型;根据所述目标预训练模型,构建所述预训练模型组合。
59.在一示例性实施例中,所述模型筛选单元,还被配置为执行从所述候选预训练模型集合中,筛选出第一视频质量识别效果最高的k个候选预训练模型,从所述k个候选预训练模型中,筛选出第二视频质量识别效果最高的候选预训练模型,作为目标预训练模型;其中,所述第一视频质量识别效果为利用候选预训练模型得到的第一学生模型的视频质量识别效果;所述第一学生模型为以所述候选预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的;所述第二视频质量识别效果为利用筛选出的候选预训练模型和筛选出的目标预训练模型得到的第二学生模型的视频质量识别效果;所述第二学生模型为以所述筛选出的候选预训练模型和所述筛选出的目标预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的;k为正整数。
60.在一示例性实施例中,所述模型筛选单元,还被配置为执行在所述目标预训练模型的数量小于n时,从所述候选预训练模型集合中删除所述目标预训练模型,得到更新后的
候选预训练模型集合;将所述更新后的候选预训练模型集合,作为所述候选预训练模型集合,并跳转至所述从所述候选预训练模型集合中,筛选出第一视频质量识别效果最高的k个候选预训练模型,从所述k个候选预训练模型中,筛选出第二视频质量识别效果最高的候选预训练模型,作为目标预训练模型的步骤,直到筛选出的目标预训练模型的数量为n;n为正整数。
61.根据本公开实施例的第四方面,提供一种视频质量识别装置,包括:
62.视频获取单元,被配置为执行获取待识别视频;
63.质量识别单元,被配置为执行将所述待识别视频输入训练完成的视频质量识别模型,得到所述待识别视频的视频质量预测结果;所述训练完成的视频质量识别模型为采用样本视频、所述样本视频的视频质量标注结果、第一视频质量特征和第一视频质量预测结果,对待训练的视频质量识别模型训练得到的;所述第一视频质量特征根据至少两个与视频质量关联的目标预训练模型对应输出的所述样本视频的第一目标视频特征得到,所述第一视频质量预测结果根据所述第一视频质量特征得到;不同目标预训练模型所输出的第一目标视频特征不相同。
64.在一示例性实施例中,所述质量识别单元,还被配置为执行将所述待识别视频输入训练完成的视频质量识别模型,得到所述待识别视频的初始视频特征;将所述初始视频特征进行维度转换处理,得到所述待识别视频的目标视频特征,作为所述待识别视频的视频质量特征;对所述视频质量特征进行分类处理,得到所述待识别视频的视频质量分类结果,作为所述视频质量预测结果。
65.根据本公开实施例的第五方面,提供一种电子设备,包括:
66.处理器;
67.用于存储所述处理器可执行指令的存储器;
68.其中,所述处理器被配置为执行所述指令,以实现如第一方面的任一项实施例中所述的视频质量识别模型的训练方法,或者第二方面的任一项实施例中所述的视频质量识别方法。
69.根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如第一方面的任一项实施例中所述的视频质量识别模型的训练方法,或者第二方面的任一项实施例中所述的视频质量识别方法。
70.根据本公开实施例的第七方面,提供一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被电子设备的处理器执行时,使得所述电子设备能够执行如第一方面的任一项实施例中所述的视频质量识别模型的训练方法,或者第二方面的任一项实施例中所述的视频质量识别方法。
71.本公开的实施例提供的技术方案至少带来以下有益效果:
72.通过获取样本视频和样本视频对应的视频质量标注结果;然后将样本视频输入预训练模型组合,得到样本视频的第一视频质量特征和第一视频质量预测结果,以及将样本视频输入待训练的视频质量识别模型,得到样本视频的第二视频质量特征和第二视频质量预测结果;预训练模型组合包括至少两个与视频质量关联的目标预训练模型;最后根据第一视频质量预测结果与视频质量标注结果之间的差异,第二视频质量预测结果与视频质量
标注结果之间的差异,以及第一视频质量特征与第二视频质量特征之间的差异,对待训练的视频质量识别模型进行训练,得到训练完成的视频质量识别模型。这样,在模型训练过程中,利用多个与视频质量关联的目标预训练模型,来辅助视频质量识别模型的训练,由于不同目标预训练模型所输出的第一目标视频特征不相同,说明不同目标预训练模型关注的低质特征类型不同,那么训练后的视频质量识别模型就可以感受到多种类型的低质特征,从而使得训练后的视频质量识别模型对视频质量的识别更加全面,进而提高了输出的视频质量预测结果的准确率,有利于提高视频质量的识别准确率;同时,将多个与视频质量关联的目标预训练模型共同输出的样本视频的第一视频质量特征、第一视频质量预测结果和视频质量标注结果,作为监督信息,来辅助视频质量识别模型的训练,综合考虑多个监督信息,使得训练后的视频质量识别模型的预测结果更加准确,进一步提高了视频质量的识别准确率。
73.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
74.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
75.图1是根据一示例性实施例示出的一种视频质量识别模型的训练方法的流程图。
76.图2是根据一示例性实施例示出的得到样本视频的第一视频质量特征和第一视频质量预测结果的步骤的流程图。
77.图3是根据一示例性实施例示出的视频质量识别模型的训练示意图;
78.图4是根据一示例性实施例示出的得到样本视频的第二视频质量特征和第二视频质量预测结果的步骤的流程图。
79.图5是根据一示例性实施例示出的筛选目标预训练模型的步骤的流程图。
80.图6是根据一示例性实施例示出的另一种视频质量识别模型的训练方法的流程图。
81.图7是根据一示例性实施例示出的一种视频质量识别方法的流程图。
82.图8是根据一示例性实施例示出的视频质量预测结果的对比示意图。
83.图9是根据一示例性实施例示出的一种视频质量识别模型的训练装置的框图。
84.图10是根据一示例性实施例示出的一种视频质量识别装置的框图。
85.图11是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
86.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
87.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相
一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
88.还需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
89.图1是根据一示例性实施例示出的一种视频质量识别模型的训练方法的流程图,如图1所示,该视频质量识别模型的训练方法用于终端中;可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器之间的交互实现。在本示例性实施例中,该方法包括以下步骤:
90.在步骤s110中,获取样本视频和样本视频对应的视频质量标注结果。
91.其中,样本视频是指用于训练视频质量识别模型的视频,比如用户拍摄的视频、网络上的视频等。
92.其中,每个样本视频均匹配有对应的视频质量标注结果;视频质量标注结果是指视频质量标注分数,比如4分、5分等,通过人工标注得到。在实际场景中,视频质量标注结果是指mos(mean opinion score,平均主观质量分数)。
93.具体地,终端从本地数据库中,获取样本视频和样本视频对应的视频质量标注结果,便于后续利用样本视频和样本视频对应的视频质量标注结果,训练得到视频质量识别模型。
94.在步骤s120中,将样本视频输入预训练模型组合,得到样本视频的第一视频质量特征和第一视频质量预测结果,以及将样本视频输入待训练的视频质量识别模型,得到样本视频的第二视频质量特征和第二视频质量预测结果;预训练模型组合包括至少两个与视频质量关联的目标预训练模型。
95.其中,第一视频质量特征根据各个目标预训练模型对应输出的样本视频的第一目标视频特征得到,第一视频质量预测结果根据第一视频质量特征得到;不同目标预训练模型所输出的第一目标视频特征不相同。
96.其中,每个目标预训练模型用于对应输出样本视频的一个第一目标视频特征;第一视频质量特征为通过对各个目标预训练模型对应输出的样本视频的第一目标视频特征融合处理得到的;第一视频质量预测结果为通过对第一视频质量特征进行分类处理得到的。此外,由于不同目标预训练模型所输出的第一目标视频特征不相同,说明不同目标预训练模型关注的低质特征类型不同。
97.其中,预训练模型组合中包括多个与视频质量关联的目标预训练模型,比如基于视频分类的预训练模型、基于图像分类的预训练模型、基于视觉文本任务的预训练模型等。每个目标预训练模型关注的视频低质特征(比如边缘模糊、块效应等)的类型不一样,比如有些目标预训练模型关注的是边缘模糊,有些目标预训练模型关注的是块效应。与视频质量关联的目标预训练模型,是指目标预训练模型能够适用于视频质量识别任务。
98.其中,每个目标预训练模型是指知识蒸馏中的教师模型,预训练模型组合是指多教师模型组合,多教师模型组合能够对待训练的视频质量识别模型起到更好的知识迁移效果。
99.需要说明的是,每个目标预训练模型均在原本各自的领域中达到较好的效果,比
如在图像分类任务中取得较高的准确率,在视频分类任务中取得较高的准确率等。而且,每个目标预训练模型之间的差异很大,包括模型结构、预训练数据集、参数量等;保证了每个目标预训练模型能够有各自擅长的领域,且不同目标预训练模型之间能够相互补充;比如基于视频分类的预训练模型能够有效建模时空关系,基于图像分类的预训练模型能够感受内容相关的特征,基于视觉文本任务的预训练模型能够获取到人类的情感表达等,这些差异性能够对视频质量识别任务带来更全面的特征表示。
100.其中,预训练模型组合中的目标预训练模型分为两种类型,一种是视频模型(即对视频进行处理的模型),比如视频分类模型、视频检测模型等,在实际场景中,视频模型可以是指slowfast(视频目标检测模型)、ir-csn-152(认知转移神经元模型)等,另一种是图像模型(即对图像进行处理的模型),比如图像分类模型、图像检测模型等,在实际场景中,图像模型可以是指efficientnet(快速高精度模型)、clip(多模态模型)等。参考图3,教师模型包括视频模型和图像模型,视频模型包括预训练模型v1
……
预训练模型vn,图像模型包括预训练模型m1
……
预训练模型mn。需要说明的是,图3中的预训练模型均是指与视频质量关联的目标预训练模型。
101.其中,待训练的视频质量识别模型是指知识蒸馏中的学生模型,比如video swin tiny(视频分类模型)、ip-csn-152(认知转移神经元模型)等。
102.其中,第一视频质量特征是指通过预训练模型组合得到的与样本视频的视频质量相关的特征信息,比如图3中的zt,具体由各个目标预训练模型从样本视频中提取到的视频特征(比如图3中的vi、vj)融合得到。由于每个目标预训练模型所关注的低质视频特征的类型不同,故融合后的第一视频质量特征能够覆盖多种类型的低质视频特征。
103.其中,第一视频质量预测结果是指第一视频质量特征所反映的预测结果,通过对第一视频质量特征进行全连接处理得到,比如图3中通过教师模型输出的视频质量预测结果。在实际场景中,第一视频质量预测结果是指第一视频质量预测分数,比如4分。
104.其中,第二视频质量特征是指通过待训练的视频质量识别模型得到的与样本视频的视频质量相关的特征信息,比如图3中的zs,具体由待训练的视频质量识别模型从样本视频中提取到的视频特征(比如图3中的vs)处理得到。
105.其中,第二视频质量预测结果是指第二视频质量特征所反映的预测结果,通过对第二视频质量特征进行全连接处理得到,比如图3中通过学生模型输出的视频质量预测结果。在实际场景中,第二视频质量预测结果是指第二视频质量预测分数,比如3分。
106.具体地,终端分别将样本视频输入预训练模型组合中的各个目标预训练模型,通过各个目标预训练模型从样本视频中提取出对应的视频特征,将各个视频特征进行融合,得到第一视频质量特征;对第一视频质量特征进行全连接处理,得到样本视频的第一视频质量预测结果。同时,终端将样本视频输入待训练的视频质量识别模型,通过待训练的视频质量识别模型从样本视频中提取出对应的视频特征,作为第二视频质量特征;对第二视频质量特征进行全连接处理,得到样本视频的第二视频质量预测结果。
107.在步骤s130中,根据第一视频质量预测结果与视频质量标注结果之间的差异,第二视频质量预测结果与视频质量标注结果之间的差异,以及第一视频质量特征与第二视频质量特征之间的差异,对待训练的视频质量识别模型进行训练,得到训练完成的视频质量识别模型。
108.具体地,终端根据第一视频质量预测结果与视频质量标注结果之间的差异,第二视频质量预测结果与视频质量标注结果之间的差异,以及第一视频质量特征与第二视频质量特征之间的差异,得到目标损失值;根据目标损失值,对待训练的视频质量识别模型进行训练,直到满足训练结束条件;将满足训练结束条件的训练后的视频质量识别模型,确认为训练完成的视频质量识别模型。
109.需要说明的是,训练结束条件是指当前训练次数达到预设训练次数、当前的目标损失值小于预设阈值等。
110.上述视频质量识别模型的训练方法中,通过获取样本视频和样本视频对应的视频质量标注结果;然后将样本视频输入预训练模型组合,得到样本视频的第一视频质量特征和第一视频质量预测结果,以及将样本视频输入待训练的视频质量识别模型,得到样本视频的第二视频质量特征和第二视频质量预测结果;预训练模型组合包括至少两个与视频质量关联的目标预训练模型;最后根据第一视频质量预测结果与视频质量标注结果之间的差异,第二视频质量预测结果与视频质量标注结果之间的差异,以及第一视频质量特征与第二视频质量特征之间的差异,对待训练的视频质量识别模型进行训练,得到训练完成的视频质量识别模型。这样,在模型训练过程中,利用多个与视频质量关联的目标预训练模型,来辅助视频质量识别模型的训练,由于不同目标预训练模型所输出的第一目标视频特征不相同,说明不同目标预训练模型关注的低质特征类型不同,那么训练后的视频质量识别模型就可以感受到多种类型的低质特征,从而使得训练后的视频质量识别模型对视频质量的识别更加全面,进而提高了输出的视频质量预测结果的准确率,有利于提高视频质量的识别准确率;同时,将多个与视频质量关联的目标预训练模型共同输出的样本视频的第一视频质量特征、第一视频质量预测结果和视频质量标注结果,作为监督信息,来辅助视频质量识别模型的训练,综合考虑多个监督信息,使得训练后的视频质量识别模型的预测结果更加准确,进一步提高了视频质量的识别准确率。
111.在一示例性实施例中,如图2所示,在步骤s120中,将样本视频输入目标预训练模型组合,得到样本视频的第一视频质量特征和第一视频质量预测结果,具体可以通过以下步骤实现:
112.在步骤s210中,分别将样本视频输入各个目标预训练模型,得到样本视频的各个第一目标视频特征。
113.其中,第一目标视频特征是指目标预训练模型输出的视频特征经过特征维度转换后得到的视频特征,比如图3中的zi、zj等。
114.在步骤s220中,根据各个第一目标视频特征的重要性参数,对各个第一目标视频特征进行融合处理,得到样本视频的第一视频质量特征。
115.其中,第一目标视频特征的重要性参数,是指第一目标视频特征的权重,用于衡量第一目标视频特征的重要程度;不同第一目标视频特征,对应不同的权重。
116.其中,融合处理是指加权求和处理。
117.在步骤s230中,对第一视频质量特征进行分类处理,得到样本视频的第一视频质量分类结果,作为第一视频质量预测结果。
118.其中,分类处理是指全连接处理;第一视频质量分类结果用于表示样本视频的视频质量的一种分类结果,比如低质量、高质量等。
119.具体地,终端分别将样本视频输入各个目标预训练模型,通过各个目标预训练模型对样本视频进行特征提取处理,得到样本视频的各个第一目标视频特征;获取各个第一目标视频特征对应的重要性参数,并根据各个第一目标视频特征对应的重要性参数,对各个第一目标视频特征进行融合处理,得到样本视频的第一视频质量特征;比如,根据各个第一目标视频特征对应的权重,对各个第一目标视频特征进行加权求和处理,得到样本视频的第一视频质量特征;对第一视频质量特征进行分类处理,得到对应的第一视频质量分类结果,作为样本视频的第一视频质量预测结果;比如,对第一视频质量特征进行全连接处理,得到样本视频的第一视频质量分类结果。
120.举例说明,参考图3,终端分别将样本视频输入各个目标预训练模型,比如预训练模型v1
……
预训练模型vn,预训练模型m1
……
预训练模型mn;通过各个目标预训练模型对样本视频进行特征提取处理,得到样本视频的各个第一目标视频特征,比如zi、zj等;获取各个第一目标视频特征对应的权重,比如wi、wj等,并根据各个第一目标视频特征对应的权重,对各个第一目标视频特征进行加权求和处理,得到样本视频的第一视频质量特征,比如zt=zi
×
wi+
……
+zj
×
wj;将第一视频质量特征zt输入到全连接层中,通过全连接层对第一视频质量特征zt进行全连接处理,得到第一视频质量预测结果。
121.本公开实施例提供的技术方案,分别将样本视频输入各个目标预训练模型,得到样本视频的各个第一目标视频特征;根据各个第一目标视频特征对应的重要性参数,对各个第一目标视频特征进行融合处理,得到样本视频的第一视频质量特征;由于不同目标预训练模型所关注的低质视频特征不同,故得到的第一视频质量特征可以覆盖多种类型的低质视频特征,使得基于第一视频质量特征训练得到的视频质量识别模型,也能够关注多种类型的低质视频特征,从而提高了视频质量的识别准确率。同时,对第一视频质量特征进行分类处理,得到样本视频的第一视频质量预测结果,有利于后续在训练视频质量识别模型的过程中,将第一视频质量预测结果作为一种监督信息,来辅助模型训练,进一步提高了视频质量识别模型的视频质量预测准确率。
122.在一示例性实施例中,在步骤s210中,分别将样本视频输入各个目标预训练模型,得到样本视频的各个第一目标视频特征,具体包括如下内容:分别将样本视频输入各个目标预训练模型,得到样本视频的各个第一初始视频特征;对样本视频的各个第一初始视频特征进行维度转换处理,得到样本视频的各个第一目标视频特征。
123.其中,第一初始视频特征是指目标预训练模型输出的视频特征,比如图3中的vi、vj等。
124.其中,维度转换处理是指对第一初始视频特征的特征维度进行转换,比如将第一初始视频特征的特征维度从维度a(比如20维)转换为维度b(比如10维),具体可以通过全连接处理和归一化处理得到。
125.其中,各个第一目标视频特征对应的特征维度均相同。
126.需要说明的是,不同目标预训练模型输出的第一初始视频特征的特征维度是不相同的,为了保证不同目标预训练模型提取到的第一初始视频特征的特征维度能够匹配,需要将各个目标预训练模型输出的第一初始视频特征进行特征维度转换,使其均映射到相同的特征维度。
127.具体地,终端分别将样本视频输入各个目标预训练模型,通过各个目标预训练模
型对样本视频进行特征提取处理,得到样本视频的各个第一初始视频特征;分别将样本视频的各个第一初始视频特征输入到全连接层和归一化层,通过全连接层和归一化层对各个第一初始视频特征进行维度转换处理,得到样本视频的各个维度转换后的视频特征,对应作为样本视频的各个第一目标视频特征。
128.举例说明,参考图3,终端分别将样本视频输入各个目标预训练模型,比如预训练模型v1
……
预训练模型vn,预训练模型m1
……
预训练模型mn;通过各个目标预训练模型对样本视频进行特征提取处理,得到样本视频的各个第一初始视频特征,比如vi、vj等;分别将各个第一初始视频特征输入到fc层(全连接层)和ln层(归一化层),通过fc层和ln层对第一初始视频特征进行特征维度转换,得到样本视频的各个第一目标视频特征,比如zi、zj等。
129.本公开实施例提供的技术方案,分别将样本视频输入各个目标预训练模型,得到样本视频的各个第一初始视频特征;对样本视频的各个第一初始视频特征进行维度转换处理,得到样本视频的各个第一目标视频特征,充分考虑各个目标预训练模型得到的第一目标视频特征,有利于后续将各个第一目标视频特征进行融合,得到第一视频质量特征,并基于第一视频质量特征对视频质量识别模型进行训练,使得训练后的视频质量识别模型也能够关注多种类型的低质视频特征,避免了只关注某种特定的低质视频特征,导致视频质量识别准确率较低的缺陷,进一步提高了视频质量的识别准确率。
130.在一示例性实施例中,在步骤s220中,在根据各个第一目标视频特征的重要性参数,对各个第一目标视频特征进行融合处理,得到样本视频的第一视频质量特征之前,还包括如下内容:针对样本视频的每一第一初始视频特征,向门控网络输入每一第一初始视频特征,得到用于输出每一第一初始视频特征的目标预训练模型的重要性参数;将每一目标预训练模型的重要性参数,确认为每一目标预训练模型对应输出的第一目标视频特征的重要性参数。
131.其中,门控网络用于根据输入的样本视频的各个第一初始视频特征,输出用于输出每一第一初始视频特征的目标预训练模型的重要性参数(比如权重)。门控网络由全连接层和归一化层构成,比如图3中,门控网络由fc层(全连接层)和softmax(归一化层)构成。
132.其中,目标预训练模型对应的重要性参数,是指目标预训练模型对应的权重,用于衡量目标预训练模型的重要程度;不同目标预训练模型,对应不同的权重。
133.其中,第一目标视频特征的重要性参数,是指第一目标视频特征的权重,用于衡量第一目标视频特征的重要程度;不同目标预训练模型输出的第一目标视频特征,对应不同的权重。
134.具体地,终端将样本视频的各个第一初始视频特征进行拼接处理,得到拼接视频特征;将拼接视频特征输入到门控网络中,通过门控网络对拼接视频特征进行全连接处理和归一化处理,得到用于输出各个第一初始视频特征的各个目标预训练模型的重要性参数(比如权重);将各个目标预训练模型对应的重要性参数,对应作为各个目标预训练模型输出的第一目标视频特征的重要性参数。
135.举例说明,参考图3,终端将样本视频的各个第一初始视频特征(比如vi、vj等)进行拼接后,输入到门控网络中,通过门控网络中的fc层和softmax层,对拼接后的视频特征进行全连接处理和归一化处理,得到用于输出各个第一初始视频特征的各个目标预训练模
型的权重,对应作为各个第一目标视频特征对应的权重。
136.本公开实施例提供的技术方案,将样本视频的各个第一初始视频特征输入门控网络,得到用于输出每一第一初始视频特征的目标预训练模型的重要性参数;将每一目标预训练模型的重要性参数,对应作为每一目标预训练模型对应输出的第一目标视频特征的重要性参数;这样,通过引入门控网络,来确认各个第一目标视频特征对应的动态权重,综合考虑各个第一目标视频特征对应的动态权重,有利于提高后续基于各个第一目标视频特征融合得到的第一视频质量特征的准确率,进一步提高了基于第一视频质量特征训练得到的视频质量识别模型的预测准确率。
137.在一示例性实施例中,分别将样本视频输入各个目标预训练模型,得到样本视频的各个第一初始视频特征,具体包括如下内容:针对各个目标预训练模型,在目标预训练模型属于视频模型的情况下,将样本视频输入目标预训练模型,得到样本视频的第一初始视频特征;在目标预训练模型属于图像模型的情况下,将样本视频的各个样本视频帧输入目标预训练模型,得到各个样本视频帧的图像特征,对各个样本视频帧的图像特征进行融合处理,得到样本视频的第一初始视频特征。
138.其中,目标预训练模型属于视频模型,是指该目标预训练模型为图3所示的视频模型,比如视频分类模型,视频检测模型等,用于对视频进行处理,可以直接输出视频的特征信息。
139.其中,目标预训练模型属于图像模型,是指该目标预训练模型为图3所示的图像模型,比如图像分类模型,图像检测模型等,用于对图像进行处理,可以直接输出图像的特征信息。
140.其中,样本视频的各个样本视频帧,是指对样本视频进行分帧处理后得到的视频帧,比如图3所示的视频帧1、视频帧2、视频帧3
……
视频帧n。
141.具体地,终端分别对各个目标预训练模型的模型类型进行识别,在目标预训练模型属于视频模型的情况下,将样本视频直接输入到目标预训练模型中,通过目标预训练模型对样本视频进行特征提取处理,得到样本视频的第一初始视频特征;在目标预训练模型属于图像模型的情况下,对样本视频进行分帧处理,得到样本视频的各个样本视频帧,并分别将各个样本视频帧输入到目标预训练模型中,通过目标预训练模型对各个样本视频帧进行特征提取处理,得到各个样本视频帧对应的图像特征;对各个样本视频帧对应的图像特征进行平均融合处理,得到样本视频的第一初始视频特征。
142.举例说明,参考图3,终端若识别到目标预训练模型为视频模型,则直接将样本视频输入到该目标预训练模型(比如预训练模型v1)中,通过该目标预训练模型输出样本视频的第一初始视频特征,比如vi;若识别到目标预训练模型为图像模型,则分别将样本视频的各个样本视频帧(比如视频帧1、视频帧2等)输入到该目标预训练模型(比如预训练模型m1)中,通过该目标预训练模型输出各个样本视频帧的图像特征,并对各个样本视频帧的图像特征进行平均融合处理,得到样本视频的第一初始视频特征,比如vj。
143.本公开实施例提供的技术方案,通过区分目标预训练模型是视频模型还是图像模型,对样本视频进行不同的处理,有利于提高第一初始视频特征的提取准确率。
144.在一示例性实施例中,如图4所示,在步骤s120中,将样本视频输入待训练的视频质量识别模型,得到样本视频的第二视频质量特征和第二视频质量预测结果,具体可以通
过以下步骤实现:
145.在步骤s410中,将样本视频输入待训练的视频质量识别模型,得到样本视频的第二初始视频特征。
146.其中,第二初始视频特征是指待训练的视频质量识别模型输出的视频特征,比如图3中的vs。
147.在步骤s420中,将样本视频的第二初始视频特征进行维度转换处理,得到样本视频的第二目标视频特征,作为样本视频的第二视频质量特征。
148.其中,第二目标视频特征的维度与第二初始视频特征的维度不相同。
149.其中,第二目标视频特征是指待训练的视频质量识别模型输出的视频特征(比如第二初始视频特征)经过特征维度转换后所得到的视频特征,比如图3中的zs。
150.其中,维度转换处理是指对第二初始视频特征的特征维度进行转换,比如将第二初始视频特征的特征维度从维度a(比如20维)转换为维度b(比如10维),具体可以通过全连接处理和归一化处理得到。
151.需要说明的是,进行维度转换处理,是为了保证得到的第二目标视频特征的特征维度和第一目标视频特征的特征维度相同。
152.在步骤s430中,对第二视频质量特征进行分类处理,得到样本视频的第二视频质量分类结果,作为第二视频质量预测结果。
153.其中,分类处理是指全连接处理;第二视频质量分类结果用于表示样本视频的视频质量的一种分类结果,比如低质量、高质量等。
154.具体地,终端将样本视频输入待训练的视频质量识别模型,通过待训练的视频质量识别模型对样本视频进行特征提取处理,得到样本视频的第二初始视频特征;将样本视频的第二初始视频特征输入到全连接层和归一化层,通过全连接层和归一化层对第二初始视频特征进行维度转换处理,得到样本视频的转换后的视频特征,作为样本视频的第二目标视频特征;将样本视频的第二目标视频特征,确认为样本视频的第二视频质量特征;将第二视频质量特征输入到全连接层中,通过全连接层对第二视频质量特征进行全连接处理,以对第二视频质量特征进行分类,得到对应的第二视频质量分类结果,作为样本视频的第二视频质量预测结果。
155.举例说明,参考图3,终端将样本视频输入待训练的视频质量识别模型,通过待训练的视频质量识别模型对样本视频进行特征提取处理,得到样本视频的第二初始视频特征,比如vs;将第二初始视频特征vs输入到fc层(全连接层)和ln层(归一化层),通过fc层和ln层对第二初始视频特征进行维度转换处理,得到样本视频的第二目标视频特征,比如zs;将样本视频的第二目标视频特征zs,确认为样本视频的第二视频质量特征;将第二视频质量特征zs输入到全连接层中,通过全连接层对第二视频质量特征zs进行全连接处理,得到样本视频的第二视频质量分类结果,作为样本视频的第二视频质量预测结果。
156.本公开实施例提供的技术方案,将样本视频输入待训练的视频质量识别模型,得到样本视频的第二视频质量特征和第二视频质量预测结果,有利于后续基于样本视频的第二视频质量特征和第二视频质量预测结果,训练得到视频质量识别模型,综合考虑样本视频的第二视频质量特征和第二视频质量预测结果,有利于提高训练后的视频质量识别模型的视频质量预测准确率。
157.在一示例性实施例中,在步骤s130中,根据第一视频质量预测结果与视频质量标注结果之间的差异,第二视频质量预测结果与视频质量标注结果之间的差异,以及第一视频质量特征与第二视频质量特征之间的差异,对待训练的视频质量识别模型进行训练,得到训练完成的视频质量识别模型,具体包括如下内容:根据第一视频质量预测结果与视频质量标注结果之间的差异,得到第一损失值,根据第二视频质量预测结果与视频质量标注结果之间的差异,得到第二损失值,以及根据第一视频质量特征与第二视频质量特征之间的差异,得到第三损失值;将第一损失值、第二损失值和第三损失值进行融合处理,得到目标损失值;根据目标损失值,对待训练的视频质量识别模型进行训练,直到达到训练结束条件;达到训练结束条件的训练后的视频质量识别模型为训练完成的视频质量识别模型。
158.其中,将第一损失值、第二损失值和第三损失值进行融合处理,是指将第一损失值、第二损失值和第三损失值进行相加。
159.具体地,终端根据第一视频质量预测结果与视频质量标注结果之间的差异,以及第一损失函数,得到第一损失值;根据第二视频质量预测结果与视频质量标注结果之间的差异,以及第二损失函数,得到第二损失值;根据第一视频质量特征与第二视频质量特征之间的差异,以及第三损失函数,得到第三损失值;将第一损失值、第二损失值和第三损失值进行融合处理(比如相加),得到目标损失值;根据目标损失值,调整待训练的视频质量识别模型的模型参数,得到模型参数调整后的视频质量识别模型;对模型参数调整后的视频质量识别模型进行再次训练,直到达到训练结束条件,则将达到训练结束条件的训练后的视频质量识别模型,作为训练完成的视频质量识别模型。
160.需要说明的是,第一损失函数、第二损失函数和第三损失函数均是指均方方差损失函数。
161.举例说明,在目标损失值小于预设阈值的情况下,终端根据目标损失值,调整待训练的视频质量识别模型的模型参数,并对模型参数调整后的视频质量识别模型进行再次训练,直到根据训练后的视频质量识别模型得到的目标损失值小于预设阈值,则将该训练后的视频质量识别模型作为训练完成的视频质量识别模型。
162.进一步地,参考图3,目标损失值可以通过下述公式计算得到:
163.l=l1(fs(x),y)+w(l1(f
t
(x),y)+l2(zs,zt));
164.其中,l表示目标损失值,l1、l2均表示均方方差损失函数,x表示样本视频,y表示样本视频的视频质量标注结果,zt表示样本视频的第一视频质量特征,zs表示样本视频的第二视频质量特征;f
t
(x)表示通过多教师模型得到的第一视频质量预测结果,fs(x)表示通过学生模型得到的第二视频质量预测结果;w表示权重,一般等于4。
165.本公开实施例提供的技术方案,根据第一视频质量预测结果与视频质量标注结果之间的差异,第二视频质量预测结果与视频质量标注结果之间的差异,以及第一视频质量特征与第二视频质量特征之间的差异,对待训练的视频质量识别模型进行训练,得到训练完成的视频质量识别模型;这样,综合考虑多种辅助信息,使得训练后的视频质量识别模型能够关注多种不同类型的低质视频特征,而不只是关注某种特定的低质视频特征,从而提高了视频质量的识别准确率。
166.在一示例性实施例中,如图5所示,本公开提供的视频质量识别模型的训练方法还包括筛选目标预训练模型的步骤,具体可以通过以下步骤实现:
167.在步骤s510中,构建预训练模型库;预训练模型库中包括多个与视频质量关联的预训练模型;每个预训练模型的模型结构之间的结构差异满足预设条件。
168.其中,每个预训练模型的模型结构之间的结构差异满足预设条件,是指每个预训练模型的模型结构之间的结构差异很大,比如结构差异在50%以上。需要说明的是,假设两个预训练模型的模型结构之间的结构差异在50%以上,说明两个预训练模型的模型结构之间的结构相似度在50%以下。
169.其中,每个预训练模型均在原本各自的领域中达到较好的效果,而且,每个预训练模型之间的差异很大,包括模型结构、预训练数据集、参数量等;保证了每个预训练模型能够有各自擅长的领域,且不同预训练模型之间能够相互补充,这些差异性能够对视频质量识别任务带来更全面的特征表示。此外,每个预训练模型需适用于视频质量识别任务,比如通过预训练模型训练得到的学生模型,能够有效处理视频质量识别任务。
170.在步骤s520中,针对预训练模型库中的每一个预训练模型,在利用预训练模型得到的学生模型的视频质量识别效果高于利用预训练模型得到的更新模型的视频质量识别效果的情况下,将预训练模型作为候选预训练模型。
171.其中,学生模型为以预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的;更新模型为对预训练模型进行训练后得到的。
172.其中,视频质量识别效果是指对视频质量的识别效果,比如视频质量识别准确率。当然,视频质量识别效果也可以用srcc(spearman’s rank correlation coefficient,斯皮尔曼等级相关系数)表示。
173.其中,候选预训练模型是指从预训练模型库中初步筛选出的预训练模型。
174.在步骤s530中,根据候选预训练模型,构建候选预训练模型集合。
175.其中,候选预训练模型集合中包括候选预训练模型。
176.在步骤s540中,从候选预训练模型集合中,筛选出目标预训练模型。
177.其中,筛选出的目标预训练模型的数量为n,n为正整数。
178.在步骤s550中,根据目标预训练模型,构建预训练模型组合。
179.具体地,终端获取在各自的领域中达到较好的效果,且与视频质量关联的预训练模型,并根据这些预训练模型,构建预训练模型库;针对预训练模型库中的每一个预训练模型,将预训练模型作为教师模型,去训练待训练的视频质量识别模型,得到训练后的视频质量识别模型,作为学生模型,并对预训练模型进行训练,得到训练后的模型,作为更新模型;获取学生模型和更新模型在同一个测试数据集(由测试视频组成的数据集)上的视频质量识别效果,若学生模型的视频质量识别效果高于更新模型的视频质量识别效果,则将该预训练模型,作为候选预训练模型,从而从预训练模型库中筛选出候选预训练模型;将候选预训练模型进行组合,得到候选预训练模型集合;采用贪心策略,从候选预训练模型集合中筛选出n个适合视频质量识别任务的目标预训练模型;将这n个目标预训练模型进行组合,得到预训练模型组合。
180.需要说明的是,只有学生模型的视频质量识别效果高于更新模型的视频质量识别效果,才将对应的预训练模型,作为候选预训练模型;若学生模型的视频质量识别效果小于或者等于更新模型的视频质量识别效果,则不将对应的预训练模型,作为候选预训练模型。
181.本公开实施例提供的技术方案,先从预训练模型库中,筛选出候选预训练模型,将
候选预训练模型进行组合,得到候选预训练模型集合;再从候选预训练模型集合中,筛选出目标预训练模型,最后将目标预训练模型进行组合,得到预训练模型组合;这样,通过从预训练模型库中选择出多个最优的目标预训练模型,使得后续基于多个最优的目标预训练模型,训练得到的视频质量识别模型的视频质量预测结果更加准确,进一步提高了视频质量识别准确率。
182.在一示例性实施例中,在步骤s540中,从候选预训练模型集合中,筛选出目标预训练模型,具体包括如下内容:从候选预训练模型集合中,筛选出第一视频质量识别效果最高的k个候选预训练模型,从k个候选预训练模型中,筛选出第二视频质量识别效果最高的候选预训练模型,作为目标预训练模型;其中,第一视频质量识别效果为利用候选预训练模型得到的第一学生模型的视频质量识别效果;第一学生模型为以候选预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的;第二视频质量识别效果为利用筛选出的候选预训练模型和筛选出的目标预训练模型得到的第二学生模型的视频质量识别效果;第二学生模型为以筛选出的候选预训练模型和筛选出的目标预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的;k为正整数。
183.进一步地,在目标预训练模型的数量小于n时,从候选预训练模型集合中删除目标预训练模型,得到更新后的候选预训练模型集合;将更新后的候选预训练模型集合,作为候选预训练模型集合,并跳转至从候选预训练模型集合中,筛选出第一视频质量识别效果最高的k个候选预训练模型,从k个候选预训练模型中,筛选出第二视频质量识别效果最高的候选预训练模型,作为目标预训练模型的步骤,直到筛选出的目标预训练模型的数量为n;n为正整数。
184.其中,第一学生模型是以候选预训练模型为单个教师模型,对待训练的视频质量识别模型进行训练后得到的。需要说明的是,此处的候选预训练模型是指候选预训练模型集合中的任意一个候选预训练模型。
185.其中,第二学生模型是以筛选出的候选预训练模型和筛选出的目标预训练模型为多个教师模型,对待训练的视频质量识别模型进行训练后得到的。需要说明的是,筛选出的候选预训练模型是指从候选预训练模型集合中筛选出来的任意一个候选预训练模型;筛选出的目标预训练模型,是指之前从k个候选预训练模型中筛选出的所有候选预训练模型。
186.其中,第一视频质量识别效果和第二视频质量识别效果,也是指对视频质量的识别效果,比如视频质量识别准确率。当然,第一视频质量识别效果和第二视频质量识别效果也可以用srcc(spearman’s rank correlation coefficient,斯皮尔曼等级相关系数)表示。需要说明的是,第一视频质量识别效果和第二视频质量识别效果都是在同一个测试数据集(由测试视频组成的数据集)上得到的。
187.需要说明的是,本公开不对k与n之间的大小关系进行限制。
188.具体地,终端分别将候选预训练模型集合中的每个候选预训练模型作为教师模型,去训练待训练的视频质量识别模型,得到训练后的视频质量识别模型,作为第一学生模型;获取各个第一学生模型在同一个测试数据集上的第一视频质量识别效果;从候选预训练模型集合中,筛选出第一视频质量识别效果最高的k个候选预训练模型;分别将k个候选预训练模型中的每个候选预训练模型与筛选出的目标预训练模型作为多教师模型,去训练待训练的视频质量识别模型,得到训练后的视频质量识别模型,作为第二学生模型;获取各
个第二学生模型在同一个测试数据集上的第二视频质量识别效果;从k个候选预训练模型中,筛选出第二视频质量识别效果最高的候选预训练模型,作为目标预训练模型;在筛选出的目标预训练模型的模型数量小于n时,从候选预训练模型集合中删除目标预训练模型,得到更新后的候选预训练模型集合;将更新后的候选预训练模型集合,作为候选预训练模型集合,并重复上述过程,直到筛选出的目标预训练模型的数量为n。
189.举例说明,假设候选预训练模型集合中包括10个候选预训练模型,分别是m1、m2、m3
……
m10,k为4,n为3。第一步,从候选预训练模型集合(m1,m2,m3,m4,m5,m6,m7,m8,m9,m10)中,筛选出第一视频质量识别效果排在最高的4个候选预训练模型,分别是m1,m2,m3,m4;由于第一步还没有筛选出目标预训练模型,故直接从4个候选预训练模型中,筛选出第一视频质量识别效果最高的候选预训练模型,比如m1,并将m1放入目标预训练模型列表中。第二步,对候选预训练模型集合进行更新,得到新的候选预训练模型集合(m2,m3,m4,m5,m6,m7,m8,m9,m10),从新的候选预训练模型集合(m2,m3,m4,m5,m6,m7,m8,m9,m10)中,筛选出第一视频质量识别效果排在最高的4个候选预训练模型,分别是m2,m3,m4,m5;分别将m2,m3,m4,m5与目标预训练模型列表中的目标预训练模型(比如m1)进行组合后,去训练待训练的视频质量识别模型,并获取训练后的各个第二学生模型在同一个测试数据集上的第二视频质量识别效果;从这4个候选预训练模型中,筛选出第二视频质量识别效果最高的候选预训练模型,比如m2,并将m2放入目标预训练模型列表中。第三步,对候选预训练模型集合进行再次更新,得到新的候选预训练模型集合(m3,m4,m5,m6,m7,m8,m9,m10),从新的候选预训练模型集合(m3,m4,m5,m6,m7,m8,m9,m10)中,筛选出第一视频质量识别效果排在最高的4个候选预训练模型,分别是m3,m4,m5,m6;分别将m3,m4,m5,m6与目标预训练模型列表中的目标预训练模型(比如m1和m2)进行组合后,去训练待训练的视频质量识别模型,并获取训练后的各个第二学生模型在同一个测试数据集上的第二视频质量识别效果;从这4个候选预训练模型中,筛选出第二视频质量识别效果最高的候选预训练模型,比如m3,并将m3放入目标预训练模型列表中;此时,目标预训练模型列表中包括m1、m2和m3,总共3个目标预训练模型,则结束筛选。
190.本公开实施例提供的技术方案,通过从候选预训练模型集合中,筛选出第一视频质量识别效果最高的k个候选预训练模型,从k个候选预训练模型中,筛选出第二视频质量识别效果最高的候选预训练模型,作为目标预训练模型;从候选预训练模型集合中删除目标预训练模型,得到更新后的候选预训练模型集合;将更新后的候选预训练模型集合,作为候选预训练模型集合,不断重复上述过程,直到筛选出的目标预训练模型的数量为n。这样,采用基于贪心策略的模型筛选方法,不仅使得筛选出的目标预训练模型能够更好的处理视频质量识别任务,而且各个目标预训练模型之间的组合效果最好,从而使得后续基于多个目标预训练模型训练得到的视频质量识别模型的预测准确率更高。
191.图6是根据一示例性实施例示出的一种视频质量识别方法的流程图,如图6所示,该视频质量识别方法用于终端中,包括以下步骤:
192.在步骤s610中,获取待识别视频。
193.其中,待识别视频是指需要识别出视频质量的视频,比如网络上的视频。
194.在步骤s620中,将待识别视频输入训练完成的视频质量识别模型,得到待识别视频的视频质量预测结果;训练完成的视频质量识别模型为采用样本视频、样本视频的视频
质量标注结果、第一视频质量特征和第一视频质量预测结果,对待训练的视频质量识别模型训练得到的;第一视频质量特征根据至少两个与视频质量关联的目标预训练模型对应输出的样本视频的第一目标视频特征得到,第一视频质量预测结果根据第一视频质量特征得到;不同目标预训练模型所输出的第一目标视频特征不相同。
195.其中,待识别视频的视频质量预测结果,是指待识别视频的视频质量预测分数,比如4分。
196.具体地,终端响应于视频质量识别请求,得到待识别视频;将待识别视频输入到训练完成的视频质量识别模型,通过训练完成的视频质量识别模型对待识别视频进行特征提取处理,并对提取出的视频特征进行视频质量预测,得到待识别视频的视频质量预测结果。
197.举例说明,用户在终端的视频质量识别界面上,选择需要预测的视频,并触发视频质量识别请求,终端根据视频质量识别请求,识别出该视频对应的视频质量预测分数,并将该视频对应的视频质量预测分数,展示在视频质量识别界面上,供用户查看。
198.进一步地,视频质量识别模型的训练过程如下:终端获取样本视频和样本视频的视频质量标注结果;分别将样本视频输入至少两个与视频质量关联的目标预训练模型,通过至少两个目标预训练模型对应输出样本视频的第一目标视频特征,将至少两个目标预训练模型输出的第一目标视频特征进行融合处理,得到样本视频的第一视频质量特征;对第一视频质量特征进行分类处理,得到样本视频的第一视频质量预测结果;根据样本视频、样本视频的视频质量标注结果、第一视频质量特征和第一视频质量预测结果,对待训练的视频质量识别模型进行训练,得到训练完成的视频质量识别模型。
199.上述视频质量识别模型的训练方法中,通过训练完成的视频质量识别模型,输出待识别视频的视频质量预测结果;由于视频质量识别模型是基于多个目标预训练模型训练得到的,每个目标预训练模型输出的第一目标视频特征不相同,说明每个目标预训练模型关注的低质视频特征的类型不一样,从而使得训练后的视频质量识别模型能够关注多种不同类型的低质视频特征,而不是某种特定的低质视频特征,进而提高了视频质量的识别准确率。
200.在一示例性实施例中,在步骤s620中,将待识别视频输入训练完成的视频质量识别模型,得到待识别视频的视频质量预测结果,具体包括如下内容:将待识别视频输入训练完成的视频质量识别模型,得到待识别视频的初始视频特征;将初始视频特征进行维度转换处理,得到待识别视频的目标视频特征,作为待识别视频的视频质量特征;对视频质量特征进行分类处理,得到待识别视频的视频质量分类结果,作为视频质量预测结果。
201.其中,待识别视频的初始视频特征,是指训练完成的视频质量识别模型输出的视频特征,比如图3中的vs。
202.其中,待识别视频的目标视频特征,是指训练完成的视频质量识别模型输出的视频特征经过维度转换后所得到的视频特征,比如图3中的zs。
203.其中,维度转换处理是指对初始视频特征的特征维度进行转换,具体可以通过全连接处理和归一化处理得到。
204.其中,待识别视频的视频质量特征,是指与待识别视频的视频质量相关的特征信息,能够覆盖多种类型的低质视频特征。
205.具体地,终端将待识别视频输入训练完成的视频质量识别模型,通过训练完成的
视频质量识别模型对待识别视频进行特征提取处理,得到待识别视频的初始视频特征;将待识别视频的初始视频特征输入到全连接层和归一化层,通过全连接层和归一化层对初始视频特征进行维度转换处理,得到待识别视频的转换后的视频特征,作为待识别视频的目标视频特征;将待识别视频的目标视频特征,确认为待识别视频的视频质量特征;将视频质量特征输入到全连接层中,通过全连接层对视频质量特征进行全连接处理,以对视频质量特征进行分类,得到对应的视频质量分类结果,作为待识别视频的视频质量预测结果。
206.举例说明,参考图3,假设待训练的视频质量识别模型为训练完成的视频质量识别模型,终端将待识别视频输入训练完成的视频质量识别模型,通过训练完成的视频质量识别模型对待识别视频进行特征提取处理,得到待识别视频的初始视频特征vs;将初始视频特征vs输入到fc层(全连接层)和ln层(归一化层),通过fc层和ln层对初始视频特征vs进行维度转换处理,得到待识别视频的目标视频特征zs;将待识别视频的目标视频特征zs,确认为待识别视频的视频质量特征;将视频质量特征zs输入到全连接层中,通过全连接层对视频质量特征zs进行全连接处理,得到待识别视频的视频质量预测分数,作为待识别视频的视频质量预测结果。
207.本公开实施例提供的技术方案,将待识别视频输入训练完成的视频质量识别模型,得到待识别视频的初始视频特征;将初始视频特征进行维度转换处理,得到待识别视频的目标视频特征,作为待识别视频的视频质量特征;对视频质量特征进行分类处理,得到待识别视频的视频质量预测结果;由于待识别视频的视频质量特征能够覆盖多种类型的低质视频特征,保证了对待识别视频的质量识别更加全面,从而使得得到的视频质量预测结果更加准确,进一步提高了视频质量的识别准确率。
208.图7是根据一示例性实施例示出的另一种视频质量识别模型的训练方法的流程图,如图7所示,该视频质量识别模型的训练方法用于终端中,包括以下步骤:
209.在步骤s701中,构建预训练模型库;预训练模型库中包括多个与视频质量关联的预训练模型;每个预训练模型的模型结构之间的结构差异满足预设条件。
210.在步骤s702中,针对预训练模型库中的每一个预训练模型,在利用预训练模型得到的学生模型的视频质量识别效果高于利用预训练模型得到的更新模型的视频质量识别效果的情况下,将预训练模型作为候选预训练模型;根据候选预训练模型,构建候选预训练模型集合。
211.在步骤s703中,从候选预训练模型集合中,筛选出第一视频质量识别效果最高的k个候选预训练模型,从k个候选预训练模型中,筛选出第二视频质量识别效果最高的候选预训练模型,作为目标预训练模型。
212.其中,第一视频质量识别效果为利用候选预训练模型得到的第一学生模型的视频质量识别效果;第一学生模型为以候选预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的;第二视频质量识别效果为利用筛选出的候选预训练模型和筛选出的目标预训练模型得到的第二学生模型的视频质量识别效果;第二学生模型为以筛选出的候选预训练模型和筛选出的目标预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的;k为正整数。
213.在步骤s704中,在目标预训练模型的数量小于n时,从候选预训练模型集合中删除目标预训练模型,得到更新后的候选预训练模型集合。
214.在步骤s705中,将更新后的候选预训练模型集合,作为候选预训练模型集合,并跳转至步骤s703,直到筛选出的目标预训练模型的数量为n;n为正整数;根据目标预训练模型,构建预训练模型组合。
215.在步骤s706中,获取样本视频和样本视频对应的视频质量标注结果。
216.在步骤s707中,分别将样本视频输入各个目标预训练模型,得到样本视频的各个第一初始视频特征;对样本视频的各个第一初始视频特征进行维度转换处理,得到样本视频的各个第一目标视频特征。
217.在步骤s708中,针对样本视频的每一第一初始视频特征,向门控网络输入每一第一初始视频特征,得到用于输出每一第一初始视频特征的目标预训练模型的重要性参数;将每一目标预训练模型的重要性参数,确认为每一目标预训练模型对应输出的第一目标视频特征的重要性参数。
218.在步骤s709中,根据各个第一目标视频特征的重要性参数,对各个第一目标视频特征进行融合处理,得到样本视频的第一视频质量特征;对第一视频质量特征进行分类处理,得到样本视频的第一视频质量分类结果,作为第一视频质量预测结果。
219.在步骤s710中,将样本视频输入待训练的视频质量识别模型,得到样本视频的第二初始视频特征;将样本视频的第二初始视频特征进行维度转换处理,得到样本视频的第二目标视频特征,作为样本视频的第二视频质量特征;对第二视频质量特征进行分类处理,得到样本视频的第二视频质量分类结果,作为第二视频质量预测结果。
220.在步骤s711中,根据第一视频质量预测结果与视频质量标注结果之间的差异,得到第一损失值,根据第二视频质量预测结果与视频质量标注结果之间的差异,得到第二损失值,以及根据第一视频质量特征与第二视频质量特征之间的差异,得到第三损失值;将第一损失值、第二损失值和第三损失值进行融合处理,得到目标损失值。
221.在步骤s712中,根据目标损失值,对待训练的视频质量识别模型进行训练,直到达到训练结束条件;达到训练结束条件的训练后的视频质量识别模型为训练完成的视频质量识别模型。
222.上述视频质量识别模型的训练方法中,在模型训练过程中,利用多个与视频质量关联的目标预训练模型,来辅助视频质量识别模型的训练,由于不同目标预训练模型所输出的第一目标视频特征不相同,说明不同目标预训练模型关注的低质特征类型不同,那么训练后的视频质量识别模型就可以感受到多种类型的低质特征,从而使得训练后的视频质量识别模型对视频质量的识别更加全面,进而提高了输出的视频质量预测结果的准确率,有利于提高视频质量的识别准确率;同时,将多个与视频质量关联的目标预训练模型共同输出的样本视频的第一视频质量特征、第一视频质量预测结果和视频质量标注结果,作为监督信息,来辅助视频质量识别模型的训练,综合考虑多个监督信息,使得训练后的视频质量识别模型的预测结果更加准确,进一步提高了视频质量的识别准确率。
223.为了更清晰阐明本公开实施例提供的视频质量识别方法,以下以一个具体的实施例对该视频质量识别方法进行具体说明。在一个实施例中,本公开还提供了一种基于混合预训练模型的视频质量评估方法,通过引入预训练模型提升视频质量评估任务的准确性,克服对大量标注数据的依赖;同时能够建立一套预训练模型筛选准则,针对不同的任务场景均能够取得较好的泛化能力。具体包括如下内容:
224.第一步,构建预训练模型库。
225.在构建预训练模型库的过程中,我们希望尽可能覆盖较多的模型类型,这样其中蕴含的知识能够感受到各种低质特征类型。一些模型筛选的准则被定义如下:(1)候选的预训练模型需要在原本各自的领域中达到较好的效果,例如在图像分类任务中有较高的分数,在视频分类任务取得较高的准确性等;好的预训练模型是知识迁移的基础。(2)候选的预训练模型之间应该有足够大的差异,包括模型结构、预训练数据集、参数量等;这保证每个预训练模型能够有各自擅长的领域,不同预训练模型之间能够相互补充。比如,基于视频分类的预训练模型能够有效建模时空关系,基于图像分类的预训练模型能够感受内容相关的特征,基于视觉文本任务的预训练模型能够获取到人类的情感表达;这些差异性能够对vqa(video quality assessment,视频质量评估)任务带来更全面的特征表示。(3)预训练模型应该通过kd(knowledge distillation,知识蒸馏)初步验证对vqa任务的有效性。
226.第二步,基于贪心策略筛选出适合视频质量识别任务的模型。
227.由于单一预训练模型不能够保证在不同任务场景中预测结果的稳定性,所以本公开在筛选预训练模型的时候选择多个合适的模型进行组合,此过程主要采取一种基于贪心策略的方法来进行模型的选择。首先进行单预训练模型蒸馏,将结果优于简单微调的模型组合成候选列表。假设候选列表中包含h={h1,h2,

,ht},需要的模型的数目是n,选择的教师模型的集合s从空集合开始,每一步从未被选择的模型列表中筛选出最优的k个模型,然后利用知识蒸馏评估模型的效果,从k个模型中,将蒸馏结果最好的模型加入到集合s中,这个步骤重复n次,直到达到想要的模型的数目n。其中,k和n都是正整数,两者之间没有大小关系。
228.第三步,使用多教师知识迁移网络结构,进行视频质量识别模型的训练。
229.参考图3,在筛选完模型之后,使用mkdnet(multi-teacher knowledge distillation network,多教师知识蒸馏模型)进行视频质量识别模型的训练。如图3所示,选中的预训练模型的参数被固定,然后被用来提取视频的特征表达,对于基于图像的预训练模型,多帧的结果经过平均进行融合;对于基于视频的预训练模型,可以直接得到对应的表示。为了保证不同预训练模型提取到的特征维度能够匹配,提取之后的特征经过一层全连接层进行变换,映射到相同的维度。为了得到各个预训练模型之间的动态权重,引入一个门控网络,根据输入特征获取动态的响应,最终的特征表示则通过加权求和得到,这一步被称作moe(mixture of experts,混合专家模型)。之后视频质量识别任务的网络结构通过知识蒸馏从加权后的特征获取信息,来模拟预训练模型提取到的特征。输出的预测结果即为视频质量。整个优化过程可以被表示为:l=l1(fs(x),y)+w(l1(f
t
(x),y)+l2(zs,zt))。需要说明的是,公式中的参数含义参照前面相关的实施例,在此不再赘述。
230.参考图8,在得到训练完成的视频质量识别模型之后,训练完成的视频质量识别模型更加关注图像中的低质存在区域,所取得的视频质量预测结果也更为准确;比如,针对同一个视频(编号为no.3904711682),mos(mean opinion score,平均主观分数)为3.04,以往方法得到的视频质量预测分数(即prediction)为3.508,训练完成的视频质量识别模型得到的视频质量预测分数为3.14,更加接近mos,说明训练完成的视频质量识别模型的预测结果更准确。
231.上述基于混合预训练模型的视频质量评估方法,可以达到以下技术效果:(1)使用
多种与视频质量相关的预训练模型提取特征,并经过融合之后作为额外的监督信息辅助视频质量识别任务进行训练,使得训练后的模型更够关注不同类型的低质视频特征;(2)通过贪心策略筛选适合视频质量识别任务的预训练模型,构造出的模型组合针对不同的任务场景表现出较好的泛化能力,在不同验证集上达到最优效果;(3)通过mkdnet(multi-teacher knowledge distillation network,多教师知识蒸馏模型)以知识蒸馏的方式进行信息的迁移,在训练过程中借助特征信息辅助视频质量识别任务,在推理阶段只需要利用视频质量识别模型本身,能够显著降低计算消耗。
232.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
233.可以理解的是,本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见,每个实施例重点说明的是与其他实施例的不同之处,相关之处参见其他方法实施例的说明即可。
234.基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的视频质量识别模型的训练方法的视频质量识别模型的训练装置。
235.图9是根据一示例性实施例示出的一种视频质量识别模型的训练装置的框图。参照图9,该装置包括样本获取单元910,样本处理单元920和模型训练单元930。
236.样本获取单元910,被配置为执行获取样本视频和样本视频对应的视频质量标注结果。
237.样本处理单元920,被配置为执行将样本视频输入预训练模型组合,得到样本视频的第一视频质量特征和第一视频质量预测结果,以及将样本视频输入待训练的视频质量识别模型,得到样本视频的第二视频质量特征和第二视频质量预测结果;预训练模型组合包括至少两个与视频质量关联的目标预训练模型;第一视频质量特征根据各个目标预训练模型对应输出的样本视频的第一目标视频特征得到,第一视频质量预测结果根据第一视频质量特征得到;不同目标预训练模型所输出的第一目标视频特征不相同。
238.模型训练单元930,被配置为执行根据第一视频质量预测结果与视频质量标注结果之间的差异,第二视频质量预测结果与视频质量标注结果之间的差异,以及第一视频质量特征与第二视频质量特征之间的差异,对待训练的视频质量识别模型进行训练,得到训练完成的视频质量识别模型。
239.在一示例性实施例中,样本处理单元920,还被配置为执行分别将样本视频输入各个目标预训练模型,得到样本视频的各个第一目标视频特征;根据各个第一目标视频特征的重要性参数,对各个第一目标视频特征进行融合处理,得到样本视频的第一视频质量特征;对第一视频质量特征进行分类处理,得到样本视频的第一视频质量分类结果,作为第一视频质量预测结果。
240.在一示例性实施例中,样本处理单元920,还被配置为执行分别将样本视频输入各
个目标预训练模型,得到样本视频的各个第一初始视频特征;对样本视频的各个第一初始视频特征进行维度转换处理,得到样本视频的各个第一目标视频特征。
241.在一示例性实施例中,视频质量识别模型的训练装置还包括参数确定单元,被配置为执行针对样本视频的每一第一初始视频特征,向门控网络输入每一第一初始视频特征,得到用于输出每一第一初始视频特征的目标预训练模型的重要性参数;将每一目标预训练模型的重要性参数,确认为每一目标预训练模型对应输出的第一目标视频特征的重要性参数。
242.在一示例性实施例中,样本处理单元920,还被配置为执行针对各个目标预训练模型,在目标预训练模型属于视频模型的情况下,将样本视频输入目标预训练模型,得到样本视频的第一初始视频特征;在目标预训练模型属于图像模型的情况下,将样本视频的各个样本视频帧输入目标预训练模型,得到各个样本视频帧的图像特征,对各个样本视频帧的图像特征进行融合处理,得到样本视频的第一初始视频特征。
243.在一示例性实施例中,样本处理单元920,还被配置为执行将样本视频输入待训练的视频质量识别模型,得到样本视频的第二初始视频特征;将样本视频的第二初始视频特征进行维度转换处理,得到样本视频的第二目标视频特征,作为样本视频的第二视频质量特征;第二目标视频特征的维度与第二初始视频特征的维度不相同;对第二视频质量特征进行分类处理,得到样本视频的第二视频质量分类结果,作为第二视频质量预测结果。
244.在一示例性实施例中,模型训练单元930,还被配置为执行根据第一视频质量预测结果与视频质量标注结果之间的差异,得到第一损失值,根据第二视频质量预测结果与视频质量标注结果之间的差异,得到第二损失值,以及根据第一视频质量特征与第二视频质量特征之间的差异,得到第三损失值;将第一损失值、第二损失值和第三损失值进行融合处理,得到目标损失值;根据目标损失值,对待训练的视频质量识别模型进行训练,直到达到训练结束条件;达到训练结束条件的训练后的视频质量识别模型为训练完成的视频质量识别模型。
245.在一示例性实施例中,视频质量识别模型的训练装置还包括模型筛选单元,被配置为执行构建预训练模型库;预训练模型库中包括多个与视频质量关联的预训练模型;每个预训练模型的模型结构之间的结构差异满足预设条件;针对预训练模型库中的每一个预训练模型,在利用预训练模型得到的学生模型的视频质量识别效果高于利用预训练模型得到的更新模型的视频质量识别效果的情况下,将预训练模型作为候选预训练模型;其中,学生模型为以预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的,更新模型为对预训练模型进行训练后得到的;根据候选预训练模型,构建候选预训练模型集合;从候选预训练模型集合中,筛选出目标预训练模型;根据目标预训练模型,构建预训练模型。
246.在一示例性实施例中,模型筛选单元,还被配置为执行从候选预训练模型集合中,筛选出第一视频质量识别效果最高的k个候选预训练模型,从k个候选预训练模型中,筛选出第二视频质量识别效果最高的候选预训练模型,作为目标预训练模型;其中,第一视频质量识别效果为利用候选预训练模型得到的第一学生模型的视频质量识别效果;第一学生模型为以候选预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的;第二视频质量识别效果为利用筛选出的候选预训练模型和筛选出的目标预训练模型得到的
第二学生模型的视频质量识别效果;第二学生模型为以筛选出的候选预训练模型和筛选出的目标预训练模型为教师模型,对待训练的视频质量识别模型进行训练后得到的;k为正整数。
247.在一示例性实施例中,模型筛选单元,还被配置为执行在目标预训练模型的数量小于n时,从候选预训练模型集合中删除目标预训练模型,得到更新后的候选预训练模型集合;将更新后的候选预训练模型集合,作为候选预训练模型集合,并跳转至从候选预训练模型集合中,筛选出第一视频质量识别效果最高的k个候选预训练模型,从k个候选预训练模型中,筛选出第二视频质量识别效果最高的候选预训练模型,作为目标预训练模型的步骤,直到筛选出的目标预训练模型的数量为n;n为正整数。
248.基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的视频质量识别方法的视频质量识别装置。
249.图10是根据一示例性实施例示出的一种视频质量识别装置的框图。参照图10,该装置包括视频获取单元1010和质量识别单元1020。
250.视频获取单元1010,被配置为执行获取待识别视频。
251.质量识别单元1020,被配置为执行将待识别视频输入训练完成的视频质量识别模型,得到待识别视频的视频质量预测结果;训练完成的视频质量识别模型为采用样本视频、样本视频的视频质量标注结果、第一视频质量特征和第一视频质量预测结果,对待训练的视频质量识别模型训练得到的;第一视频质量特征根据至少两个与视频质量关联的目标预训练模型对应输出的样本视频的第一目标视频特征得到,第一视频质量预测结果根据第一视频质量特征得到;不同目标预训练模型所输出的第一目标视频特征不相同。
252.在一示例性实施例中,质量识别单元1020,还被配置为执行将待识别视频输入训练完成的视频质量识别模型,得到待识别视频的初始视频特征;将初始视频特征进行维度转换处理,得到待识别视频的目标视频特征,作为待识别视频的视频质量特征;对视频质量特征进行分类处理,得到待识别视频的视频质量分类结果,作为视频质量预测结果。
253.关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
254.上述视频质量识别模型的训练装置或者视频质量识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
255.图11是根据一示例性实施例示出的一种用于实现视频质量识别模型的训练方法或者视频质量识别方法的电子设备1100的框图。例如,电子设备1100可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。
256.参照图11,电子设备1100可以包括以下一个或多个组件:处理组件1102、存储器1104、电源组件1106、多媒体组件1108、音频组件1110、输入/输出(i/o)的接口1112、传感器组件1114以及通信组件1116。
257.处理组件1102通常控制电子设备1100的整体操作,诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件1102可以包括一个或多个处理器1120来
执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1102可以包括一个或多个模块,便于处理组件1102和其他组件之间的交互。例如,处理组件1102可以包括多媒体模块,以方便多媒体组件1108和处理组件1102之间的交互。
258.存储器1104被配置为存储各种类型的数据以支持在电子设备1100的操作。这些数据的示例包括用于在电子设备1100上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram)、电可擦除可编程只读存储器(eeprom)、可擦除可编程只读存储器(eprom)、可编程只读存储器(prom)、只读存储器(rom)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。
259.电源组件1106为电子设备1100的各种组件提供电力。电源组件1106可以包括电源管理系统,一个或多个电源,及其他与为电子设备1100生成、管理和分配电力相关联的组件。
260.多媒体组件1108包括在所述电子设备1100和用户之间的提供输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1108包括前置摄像头和/或后置摄像头。当电子设备1100处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜系统或具有焦距和光学变焦能力。
261.音频组件1110被配置为输出和/或输入音频信号。例如,音频组件1110包括麦克风(mic),当电子设备1100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中,音频组件1110还包括扬声器,用于输出音频信号。
262.i/o接口1112为处理组件1102和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
263.传感器组件1114包括一个或多个传感器,用于为电子设备1100提供各个方面的状态评估。例如,传感器组件1114可以检测到电子设备1100的打开/关闭状态,组件的相对定位,例如所述组件为电子设备1100的显示器和小键盘,传感器组件1114还可以检测电子设备1100或电子设备1100组件的位置改变,用户与电子设备1100接触的存在或不存在,设备1100方位或加速/减速和电子设备1100的温度变化。传感器组件1114可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1114还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
264.通信组件1116被配置为便于电子设备1100和其他设备之间有线或无线方式的通信。电子设备1100可以接入基于通信标准的无线网络,如wifi,运营商网络(如2g、3g、4g或5g),或它们的组合。在一个示例性实施例中,通信组件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1116还包
括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
265.在示例性实施例中,电子设备1100可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
266.在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器1104,上述指令可由电子设备1100的处理器1120执行以完成上述方法。例如,计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
267.在示例性实施例中,还提供一种计算机程序产品,所述计算机程序产品中包括指令,上述指令可由电子设备1100的处理器1120执行以完成上述方法。
268.需要说明的,上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
269.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
270.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1