视频处理方法、装置、设备以及介质与流程

文档序号:32015330发布日期:2022-11-02 20:03阅读:59来源:国知局
视频处理方法、装置、设备以及介质与流程

1.本技术涉及互联网技术领域,尤其涉及一种视频处理方法、装置、设备以及介质。


背景技术:

2.随着人工智能技术的发展,丰富的视频数据为人们的生活增添了色彩。为了向人们呈现高质量的视频,需要对视频进行质量评估。相关技术中,可以采用卷积神经网络对视频进行质量评估。然而,卷积神经网络在提取视频特征时,往往通过简单堆叠的卷积层以及池化层提取视频的特征,通过这种方式提取得到的特征不够丰富,可能会导致视频质量评估的准确性降低。


技术实现要素:

3.本技术实施例提供一种视频处理方法、装置、设备以及介质,可以提高视频质量评估的准确性。
4.本技术实施例一方面提供了一种视频处理方法,包括:
5.获取待评估视频中的视频帧所对应的视觉特征图;
6.获取视觉特征图在时间维度上的第一特征权重,基于第一特征权重和视觉特征图,得到视频帧对应的第一内容特征图;
7.获取第一内容特征图在空间维度上的第二特征权重,基于第二特征权重和第一内容特征图,得到视频帧对应的第二内容特征图;第二内容特征图用于确定待评估视频的质量评估结果。
8.本技术实施例一方面提供了一种视频处理装置,包括:
9.视觉特征获取模块,用于获取待评估视频中的视频帧所对应的视觉特征图;
10.时间维度处理模块,用于获取视觉特征图在时间维度上的第一特征权重,基于第一特征权重和视觉特征图,得到视频帧对应的第一内容特征图;
11.空间维度处理模块,用于获取第一内容特征图在空间维度上的第二特征权重,基于第二特征权重和第一内容特征图,得到视频帧对应的第二内容特征;第二内容特征图用于确定待评估视频的质量评估结果。
12.其中,时间维度处理模块包括:
13.平均池化单元,用于将视觉特征图输入至时间注意力网络,基于时间注意力网络中的平均池化层输出视觉特征图对应的到平均池化特征图,对平均池化特征图进行全连接处理,得到第一子特征图;
14.最大池化单元,用于基于时间注意力网络中的最大池化层输出视觉特征图对应的到最大池化特征图,对最大池化特征图进行全连接处理,得到第二子特征图;
15.第一融合单元,用于将第一子特征图和第二子特征图进行特征融合处理,得到第一融合特征,基于时间注意力网络中的激活网络层,得到第一融合特征在时间维度上的第一特征权重;
16.第一乘积运算单元,用于对第一特征权重和视觉特征图进行乘积运算,得到第三内容特征图;
17.第一拼接单元,用于将第三内容特征图和视觉特征图,拼接为视频帧对应的第一内容特征图。
18.其中,空间维度处理模块包括:
19.三维卷积单元,用于对第一特征权重和视觉特征图进行乘积运算,得到第三内容特征图;
20.激活单元,用于基于空间注意力网络中的激活网络层,得到第五内容特征图在空间维度上的第二特征权重;
21.第二乘积运算单元,用于对第二特征权重和第一内容特征图进行乘积运算,得到第四内容特征图;
22.第二拼接单元,用于将第四内容特征图和第一内容特征图,拼接为视频帧对应的第二内容特征图。
23.待评估视频包括视频帧i和视频帧i+1,视频帧i和视频帧i+1为待评估视频中的相邻视频帧,该装置还包括:
24.第一获取模块,用于获取视频帧i和视频帧i+1分别对应的语义特征图,基于视频帧i的语义特征图和视频帧i+1的语义特征图,获取视频帧i和视频帧i+1之间的第一差异特征,i为正整数;
25.第二获取模块,用于基于视频帧i的第二内容特征图和视频帧i+1的第二内容特征图,获取视频帧i和视频帧i+1之间的第二差异特征;
26.质量评估模块,用于基于第一差异特征、第二差异特征以及第二内容特征图,获取待评估视频的质量评估结果。
27.其中,质量评估模块包括:
28.第二融合单元,用于对第二差异特征和第二内容特征图进行特征融合,得到第二融合特征;
29.第三拼接单元,用于将第二融合特征和第一差异特征拼接为第三融合特征,对第三融合特征进行全连接处理,得到待评估视频的质量评估结果。
30.本技术实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本技术实施例中一方面中方法的步骤。
31.本技术实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令被处理器执行时,执行本技术实施例中一方面中方法的步骤。
32.根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面的各种可选方式中提供的方法。
33.在本技术实施例中,获取待评估视频中的视频帧所对应的视觉特征图之后,可以先获取视觉特征图在时间维度上的第一特征权重,基于第一特征权重和视觉特征图,得到
视频帧对应的第一内容特征图;然后,获取第一内容特征图在空间维度上的第二特征权重,基于第二特征权重和第一内容特征图,得到视频帧对应的第二内容特征图。由于第二内容特征图是根据第一内容特征图和第二特征权重得到的,第一内容特征图可以实现各个视频帧在时间维度上特征表达的有效性,而第二特征权重可以在空间维度上增加第一内容特征图的特征表达的有效性,因此,第二内容特征图可以同时实现各个视频帧在时间维度以及空间维度上特征表达的有效性。采用第二内容特征图确定待评估视频的质量评估结果,可以较为全面地表征待评估视频的特征,有助于提高视频质量评估的准确性。
附图说明
34.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
35.图1是本技术实施例提供的一种网络架构的结构示意图;
36.图2是本技术实施例提供的一种视频处理的场景示意图;
37.图3是本技术实施例提供的一种视频处理方法的流程示意图;
38.图4是本技术实施例提供的一种获取第一内容特征图的场景示意图;
39.图5是本技术实施例提供的一种获取第二内容特征图的场景示意图;
40.图6是本技术实施例提供的另一种视频处理方法的流程示意图;
41.图7是本技术实施例提供的另一种获取第二内容特征图的场景示意图;
42.图8是本技术实施例提供的一种视频处理装置的结构示意图;
43.图9是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
44.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
45.为了便于理解,下面首先介绍本技术实施例涉及的几个基本的概念。
46.皮尔逊线性相关系数(pearson linear correlation coefficient,plcc):plcc可以用于衡量质量评估模型评估的准确性,具体可以描述质量评估模型的客观质量分数和主观质量分数之间的相关性,其取值范围为-1至1。当plcc的值等于0时,表示两组数据完全不相关(视频的客观质量分数和主观质量分数相差很大);当plcc值等于1或-1时,表明两组数据完全相关(视频的客观质量分数和主观质量分数一样)。
47.斯皮尔曼秩序相关系数(spearman rank order correlation coefficient,srocc):srocc用于衡量质量评估模型评估的单调性。srocc对客观质量分数和主观质量分数分别组成两个目标数组的秩次大小作线性相关分析(两组数据的秩序相关性),常被认为是两个对象分别经过排列后的皮尔逊线性相关系数。其取值范围为0至1,当srocc值等于1时,表明两组数据完全一致(视频的客观质量分数和主观质量分数一样)。
48.肯德尔秩序相关系数(kendall rank order correlation coefficient,krocc):krocc与srocc一样用于衡量质量评估模型评估的单调性。krocc的数值越大,说明两组数据(视频的客观质量分数和主观质量分数)之间的相关性越好,数值越小说明相关性越差。
49.均方根误差(root mean square error,rmse):rmse用于衡量质量评估模型评估的一致性,具体用于比较质量评估模型得到的客观质量分数与人眼主观质量分数之间的绝对误差。rmse的数值越接近于0,表明模型的性能越好。
50.多层感知器(multilayer perceptron,mlp):多层感知器是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上。
51.在本技术实施例中,可以基于人工智能下属的视频处理领域,对待评估视频进行特征提取及特征处理,例如,获取待评估视频中的视频帧所对应的视觉特征图在时间维度上的第一特征权重,基于该第一特征权重和视觉特征图,得到视频帧对应的第一内容特征图;获取第一内容特征图在空间维度上的第二特征权重,基于该第二特征权重和第一内容特征图,得到视频帧对应的第二内容特征图;采用第二内容特征图确定待评估视频的质量评估结果,可以实现对待评估视频在时间维度以及空间维度上特征的有效提取,进而提高对待评估视频的质量评估的准确性。
52.其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,以对待评估视频在时间维度以及空间维度上的特征进行处理,并使得处理结果可以尽可能的类似人类智能对待评估视频的质量评估结果。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
53.本技术实施例中主要涉及的是机器学习/深度学习等方向。可以通过学习得到视频识别模型,该视频识别模型中引入了时间注意力网络及空间注意力网络,利用该视频识别模型对待评估视频进行视频质量评估时,可以提高视频质量评估的准确性。
54.进一步地,本技术实施例中的数据可以通过云存储(cloud storage)技术进行存储,也可以在服务器或者终端设备的存储空间中进行存储。其中,由于可能会出现大量的待评估视频,因此,也可以采用大数据技术,对本技术实施例中的待评估视频进行处理。
55.人工智能云服务,一般也被称作是aiaas(ai as a service,ai即服务)。这是目前主流的一种人工智能平台的服务方式,具体来说aiaas平台会把几类常见的ai服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个ai主题商城:所有的开发者都可以通过api接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的ai框架和ai基础设施来部署和运维自已专属的云人工智能服务。本技术实施例可以通过api接口的方式接入使用平台提供的用于评估视频质量的初始视频识别模型,通过在初始视频识别模型引入时间注意力网络和空间注意力网络,对视频进行质量评估,可以提高视频质量评估的准确性。
56.在本技术实施例中,请参见图1,图1是本技术实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器101、终端设备102a、终端设备102b及终端设备102c等,该网络架构可以包括一个或者多个服务器,还可以包括至少一个或者多个终
端设备,这里将不对服务器和终端设备的数量进行限制。如图1所示,服务器101可以与各个终端设备之间进行网络连接,以便于服务器101可以通过网络连接与各个终端设备之间进行数据交互。
57.请参见图1,图1是本技术实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器101以及终端集群,终端集群可以包括:终端设备102a、终端设备102b、终端设备103c等终端设备。其中,上述服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端集群(包括终端设备102a、终端设备102b、终端设备103c等)可以是智能手机、平板电脑、笔记本电脑、台式计算机、掌上电脑、移动互联网设备(mobile internet device,mid)、可穿戴设备(例如智能手表、智能手环等)、智能电脑、智能车载等智能终端。其中,服务器101与终端集群中的各终端设备可以建立通信连接,终端集群中的各终端设备之间也可以建立通信连接。换句话说,服务器101可以与终端设备102a、终端设备102b、终端设备103c等中的各终端设备建立通信连接,例如终端设备102a与服务器101之间可以建立通信连接。终端设备102a与终端设备102b之间可以建立通信连接,终端设备102a与终端设备102c之间也可以建立通信连接。其中,上述通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接等,具体可根据实际应用场景确定,本技术实施例在此不做限制。
58.本技术实施例中,服务器101和终端设备(例如终端设备102a等)均可独立用于对待评估视频进行质量评估,服务器101和终端设备(例如终端设备102a等)也可以协同用于对待评估视频进行质量评估。如图1所示,服务器101可以从任意一个终端设备(例如终端设备102a)中获取需要进行质量评估的待评估视频,也可以从服务器101的存储空间中获取待评估视频,并对该待评估视频进行质量评估。其中,服务器101可以在获取到待评估视频之后,对该待评估视频进行质量评估;服务器101也可以在获取到待评估视频之后,对该待评估视频进行缓存,如将该待评估视频存储至服务器101的存储空间中,基于评估周期对存储空间中所存储的待评估视频进行周期性质量评估;或者,服务器101也可以在获取针对待评估视频的质量评估请求之后,对该待评估视频进行质量评估等,在此不做限制。
59.举例来说,终端设备102a可以向计算机设备101发送针对待评估视频的质量评估请求,该质量评估请求包括待评估视频,服务器101可以基于该质量评估请求对待评估视频进行质量评估,将质量评估结果发送给终端设备102a。或者,终端设备102b向服务器101发送待评估视频,服务器101可以对该待评估视频进行质量评估,根据质量评估结果确定是否对该待评估视频进行推荐。其中,服务器101可以获取待评估视频中的视频帧所对应的视觉特征图在时间维度上的第一特征权重,基于该第一特征权重和视觉特征图,得到视频帧对应的第一内容特征图;进一步地,服务器101可以获取第一内容特征图在空间维度上的第二特征权重,基于该第二特征权重和第一内容特征图,得到视频帧对应的第二内容特征图;其中第二内容特征图用于确定待评估视频的质量评估结果。
60.进一步地,请参见图2,图2是本技术实施例提供的一种视频处理的场景示意图。如图2所示,本技术实施例对待评估视频的质量评估过程可以由视频识别模型实现,该视频识别模型可以用于对待评估视频20进行质量评估,得到质量评估结果34。本技术实施例中涉
及的视频识别模型为无参考视频质量评估模型,因此该视频识别模型可以在没有理想视频作为参考视频的情况下,分析待评估视频的失真程度,从而得到待评估视频的质量评估结果。
61.该视频识别模型的框架总体是一个双流网络,图2中上面的分支(以下称为第一分支)主要用于对待评估视频20(例如电视剧、电影、新闻、综艺节目、培训课程以及用户原创内容(user generated content,ugc)视频等等)中的视频帧201进行视觉特征提取以及视觉特征处理。如图2所示,该视频识别模型第一分支可以包括视觉特征提取网络21、时间注意力网络22、空间注意力网络23等等。可选地,视频识别模型还可以包括第一绝对值网络24、第一全局平均池化网络25和第二全局平均池化网络27、第一全连接网络26和第二全连接网络28等等。上述提及的各个网络的具体结构可以参见下文的描述,在此不再赘述。图2中下面的分支(以下称为第二分支)主要用于对待评估视频20中的视频帧201进行语义特征提取以及语义特征处理。如图2所示,该视频识别模型的第二分支可以包括语义特征提取网络29,可选地,视频识别模型还可以包括第三全局平均池化网络30、第二绝对值网络31以及第三全连接网络32等等。上述提及的各个网络的具体结构可以参见下文的描述,在此不再赘述。
62.具体地,在获取到待评估视频20之后,获取待评估视频20中的视频帧201,对于视频识别模型的第一分支而言,可以通过视觉特征提取网络21提取视频帧201所对应的视觉特征图202。在时间注意力网络22中,可以基于时间维度对视觉特征图202进行特征处理,得到视觉特征图202在时间维度上的第一特征权重231;进而根据第一特征权重231和视觉特征图202,得到视频帧201对应的第一内容特征图203。在空间注意力网络23中,可以基于空间维度对第一内容特征图203进行特征处理,得到第一内容特征图203在空间维度上的第二特征权重231;进而根据第二特征权重231和第一内容特征图203,得到视频帧201对应的第二内容特征图204。可以理解的是,视频帧201中可以包含多个视频帧,例如,待评估视频20中的视频帧201可以包括视频帧i和视频帧i+1,视频帧i和视频帧i+1为待评估视频20中的相邻视频帧,i为正整数,具体可以是1、2、3
……
。视频帧i对应的第二内容特征图为第二内容特征图241,视频帧i+1对应的第二内容特征图为第二内容特征图242。如图2所示,可以将第二内容特征图241和第二内容特征图242进行相减运算,获取视频帧i和视频帧i+1之间的第二差异特征;第二差异特征可以用于表征待评估视频中视频帧i和视频帧i+1对应的视觉特征的时域差异。
63.可选地,还可以将第二差异特征输入至第一绝对值网络24,获取到第二差异特征的绝对值。在第一绝对值网络24之后,还可以包括第一全局平均网络25以及第一全连接网络26,第一全局平均网络25以及第一全连接网络26可以用于对第一绝对值网络24输出的特征进行降维处理。此外,还可以将第二内容特征图204输入至第二全局平均网络27以及第二全连接网络28,用于对第二内容特征图204进行降维处理,进而将第一全连接网络26输出的特征与第二全连接网络28输出的特征进行特征融合处理,得到第二融合特征。
64.对于视频识别模型的第二分支而言,可以通过语义特征提取网络29提取视频帧201所对应的语义特征图205。视频帧i和视频帧i+1为待评估视频20中的相邻视频帧,视频帧i对应的语义特征图为语义特征图301,视频帧i+1对应的语义特征图为语义特征图302。如图2所示,可以将语义特征图301和语义特征图302进行相减运算,获取视频帧i和视频帧i
+1之间的第一差异特征;第一差异特征可以用于表征待评估视频中视频帧i和视频帧i+1对应的语义特征的时域差异。可选地,可以基于语义特征图205进行平均池化处理,以加快视频识别模型训练的计算时间。还可以将第一差异特征输入至第二绝对值网络31,获取到第一差异特征的绝对值。在第二绝对值网络31之后,还可以包括第三全连接网络32,第三全连接网络32可以用于对第二绝对值网络31输出的特征进行降维处理,以加快视频识别模型训练的计算时间。
65.最后可以将视频识别模型的第一分支得到的第二融合特征和第二分支得到的特征进行融合。具体可以将第一全连接网络26输出的特征图与第二全连接网络28输出的特征图进行特征融合处理得到的第二融合特征,与第三全连接网络32输出的特征,进行特征融合处理,得到第三融合特征,并将第三融合特征通过第四全连接网络33,进而输出待评估视频20的质量评估结果34。
66.进一步地,请参见图3,图3是本技术实施例提供的一种视频处理方法的流程示意图。可以理解地,该视频处理方法由计算机设备执行,该计算机设备可以为终端设备(例如,图1所对应实施例中的终端设备102a、终端设备102b或终端设备102c),或者为服务器(例如,图1所对应实施例中的服务器101),或者为计算机程序(包括程序代码)。如图3所示,该视频处理方法可以包括以下步骤s101-步骤s103:
67.步骤s101:获取待评估视频中的视频帧所对应的视觉特征图。
68.待评估视频可能理解为当前需要进行质量评估的影像数据,待评估视频可以是计算机设备通过摄像组件拍摄得到的影像数据,也可以是计算机设备在应用程序或者网站中得到的影像数据,具体可以是电视剧、电影、短视频、新闻、综艺节目、培训课程以及用户原创内容(user generated content,ugc)视频等等。本技术实施例对于待评估视频的数量不做限定,可以是一个,也可以是多个。
69.计算机设备在获取到待评估视频之后,可以根据预先设置的抽帧间隔对待评估视频进行抽帧处理,得到待评估视频帧的所有视频帧。视频帧可以理解为待评估视频对应的图像数据。其中,抽帧间隔是指预先设置的抽帧频率,例如,抽帧间隔可以是每秒采样1帧,也可以是每秒采样5帧,还可以是每秒采样20帧等,具体可以根据待评估视频的内容以及待评估视频的时长进行设置,本技术实施例对此不做限定。
70.本技术实施例中所涉及的待评估视频中视频帧可以是指待评估视频中的所有视频帧,也可以是指待评估视频中的部分视频帧,在实际应用中,可以根据实际需要选择待评估视频中合适的视频帧数量进行质量评估。可以理解的是,通过对待评估视频中的所有视频帧进行特征提取以及特征处理,可以全面地获取待评估数据中每个视频帧的特征,进而全面地获取到待评估视频的特征信息,有助于对待评估视频的视频质量进行全面评估,从而有效提升质量评估结果的准确性;并且,可以避免单个视频帧中因对象运动或场景变换而产生的拖影、运动模糊等情况对质量评估的影响,从而提升质量评估结果的准确性。然而,对待评估视频中的所有视频帧进行特征提取以及特征处理,计算量较大。
71.可选地,为了节省计算量,提高视频质量评估的效率,计算机设备可以对待评估视频的所包含的视频帧进行关键帧提取,将关键帧作为本技术实施例中所涉及的待评估视频中视频帧。可以理解的是,关键帧是指待评估视频中的角色或者物体在运动变化中的关键动作所处的那一帧,相当于二维动画中的原画,当待评估视频中的画面不断变化时,可以通
term memory,lstm)等中的一种或者多种。
75.以三维卷积神经网络为例,三维卷积神经网络可以对连续的多个视频帧进行卷积操作,来捕获每一个视频帧前后相邻的视频帧的信息。具体地,三维卷积神经网络可以通过堆叠多个连续的视频帧组成一个立方体,然后在立方体中运行三维卷积核。在这个结构中,卷积层中每一个特征图都会与上一层中多个邻近的视频帧相连,因此可以捕捉各个视频帧的时间信息,使得最终输出的各个视觉特征图包含相邻视频帧的信息。特征图可以理解为卷积神经网络卷积层的输出结果,一般是图像在同一层次不同基上的描述,通常包含原始图像的特征。也就是说,计算机设备可以使用三维卷积神经网络来提取各个视频帧上的视觉特征图,使得提取得到的视觉特征图包含了各个视频帧之间在时间维度下的时序关系,且可以包含相邻视频帧的信息。
76.步骤s102:获取视觉特征图在时间维度上的第一特征权重,基于第一特征权重和视觉特征图,得到视频帧对应的第一内容特征图。
77.第一特征权重可以用于表征各个视频帧中包含的信息对待评估视频的视频质量评估的贡献度,可以在时间维度上增加视觉特征图的特征表达的有效性。其中,第一特征权重越大,其对应的视觉特征图对视频质量评估的贡献度越大,即其对应的视频帧对视频质量评估的影响越大;反之,第一特征权重越小,其对应的视觉特征图对视频质量评估的贡献度越小,即其对应的视频帧对视频质量评估的影响越小。此外,视觉特征图可能包含各个视频帧中在时间维度上的信息,视觉特征图中的第一特征权重也可能包含各个视频帧中在时间维度上的信息,因此第一特征权重可以在时间维度上增加视觉特征图的特征表达的有效性。第一内容特征图可以理解视觉特征图根据对应的第一特征权重加权之后得到的特征图。第一内容特征图可以增强视觉特征图中重要特征,抑制视觉特征图中不必要特征。
78.具体地,计算机设备可以将视觉特征图输入至时间注意力网络,基于时间注意力网络中的平均池化层输出视觉特征图对应的到平均池化特征图,对平均池化特征图进行全连接处理,得到第一子特征图;基于时间注意力网络中的最大池化层输出视觉特征图对应的到最大池化特征图,对最大池化特征图进行全连接处理,得到第二子特征图;进而将第一子特征图和第二子特征图进行特征融合处理,得到第一融合特征,基于时间注意力网络中的激活网络层,得到第一融合特征在时间维度上的第一特征权重。在得到第一特征权重之后,根据第一特征权重和视觉特征图,得到视频帧对应的第一内容特征图。
79.请一并参考图4,图4是本技术实施例提供的一种获取第一内容特征图的场景示意图。如图4所示,计算机设备在获取到各个视频帧对应的视觉特征图401之后,可以根据时间注意力网络40获取视觉特征图401的第一特征权重409。时间注意力网络40可以理解为一种时间注意力机制,可以在时间维度增加特征表达的有效性,本质上是一个加权机制。时间注意力网络40的作用是告诉视频识别模型,各个视觉特征图中那个视觉特征图更应该关注,并且提高这个视觉特征图的表达能力,也就是让视频识别模型更加关注这一视觉特征图的特征,其具体的表现形式是将这一视觉特征图对应的第一特征权重赋予更高的权重。
80.具体地,可以将各个视频帧对应的视觉特征图401输入至时间注意力网络40,通过时间注意力网络40输出各个视觉特征图401在时间维度上对应的第一特征权重409。其中,对视频识别模型影响越大的视觉特征图,其对应的第一特征权重越高。可以理解的是,由于待评估视频中本身可能包含不同的场景,采用相同的抽帧间隔对待评估视频进行抽帧之后
得到的视频帧,其可能包含多个场景,在某些场景下,可能包含特征相似程度很高的视频帧,或者包含对视频质量评估影响较大的关键帧。在这种情况下,将特征相似程度很高的视频帧对应的视觉特征图输入至时间注意力网络40,其输出的第一特征权重对应的权重值较低;将对质量评估影响较大的关键帧对应的视觉特征图输入至时间注意力网络,其输出的第一特征权重对应的权重值较高。也就是说,将特征相似程度很高的视频帧对应的视觉特征图对应的第一特征权重赋予较低的权重值,可以减少特征的冗余,有助于提高后续质量评估的效率。将对质量评估影响较大的关键帧对应的视觉特征图赋予较高的权重值,可以提高对质量评估影响较大的关键帧对应的视觉特征图的表达能力,从而可以提高视频识别模型的准确性。
81.进一步地,如图4所示,时间注意力网络40可以包括平均池化层402、最大池化层403、多层感知器组件404以及激活网络层408等子网络。平均池化层402可以用于对视觉特征图401可以进行平均池化处理;最大池化层403可以用于对视觉特征图401进行最大池化处理;多层感知器组件404可以用于对平均池化层402以及最大池化层403输出的特征进行降维处理,多层感知器组件404可以包括多个全连接层,其全连接层的数量可以根据实际的应用场景确定,在此不做限定。激活层408可以用于将输入的特征映射到[0,1]区间。
[0082]
具体地,计算机设备将输入的视觉特征图401经过两个并行的平均池化层402和最大池化层403,得到对应的得到平均池化特征图和最大池化特征图。可以理解的是,通过池化处理,可以压缩视觉特征图401映射的空间维度,例如,视觉特征图401的大小为c*h*w,经过池化处理后得到的平均池化特征图和最大池化特征图的大小变为c*1*1。然后将平均池化特征图和最大池化特征图经过共享的多层感知器模块404,在该多层感知器组件404中,先将平均池化特征图和最大池化特征图的通道数压缩为原来的1/r倍,再扩张到原通道数,实现对平均池化特征图和最大池化特征图进行全连接处理,分别得到对应的第一子特征图405和第二子特征图406。然后将第一子特征图405和第二子特征图406进行特征融合处理,得到第一融合特征407。具体可以是将第一子特征图405和第二子特征图406进行逐元素相加,得到第一融合特征407。将第一融合特征407输入至激活网络层408,再通过激活网络层408得到时间注意力网络40的输出结果,其输出结果为第一特征权重409。激活网络层408对应的激活函数可以是s型生长曲线(sigmoid函数)。可选地,第一子特征图405和第二子特征图406还可以经过整流线性单元(the rectified linear unit,relu)激活函数得到两个激活后的结果,再将这两个输出结果进行逐元素相加,再通过激活网络层408,得到视觉特征图401在时间维度上对应的第一特征权重409。在得到第一特征权重409之后,可以将第一特征权重409和视觉特征图401在时间维度上进行乘积运算,得到第一内容特征图410,使得第一内容特征图410变回c*h*w的大小,从而使得第一内容特征图可以保留视觉特征图中重要特征,抑制视觉特征图中不必要特征。本技术实施例中,通过时间注意力网络获取各个视觉特征图在时间维度上的第一特征权重,然后根据视觉特征图和第一特征权重得到第一内容特征图,使得第一内容特征图在时间维度上的特征表达更加有效,从而可以提高视频质量评估的准确性。
[0083]
步骤s103:获取第一内容特征图在空间维度上的第二特征权重,基于第二特征权重和第一内容特征图,得到视频帧对应的第二内容特征图,第二内容特征图用于确定待评估视频的质量评估结果。
[0084]
第二特征权重可以用于表征各个视频帧中的各个像素点对待评估视频的视频质量评估的贡献度,也就是说,第二特征权重可以用于表征第一内容特征图的各个区域上的特征对待评估视频的视频质量评估的贡献度。第二特征权重可以在空间维度上增加第一内容特征图的特征表达的有效性。其中,第二特征权重越大,其对应的第二内容特征图中的某一区域对视频质量评估的贡献度越大;反之,第二特征权重越小,其对应的第二内容特征图中的某一区域对视频质量评估的贡献度越小。第二内容特征图可以理解第一内容特征图中的各个区域根据对应的第二特征权重加权之后得到的特征图。第二内容特征图可以对第一内容特征图中的关键区域进行特征增强,对第一内容特征图中的非关键区域进行特征抑制。由于第二内容特征图是根据第一内容特征图和第二特征权重得到的,第一内容特征图可以实现各个视频帧在时间维度上特征表达的有效性,而第二特征权重可以在空间维度上增加第一内容特征图的特征表达的有效性,因此,第二内容特征图可以同时实现各个视频帧在时间维度以及空间维度上特征表达的有效性。
[0085]
具体地,计算机设备可以将第一内容特征图输入至空间注意力网络,基于空间注意力网络中的卷积层,对第一内容特征图进行三维卷积处理,得到第五内容特征图;然后基于空间注意力网络中的激活网络层,得到第五内容特征图在空间维度上的第二特征权重;进而根据第二特征权重和第一内容特征图,得到视频帧的第二内容特征图。
[0086]
请一并参考图5,图5是本技术实施例提供的一种获取第二内容特征图的场景示意图。如图5所示,计算机设备在获取到各个视频帧对应的第一内容特征图501之后,可以根据空间注意力网络50获取第一内容特征图501的第二特征权重505。与时间注意力网络40类似,空间注意力网络50可以理解为一种空间注意力机制,可以在空间维度增加特征表达的有效性,本质上是一个加权机制。空间注意力网络50的作用是告诉视频识别模型,第一内容特征图中那个区域更应该关注,并且提高这个区域在特征图的表达能力,也就是让视频识别模型更加关注这一区域的特征,其具体的表现形式是将第一内容特征图中这一区域对应的第二特征权重赋予更高的权重。
[0087]
具体地,可以将各个视频帧对应的第一内容特征图501输入至空间注意力网络50,通过空间注意力网络50输出第一内容特征图501在各个区域对应的第二特征权重505。其中,第一内容特征图中对视频识别模型影响越大的关键区域,其对应的第二特征权重越高;第一内容特征图中对视频识别模型影响越小的非关键区域,其对应的第二特征权重越低。可以理解的是,视频帧的内容通常包含前景和背景,并且可能有多个目标在同一个画面中,空间注意力网络50可以使得特征关注在任务相关性较强的关键区域内,减轻任务相关性较弱的非相关区域的影响,通过空间注意力网络50可以实现将任务相关性较强的空域特征增强。通过将第一内容特征图的关键区域赋予较高的权重值,将第一内容特征图的非关键区域赋予较低的权重值,使得视频识别模型关注任务相关的关键区域内特征表达,从而可以提高视频识别模型的准确性。
[0088]
进一步地,如图5所示,空间注意力网络50可以包括卷积层502以及激活网络层504等子网络。卷积层502可以用于进行三维卷积处理,以得到空域的特征表达;激活网络层504可以用于将输入的特征映射到[0,1]区间,激活网络层504对应的激活函数可以是s型生长曲线(sigmoid函数)。具体地,计算机设备将第一内容特征图501输入至卷积层502中,得到第五内容特征图503。其中,卷积层502可以包括一个或者多个三维卷积神经网络,用于提取
第一内容特征图中各个区域的特征,使得得到的第五内容特征图503具有空域的特征表达;进而将第五内容特征图503输入至激活网络层504,通过激活网络层504得到空间注意力网络50的输出结果,其输出结果为第二特征权重505,即得到第五内容特征图503在空间维度上对应的第二特征权重505。可选地,可以先将第一内容特征图501通过平均池化和最大池化处理,得到两个特征图,然后对这两个特征图进行拼接处理,再将拼接处理之后得到的特征图输入至卷积层502,再将卷积层502输出的特征图,通过激活网络层504,得到第一内容特征图在空间维度上对应的第二特征权重。在得到第二特征权重505之后,可以将第二特征权重505和第一内容特征图501在空间维度上进行乘积运算,得到第二内容特征图506。本技术实施例中,通过空间注意力网络获取第一内容特征图在空间维度上的第二特征权重,然后根据第一内容特征图和第二特征权重得到第二内容特征图,使得第二内容特征图在空间维度上的特征表达更加有效,从而可以提高视频质量评估的准确性。
[0089]
质量评估结果可以用于指示待评估视频的视频质量,具体可以是以数值的形式表示,数值越高表示对应的待评估视频的质量越好,例如,质量评估结果的取值范围可以是0至1,质量评估结果的数值越接近1,对应的待评估视频的质量越好。或者,质量评估结果也可以用文字的形式表示,例如质量评估结果可以为“优”、“良”等。由于第二内容特征图是根据第一内容特征图和第二特征权重得到的,第一内容特征图可以实现各个视频帧在时间维度上特征表达的有效性,而第二特征权重可以在空间维度上增加第一内容特征图的特征表达的有效性,因此,第二内容特征图可以同时实现各个视频帧在时间维度以及空间维度上特征表达的有效性。采用第二内容特征图确定待评估视频的质量评估结果,可以较为全面地表征待评估视频的特征,有助于提高视频质量评估的准确性。
[0090]
在本技术实施例中,获取待评估视频中的视频帧所对应的视觉特征图之后,可以先获取视觉特征图在时间维度上的第一特征权重,基于第一特征权重和视觉特征图,得到视频帧对应的第一内容特征图;然后,获取第一内容特征图在空间维度上的第二特征权重,基于第二特征权重和第一内容特征图,得到视频帧对应的第二内容特征图。由于第二内容特征图是根据第一内容特征图和第二特征权重得到的,第一内容特征图可以实现各个视频帧在时间维度上特征表达的有效性,而第二特征权重可以在空间维度上增加第一内容特征图的特征表达的有效性,因此,第二内容特征图可以同时实现各个视频帧在时间维度以及空间维度上特征表达的有效性。采用第二内容特征图确定待评估视频的质量评估结果,可以较为全面地表征待评估视频的特征,有助于提高视频质量评估的准确性。
[0091]
请参见图6,图6是本技术实施例提供的另一种视频处理方法的流程示意图。可以理解地,该视频处理方法由计算机设备执行,该计算机设备可以为终端设备(例如,图1所对应实施例中的终端设备102a、终端设备102b或终端设备102c),或者为服务器(例如,图1所对应实施例中的服务器101),或者为计算机程序(包括程序代码)。如图6所示,该视频处理方法可以包括以下步骤s201-步骤s208:
[0092]
步骤s201:获取待评估视频中的视频帧所对应的视觉特征图。
[0093]
其中,步骤s201的具体实现方式可以参见上述图3所对应实施例中的步骤s101,这里不再进行赘述。
[0094]
步骤s202:获取视觉特征图在时间维度上的第一特征权重,对第一特征权重和视觉特征图进行乘积运算,得到第三内容特征图。
[0095]
步骤s203:将第三内容特征图和所述视觉特征图,拼接为视频帧对应的第一内容特征图。
[0096]
步骤s204:获取第一内容特征图在空间维度上的第二特征权重,对第二特征权重和所述第一内容特征图进行乘积运算,得到第四内容特征图。
[0097]
步骤s205:将第四内容特征图和第一内容特征图,拼接为视频帧对应的第二内容特征图。
[0098]
其中,获取视觉特征图在时间维度上的第一特征权重的具体实现方式可以参见上述图3所对应实施例中的步骤s102;获取第一内容特征图在空间维度上的第二特征权重的具体实现方式可以参见上述图3所对应实施例中的步骤s103,这里不再进行赘述。
[0099]
第三内容特征图可以理解视觉特征图根据对应的第一特征权重加权之后得到的特征图。第三内容特征图可以增强视觉特征图中重要特征,抑制视觉特征图中不必要特征。第一内容特征图可以是根据视觉特征图和第三内容特征图进行特征融合得到的特征图,第一内容特征图在第三内容特征图的基础上补充了视觉特征图的特征,可以避免视觉特征图中部分对质量评估影响较大的特征的削弱或者丢失。第四内容特征图可以理解第一内容特征图中的各个区域根据对应的第二特征权重加权之后得到的特征图。第四内容特征图可以对第一内容特征图中的关键区域进行特征增强,对第一内容特征图中的非关键区域进行特征抑制。第二内容特征图可以是根据第四内容特征图和第一内容特征图进行特征拼接得到的特征图,第二内容特征图在第四内容特征图的基础上补充了第一内容特征,而第一内容特征图在第三内容特征图的基础上补充了视觉特征图的特征。因此,第二内容特征图补充了视觉特征图以及第一内容特征图中的特征,可以避免视觉特征图以及第一内容特征图中部分对质量评估影响较大的特征的削弱或者丢失,可以提高特征的利用率和表达能力。
[0100]
请一并参见图7,图7是本技术实施例提供的另一种获取第二内容特征图的场景示意图。如图7所示,在获取到视觉特征图701之后,将视觉特征图701输入至时间注意力网络71中,通过时间注意力网络71各个视觉特征图701在时间维度上对应的第一特征权重711。进而可以将第一特征权重711和视觉特征图701在时间维度上进行相乘处理,得到第三内容特征图702。其中,时间注意力网络71的具体结构可以参考图4中时间注意力网络40中的具体结构,在此不再赘述。在得到第三内容特征图702之后,可以将视觉特征图701和第三内容特征图702进行特征拼接处理,得到第一内容特征图703。第一内容特征图703既包含了第三内容特征图702的特征,也补充了视觉特征图701的特征,可以避免视觉特征图中部分对质量评估影响较大的特征的削弱或者丢失。在得到第一内容特征图703之后,将第一内容特征图703输入至空间注意力网络72中,通过空间注意力网络72各个第一内容特征图703在空间维度上对应的第二特征权重721。进而可以将第二特征权重721和第一内容特征图703在空间维度上进行相乘处理,得到第四内容特征图704。第四内容特征图704可以对第一内容特征图703中的关键区域进行特征增强,对第一内容特征图703中的非关键区域进行特征抑制。其中,空间注意力网络72的具体结构可以参考图5中空间注意力网络50中的具体结构,在此不再赘述。在得到第四内容特征图704之后,可以将第一特征图703和第四内容特征图704进行特征拼接处理,得到第二内容特征图705,使得得到的第二内容特征图705补充了视觉特征图701以及第一内容特征图703中的特征。在本技术实施例中,通过在时间注意力网络和空间注意力网络中增加了跳接结构,跳接结构通过将视觉特征图和注意力网络(包括
时间注意力网络和空间注意力网络)加权之后的第四内容特征图拼接起来,从而实现后续特征的增强,使得得到的第二内容特征图,补充了视觉特征图和第一内容特征图的特征,可以避免视觉特征图以及第一内容特征图中部分对质量评估影响较大的特征的削弱或者丢失,可以提高特征的利用率和表达能力。
[0101]
步骤s206:获取视频帧i和视频帧i+1分别对应的语义特征图,基于视频帧i的语义特征图和视频帧i+1的语义特征图,获取视频帧i和视频帧i+1之间的第一差异特征,i为正整数。
[0102]
可以理解的是视频帧中可以包含多个视频帧,例如,待评估视频中的视频帧可以包括视频帧i和视频帧i+1,视频帧i和视频帧i+1为待评估视频中的相邻视频帧,i为正整数,具体可以是1、2、3
……

[0103]
语义特征图可以用于表征待评估视频中的视频帧中包含的语义内容,例如,可以画面内容或者画面内容包含的文字信息等等。一般而言,语义特征图可以对待评估视频的质量评估结果产生重要的影响。因此,在本技术实施例中,既考虑到了各个视频帧对应的视觉特征,也考虑到了各个视频帧对应的语义特征。如图2所示,本技术实施例的视频识别模型的框架总体是一个双流网络,第一分支主要用于视觉特征提取和视觉特征处理,第二分支主要用于语义特征提取和语义特征处理。如图2所示,可以通过语义特征提取网络提取视频帧所对应的语义特征图。cnn模型具体的网络结构可以是resnet-50(一种残差网络),即计算机设备可以采用resnet-50来对待评估视频中的各个视频帧进行语义特征提取。其中,resnet-50可以包括多个网络层,每个网络层包括至少一个block(或称为卷积块),一个block包括3个卷积层(conv)。例如,resnet-50中的一个block可以包括:卷积核的大小为1*1且通道数为64的第一个卷积层,卷积核的大小为3*3且通道数为64的第二个卷积层,以及卷积核的大小为1*1且通道数为256的第三个卷积层。进一步地,计算机设备可以使用在imagenet(一种计算机视觉数据集)经过预先训练的resnet-50来对待评估视频帧中的视频帧进行语义特征提取。经过预先训练的resnet-50具有对不同语义信息的判别能力,从而能够更好地提取待评估视频帧中的视频帧的语义特征。可选地,还可以是其他的网络结构,例如resnet-18(一种深度残差网络)、resnet-34(一种深度残差网络)、resnet-101(一种深度残差网络)、resnet-152(一种深度残差网络)等等,本技术实施例对此不作限定。
[0104]
本技术实施例对应的第二内容特征图,不仅可以同时实现各个视频帧在时间维度以及空间维度上特征表达的有效性,还补充了视觉特征图和第一内容特征图的特征,可以避免视觉特征图以及第一内容特征图中部分对质量评估影响较大的特征的削弱或者丢失,可以提高特征的利用率和表达能力,而语义特征图可以对待评估视频的质量评估结果产生重要的影响,因此,根据语义特征图和第二内容特征图对待评估视频进行视频质量评估,可以较为全面地表征待评估视频的特征,有助于提高视频质量评估的准确性。
[0105]
第一差异特征可以理解为视频帧i和视频帧i+1对应的语义特征图在语义信息上的时域差异,可以作为语义信息在时间维度上的差异的度量。一般而言,对于视频质量较高的视频,视频帧i和视频帧i+1之间的差异非常小,甚至可以相邻两帧视频帧的对应的语义信息在一定程度上视为相同,也就是说,可以认为视频帧i和视频帧i+1对应的语义特征图在一定程度上视为相同。然而,视频质量较差的视频(例如严重失真的视频)可能会导致语义特征图的巨大变化。因此,可以采用第一差异特征来表征视频帧i和视频帧i+1是否存在
失真。具体可以参见图2,视频帧i对应的语义特征图为语义特征图301,视频帧i+1对应的语义特征图为语义特征图302。如图2所示,可以将语义特征图301和语义特征图302进行相减运算,获取视频帧i和视频帧i+1之间的第一差异特征,从而提取得到视频帧i和视频帧i+1在语义信息上的时域差异。
[0106]
步骤s207:基于视频帧i的第二内容特征图和视频帧i+1的第二内容特征图,获取视频帧i和视频帧i+1之间的第二差异特征。
[0107]
第二差异特征可以理解为视频帧i和视频帧i+1对应的第二内容特征图在视觉上的时域差异,可以作为视觉信息在时间维度上的差异的度量,可以作为局部失真信息在时间维度上的差异的度量。具体可以参见图2,视频帧i对应的第二内容特征图为第二内容特征图241,视频帧i+1对应的第二内容特征图为第二内容特征图242。如图2所示,可以将第二内容特征图241和第二内容特征图242进行相减运算,获取视频帧i和视频帧i+1之间的第二差异特征,从而提取得到视频帧i和视频帧i+1在视觉信息上的时域差异。
[0108]
步骤s208:基于第一差异特征、第二差异特征以及第二内容特征图,获取待评估视频的质量评估结果。
[0109]
可以理解的是,语义特征和视觉特征对待评估视频的质量评估结果都会产生重要的影响,但是二者的区别在于,语义特征主要涉及全局信息,主要与时间维度上的信息相关;而视觉特征主要涉及局部细节,与位置相关,因此视觉特征既与时间维度上的信息相关也与空间维度上的信息相关。因此,在使用质量评价模型对待评估视频进行质量评估时,除了需要考虑表征相邻两帧视频帧在语义特征上的时域差异的第一差异特征,以及表征相邻两帧视频帧在视觉特征上的时域差异的第二差异特征,还需要考虑包含了空间维度上的视觉特征的第二内容特征图。本技术实施例中,根据第一差异特征、第二特征差异以及第二内容特征,对待评估视频进行视频质量评估,不仅可以表征待评估视频中相邻两帧视频帧在语义特征以及视觉特征上的时域差异,还可以表征视觉特征在时间维度和空间维度上的信息,有助于提高视频质量评估的准确性。
[0110]
可选地,计算机设备还可以对第二差异特征和第二内容特征图进行特征融合,得到第二融合特征;进而将第二融合特征和第一差异特征拼接为第三融合特征,对第三融合特征进行全连接处理,得到待评估视频的质量评估结果。
[0111]
第二融合特征是第二差异特征和第二内容特征图进行特征融合得到的特征,其可以同时包含第二差异特征和第二内容特征图的特征。第三融合特征为第二融合特征和第一差异特征进行特征拼接的特征,第三融合特征不仅可以用于表征待评估视频的语义特征,还可以增加待评估视频的视觉特征在时间维度以及空间维度上的有效特征表达,根据第三融合特征有助于提高视频质量评估的准确性。
[0112]
可选地,请参见图2,为了方便后续的运算,还可以将第二差异特征输入至第一绝对值网络24,获取到第二差异特征的绝对值,从而保证第二差异特征为正。类似地,也可以将第一差异特征输入至第二绝对值网络31,获取到第一差异特征的绝对值。为了加快视频识别模型训练的计算时间,在通过第一绝对值网络24,输出的得到第二差异特征之后,可以将第二差异特征输入至第一全局平均网络25以及第一全连接网络26,通过第一全局平均网络25以及第一全连接网络26对第二差异特征图进行降维处理,得到第三子特征图;类似地,可以将第二内容特征图输入至第二全局平均网络27以及第二全连接网络28,通过第二全局
平均网络27以及第二全连接网络28进行降维处理,得到第四子特征图。进而将第一全连接网络26输出的第三子特征图与第二全连接网络28输出的第四子特征图进行融合特征处理,得到第二融合特征图,以使得第二融合特征图包含更多的特征信息。此外,在通过第二绝对值网络31,输出的得到第一差异特征图之后,还可以将第一差异特征输入至第三全连接网络32,得到第五子特征图,第三全连接网络32可以用于对第二绝对值网络31输出的第一差异特征进行降维处理。进而将视频识别模型的第一分支得到的第二融合特征图和第二分支得到的第五子特征图进行特征拼接处理,得到第三融合特征图,并将该第三融合特征图通过第四全连接网络33,进而输出待评估视频20的质量评估结果34。其中,第四全连接网络33可以包含一个或者多个全连接层。本技术实施例中,对第二差异特征和第二内容特征图进行特征融合,得到第二融合特征;进而将第二融合特征和第一差异特征拼接为第三融合特征,第三融合特征不仅可以用于表征待评估视频的语义特征,还可以增加待评估视频的视觉特征在时间维度以及空间维度上的有效特征表达,根据第三融合特征有助于提高视频质量评估的准确性。
[0113]
本技术实施例中,第二内容特征图不仅可以同时实现各个视频帧在时间维度以及空间维度上特征表达的有效性,还补充了视觉特征图和第一内容特征图的特征,可以避免视觉特征图以及第一内容特征图中部分对质量评估影响较大的特征的削弱或者丢失,可以提高特征的利用率和表达能力。通过表征相邻两帧视频帧在语义特征上的时域差异的第一差异特征,表征相邻两帧视频帧在视觉特征上的时域差异的第二差异特征,以及第二内容特征图对待评估视频进行质量评估,不仅可以表征待评估视频中相邻两帧视频帧在语义特征以及视觉特征上的时域差异,还可以表征视觉特征在时间维度和空间维度上的信息,有助于提高视频质量评估的准确性。
[0114]
为了验证对本方案中的视频识别模型的性能,将本方案的视频识别模型与现有技术中的视频识别模型进行比较,得到如表1所示的对比结果。其中,现有技术中的模型的具体结构没有引入时间注意力网络和空间注意力网络。
[0115]
表1
[0116]
方案plccsrocckroccrmse现有技术0.81050.79570.60570.3834本方案0.81700.80250.61260.3774
[0117]
具体地,以konvid-1k数据集为基准,该数据集包含120公开测试序列。其中,训练集,验证集,测试集分别按照60%、20%、20%的比例进行随机分配,并将训练集和验证集进行4折交叉验证训练4个完整的周期,在每个完整的训练周期内保存最优的测试结果,最终以4次完整周期最优结果的平均值作为最终结果。本技术实施例中每个待评估视频的视频帧数量为n=100。采用plcc、krocc、srocc和rmse四个客观指标对视频识别模型进行评估,其中,plcc、krocc和srocc的数值越大,其对应的质量评价模型性能越好;rmse的数值越小,其对应的质量评价模型性能越差。如表1所示,实验结果表明,对于同一在测试样本集,本方案提供的视频识别模型性能表现优异,相比现有技术的视频识别模型,其性能有明显提升。
[0118]
请参见图8,图8是本技术实施例提供的一种视频处理装置的结构示意图。如图8所示,该视频处理装置1可以包括:视觉特征获取模块11,时间维度处理模块12和空间维度处理模块13。各个模块的详细描述如下:
[0119]
视觉特征获取模块11,用于获取待评估视频中的视频帧所对应的视觉特征图;
[0120]
时间维度处理模块12,用于获取视觉特征图在时间维度上的第一特征权重,基于第一特征权重和视觉特征图,得到视频帧对应的第一内容特征图;
[0121]
空间维度处理模块13,用于获取第一内容特征图在空间维度上的第二特征权重,基于第二特征权重和第一内容特征图,得到视频帧对应的第二内容特征图;第二内容特征图用于确定待评估视频的质量评估结果。
[0122]
其中,视觉特征获取模块11,时间维度处理模块12和空间维度处理模块13的具体功能实现方式可以参见图3所对应的实施例中的步骤s101-步骤s103,这里不再进行赘述。
[0123]
在一个或者多个实施例中,时间维度处理模块12可以包括:平均池化单元121、最大池化单元122、第一融合单元123、第一乘积运算单元124和第一拼接单元125,其中:
[0124]
平均池化单元121,用于将视觉特征图输入至时间注意力网络,基于时间注意力网络中的平均池化层输出视觉特征图对应的到平均池化特征图,对平均池化特征图进行全连接处理,得到第一子特征图;
[0125]
最大池化单元122,用于基于时间注意力网络中的最大池化层输出视觉特征图对应的到最大池化特征图,对最大池化特征图进行全连接处理,得到第二子特征图;
[0126]
第一融合单元123,用于将第一子特征图和第二子特征图进行特征融合处理,得到第一融合特征,基于时间注意力网络中的激活网络层,得到第一融合特征在时间维度上的第一特征权重;
[0127]
第一乘积运算单元124,用于对第一特征权重和视觉特征图进行乘积运算,得到第三内容特征图;
[0128]
第一拼接单元125,用于将第三内容特征图和视觉特征图,拼接为视频帧对应的第一内容特征图。
[0129]
其中,平均池化单元121、最大池化单元122、第一融合单元123、第一乘积运算单元124和第一拼接单元125的具体功能实现方式可以参见图3所对应实施例中的步骤s102,以及图6所对应的实施例中的步骤s202和步骤s203,这里不再进行赘述。
[0130]
在一个或者多个实施例中,空间维度处理模块13可以包括:三维卷积单元131、激活单元132、第二乘积运算单元133和第二拼接单元,其中:
[0131]
三维卷积单元131,用于对第一特征权重和视觉特征图进行乘积运算,得到第三内容特征图;
[0132]
激活单元132,用于基于空间注意力网络中的激活网络层,得到第五内容特征图在空间维度上的第二特征权重;
[0133]
第二乘积运算单元133,用于对第二特征权重和第一内容特征图进行乘积运算,得到第四内容特征图;
[0134]
第二拼接单元134,用于将第四内容特征图和第一内容特征图,拼接为视频帧对应的第二内容特征图。
[0135]
其中,三维卷积单元131、激活单元132、第二乘积运算单元133和第二拼接单元的具体功能实现方式可以参见图3所对应实施例中的步骤s103,以及图6所对应的实施例中的步骤s204和步骤s205,这里不再进行赘述。
[0136]
待评估视频包括视频帧i和视频帧i+1,视频帧i和视频帧i+1为待评估视频中的相
邻视频帧,该装置还包括:该视频处理装置1还可以包括:第一获取模块14、第二获取模块15和质量评估模块16,其中:
[0137]
第一获取模块14,用于获取视频帧i和视频帧i+1分别对应的语义特征图,基于视频帧i的语义特征图和视频帧i+1的语义特征图,获取视频帧i和视频帧i+1之间的第一差异特征,i为正整数;
[0138]
第二获取模块15,用于基于视频帧i的第二内容特征图和视频帧i+1的第二内容特征图,获取视频帧i和视频帧i+1之间的第二差异特征;
[0139]
质量评估模块16,用于基于第一差异特征、第二差异特征以及第二内容特征图,获取待评估视频的质量评估结果。
[0140]
其中,第一获取模块14、第二获取模块15和质量评估模块16的具体功能实现方式可以参见图6所对应实施例中的步骤s206-步骤s208,这里不再进行赘述。
[0141]
在一个或多个实施例中,质量评估模块16可以包括:第二融合单元161和第三拼接单元162,其中:
[0142]
第二融合单元161,用于对第二差异特征和第二内容特征图进行特征融合,得到第二融合特征;
[0143]
第三拼接单元162,用于将第二融合特征和第一差异特征拼接为第三融合特征,对第三融合特征进行全连接处理,得到待评估视频的质量评估结果。
[0144]
其中,第二融合单元161和第三拼接单元162的具体功能实现方式可以参见图6所对应实施例中的步骤s208,这里不再进行赘述。
[0145]
在本技术实施例中,获取待评估视频中的视频帧所对应的视觉特征图之后,可以先获取视觉特征图在时间维度上的第一特征权重,基于第一特征权重和视觉特征图,得到视频帧对应的第一内容特征图;然后,获取第一内容特征图在空间维度上的第二特征权重,基于第二特征权重和第一内容特征图,得到视频帧对应的第二内容特征图。由于第二内容特征图是根据第一内容特征图和第二特征权重得到的,第一内容特征图可以实现各个视频帧在时间维度上特征表达的有效性,而第二特征权重可以在空间维度上增加第一内容特征图的特征表达的有效性,因此,第二内容特征图可以同时实现各个视频帧在时间维度以及空间维度上特征表达的有效性。采用第二内容特征图确定待评估视频的质量评估结果,可以较为全面地表征待评估视频的特征,有助于提高视频质量评估的准确性。
[0146]
请参见图9,图9是本技术实施例提供的一种计算机设备的结构示意图。如图9所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和一个或多个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(display)、键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。可选地,网络接口1004可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如一个或多个磁盘存储器。可选的,存储器1005还可以是一个或多个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
[0147]
在如图9所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接
口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
[0148]
获取待评估视频中的视频帧所对应的视觉特征图;
[0149]
获取视觉特征图在时间维度上的第一特征权重,基于第一特征权重和视觉特征图,得到视频帧对应的第一内容特征图;
[0150]
获取第一内容特征图在空间维度上的第二特征权重,基于第二特征权重和第一内容特征图,得到视频帧对应的第二内容特征图;第二内容特征图用于确定待评估视频的质量评估结果。
[0151]
应当理解,本技术实施例中所描述的计算机设备1000可执行前文图3、图6中任一个所对应实施例中对视频处理方法的描述,也可执行前文图8所对应实施例中对视频处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
[0152]
此外,这里需要指出的是:本技术实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的视频处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3、图6中任一个所对应实施例中对视频处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本技术方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
[0153]
此外,需要说明的是:本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3所对应实施例中对视频处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本技术方法实施例的描述。
[0154]
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0155]
本技术实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
[0156]
本技术实施例装置中的模块可以根据实际需要进行合并、划分和删减。
[0157]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(read-only memory,rom)或随机存储器(random access memory,ram)等。
[0158]
以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范
围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1