基于量化参数的视频处理的系统和方法与流程

文档序号:15884462发布日期:2018-11-09 18:35阅读:182来源:国知局
基于量化参数的视频处理的系统和方法与流程

本公开的各种实施例涉及视频处理。更具体地,本公开的各种实施例涉及基于量化参数的视频处理。

背景技术

视频处理技术领域的进步革新了数字产业及其相关设备和应用。随着高分辨率视频内容服务的普及,视频编码技术的发展变得越来越重要。

在某些场景中,当用于编码视频内容的一个或多个图像块的比特数减少时,可能难以在不同图像块和/或图像帧上维持特定质量水平的视频内容。可能需要先进的系统的技术,使得视频质量不会在不同的图像块和/或图像帧上波动,并且可以在编码的视频中优化整体视频质量。

通过与如本申请的其余部分和参考附图所述的具有本公开的某些方面的所述系统进行比较,常见的和传统的方法的进一步限制和缺点对于本领域技术人员将是明晰的。



技术实现要素:

一种基于量化参数处理视频内容的系统和方法,基本上如至少一幅附图所示和/或结合其所述,在权利要求中更完整地记载。

通过阅读本公开的以下详细描述以及附图,可以理解本公开的这些和其他特征和优点,附图中相同的附图标记始终表示相同的部分。

附图说明

图1是示出了根据本公开的实施例的用于实现所公开的基于量化参数处理视频的系统和方法的网络环境的框图。

图2是示出了根据本公开的实施例的示例性视频处理设备的框图。

图3示出了根据本公开的实施例的用于实现所公开的基于量化参数处理视频的系统和方法的示例性最佳量化参数预测技术。

图4示出了根据本公开的实施例的用于实现所公开的基于量化参数处理视频的系统和方法的前馈神经网络的示例性概览。

图5a和图5b共同描述了根据本公开的实施例的示出基于量化参数处理视频的示例性方法的流程图。

具体实施方式

以下描述的实现可以在所公开的基于量化参数处理视频的系统和方法中被找到。本公开的示例性方面可以包括可以提取图像块的用于捕获纹理信息的多个特征的方法。可以训练神经网络回归器以映射所提取的多个特征以确定最佳量化参数(qp)。可以通过使用所确定的最佳qp来编码图像块。

根据实施例,第一图像帧的图像块可以由多个qp编码,多个qp用于生成第一图像帧的图像块的多个重建图像块。可以对多个重建图像块中的每一个利用图像质量测量,以确定该图像块的最佳qp。

根据实施例,图像质量测量可以是基于卷积神经网络的全参考图像质量测量。可以通过使用图像质量测量为多个重建图像块中的每一个生成分数。该分数可以表示多个重建图像块中的每一个的视觉质量的测量。

根据实施例,所确定的最佳qp的值可以在用于生成该图像块的多个重建图像块的多个qp的值中最高。所确定的最佳qp的值也可以大于或等于预先指定的图像质量阈值。

根据实施例,可以基于提取的多个特征生成训练数据集,所述多个特征对应于所确定的图像块的最佳qp。生成的训练数据集可以包括视频的第一图像帧的其他图像块的多个特征和对应的最佳qp。可以提取其他图像块的多个特征以捕获其他图像块的纹理信息。

根据实施例,生成的训练数据集可以用于训练神经网络回归器。可以基于该训练的神经网络回归器确定该图像块的所提取的多个特征与所确定的最佳qp之间的映射函数。根据实施例,神经网络回归器可以是基于前馈神经网络的回归模型。基于所述训练的神经网络回归器,可以为第二图像帧的另一个图像块预测另一最佳qp。

图1是示出了根据本公开的实施例的用于实现所公开的基于量化参数处理视频的系统和方法的网络环境的框图。参考图1,示出了视频处理设备102、显示设备104、通信网络106、视频108和一个或多个用户,诸如用户110。

根据实施例,视频处理设备102可以经由通信网络106被通信地耦合到显示设备104和一个或多个服务器(未示出)上。根据实施例,用户可以与显示设备104和/或视频处理设备102相关联。

视频处理设备102可以包括合适的逻辑、电路、接口和/或代码,其可以处理诸如视频108的一个或多个视频内容,以生成编码的视频。视频处理设备102的示例可以包括但不限于数码相机、便携式摄像机、视频编解码器、智能手机、投影仪、平板电脑、笔记本电脑、服务器、游戏设备、媒体流设备、视频会议装备和/或编码器和/或其他计算设备。

显示设备104可以包括合适的逻辑、电路、接口和/或代码,其配置为在解码之后呈现所编码的视频。显示设备104的示例可以包括但不限于电视(诸如高清电视(hdtv))、超高清电视(uhdtv)、互联网协议电视(iptv)、数字媒体接收器、媒体回放设备、视频编解码器、智能手机、游戏设备、视频会议装备和/或解码器和/或其他计算设备。

通信网络106可以包括媒体和一个或多个服务器,视频处理设备102可以通过该媒体与一个或多个显示设备(诸如显示设备104)通信。通信网络106的示例可以包括但不限于因特网、云网络、无线局域网(wlan)、局域网(lan)、普通老式电话服务(pots)和/或城域网(man)。根据各种有线和无线通信协议,网络环境100中的各种设备可用于连接到通信网络106。这种有线和无线通信协议的示例可以包括但不限于传输控制协议和因特网协议(tcp/ip)、长期演进(lte)、用户数据报协议(udp)、超文本传输协议(http)、文件传输协议(ftp)、zigbee、edge、红外(ir)、ieee802.11、ieee802.16、蜂窝通信协议和/或蓝牙(bt)通信协议。

在操作中,视频处理设备102可以被配置为接收视频108的图像序列。视频处理设备102可以被配置为提取用于捕获图像块的纹理信息的多个特征(图2中所述)。图像块可以指的是视频108的第一图像帧的输入图像块。视频处理设备102可以被配置为利用多个qp对第一图像帧的图像块进行编码,以生成第一图像帧的输入图像块的多个重建图像块。

根据实施例,视频处理设备102可以被配置为对多个重建图像块中的每一个生成分数。可以通过使用图像质量测量来生成该分数。图像质量测量可以是基于卷积神经网络(frcnn)的全参考图像质量测量。尽管如此,在不脱离本公开的范围的情况下,图像质量测量可以是用于客观图像质量评估的任何其他方法,诸如其他全参考方法、半参考方法和/或无参考方法。所生成的分数可以表示多个重建图像块中的每一个的视觉质量的测量。

根据实施例,视频处理设备102可以被配置为从多个qp值中确定该图像块的最佳量化参数(图3中详细示出和描述)。可以通过对多个重建图像块中的每一个使用图像质量测量(诸如frcnn)和质量阈值来确定图像块的最佳qp。所确定的最佳qp的值可以是该多个qp的值中最高的一个。所确定的最佳qp的值可以大于或等于预先指定的图像质量阈值。

根据实施例,视频处理设备102可以被配置为通过使用所确定的最佳量化参数来对图像块进行编码。视频处理设备102可以被配置为提取视频108的第一图像帧的另一图像块的多个特征。视频处理设备102进一步可以被配置为确定另一图像块的最佳qp。这可以通过使用诸如frcnn的图像质量测量和质量阈值的类似于上述的过程来完成。

根据实施例,视频处理设备102可以被配置为生成训练数据集。该训练数据集可以是基于图像块的所提取的多个特征和对应确定的最佳qp。类似地,另一个图像块的所提取的多个特征和对应确定的最佳qp也可以被用来形成训练数据集。大的训练数据集可以通过使用视频108的一个或多个图像帧(诸如至少第一图像帧)的各个图像块的多个特征和相关的最佳qp来生成。

根据实施例,视频处理设备102可以被配置为基于所生成的训练数据集训练神经网络回归器。根据实施例,神经网络回归器可以是基于前馈神经网络的回归模型。视频处理设备102可以被配置为在训练神经网络回归器的过程中,确定各个图像块(诸如该图像块和另一个图像块)的所提取的多个特征与所确定的最佳qp之间的映射函数和/或关系。

根据实施例,在训练神经网络回归器之后,视频处理设备102可以被配置为处理视频108或另一视频的后续图像帧(诸如第二图像帧)的图像块。视频处理设备102可以被配置为通过使用所训练的神经网络回归器来确定(或预测)第二图像帧的图像块的另一个最佳qp。类似地,通过使用相关的最佳qp,视频108的第二图像帧和其他图像帧的各个图像块可以被高效且快速地编码。最佳qp可以基于所训练的神经网络回归器来预测,并且可以被用来生成编码视频。通过使用如上所述的编码技术进行编码的视频108可以在该编码视频的不同图像块和/或编码图像帧上保持一致的视觉质量。

根据实施例,与存储视频108所需的存储空间相比,编码视频可以被存储在减少的存储空间中。由于量化操作是有损压缩,因此可以在不同的图像块和/或图像帧上保持视频质量的一致性的同时实现高压缩。如上所述,这可以通过使用编码技术来实现。视频处理设备102可以将编码视频存储在视频处理设备102的本地存储器(诸如内存)或内容服务器(未示出)中。根据实施例,编码中使用的最佳qp的值可以与编码视频一起存储。

根据实施例,编码视频可以在视频处理设备102处通过使用与编码时使用的相同的最佳qp来进行解码。在回放期间,视频质量不会在不同图像块和/或图像帧上波动。进一步,整体视频质量可以在用户(诸如用户110)观看时被优化。根据实施例,编码视频可以通过通信网络106被发送给一个或多个显示设备,诸如显示设备104。在这种情况下,编码视频可以被解码并随后在显示设备104处呈现。如用户110在回放期间所感知到的整体视频质量可被高度优化。

图2是示出了根据本公开的实施例的示例性视频处理设备的框图。参考图2,示出了视频处理设备102。视频处理设备102可以包括一个或多个处理器,例如处理器202、存储器204和网络接口206。处理器202可以通信地耦合到存储器204和网络接口206上。网络接口206可以被配置为经由通信网络106与显示设备104和一个或多个服务器通信。

处理器202可以包括合适的逻辑、电路、接口和/或代码,其可被配置为执行存储在存储器204中的一组指令。处理器202可以被称为视频处理器。处理器202可以基于本领域已知的多个处理器技术被实现。处理器202的示例可以是基于x86的处理器、基于x86-64的处理器、精简指令集计算(risc)处理器、专用集成电路(asic)处理器、复杂指令集计算(cisc)处理器、中央处理单元(cpu)、显式并行指令计算(epic)处理器、超长指令字(vliw)处理器和/或其他处理器或电路。

存储器204可以包括合适的逻辑、电路和/或接口,其可以被配置为存储可由处理器202执行的机器代码和/或指令集。存储器204可以进一步操作用于存储视频内容,诸如视频108、编码视频和/或其他数据。存储器204可进一步操作用于存储操作系统和相关应用。存储器204的实现示例可以包括但不限于随机存取存储器(ram)、只读存储器(rom)、带电可擦可编程只读存储器(eeprom)、硬盘驱动器(hdd)、固态驱动器(ssd)、cpu高速缓存和/或安全数字(sd)卡。

网络接口206可以包括合适的逻辑、电路、接口和/或代码,其可以被配置为经由通信网络106与显示设备104和一个或多个服务器通信。网络接口206可以实现已知技术以支持视频处理设备102与通信网络106间的有线或无线通信。网络接口206可以包括各种组件,诸如但不限于天线、收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、用户识别模块(sim)卡和/或本地缓冲器。网络接口206可以通过使用各种通信协议经由有线或无线通信进行通信,通信协议如先前在图1中关于通信网络106所述。

在操作中,处理器202可以被配置为接收视频108的图像序列。处理器202可以被配置为提取视频108的第一图像帧的图像块的多个特征以捕获其纹理信息。根据实施例,用于捕获纹理信息的多个特征可以是haralick纹理描述符、全变差和方差特征。haralick纹理描述符可以从灰度共生矩阵(glcm)计算,以提供经典的13个纹理特征,例如本领域已知的角二阶矩(asm)、对比度、相关性、平方和、逆差矩、和平均、和方差、和熵、熵、差分方差、差熵、相关性信息度量1和相关性信息度量2。对于像素的“n”灰度和空间关系(诸如上方、旁边、对角关系),glcm是“n×n”矩阵,其捕获在给定空间关系下两个灰度可以共同出现的概率。可以基于glcm矩阵统计地计算glcm特征。根据实施例,用于计算glcm的灰度的数量可以根据各种要求适当地改变。全变差和方差特征可以提供可以处理的图像或图像块内的像素值的统计。

根据实施例,为了以各种粒度提取多个特征,可以将输入图像块顺序地划分为一系列较小子图像的网格。网格的大小可以是1x1(原始图像块)、2x2、4x4和8x8之一。对于每个网格,针对每个子图像提取上述多个特征,然后将这些子特征连接成最终特征向量,该向量可以稍后用于馈送到qp预测神经网络(诸如图4中描述的前馈神经网络)。用于捕获纹理信息的多个特征可以构成qp预测神经网络的输入层。例如,在这种情况下,可以提取总共15个特征(来自haralick纹理描述符的13个纹理特征,来自全变差和方差各一个特征),其可以组成qp预测神经网络的输入层。用于qp预测神经网络的多个特征(诸如图4中所述的前馈神经网络)可以快速计算并有效地将下面的纹理特征近似为qp映射策略(如图3和图4所述)。

图3示出了根据本公开的实施例的用于实现所公开的基于qp处理视频的系统和方法的示例性最佳qp预测技术。参考图3,示出了可以是未压缩图像块的图像块302、多个qp值304、诸如重建图像块306a至306n的多个重建图像块306、图像质量测量308以及多个分数310。

在基于块的视频编码技术中,qp确定用于编码诸如图像块302的图像块的比特数。进一步,qp控制一个或多个重建块(诸如用于图像块302的重建图像块306a至306n)的视觉质量。一般地,较小的qp产生较高的视觉质量。然而,以这种方式确定的这种较高的视觉质量可能以较高比特率的代价发生。理想地,可以使用诸如qp=“1”的小qp来实现最佳视觉质量。然而,比特率可能受到外部资源的限制,诸如受到网络(诸如通信网络106)的带宽的限制。对于给定的速率,可能要求为每个图像块适当分配qp,以便视频质量可以在该视频(诸如视频108)的不同图像块和图像帧上保持一致并因此不波动。

根据实施例,处理器202可以被配置为对视频108的第一图像帧的图像块302进行编码。在这种情况下,多个qp值304,诸如qp值“1”至“n”(qp1至qpn)可用于生成重建图像块306a至306n。例如,当“n”=“1”至“52”时,范围从“1”至“52”的qp值可用于编码图像块302。在此过程中,总共“52”个重建(或降质)的图像块可以被获取。然后可以测量每个重建图像块306a至306n的视觉质量。可以期望该图像质量测量通过主观测试由人来分配。然而,执行这种大规模主观测试将是耗时且昂贵的。

信号保真度测量,诸如峰值信噪比(psnr)或均方误差(mse),被广泛用于测量图像失真。然而,人类的感知不与这些测量非常相关。例如,具有相同psnr的两个块可能具有非常不同的感知质量。因此,使用粗劣的质量测量可能导致在块和帧上的质量波动。这种波动会显著降低视觉感知或视觉质量。可以使用合适的图像质量测量来近似主观质量。

根据实施例,处理器202可以被配置为利用基于卷积神经网络(frcnn)的全参考图像质量测量来确定每个重建图像块306a至306n的视觉质量。frcnn质量测量可以近似于主观质量,并且可以是可靠的、计算上高效的和成本有效的图像质量测量。

根据实施例,处理器202可以被配置为通过使用诸如frcnn的图像质量测量,为多个重建图像块306中的每一个生成诸如“s1至sn”的分数。所生成的分数可以表示多个重建图像块306中的每一个的视觉质量的测量。较高分数可以表示较高质量。然后可以指定质量阈值,该质量阈值表示在重建的视频中需要实现的质量水平。处理器202可以被配置为基于质量阈值和通过使用图像质量测量(诸如frcnn)生成的多个分数310来确定最佳qp。最佳qp可以是满足质量阈值的多个qp值304中的最高qp值。根据实施例,质量阈值可以是预先指定的阈值量。例如,对于图像块302(未压缩图像块)“i”和质量阈值“θ”,分配给图像块302的qp值可以由以下数学表达式表示:

根据实施例,处理器202可以被配置为,以类似于上述过程的方式,提取特征并随后对视频108的第一图像帧(视频帧)的所有图像块进行编码。因此,在这种情况下,每个图像块可以被自动映射到一个qp值,其可以保持诸如视频108的第一图像帧和后续图像帧的图像帧的视觉质量。

通常,qp常是全局(globally)分配的。例如,可以使用统一的qp值来编码一个图像帧中的所有图像块。这可能导致统一的比特分配策略。然而,不同图像块的视觉特性可能未纳入考虑。由于它们不同的视觉外观,不同的图像块在隐藏由编码(压缩)过程引起的失真的能力上不同。结果,一些图像块可能对压缩更敏感。也就是说,在这些不同的图像块中可以更容易地观察到压缩伪像。应该为这样的图像块分配更多比特以编码或等效地分配更低的qp。统一比特分配,不考虑不同图像块的视觉特性,可能无法在图像帧上保持一致的视觉质量,因为不同的图像块由于其变化的视觉特性而在压缩之后将具有变化的视觉质量,如上所论述。因此,用于qp分配的更合理的技术或策略是为了保持统一的视觉质量,而不是统一的比特数,如有关图1、图2和图3的公开中所描述的。所公开的处理视频的系统和方法可以提供qp映射策略,其能够在编码的图像帧上保持一致的视觉质量。它可以使能更多比特自动分配给对压缩失真更敏感的图像块。根据实施例,可以通过提高处理性能来进一步加速这种最佳qp的确定。通过使用深度神经网络(诸如用于回归的前馈神经网络)可以实现降低的计算成本。

图4示出了根据本公开的实施例的用于实现所公开的基于量化参数处理视频的系统和方法的前馈神经网络的示例性概览。参考图4,示出了前馈神经网络400,其可以包括输入层402、多个隐藏层404和输出层406。

前馈神经网络400的输入层402可以包括与从输入图像块提取的纹理信息有关的多个特征。多个隐藏层404,诸如在这种情况下的3个隐藏层,可以包括多个节点。在这种情况下,每个层可以包括80个节点。整流线性单元“relu”可以实现激活函数“f(x)”,该函数可以在每个隐藏层中使用。激活函数“f(x)”可以基于以下数学表达式(2)来确定:

reluf(x)=max(x,0)……………………(2)

前馈神经网络400的输出层406可以包括“52”节点,每个节点对应于可能的qp值之一。输出节点具有在“-1”和“1”之间的激活值,其中具有最高激活的节点可以预测目标最佳qp值。

用于对每个图像块进行最佳qp预测以对视频108的第一图像帧的图像块进行编码(如图3所示)的过程,可以针对大的训练图像块集被重复。这可以用于生成训练数据集。所生成的训练数据集可以用于训练前馈神经网络400(神经网络回归器)以生成学习型(learned)(或训练的(trained))神经网络回归器。可以在该过程中使用学习型神经网络回归器来快速且可靠地将给定图像块的提取的纹理特征映射到最佳qp。由于用所有可能的qp值多次编码每个图像块所需的计算资源和相关成本可能很高,因此可以进一步优化和简化这种最佳qp预测以用于实际应用。这可以通过使用可以基于基于前馈神经网络的回归模型的前馈神经网络400来进行。

根据实施例,前馈神经网络400可以以无人监督的方式训练并且可以是自组织的。在这种情况下,从训练图像块提取的大量图像纹理特征可以被馈送到输入层402。训练(或预训练)可以由自动编码框架执行,其中前馈神经网络400的参数可以被调谐以能够以最佳可能方式形成训练输入。根据实施例,可以使用反向传播算法来实现这一点。例如,设训练样本的数量为“k”,其纹理特征向量可以表示为“fk”,qp值可以表示为“yk”,其中”“k=1,...,k”。则可以通过最小化以下目标函数(3)来优化网络参数“(w)”(诸如前馈神经网络400的参数):

其中“f”表示由前馈神经网络400指定的功能,“f(fk;w)”是输入“fk”的网络输出。优化可以通过反向传播来实现。

根据实施例,可以利用最佳qp预测技术通过馈送大量提取的纹理特征对(如图2和图3中所述)及其相关的确定的最佳qp值来改进前馈神经网络400,如图3所示。根据实施例,处理器202可以被配置为确定诸如与训练图像块相关的纹理特征的多个特征和确定的最佳qp值之间的映射函数。因此,前馈神经网络400可以在训练期间学习不同输入(诸如所提取的用于捕获不同训练图像块的纹理信息的多个特征)和输出(诸如确定的该图像块对应的最佳qp值)之间的关系。

根据实施例,在训练期间,可以训练前馈神经网络400用于分类。在这种情况下,可以使用神经网络分类器来预测用于视频编码的图像块的最佳qp。分类方案将不同的qp值“(1~52)”视为分类值或标签而不是具有顺序的实数。例如,在分类中,将qp=“1”的图像块错误分类为qp=“2”和qp=“52”的惩罚可以相等。然而,对于qp=“1”的块,与qp=“52”的预测相比,qp=“2”的错误预测更接近真实标签,因此,对这两个错误的惩罚应该给予不同,且将qp=“1”错误分类为qp=“52”应该给予更高的惩罚。

根据实施例,在训练中,前馈神经网络400可以被训练用于回归而不是分类。根据实施例,在训练中,当前馈神经网络400被训练用于回归(称为“神经网络回归器”)时,qp值被视为具有顺序的实数。在这种情况下,将qp=“1”错误分类为qp=“52”的惩罚高于将qp=“1”错误分类为qp=“2”的惩罚,如在神经网络回归器中那样。在这种情况下,qp值被视为具有顺序的实数。

根据实施例,当后续图像帧的另一图像块(诸如视频108的第二图像帧)要被编码时,处理器202可被配置为提取用于捕获另一图像块的纹理信息的多个特征。处理器202可以被配置为通过使用训练的(或学习的)前馈神经网络400(神经网络回归器)来快速映射另一图像块的提取的特征来确定最佳qp。基于所提取的特征,诸如haralick纹理描述符、全变差和方差特征,多个隐藏层404中的完全连接的节点可以使用根据数学表达式(2)的激活函数。输出层406中的一个节点可以具有最高的激活值,诸如“1”,如同所示。最高值的出现可以表示用于另一个图像块所提取的特征的最佳qp值。

根据实施例,处理器202可以被配置为基于训练的(学习的)前馈神经网络400(学习的神经网络回归器)来预测第二图像帧的另一图像块的最佳qp。处理器202可以被配置为通过使用预测的最佳qp来编码另一个图像块。因此,通过利用使用神经网络回归器的方法,可以提供系统且高效的机制以建立图像内容(诸如纹理特征)与最佳qp之间的关系。可以通过使用训练的神经网络回归器来编码视频108或另一输入视频的图像帧序列的不同图像块,其中压缩伪像可能在编码图像块中不可见。视频质量可以在输入视频(诸如视频108或其他输入视频)的不同图像块和图像帧上是一致的(并且可以不波动)。

根据实施例,一旦训练了神经网络回归器,处理器202就可以快速处理视频以生成编码视频,该编码视频可以在不同图像块上具有一致的质量。这种优化的视频处理和编码技术对于编码高分辨率视频服务(诸如uhdtv或4ktv和4k内容流服务)中使用的视频非常有用。所公开的处理视频的系统和方法还可以在视频会议、视频电话、数字视频广播、网络视频和数字影像产业中找到应用。所公开的处理视频的系统和方法还在诸如媒体编码器或媒体播放器的视频处理设备和视频编解码器应用中找到应用,其要求用于减少的存储空间的视频编码和/或在通信网络(诸如通信网络106)上优化的数据传输速率而不损害视频质量(诸如人类感知的视频质量)。

图5a和图5b共同描述了根据本公开的实施例的示出基于qp处理视频的示例性方法的流程图。参考图5a和图5b,示出了流程图500。流程图500是结合图1、图2、图3和图4来描述的。该方法在步骤502开始并进行到步骤504。

在步骤504,可以接收诸如视频108的视频的图像序列。在步骤506,可以提取用于捕获视频(诸如视频108)的第一图像帧的输入图像块的纹理信息的多个特征。根据实施例,捕获纹理信息的多个特征可以是haralick纹理描述符、全变差和方差(如先前图2中所述)。

在步骤508,可以用多个qp值(诸如qp“1”至“n”)对第一图像帧的图像块(诸如图像块302)进行编码,以生成第一图像帧的图像块的多个重建图像块(诸如重建图像块306a至306n)。在步骤510,可以利用诸如frcnn的图像质量测量来确定多个重建图像块(诸如重建图像块306a至306n)中的每一个的视觉质量。frcnn质量测量可以近似于主观质量,并且可以是用于qp预测目的的可靠、计算上高效且成本有效的图像质量测量。

在步骤512,可以为多个重建图像块(诸如重建图像块306a至306n)中的每一个生成分数。可以通过使用诸如frcnn的图像质量测量来生成这样的分数(诸如由“s1至sn”描述的多个分数310)。生成的分数可以表示多个重建图像块中的每一个的视觉质量的测量。在步骤514,可以通过使用图像质量测量(诸如frcnn)和质量阈值从多个qp值中确定最佳qp。该最佳qp可以是满足质量阈值的多个qp值中最高的qp值。

在步骤516,可以确定所提取的用于捕获一个或多个图像块(诸如第一图像帧的图像块)的纹理信息的多个特征和相关的确定的最佳qp是否大于预先指定的阈值量。例如,预先指定的阈值量可以对应于可能已经处理的某些预先指定数量的图像块和/或与其相关的确定的最佳qp。在所提取的用于捕获一个或多个图像块的纹理信息的多个特征和相关的确定的最佳qp小于预先指定的阈值量的情况下,控制可以转到步骤518。在所提取的用于捕获一个或多个图像块的纹理信息的多个特征和相关的确定的最佳qp等于或大于预先指定的阈值量的情况下,控制可以转到步骤520。

在步骤518,可以提取用于捕获另一输入图像块(诸如视频108的第一图像帧的另一图像块)的纹理信息的多个特征。控制可以返回到步骤508,并且可以重复步骤508到514以确定输入图像块的最佳qp。

在步骤520,可以基于所提取的一个或多个图像块的多个特征以及该一个或多个图像块的对应确定的最佳qp来生成训练数据集,如上所述。为了生成大的训练数据集,可以使用视频的至少第一图像帧的所有图像块的多个特征和相关的最佳qp。在步骤522,可以基于所生成的训练数据集来训练神经网络回归器(如图4所示)。

在步骤524,可以在训练神经网络回归器的同时确定一个或多个图像块的所提取的多个特征与所确定的最佳qp之间的映射函数和/或关系。神经网络回归器可以是基于前馈神经网络的回归模型,如图4所示。在步骤526,可以接收后续图像帧的图像块的另一输入,诸如视频(诸如视频108)的第二图像帧。

在步骤528,可以通过使用训练的神经网络回归器动态地预测输入图像块(诸如第二图像帧的图像块)的最佳qp。在步骤530,可以通过使用预测的最佳qp来编码该输入图像块,诸如第二图像帧的图像块。

在步骤532,可以确定是否编码了视频的所接收的图像序列的所有图像块。在编码了视频的所接收的图像序列的所有图像块的情况下,控制可以转到步骤534。在未编码视频的所接收的图像序列的所有图像块的情况下,控制可以返回到步骤526。可以基于训练的神经网络回归器,通过使用相关的预测的最佳qp来编码视频的第二图像帧和后续图像帧的各个图像块。

在步骤534,可以生成编码视频。压缩伪像可以在该编码视频中不可见。视频质量可以在输入视频(诸如视频108)的不同图像块和图像帧上一致(并且可以不波动)。控制转到结束步骤536。

根据本公开的实施例,公开了一种基于qp处理视频的系统。诸如视频处理设备102(图1)的设备可以包括一个或多个处理器(以下称为处理器202(图2))。处理器202可以被配置为提取用于捕获图像块的纹理信息的多个特征。处理器202可以进一步被配置为训练神经网络回归器以映射所提取的多个特征以确定最佳量化参数。处理器202可以进一步被配置为通过使用所确定的最佳量化参数编码该图像块。

本公开的各个实施例可以提供非暂时性计算机可读介质和/或存储介质,和/或其上存储有可由机器和/或计算机执行的基于量化参数处理视频的一组指令的非暂时性机器可读介质和/或存储介质。视频处理器中的指令集(诸如视频处理设备102(图1))可以使机器和/或计算机执行包括提取用于捕获图像块的纹理信息的多个特征的步骤。可以训练神经网络回归器以映射所提取的多个特征以确定最佳量化参数。可以通过使用所确定的最佳量化参数来编码图像块。

本公开可以以硬件或硬件和软件的组合来实现。本公开可以以集中式方式、以至少一个计算机系统或以分布式方式实现,其中不同元件可以分布在若干互连计算机系统上。适于执行本文所述的方法的计算机系统或其他装置可能是适合的。硬件和软件的组合可以是具有计算机程序的通用计算机系统,该计算机程序在被加载和执行时可以控制计算机系统,使得它执行本文所述的方法。本公开可以以包括还执行其他功能的集成电路的一部分的硬件来实现。

本公开还可以被嵌入在计算机程序产品中,该计算机程序产品包括使能本文所述方法的实现的所有特征,并且当加载到计算机系统中时该计算机程序产品能够执行这些方法。在本语境中,计算机程序是指想要使具有信息处理能力的系统直接地或在下列任一或两个之后执行特定功能的一组指令的任何语言、代码或符号的任何表达:a)转换为另一种语言、代码或符号;b)以不同的材料形式复制。

虽然本公开已经参考某些实施例进行了描述,但是本领域技术人员可理解,在不脱离本公开的范围的情况下,可以进行各种改变并且可以替换等同物。另外,在不脱离本公开的范围的情况下,可以做出许多修改以使特定的情况或材料适应本公开的教导。因此,意图是本公开不限于所公开的特定实施例,而是本公开将包括落入所附权利要求范围内的全部实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1