考虑多种人为效应的视频质量测量的制作方法

文档序号：7978568阅读：137来源：国知局

考虑多种人为效应的视频质量测量的制作方法
【专利摘要】一种特定实现确定分别用于多个人为效应类型的客观失真水平(d,)。所述客观失真水平被对齐以保证不同类型的人为效应的相同失真水平对应于相同感知的失真水平。对齐的失真水平(d,’)被排序以获得排序的失真水平(d,”)。所述排序的失真水平然后被一起汇集为整体失真水平或整体质量度量。可以使用加权和来汇集排序的失真水平，其中，当排序的失真水平更大时，所述加权更大。
【专利说明】考虑多种人为效应的视频质量测量
【技术领域】
[0001]本发明涉及视频质量测量，并且更具体地涉及一种用于响应于多种人为效应来确定整体视频质量度量的方法和设备。
【背景技术】
[0002]视频质量损失可能被各种事件引起，例如，被有损的压缩和传输误差引起，并且它们可以被人眼感知为各种类型的可视人为效应。例如，块化、环形化和模糊是由有损压缩引起的典型人为效应。
[0003]另一方面，当传输误差将视频质量变差时，可以感知到不同类型的人为效应。例如，当在传送层检测到分组丢失时，解码器可以应用错误隐藏，以便减小可视人为效应的强度。可以在错误隐藏后仍然感知到人为效应，并且我们将剩余的人为效应表示为信道人为效应。在另一个示例中，当整体丢失参考帧时，解码器可以冻结解码，并且重复先前正确地解码的画面，直到正确地接收到未引用丢失的帧的帧，因此引起视觉暂停。我们将这样的视觉暂停表示为冻结人为效应。该冻结人为效应也可以由缓冲器下溢引起。例如，当存在网络延迟时，可能在预定的显示时间未获得帧(即，缓冲器下溢)，并且显示暂停直到帧变得可获得。

【发明内容】

[0004]根据一个一般方面，访问包括多个人为效应类型的画面数据。将对齐的失真水平排序以获得排序的失真水平，其中，对齐的失真水平的每一个对应于多个人为效应类型的相应的一个，并且其中，所述对齐的失真水平的特定值对应于相应的感知的失真水平。响应于所述排序的失真水平来确定整体失真水平，其中，越大的排序的失真水平对于所述整体失真水平具有越大的影响。
[0005]根据另一个一般方面，访问包括多个人为效应类型的画面数据。对于所述多个人为效应类型确定相应的客观失真水平。将所述客观失真水平对齐以获得所述对齐的失真水平，其中，所述对齐的失真水平的每一个对应于所述多个人为效应类型的相应的一个，并且，其中，所述对齐的失真水平的特定值对应于相应的感知失真水平。将所述对齐的失真水平排序以获得排序的失真水平。将整体失真水平确定为所述排序的失真水平的加权和，其中，如果第一排序是失真水平大于第二排序的失真水平，用于第一排序的失真水平的第一加权大于用于第二排序的失真水平的第二加权。
[0006]在下面的附图和说明书中给出了一个或多个实现方式的细节。即使以一种特定方式来描述，也应当清楚，可以以各种方式来配置或体现实现方式。例如，可以将实现方式执行为方法或体现为诸如被配置为执行一组操作的设备或用于存储执行一组操作的指令的设备或体现为信号。通过结合附图和权利要求考虑的下面的详细说明，其他方面和特征将
变得清楚。【专利附图】

【附图说明】
[0007]图1是描述根据本原理的一个实施例的用于响应于多个人为效应类型来产生整体视频失真水平的例的流程图。
[0008]图2是描述客观失真水平如何对应于用于三种人为效应类型的主观失真水平的图例。
[0009]图3是描述根据本原理的一个实施例的视频质量监控器的示例的框图。
[0010]图4是描述可以用于一个或多个实现方式的视频处理系统的示例的框图。
【具体实施方式】
[0011]当在视频中呈现多种类型的可视人为效应时，可以通过多种方法来测量用于独立类型的人为效应的人为效应强度，即，人为效应水平或失真水平。
[0012]可以通过一般最佳但是耗时的客观观看测试来将人为效应强度分级。在本申请中，将人为分级(例如，通过客观观看测试)的人为效应强度或失真水平表示为感知的失真水平或客观失真水平。
[0013]也可以通过旨在预测感知的失真水平的多种算法来估计人为效应强度。例如，用于测量块化、环形化、模糊和冻结人为效应的现有的人为效应检测方法可以用于提供失真水平。在本申请中，通过算法估计的失真水平被表示为失真水平、估计的失真水平或客观失真水平。
[0014]本原理响应于来自多个人为效应的失真水平来估计整体失真水平或整体质量度量。通过数学方式，该估计可以描述为:
[0015]D = f (d1； d2,…，dm)
[0016]其中，m是考虑的人为效应类型的数量，dpi = 1，…，m是用于人为效应类型i的估计的失真水平，并且D是要估计的整体失真水平。在一个实施例中，可以将整体失真水平D转换为整体质量度量Q。
[0017]图1图示了基于独立人为效应类型的失真水平来确定整体失真水平的示例性方法100。在步骤110，可以对于独立的人为效应类型分别确定失真水平。例如，当考虑m个类型的人为效应时，可以对于第i类型的人为效应确定被表示为Cli的失真水平，其中，i =1，…，m0
[0018]在步骤120，对齐失真水平。失真水平对齐的步骤是保证调整失真水平使得不同类型的人为效应的相同失真水平对应于相同感知的失真水平。为了容易表示，用于Cli的调整的失真水平被表示为d/，并且从Cli至屯’的映射处理被表示为函数Iii O。即，可以将失真水平对齐处理在数学上表示为d/ = hi ((Ii)其中，i = l,..., mo
[0019]然后，在步骤130，例如以降序或升序来排序对齐的失真水平d/a = 1，…，m。可以将排序的失真水平表示为(1/’，1 = 1，一，111。当以降序来将它们排序时，(11"≥...，并且当以升序来将它们排序时，d/ (...Sd111"。
[0020]使用所排序的失真水平，可以在步骤140通过汇集策略来估计整体失真水平或质量度量。下面，更详细地讨论失真水平对齐(120)和整体失真水平确定的步骤。
[0021]失直水平对齐
[0022]图2图不了在客观失真水平(Cli)和主观失真水平之间的不例性关系。在该不例中，失真水平在(O，I)的范围内，其中，O对应于没有失真(即，最佳质量)，并且I对应于最闻失真水平(即，最差质量)。在其他实施例中，可以将失真水平缩放或移位到其他范围，例如，到(1,5)或到(LlOO)0
[0023]在图2中，水平轴表示客观失真水平，并且垂直轴表示主观失真水平。线210、220和230分别对应于三种类型的人为效应。对于由线240表示的客观失真水平，在相同客观失真水平处测量所有三个人为效应类型，但是它们对应于不同的主观失真水平。因此，估计的失真水平的值(屯，(12和d3)不主观上可比较，并且可以不用于比较不同人为效应类型的主观失真水平。例如，当Cl1M2时，感知的第一人为效应类型的烦扰可能不必然比第二人为效应类型更强。在另一个示例中，当Cl1 = d2时，感知的第一和第二人为效应类型的烦扰可能不相同。
[0024]失真水平对齐的目的是使得失真水平可比较。即，为了调整失真水平使得不同人为效应类型的相同失真水平对应于相同的主观失真水平。如前所述，可以将用于第i类型的人为效应的对齐处理在数学上表示为d/ = hi ((Ii)。
[0025]为了得出函数Iii ()，可以使用曲线拟合方法。在一个实施例中，可以将函数比()定义为三阶多项式函数:[0026]hj ((Ii) = β LiXdi3+β ^iXdi2+β ^iXdi+β 4」，
[0027]其中，β。和是可以通过主观数据集训练的模型参数。
[0028]在其他实施例中，函数Iii O可以被定义为在其他阶的多项式函数，或者，它可以是指数函数或对数函数。
[0029]整体失真水平确足
[0030]在对齐和排序步骤后，通过d/’的值来控制所感知的人为效应强度，而与其对应的人为效应类型无关。例如，假定视频V1和V2被两种类型的人为效应影响:压缩人为效应和通道人为效应，考虑下面两种示例性情况:
[0031]1.在视频V1中，在对齐步骤后在d/处测量压缩人为效应，并且在d2’处测量通道人为效应(d/ > d2’，即，压缩人为效应比通道人为效应更强)；以及
[0032]2.在视频V2中，在d/处测量通道人为效应，并且压缩人为效应是d2’。即，在视频V2中的通道人为效应是与在视频V1中的压缩人为效应相同的失真水平，并且在视频V2中的压缩人为效应在与在视频V1中的通道人为效应相同的失真水平。
[0033]在例如以降序排序后，对于两个视频V1和V2，Cl1" = d/并且d2" = d2’。因为基于排序的失真水平(屯”)来估计整体失真水平，所以它对于V1和V2两者都相同，即使用于独立的人为效应类型的失真水平不同。
[0034]因此，在对齐和排序步骤后，可以从排序的客观失真水平预测整体失真水平，而不考虑对应的人为效应类型。结果，可以简化组合多个人为效应类型的失真水平的问题。
[0035]在数学上，可以将多个排序的失真水平汇集为一个整体失真水平的问题表示为
[0036]D = g((I1;/，…，dm")。
[0037]可以使用线性或非线性函数来表示函数g()，并且，可以使用各种训练方法来获得函数g()的模型参数。在一个实施例中，使用加权和:
[0038]D= Θ (d" 1；…，d" m) = ctiXd" ^a2Xd" 2+…+ amXd" m+ a m+1 (I)
[0039]其中，Cii, i = 1，…，m+1是函数g()的模型参数，并且可以通过训练处理被确定。在其他实施例中，可以使用其他方法，例如，学习机、支持向量机(SVM)或人工神经网络(ANN)。
[0040]从我们的实验观察到，人眼通常更关注最强的人为效应，并且主要基于这些最强的人为效应来评估视频的质量或失真水平。另外，观察到，人为效应越弱，则对于人的感知有越小的影响。因此，如果Cli" >d/则模型参数ai> α」。
[0041]在一个实施例中，假定d/’表示最强的人为效应，因此，Ci1大于Cii, i古I。为了加速计算，我们可以使用下式来近似方程(I)
[0042]D= Θ (d"...，d" J = aiXd" !+Q2 (2)
[0043]在其他实施例中，我们可以选择仅考虑前几个最强的人为效应。
[0044]如在对齐和排序步骤中所述，可能需要训练处理来获得模型参数(例如，β j, i和a i)。下面，使用压缩人为效应、通道人为效应和冻结人为效应来作为三种示例性人为效应类型，讨论训练处理。
[0045]首先，建立具有不同的人为效应的视频，并且可以通过包括下述部分来产生训练数据集:
[0046]1.仅被编码人为效应影响的视频；
[0047]2.仅被通道人为效应影响的视频；
[0048]3.仅被冻结人为效应影响的视频；
[0049]4.被全部三种人为效应类型影响的视频。
[0050]该训练数据集要被对齐和汇集步骤两者使用，其中，前三种类型的视频被对齐步骤使用，并且第四类型的视频被汇集步骤使用。注意，训练数据集应当包括所考虑的所有类型的人为效应类型。
[0051]其次，可以在训练数据集上执行主观观看测试，以提供用于独立视频的主观失真水平。该主观失真水平可以被表示为ds,p j = 1，…，N，其中，N是在训练数据集中的视频的数量。
[0052]为了获得用于对齐步骤的参数，可以例如使用用于编码人为效应、通道人为效应和冻结人为效应的检测方案来获得用于独立的视频的客观失真水平(dp j = 1，...，Ν)。在获得主观失真水平和客观失真水平后，可以使用诸如最小均方差(LMSE)拟合方法的曲线拟合方法来确定模型参数和
[0053]为了获得用于汇集步骤的参数，可以例如使用方程(I)来获得用于第四类型的视频(即，包含所有三种人为效应类型的视频)的排序的失真水平(di”)。使用主观失真水平和对应的排序失真水平(d/’)，可以计算模型参数Qi例如，使用ITU-T P.NBAMS数据集之一，其中，样品视频包含压缩人为效应和冻结人为效应，将函数gO训练为:
[0054]Θ (d" !, ?" 2)=1.39Xd" !+0.25Xd77 2_2.00。
[0055]可以将整体失真水平转换为整体质量度量。通常，失真水平越高，则质量度量应当越低。
[0056]本失真水平估计方法的一个优点是它独立于失真集。即，当考虑不同类型的人为效应时，可以使用相同的估计步骤。例如，当可以基于压缩人为效应、通道人为效应和冻结人为效应确定模型参数时，当考虑另一组人为效应(例如，块化、环形化、模糊)时，可以使用用于汇集步骤的相同的模型参数。[0057]图3描述了示例性视频质量监控器300的框图。设备300的输入可以包括包含比特流的传送流。该输入可以具有包含该比特流的其他格式。该输入也可以是具有或没有错误隐藏的解码的视频。
[0058]人为效应检测器310在比特流级(即，不重建视频)或在像素级(即，重建视频)估计用于独立的人为效应类型的客观失真水平。失真水平产生器320例如使用方法100来估计整体失真水平。质量预测器330将整体失真水平映射到质量核心。
[0059]参见图4，示出了如上所述的特征和原理可以被应用到的视频发送系统或设备400。处理器405处理视频，并且编码器410编码视频。从编码器产生的比特流通过分布网络420被发送到解码器430。可以在不同的阶段使用视频质量监控器。
[0060]在一个实施例中，内容建立者可以使用视频质量监控器440。例如，编码器可以在诸如模式确定或比特流分配的确定编码参数中使用所估计的视频质量。在另一个示例中，在编码视频后，内容建立者使用视频质量监控器来监控所编码的视频的质量。如果质量度量未满足预定义的质量水平，则内容建立者可以选择重新编码该视频以改善视频质量。内容建立者也可以基于该质量来将所编码的视频分级，并且因此将内容充实。
[0061 ] 在另一个实施例中，视频质量监控器450可以被内容分发者使用。视频质量监控器可以被布置在分布网络中。视频质量监控器计算质量度量，并且将它们报告到内容分发者。基于来自视频质量监控器的反馈，内容分发者可以通过调整带宽分配和访问控制来改善其服务。
[0062]内容分发者也可以向内容建立者发送该反馈，以调整编码。注意，改善在编码器处的编码质量可能不必然改善在解码器侧的质量，因为高质量的编码的视频通常要求更多的带宽，并且留下更少的用于发送保护的带宽。因此，为了达到在解码器处的最佳质量，应当考虑在编码比特率和用于信道保护的带宽之间的平衡。
[0063]在另一个实施例中，视频质量监控器460可以被用户装置使用。例如，当用户装置在因特网中搜索视频时，搜索结果可能返回许多视频或到与所请求的视频内容对应的视频的许多链接。在搜索结果中的视频可以具有不同的质量水平。视频质量监控器可以计算用于这些视频的质量度量，并且确定选择要存储哪个视频。在另一个示例中，用户可以访问几个错误隐藏技术。视频质量监控器可以计算用于不同的错误隐藏技术的质量度量，并且基于所计算的质量度量来自动地选择要使用哪种隐藏技术。
[0064]可以例如在方法或处理、设备、软件程序、数据流或信号中实现在此所述的实现方式。即使仅在单个像素的实现方式的上下文中被讨论(例如，仅被讨论为方法，也可以以其他形式(例如，设备或程序)来实现所讨论的特征的实现方式。可以以例如适当的硬件、软件和固件来实现设备。可以以例如诸如处理器的设备来实现方法，处理器总体上指的是多个处理装置，包括例如计算机、微处理器、集成电路或可编程逻辑装置。处理器也包括通信装置，诸如计算机、蜂窝电话、便携/个人数字助理(“PDA”)和便利在最终用户之间的信息的通信的其他装置。
[0065]可以以多种不同的设备或应用、特别是例如与数据编码、数据解码、失真测量、质量测量和质量监控相关联的设备或应用来体现在此所述的各种处理和特征的实现方式。这样的设备的示例包括编码器、解码器、用于处理来自解码器的输出的后处理器、用于向编码器提供输入的前处理器、视频编码器、视频解码器、视频编码解码器、网络服务器、机顶盒、膝上型计算机、个人计算机、蜂窝电话、PDA、游戏控制台和其他通信装置。应当清楚，该设备可以是移动的，并且甚至可以被安装在移动汽车中。
[0066]另外，可以通过被处理器执行的指令来实现所述方法，并且这样的指令(和/或由实现方式产生的数据值)可以被存储在处理器可读介质上，诸如集成电路、软件载体或其他存储装置，该其他存储装置例如是硬盘、致密盘(“CD”)、光盘(诸如DVD，其经常被称为数字通用盘或数字视频盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。该指令可以形成在处理器可读介质上有形地包含的应用程序。指令可以例如在硬件、固件、软件或组合中。可以例如在操作系统、独立应用或该两者的组合中发现指令。处理器可以因此例如被表征为被配置为执行处理的装置和包括具有用于执行处理的指令的处理器可读介质的装置(诸如存储装置)。而且，处理器可读介质可以除了或取代指令而存储由实现方式产生的数据值。
[0067]对于本领域内的技术人员显然，实现方式可以产生被格式化来承载可以例如被存储或发送的信息的多种信号。该信息可以包括例如用于执行方法的指令或由所述实现方式之一产生的数据。例如，可以将信号格式化以承载作为数据的用于编写或读取所述实施例的语法的规则或承载作为数据的由所述实施例编写的实际语法值。这样的信号可以被格式化为例如电磁波(例如，使用频谱的射频部分)或基带信号。该格式化可以包括例如编码数据流并且使用编码的数据量来调制载波。信号承载的信息可以是例如模拟或数字信息。如所公知，可以通过多种不同的有线或无线链路来发送信号。该信号可以被存储在处理器可读介质上。
[0068]已经描述了多种实现方式。尽管如此，可以明白，可以进行各种修改。例如，可以组合、补充、修改或去除不同实现方式的元素以产生其他实现方式。另外，本领域内的普通技术人员将明白其他结构和处理可以替代所公开的那些，并且结果产生的实现方式将以与所公开的实现方式至少基本上相同的方式执行与所公开的实现方式至少基本上相同的功能，以实现与所公开的实现方式至少基本上相同的结果。因此，本申请考虑这些和其他实现方式。
【权利要求】
1.一种方法，包括: 访问包括多个人为效应类型的画面数据；将对齐的失真水平排序(130)以获得排序的失真水平，其中，对齐的失真水平的每一个对应于多个人为效应类型的相应的一个，并且其中，所述对齐的失真水平的特定值对应于相应的感知的失真水平；并且响应于所述排序的失真水平来确定(140)整体失真水平，其中，越大的排序的失真水平对于所述整体失真水平具有越大的影响。
2.根据权利要求1所述的方法，其中，响应于所述排序的失真水平的子集来确定所述整体失真水平。
3.根据权利要求1所述的方法，其中，响应于所述排序的失真水平的加权和来确定所述整体失真水平。
4.根据权利要求3所述的方法，其中，如果第一排序的失真水平大于第二排序的失真水平，用于第一排序的失真水平的第一加权大于用于第二排序的失真水平的第二加权。
5.根据权利要求1所述的方法，进一步包括: 响应于所述整体失真水平来确定质量度量。
6.根据权利要求1所述的方法，进一步包括: 确定(110)用于所述多个人为效应类型的相应的客观失真水平；并且对齐(120)所述客观失真水平以获得所述对齐的失真水平。
7.根据权利要求6所述的方法，其中，在比特流级确定用于所述多个人为效应类型的所述相应的客观失真水平。
8.根据权利要求6所述的方法，其中，作为多项式函数来执行所述对齐所述客观失真水平。
9.根据权利要求1所述的方法，其中，所述多个人为效应类型包括压缩人为效应、通道人为效应、冻结人为效应、块化、环形化和模糊的至少一个。
10.一种设备，包括: 失真水平产生器(320)，用于排序对齐的失真水平以获得排序的失真水平，其中，所述对齐的失真水平的每一个对应于多个人为效应类型的相应的一个，并且其中，所述对齐的失真水平的特定值对应于相应的感知的失真水平，并且响应于所述排序的失真水平来确定整体失真水平，其中，越大的排序的失真水平对于整体失真水平具有更大的影响。
11.根据权利要求10所述的设备，其中，所述失真水平产生器(320)响应于所述排序的失真水平子集来确定所述整体失真水平。
12.根据权利要求10所述的设备，其中，所述失真水平产生器(320)响应于所述排序的失真水平的加权和来确定所述整体失真水平。
13.根据权利要求12所述的设备，其中，如果第一排序的失真水平大于第二排序的失真水平，用于第一排序的失真水平的第一加权大于用于第二排序的失真水平的第二加权。
14.根据权利要求10所述的设备，进一步包括质量预测器(330)，用于响应于所述整体失真水平来确定质量度量。
15.根据权利要求10所述的设备，进一步包括: 人为效应检测器(310)，用于确定用于所述多个人为效应类型的相应的客观失真水平，其中，所述失真水平产生器(320)对齐所述客观失真水平以获得所述对齐的失真水平。
16.根据权利要求15所述的设备，其中，所述人为效应检测器(310)在比特流级确定用于所述多个人为效应类型的所述相应的客观失真水平。
17.根据权利要求10所述的设备，其中所述多个人为效应类型包括压缩人为效应、通道人为效应、冻结人为效应、块化、环形化和模糊的至少一个。
18.—种处理器可读介质，其上存储了指令，所述指令用于使得一个或多个处理器共同执行: 访问包括多个人为效应类型的画面数据；将对齐的失真水平排序(130)以获得排序的失真水平，其中，对齐的失真水平的每一个对应于多个人为效应类型的相应的一个，并且其中，所述对齐的失真水平的特定值对应于相应的感知的失真水平；并且响应于所述排序的失真水平来确定(140)整体失真水平，其中，越大的排序的失真水平对于所述整体失真水平具有越大的影响。
【文档编号】H04N19/192GK103959783SQ201180075137
【公开日】2014年7月30日申请日期:2011年11月28日优先权日:2011年11月28日
【发明者】顾晓东, 刘德兵, 陈志波申请人:汤姆逊许可公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：顾晓东;刘德兵;陈志波
技术所有人：汤姆逊许可公司
我是此专利的发明人

上一篇：基于负载的切换管理的制作方法
上一篇：用于lte-a的更高阶mu-mimo的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。