一种立体视频舒适度评价方法及装置与流程

文档序号:11237006阅读:519来源:国知局
一种立体视频舒适度评价方法及装置与流程

本发明涉及通信领域的视频技术,尤其涉及一种立体视频舒适度评价方法及装置。



背景技术:

立体视频通常有两个视频通道,利用立体眼镜可使左右眼分别看到两幅不同的画面,使眼睛聚焦的点(在屏幕上)与双眼视线汇聚点(屏幕前或后)不在一个平面上,从而产生具有一定景深的3d画面。这种基于双眼视差原理的3d显示技术与人正常观看物体时,聚焦和汇聚在一个点上的生理状态是不同的,因此长时间会导致视觉疲劳。

立体视频的舒适性是影响立体视频发展的主要问题之一,改善立体视频观看舒适度的前提是评价立体视频的舒适度。



技术实现要素:

本发明实施例提供了一种立体视频舒适度评价方法及装置,用以实现对立体视频的舒适度进行评价。

第一方面,提供一种立体视频舒适度评价方法,该方法包括:

获取立体视频段的视频帧;

估计所述立体视频段的视频帧的视差;

确定所述立体视频段的视频帧内每个像素的权值,将具有最大权值的像素的位置确定为所述立体视频段的视频帧的视觉焦点位置;

根据所述立体视频段的视频帧的视觉焦点位置确定所述立体视频段的视频帧的可视区域;

根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧的可视区域,提取所述立体视频段的视频帧的空域特性和时域特性;

根据所述立体视频段的视频帧的空域特性和时域特性,确定所述立体视频段的观看舒适度;

所述像素的权值采用如下公式计算:

w=γ*|mv|+η*|dispcrossed|+λ*|δd|

其中,w为坐标为(x,y)的像素的权值,γ、η和λ为加权值;表示所述坐标为(x,y)的像素的平面运动矢量,dx和dy分别为所述坐标为(x,y)的像素的水平位移和垂直位移,所述dx和dy在所述坐标为(x,y)的像素所在视频帧及所述坐标为(x,y)的像素所在的视频帧的相邻视频帧内搜索得到;dispcrossed为交叉视差值;δd为所述立体视频段的视频帧及其相邻视频帧的匹配块的平均视差的差值。

第二方面,提供一种立体视频舒适度评价装置,包括:

获取模块,用于获取立体视频段的视频帧;

提取模块,用于估计所述立体视频段的视频帧的视差;确定所述立体视频段的视频帧内每个像素的权值,将具有最大权值的像素的位置确定为所述立体视频段的视频帧的视觉焦点位置;根据所述立体视频段的视频帧的视觉焦点位置确定所述立体视频段的视频帧的可视区域;根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧的可视区域,提取所述立体视频段的视频帧的空域特性和时域特性;

评价模块,用于根据所述提取模块提取到的所述立体视频段的视频帧的空域特性和时域特性,确定所述立体视频段的观看舒适度。

所述提取模块采用如下公式计算所述像素的权值:

w=γ*|mv|+η*|dispcrossed|+λ*|δd|

其中,w为坐标为(x,y)的像素的权值,γ、η和λ为加权值;表示所述坐标为(x,y)的像素的平面运动矢量,dx和dy分别为所述坐标为(x,y)像素的水平位移和垂直位移,所述dx和dy在所述坐标为(x,y)的像素所在视频帧及所述坐标为(x,y)的像素所在的视频帧的相邻视频帧内搜索得到;dispcrossed为交叉视差值;δd为所述立体视频段的视频帧及其相邻视频帧的匹配块的平均视差的差值。

本发明的上述实施例中,通过检测立体视频段内视频帧的空域特性和时域特性,并根据视频帧的空域特性和时域特性对整个立体视频段的观看舒适度进行评价。本发明实施例提出的立体视频舒适度评价方案考虑了视差空间分布(即空域特性)和时间分布(即时域特性)对立体视频舒适度的影响,且可突出舒适度较差的帧对整体舒适度的影响,从而可以较为客观的对立体视频舒适度进行评价。

附图说明

图1为本发明实施例提供的立体视频舒适度评价流程示意图;

图2为本发明实施例提供的单帧频域特性和时域特性提取流程示意图;

图3为本发明实施例提供的基于单帧频域特性和时域特性对立体视频段舒适度进行评价的流程示意图;

图4为本发明另一实施例提供的基于单帧频域特性和时域特性对立体视频段舒适度进行评价的流程示意图;

图5为本发明实施例提供的立体视频舒适度评价装置示意图;

图6为本发明另一实施例提供的立体视频舒适度评价装置示意图。

具体实施方式

本发明实施例首先获得立体视频段包含的视频帧的视差图,然后提取视频帧的空域特性和时域特性,经过舒适度评价模型获得整个段的舒适度。本发明实施例提出的舒适度评价方法,考虑到了物体时域视差大小以及频率的变化对立体视频舒适度的影响。观众在观看视频过程中,质量较差的片段往往对整体观看体验的影响更大,现有技术不能体现出较差帧或者较差片段的影响,而本发明实施例提出的评估方法,可以突出舒适度较差帧的影响。

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

参见图1,为本发明实施例提供的立体视频舒适度评价流程示意图,如图所示,该流程可包括:

步骤101:获取待评价的立体视频段的视频帧。

步骤102:提取所述立体视频段的视频帧的空域特性和时域特性。

步骤103:根据该立体视频段的视频帧的空域特性和时域特性,确定该立体视频段的观看舒适度。

步骤102中,可通过以下方式实现:针对立体视频段的每一个视频帧,执行以下操作:估计该视频帧的视差,根据该视频帧的视差以及运动信息确定该视频帧的视觉焦点位置,根据该视频帧的视觉焦点位置确定该视频帧的可视区域,根据该视频帧的视差以及该视频帧的可视区域。为了更清楚的对步骤102进行说明,图2示出了图1中步骤102的一种可选实现方式,该流程可包括:

步骤201:初始化i值,即设置i=1。

步骤202:估计第i帧的视差。

通常,立体视频的每一帧包含左眼图像和右眼图像,称为立体图像对。视频帧内一个像素的视差是指一个立体图像对中匹配的像素间的距离,通常交叉视差为负,非交叉视差为正。立体视频的视差估计算法有多种,本发明实施例可选立体匹配算法来进行视差估计,比如可利用基于颜色分割的立体匹配算法获得稠密视差图。通过立体匹配算法获得视差后,还可以进一步进行滤波,以去除视差图中的误匹配点,使得到的视差图平滑、连续、准确。具体实施时,可以使用中值滤波去除异常点。

在利用基于颜色分割的立体匹配算法获得稠密视差图的过程中,通常需要定义搜索窗口,根据定义的搜索窗口进行立体匹配(即搜索匹配的像素)。比如,以当前像素为基准向左和向右分别搜索32个像素(此时搜索范围为32,视差的范围为-32~32),即在该搜索范围内搜索与当前像素匹配的像素。本发明实施例中,根据视频段内容的不同,可以调整搜索窗口的大小。搜索窗口的大小除了与视频的分辨率有关,还与视频帧的整体视差大小相关。若搜索窗口太小,会导致部分像素找不到匹配像素;若窗口太大,误匹配的概率会增大,得到的视差图准确度较低。为避免上述问题,搜索窗口的大小可与视频帧的视差幅度相近。

采用基于颜色分割的立体匹配算法估计视差时,有可能有些像素得不到视差,比如,当存在遮挡等问题时,部分像素不能获得视差。为解决该问题,本发明实施例中,在进行立体匹配过程中,若某像素未找到与之匹配的像素,则可将该像素的视差可设置为经验值,表明未找到匹配的像素,比如,仍以上述搜索范围是32为例,若针对当前像素未搜索到匹配的像素,则将该当前像素的视差设置为搜索范围加一,即设置为33。

步骤203:根据第i帧的视差以及运动信息,确定第i帧的视觉焦点位置。

该步骤中,可首先确定第i帧内每个像素的权值,将具有最大权值的像素的位置确定为第i帧的视觉焦点位置。进一步的,若第i帧内具有最大权值的像素有多个,则可将该多个具有最大权值的像素中,距离第i帧的图像中心位置最近的像素的位置,确定为第i帧的视觉焦点位置。

由于视频中较为剧烈的运动(比如平面运动和/或深度方向的运动)和较大的交叉视差容易引起观众的注意,因此本发明实施例在计算像素的权值时,可根据视频帧内匹配像素的平面运动(包括水平运动和垂直运动)、深度方向的运动以及交叉视差进行计算。其中,交叉视差是指物体成像于屏幕前方。

具体的,可根据以下公式计算第i帧内像素的权值:

w=γ*|mv|+η*|dispcrossed|+λ*|δd|………………………………[1]

其中,w为坐标为(x,y)的像素的权值,γ、η和λ为加权值,γ、η和λ之和可以取值为1,可选的,γ=0.2,η=0.4,λ=0.4;mv表示平面运动矢量,mv的大小表明平面运动的剧烈程度,表示坐标为(x,y)的像素的平面运动矢量,dx和dy分别为第i帧内的坐标为(x,y)像素的水平位移和垂直位移,所述dx和dy在第i帧及第i帧的相邻视频帧(所述第i帧的相邻视频帧例如为第i-1帧或第i+1帧)内搜索得到,比如,通过比较第i帧中坐标为(x,y)的像素以及与该像素匹配的像素在第i-1帧中的坐标,可得到该像素的dx和dy;dispcrossed为交叉视差值,对于每一个像素,只有在其视差为交叉视差时dispcrossed才有值,如果像素的视差为非交叉,则将dispcrossed取值为0;δd为第i帧及第i帧的相邻视频帧(所述第i帧的相邻视频帧例如为第i-1帧或第i+1帧)的匹配块的平均视差的差值,δd的大小表明深度方向运动的快慢。

步骤204:根据第i帧的视觉焦点位置确定该视频帧的可视区域。

该步骤中,在确定出视频帧i的视觉焦点位置后,可根据人眼分辨视域和观看距离确定图像可视区域。本发明实施例中,可选的可以取以焦点为中心、15°视角范围内的区域为可视区域。比如,一个立体视频段的分辨率为640*480,该立体视频段中的一个视频帧的可视区域可能在350*262像素范围内。

步骤205:根据第i帧的视差以及该视频帧的可视区域,提取第i帧的空域特性和时域特性。

本发明实施例中,一个视频帧的空域特性可包括以下参数之一或任意组合:该视频帧的参考视差(以下将第i帧的参考视差表示为mindisp)、参考视差的百分比(以下表示为p(mindisp))、边框效应的严重程度、是否满足“下近上远”空间布局。其中:

视频帧的参考视差mindisp,可以是视频帧的可视区域内的最小像素视差值。进一步的,考虑到在立体匹配时可能存在误匹配的现象,有时候会有一些像素的视差异常大或者异常小,但是这些像素往往都是离散的、数量较少的一些像素。但实际上,对于同一个物体来说,相邻区域的像素视差都应该是相同或相近的,因此像素视差的数量较少时就认为这些像素的匹配是不准的,因此可以在排除这些视差异常的像素后,根据其余的像素的视差选取出最小视差,作为该视频帧的参考视差。比如,可将所述视频帧的可视区域内,除噪声像素以外的其他像素的视差中的最小值,确定为所述视频帧的参考视差;其中,针对噪声像素的每一个视差值,其对应的像素(即具有该视差值的像素)数量低于设定像素数量阈值。这样,可以避免一些噪点对参考视差的选择,进而提高舒适度评估的准确性。

参考视差的百分比p(mindisp),是指视频帧的可视区域内,视差值为参考视差mindispi的像素数目与有效像素数目的比值,其中,有效像素的视差绝对值小于搜索范围。立体匹配过程中,存在一些像素匹配失败的现象,此时该像素的视差被设置为一个确定的经验值来标志该像素匹配失败,比如之前所说的搜索范围为32时,将匹配失败的像素的视差值设置为33。由于搜索窗口的大小限制了有效视差范围为[-32,32],因此视差在[-32,32]内的像素为匹配成功的像素,即有效像素,而视差不在[-32,32]内的像素即为无效像素,即误匹配像素,比如视差为33的像素即为误匹配像素。

边框效应,是指对于一个视频帧,如果位于屏幕边缘的物体(即成像于屏幕边缘的物体)的视差为交叉视差(即物体成像于屏幕前方),且物体的一部分超出了屏幕范围,则该视频帧存在边框效应(frame-effect),这会使观众在观看时产生极其不舒服的感觉。

“下近上远(bottom-up)”,是指一个视频帧对应的屏幕底端的物体(即成像于屏幕底端的物体)的感知深度离观众近、屏幕顶端物体(即成像于屏幕顶端的物体)的感知深度离观众远。符合“下近上远”的空间布局的视频帧不易导致视觉疲劳。

具体实施时,可使用观看舒适度影响因子dispdistribution(可称为第一观看舒适度影响因子)来表示边框效应的严重程度以及是否满足“下近上远”空间布局。参考视差、参考视差的百分比,以及dispdistribution反映了视频帧内视差的空间分布情况。

下面以第i帧为例,说明视频帧的参考视差mindisp、参考视差的百分比p(mindisp),以及dispdistribution的计算方法。

对于第i帧,确定其参考视差mindispi的方法可以是:在第i帧的可视区域内所有像素的视差中,选取最小值作为第i帧的参考视差的取值。另一种可选的实现方式可以是:确定第i帧对应的视差集合,该视差集合为所i帧可视区域内的像素视差集合,且其中的每个视差值对应的像素数量均大于所述设定阈值;将该视差集合中的最小视差值确定为第i帧的mindispi。比如,在n*n(n为像素数量)的统计窗口内,取最小视差,判断具有该最小视差值的像素数量是否大于阈值0.875*n*n,若大于,则将该最小视差作为第i帧的参考视差;若小于,则在该统计窗口内再选取除该最小视差以外的其余视差中的最小值,判断具有该最小值的像素数量是否大于阈值0.875*n*n,若大于,则将该最小视差作为第i帧的参考视差,否则参照上述方式排除该最小值,在其余的视差中再选择一个最小值,并参照上述方式进行判断和处理。

对于第i帧,参考视差的百分比p(mindisp)可通过计算第i帧的可视区域内,视差为参考视差mindispi的像素数目与有效像素数目的比值得到。

对于第i帧,可通过检测第i帧对应的屏幕边缘一定范围内,是否存在集中的小于设定视差值的交叉视差,来确定第i帧是否存在边框效应。比如,对于第i帧,可在屏幕边缘一定范围内,通过n*n的搜索窗口检测小于设定视差门限t的交叉视差的数目是否大于阈值0.75*n*n,如果大于,则判断第i帧存在边框效应,否则判断第i帧不存在边框效应。其中,门限t的取值要求小于“comfortzone”的下界,而“comfortzone”的范围与视频的分辨率、人眼瞳距、观看距离等一系列因素相关,因此门限t的取值不是一个固定值,可选值也与视频的分辨率相关。“comfortzone”是指:视差小于一定范围时,人眼不会产生视觉疲劳,比如当前视频分辨率下“comfortzone”是{-5pixels,8pixels],则门限t的值应该小于-5。比如,对于分辨率为640*480的视频帧,在屏幕边缘5%的范围内,如果在20*20的窗口内检测到小于-5的交叉视差的数目大于300个,则判断该视频帧存在边框效应。

对于第i帧,可将第i帧按照一定比例划分为三个区域,通过比较三个区域内有效像素的平均视差的大小关系来判断第i帧是否满足“下近上远”的空间布局。比如,对于第i帧,可将第i帧图像按照q%、1-q%(0<q<100)的图像高度划分为三个区域,通过比较三个区域内有效像素的平均视差的大小关系判断是否满足“下近上远”。例如,将第i帧图像在高度方向划分为三个区域,从上到下每个区域的高度比例为:0~20%、20%~80%、80%~1,分别计算每个区域有效像素的平均视差,如果topdisp<middledisp<bottomdisp,,则判断第i帧满足“下近上远”的空间布局。其中topdisp、middledisp、bottomdisp分别代表三个区域内有效像素的平均视差值。当然,也可以将第i帧按照一定比例划分为两个区域或多于三个区域,按照上述原则,通过比较各个区域内有效像素的平均视差的大小关系来判断第i帧是否满足“下近上远”的空间布局。

如上所述,本发明实施例可根据边框效应的严重程度和是否满足“下近上远”的空间布局,确定视差空间布局对舒适度的影响因子dispdistribution。dispdistribution取值高,表明视差分布较好,不易使观看者产生视觉疲劳,dispdistribution取值低,表明视差分布较差,容易使观看者产生视觉疲劳。在具体实施时,dispdistribution的取值范围可设置为[0,1],在视频帧不存在边框效应且满足下近上远空间布局的情况下,可将dispdistribution取较大值,比如可在[0.9,1]的范围内取值。在视频帧存在边框效应且不满足下近上远空间布局的情况下,可将dispdistribution取值较小。

本发明实施例给出了以下一种dispdistribution取值的可选方案:

若仅满足“下近上远”的空间分布,则dispdistribution=0.8;

若仅满足不存在边框效应,则dispdistribution=0.9;

若满足最佳布局,即,不存在边框效应且满足“下近上远”的空间分布,则dispdistribution=1;

若存在边框效应且不满足“下近上远”的空间分布,则dispdistribution=0.7。

可以看出,dispdistribution在视频帧不存在边框效应且满足下近上远空间布局时取第一值,在视频帧存在边框效应但满足下近上远空间布局时取第二值,在视频帧不存在边框效应但不满足下近上远空间布局时取第三值,在视频帧存在边框效应且不满足下近上远空间布局时取第四值,其中,第一值、第二值、第三值和第四值为预设值,且第一值小于第四值,第三值在第一值和第二值之间且与第一值和第二值均不相等。可选的,第一值、第二值、第三值和第四值的取值范围为:大于零且小于等于1。按照dispdistribution取值从小到大的顺序,计算得到的观看舒适度评价分值也按照从小到大的顺序增加(观看舒适度评价分值越高,表明观看舒适度越高)

一个视频帧的时域特性可包括该视频帧的可视区域内的视差在深度方向的变化。具体实施时,可使用观看舒适度影响因子vd(可称为第二观看舒适度影响因子)来表示可视区域内的视差在深度方向的变化的影响。

视差在深度方向的变化(vd)的影响因素有两个,一个是参考视差的在时域的变化(v1),另一个是参考视差出现的频率在时域的变化(v2),vd=f(v1,v2)。本发明实施例中,可根据一个视频帧的参考视差在时域的变化,和/或该视频帧的参考视差出现的频率在时域的变化,计算得到该视频帧的观看舒适度影响因子vd。

对于第i帧,一种简单度量视差在深度方向的变化(vd)的函数为:

其中,v1i表示第i帧的参考视差在时域的变化;表示第i帧的参考视差出现的频率在时域的变化;γ和μ为加权值,比如,γ+μ=1,可选的,γ和μ均取0.5。可以根据v1i影响的重要程度,调整γ和μ的值。一种极端的做法是γ=1,μ=0,此时只考虑视差在时域变化的影响。或者μ=1,γ=0,此时只考虑参考视差出现的频率在时域的变化的影响。

对于第i帧的v1i,本发明实施例提供了两种可选计算方法:

方法1:将立体视频段分段,同一视频段内的视频帧的参考视差单调变化且变化速度相同,根据以下公式计算第i帧的v1i

v1i=(displast-dispfirst)/(np-1)…………………………………[3]

其中,dispfirst和displast分别为第i帧所属视频段的第一帧和最后一帧的参考视差,np为第i帧所属视频段的视频帧数量。

方法2:根据以下公式计算第i帧的v1i

v1i=mindispi-mindispi-1……………………………………[4]

其中,mindispi和mindispi-1分别为第i帧和第i-1帧的参考视差。

对于第i帧的可根据以下公式计算:

其中,p(mindispi)和p(mindispi-1)分别为第i帧和第i-1帧的参考视差的百分比。

步骤206:递增i值,即设置i=i+1,并判断递增后的i值是否超过所述立体视频段的视频帧数目n,若判断为否,则转入步骤202,否则结束本流程。

通过以上流程可以看出,由于视频帧中较为剧烈的运动(比如平面运动和/或深度方向的运动)和较大的交叉视差容易引起观众的注意,因此本发明实施例在计算像素的权值时,可根据视频帧内匹配像素的平面运动(包括水平运动和垂直运动)、深度方向的运动以及交叉视差进行计算,选取其中权值最大的像素作为视觉焦点,根据该视觉焦点确定可视区域,该可视区域通常为观众感兴趣的区域,从而可以针对观众感兴趣的区域进行观看舒适度评价。

立体视频播放过程中,人眼无法准确识别每一个视频帧的舒适度,对于视频舒适度的反映是基于视频段的,而不是基于视频帧。因此,在图1的步骤103中,需要评估视频段的舒适度。

图3示出了图1中步骤103的一种可选实现方法,如图所示,该方法可包括以下步骤:

步骤301:计算立体视频段的每一个视频帧的观看舒适度。一个视频帧的舒适度由时域特性和空域特性共同决定。

在具体实施时,一个视频帧的舒适度模型可以为(以下以第i帧为例):

其中,为第i帧的观看舒适度,spatial_frame_vci为第i帧的空域特性决定的第i帧的观看舒适度,temperal_frame_vci为第i帧的时域特性决定的第i帧的观看舒适度,α和β为加权值。

其中,dispdistributioni为第i帧的dispdistribution因子,mindispi为第i帧的参考视差,p(mindispi)为第i帧的参考视差的百分比,b1为模型参数;为第i帧的vd因子;b2为模型参数,b2的取值与v1i和mindispi的符号有关。b1和b2是在拟合主观数据的过程中训练出来的模型参数,其取值可根据实际训练结果来确定。

可选的,如果对视频观看舒适度的主观评估时采用的是5分制,最低1分最高5分,则上述公式7和公式8中的参数c1取值为4。由于视频观看舒适度的主观评估时采用的是5分制,最低1分最高5分,将c1取值为4可保证最小值为1和最大值为5。同理,如果是其他分制,如11分制或百分制,则可对公式7和公式8中的模型参数的取值进行相应调整。

表1示出了一组可选的模型参数值。

表1模型参数

步骤302:根据所述立体视频段每一个视频帧的视觉焦点位置,对所述立体视频段进行子段划分,每个子段至少包含一个视频帧,每个子段的视频帧的视觉焦点位置转移量不大于设定转移量阈值,然后计算每个子段的观看舒适度。

该步骤中,分段依据是焦点在空间位置的转换量大小,如果连续多帧的焦点的空间位置相近,则将该连续多帧划分到一个子段内。比如,若相邻视频帧的空间焦点位置转移量δp小于5,则将所述相邻视频帧划分到一个子段,否则将所述相邻视频帧划分为不同子段。其中,dx和dy分别代表焦点转移的水平和垂直位移。

具体实施时,计算每个子段的观看舒适度的具体计算公式可以是:

其中,为第k个子段的舒适程度,nf为第k个子段内视频帧的数目,p1为联合参数,为设定数值,比如可选取值为7。p1可取值为大于1的整数。p1的可选值的选取可根据已有的测试段和对应的主观舒适度分值训练得到,通过设置合理取值,可以使主观分值和客观分值的相关性最高。

可选的,如果对视频观看舒适度的主观评估时采用的是5分制,最低1分最高5分,则上述公式9和公式10中的参数c2取值为5,即取值为主观评估的最高分。同理,如果是其他分制,如11分制或百分制,则可对公式7和公式8中的模型参数的取值进行相应调整。

步骤303:根据每个子段的观看舒适度计算所述立体视频段的观看舒适度。

具体实施时,具体计算公式可以是:

其中,q为所述立体视频段的观看舒适度,ns为所述视频段内子段的数目,p2为时域联合参数,为设定值,比如可选取值为3。p2可取值为大于1的整数。p2的可选值的选取可根据已有的测试段和对应的主观舒适度分值训练得到,通过设置合理取值,可以使主观分值和客观分值的相关性最高。

图4示出了图1中步骤103的另一种可选实现方法,该方法中,观看舒适度评价模型中提取的特性参数均为段的统计参数,不需要单独计算每个视频帧的舒适度以及子段的舒适度。如图所示,该方法可包括以下步骤:

步骤401:根据立体视频段的每一个视频帧的空域特性,计算该立体视频段的空域特性。

所述立体视频段的空域特性可包括以下参数之一或任意组合:该立体视频段的参考视差、该立体视频段的观看舒适度影响因子

具体实施时,立体视频段的参考视差可通过如下方式计算得到:计算所述立体视频段中所有视频帧的参考视差的加权平均值。具体计算公式可以是:

其中,为所述立体视频段中所有视频帧的参考视差的加权平均值,n为所述立体视频段中视频帧的数目,mindispi为第i帧的参考视差,p(mindispi)为第i帧的参考视差的百分比。

具体实施时,立体视频段的观看舒适度影响因子可通过如下方式计算得到:计算所述立体视频段内所有视频帧的观看舒适度影响因子dispdistribution的平均值。具体计算公式可以是:

其中,为所述立体视频段内所有视频帧的观看舒适度影响因子dispdistribution的平均值,dispdistributioni为第i帧的观看舒适度影响因子dispdistribution;

步骤402:根据该立体视频段的每一个视频帧的时域特性,计算该立体视频段的时域特性。

所述立体视频段的时域特性可包括该立体视频段的观看舒适度影响因子所述立体视频段的观看舒适度影响因子vd,具体可通过以下公式计算:

其中,为所述立体视频段的观看舒适度影响因子vd,为所述立体视频段内第i帧的观看舒适度影响因子vd,pi为设定值,pi的取值根据v1i和mindispi的符号来确定,即,pi的值与v1i和mindispi的符号有关,一种可取的值为:

当v1i与mindispi异号时,pi=0.8;

当v1i与mindispi同号时,pi=1;

通过pi可区分不同运动方向对观看舒适度的不同影响。当v1i与mindispi同号时,物体向远离屏幕的方向运动,这种情况下的舒适度非常差,pi可取较大值,比如上述pi=1;当v1i与mindispi异号时,物体向靠近屏幕的方向运动,这种情况下的舒适度较好,pi可取较小值,比如上述pi=0.8。

步骤403:根据步骤401~402计算出的参数,计算所述立体视频段的观看舒适度。

具体计算公式可以是:

vc=α*spatial_vc+β*temperal_vc………………………………[14]

其中,vc为所述立体视频段的观看舒适度,α和β为加权值,可选的,α+β=1;b1为模型参数。一组可用的模型参数为:α=0.8,β=0.2,b1=0.04。b1的可选值的选取可根据已有的测试段和对应的主观舒适度分值训练得到,取该值时,主观分值和客观分值的相关性最高。

可选的,如果对视频观看舒适度的主观评估时采用的是5分制,最低1分最高5分,则上述公式15和公式16中的参数c3取值为4,即取值为主观评估的最高分。同理,如果是其他分制,如11分制或百分制,则可对公式15和公式16中的模型参数的取值进行相应调整。

通过以上流程可以看出,本发明实施例通过检测人眼视觉焦点位置,根据人眼视角范围确定可视区域,利用可视区域内辐辏与调节冲突的严重程度度量立体视频观看舒适度。辐辏与调节冲突的严重程度是通过分析立体视频空间视差分布状况以及时域视差分布情况度量的。本发明实施例提出的评估方法充分考虑了视差空间分布和时间分布对立体视频舒适度的影响,且可突出舒适度较差的帧对整体舒适度的影响。

综上所述,立体视频舒适度评估是改善立体视频观看舒适度的前提条件,是影响立体视频发展的关键技术之一。本发明实施例提出的立体视频舒适度的客观评价方案,计算复杂度低,可靠性高,可以广泛应用与立体视频舒适度评估及监测。该方案与已有方案相比充分考虑了立体视频的空域特性和时域特性对立体视频舒适度的影响,且考虑到了人类视觉特性以及观众观看习惯,涵盖了影响观看舒适度的最主要影响因素,从而使立体视频观看舒适度评价较为客观和准确。

基于相同的技术构思,本发明实施例还提供了一种立体视频评价装置。

参见图5,为本发明实施例提供的立体视频评价装置的结构示意图。

获取模块501,用于获取立体视频段的视频帧;

提取模块502,用于提取所述获取模块获取到的立体视频段的视频帧的空域特性和时域特性;

评价模块503,用于根据所述提取模块提取到的所述立体视频段的视频帧的空域特性和时域特性,确定所述立体视频段的观看舒适度。

结合上述装置,在第一种可能的实现方式中,提取模块502具体用于:估计所述立体视频段的视频帧的视差,根据所述立体视频段的视频帧的视差以及运动信息确定所述立体视频段的视频帧的视觉焦点位置,根据所述立体视频段的视频帧的视觉焦点位置确定所述立体视频段的视频帧的可视区域,以及根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧的可视区域,提取所述立体视频段的视频帧的空域特性和时域特性。

结合上述装置的第一种可能的实现方式,在第二种可能的实现方式中,提取模块502可确定所述立体视频段的视频帧内每个像素的权值,将具有最大权值的像素的位置确定为所述立体视频段的视频帧的视觉焦点位置。

结合上述装置的第二种可能的实现方式,在第三种可能的实现方式中,提取模块502可采用公式(1)计算所述像素的权值,公式(1)的表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置的第二种或第三种可能的实现方式,在第四种可能的实现方式中,提取模块502具体用于:若所述立体视频段的视频帧内具有最大权值的像素有多个,则将所述多个具有最大权值的像素中,距离所述立体视频段的视频帧的图像中心位置最近的像素的位置,确定为所述立体视频段的视频帧的视觉焦点位置。

结合上述装置的第一种至第四种可能的实现方式中的任意一种可能的实现方式,在第五种可能的实现方式中,所述空域特性包括以下参数之一或任意组合:参考视差、参考视差的百分比、第一观看舒适度影响因子;

提取模块502具体用于:确定所述立体视频段的视频帧对应的视差集合,所述视差集合为所述立体视频段的视频帧可视区域内的像素视差集合,且其中的每个视差值对应的像素数量均大于所述设定阈值;将所述视差集合中的最小视差值确定为所述立体视频段的视频帧的参考视差;

计算所述立体视频段的视频帧的可视区域内,视差为所述参考视差的像素的数目与有效像素的数目的比值,得到所述立体视频段的视频帧的参考视差的百分比,所述有效像素是指的视差绝对值小于搜索范围的像素;

根据所述立体视频段的视频帧是否存在边框效应以及是否满足下近上远空间布局,确定所述立体视频段的视频帧的第一观看舒适度影响因子,所述第一观看舒适度影响因子在所述立体视频段的视频帧不存在边框效应且满足下近上远空间布局时取第一值,在所述立体视频段的视频帧存在边框效应但满足下近上远空间布局时取第二值,在所述立体视频段的视频帧不存在边框效应但不满足下近上远空间布局时取第三值,在所述立体视频段的视频帧存在边框效应且不满足下近上远空间布局时取第四值,其中,第一值、第二值、第三值和第四值为预设值,且第一值小于第四值,第三值在第一值和第二值之间且与第一值和第二值均不相等;所述边框效应是指对于一个视频帧,如果成像于屏幕边缘的物体的视差为交叉视差,且所述物体的一部分超出了屏幕范围,则存在边框效应;所述下近上远是指一个视频帧对应的成像于屏幕底端的物体的感知深度离观众近、成像于屏幕顶端的物体的感知深度离观众远。

结合上述装置的第一种至第五种可能的实现方式中的任意一种可能的实现方式,在第六种可能的实现方式中,所述时域特性包括第二观看舒适度影响因子;

提取模块502具体用于:根据所述立体视频段的视频帧的参考视差在时域的变化,和/或所述立体视频段的视频帧的参考视差出现的频率在时域的变化,计算得到所述立体视频段的视频帧的第二观看舒适度影响因子,所述第二观看舒适度影响因子数值的大小表示视频帧的参考视差在深度方向变化的程度。

结合上述装置的第六种可能的实现方式,在第七种可能的实现方式中,提取模块502具体用于:将所述立体视频段进行子段划分,同一子段内的视频帧的参考视差单调变化且变化速度相同,根据公式(3)计算所述立体视频段的视频帧的参考视差在时域的变化,根据公式(5)计算所述立体视频段的视频帧的参考视差出现的频率在时域的变化,根据公式(2)计算所述立体视频段的视频帧的第二观看舒适度影响因子。公式(3)、公式(2)和公式(5)的表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置的第六种可能的实现方式,在第八种可能的实现方式中,提取模块502可根据公式(4)计算所述立体视频段的视频帧的参考视差在时域的变化,根据公式(5)计算所述立体视频段的视频帧的参考视差出现的频率在时域的变化,根据公式(2)计算所述立体视频段的视频帧的第二观看舒适度影响因子。公式(4)、公式(5)和公式(2)的表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置或者上述装置的第一种至第八种可能的实现方式中的任意一种可能的实现方式,在第九种可能的实现方式中,评价模块503具体用于:

根据所述立体视频段的每一个视频帧的空域特性和时域特性,分别计算所述每一个视频帧的观看舒适度;

根据所述立体视频段的每一个视频帧的视觉焦点位置,对所述立体视频段进行子段划分,每个子段的视频帧的视觉焦点位置转移量不大于设定转移量阈值;根据每个子段内每个视频帧的观看舒适度,分别计算所述每个子段的观看舒适度;

根据每个子段的观看舒适度计算所述立体视频段的观看舒适度。

结合上述装置的第九种可能的实现方式,在第十种可能的实现方式中,评价模块503可根据公式(6)、公式(7)和公式(8)计算所述立体视频段的视频帧的观看舒适度。公式(4)、公式(5)和公式(2)的表达式以及相关参数的含义同前所述,在此不再重复。计算过程中涉及到的立体视频段的视频帧的参考视差、立体视频段的视频帧的参考视差的百分比、第一观看舒适度影响因子、第二观看舒适度影响因子等参数的计算方法,同前所述,在此不再重复。

结合上述装置的第九种或第十种可能的实现方式,在第十一种可能的实现方式中,评价模块503具体用于:根据公式(9)计算所立体视频段的的观看舒适度。公式(9)表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置的第九种至第十一种可能的实现方式中的任意一种可能的实现方式,在第十二种可能的实现方式中,评价模块503可根据公式(10)计算所述立体视频段的观看舒适度。公式(10)表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置或者上述装置的第一种至第十二种可能的实现方式中的任意一种可能的实现方式,在第十三种可能的实现方式中,评价模块503可根据所述立体视频段的视频帧的空域特性,计算所述立体视频段的空域特性,根据所述立体视频段的视频帧的时域特性,计算所述立体视频段的时域特性,根据所述立体视频段的空域特性和时域特性,计算所述立体视频段的观看舒适度。

结合上述装置的第十三种可能的实现方式,在第十四种可能的实现方式中,所述立体视频段的视频帧的空域特性包括以下参数之一或任意组合:所述立体视频段的视频帧的参考视差,参考视差的百分比和第一观看舒适度影响因子,这些参数的具体计算方法同前所述,在此不再重复。相应的,评价模块503可根据公式(11)计算所述立体视频段中所有视频帧的参考视差的加权平均值,根据公式(12)计算所述立体视频段内所有视频帧的第一观看舒适度影响因子的平均值。公式(11)和公式(12)表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置的第十三种或第十四种可能的实现方式,在第十五种可能的实现方式中,所述立体视频段的视频帧的时域特性包括:所述立体视频段的视频帧的第二观看舒适度影响因子(具体计算方法同前所述,在此不再重复),评价模块503可根据公式(13)计算所述立体视频段的第二观看舒适度影响因子。公式(13)表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置的第十三种至第十五种可能的实现方式中的任意一种可能的实现方式,在第十六种可能的实现方式中,评价模块503可根据公式(14)、公式(15)和公式(16)计算所述立体视频段的观看舒适度。公式(14)、公式(15)和公式(16)表达式以及相关参数的含义同前所述,在此不再重复。

基于相同的技术构思,本发明实施例还提供了一种立体视频评价装置。

参见图6,为本发明实施例提供的立体视频评价装置的结构示意图。该装置可包括:收发器601、存储器602和处理器603。存储器602用于存储应用程序、算法规则、计算参数等信息,还可用来存储处理器603处理过程中产生的中间结果。

收发器601,用于获取立体视频段的视频帧;

处理器603,用于提取所述获取模块获取到的立体视频段的视频帧的空域特性和时域特性;根据所述提取模块提取到的所述立体视频段的视频帧的空域特性和时域特性,确定所述立体视频段的观看舒适度。

结合上述装置,在第一种可能的实现方式中,处理器603具体用于:估计所述立体视频段的视频帧的视差,根据所述立体视频段的视频帧的视差以及运动信息确定所述立体视频段的视频帧的视觉焦点位置,根据所述立体视频段的视频帧的视觉焦点位置确定所述立体视频段的视频帧的可视区域,以及根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧的可视区域,提取所述立体视频段的视频帧的空域特性和时域特性。

结合上述装置的第一种可能的实现方式,在第二种可能的实现方式中,处理器603可确定所述立体视频段的视频帧内每个像素的权值,将具有最大权值的像素的位置确定为所述立体视频段的视频帧的视觉焦点位置。

结合上述装置的第二种可能的实现方式,在第三种可能的实现方式中,处理器603可采用公式(1)计算所述像素的权值,公式(1)的表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置的第二种或第三种可能的实现方式,在第四种可能的实现方式中,处理器603具体用于:若所述立体视频段的视频帧内具有最大权值的像素有多个,则将所述多个具有最大权值的像素中,距离所述立体视频段的视频帧的图像中心位置最近的像素的位置,确定为所述立体视频段的视频帧的视觉焦点位置。

结合上述装置的第一种至第四种可能的实现方式中的任意一种可能的实现方式,在第五种可能的实现方式中,所述空域特性包括以下参数之一或任意组合:参考视差、参考视差的百分比、第一观看舒适度影响因子;

处理器603具体用于:确定所述立体视频段的视频帧对应的视差集合,所述视差集合为所述立体视频段的视频帧可视区域内的像素视差集合,且其中的每个视差值对应的像素数量均大于所述设定阈值;将所述视差集合中的最小视差值确定为所述立体视频段的视频帧的参考视差;

计算所述立体视频段的视频帧的可视区域内,视差为所述参考视差的像素的数目与有效像素的数目的比值,得到所述立体视频段的视频帧的参考视差的百分比,所述有效像素是指的视差绝对值小于搜索范围的像素;

根据所述立体视频段的视频帧是否存在边框效应以及是否满足下近上远空间布局,确定所述立体视频段的视频帧的第一观看舒适度影响因子,所述第一观看舒适度影响因子在所述立体视频段的视频帧不存在边框效应且满足下近上远空间布局时取第一值,在所述立体视频段的视频帧存在边框效应但满足下近上远空间布局时取第二值,在所述立体视频段的视频帧不存在边框效应但不满足下近上远空间布局时取第三值,在所述立体视频段的视频帧存在边框效应且不满足下近上远空间布局时取第四值,其中,第一值、第二值、第三值和第四值为预设值,且第一值小于第四值,第三值在第一值和第二值之间且与第一值和第二值均不相等;所述边框效应是指对于一个视频帧,如果成像于屏幕边缘的物体的视差为交叉视差,且所述物体的一部分超出了屏幕范围,则存在边框效应;所述下近上远是指一个视频帧对应的成像于屏幕底端的物体的感知深度离观众近、成像于屏幕顶端的物体的感知深度离观众远。

结合上述装置的第一种至第五种可能的实现方式中的任意一种可能的实现方式,在第六种可能的实现方式中,所述时域特性包括第二观看舒适度影响因子;

处理器603具体用于:根据所述立体视频段的视频帧的参考视差在时域的变化,和/或所述立体视频段的视频帧的参考视差出现的频率在时域的变化,计算得到所述立体视频段的视频帧的第二观看舒适度影响因子,所述第二观看舒适度影响因子数值的大小表示视频帧的参考视差在深度方向变化的程度。

结合上述装置的第六种可能的实现方式,在第七种可能的实现方式中,处理器603具体用于:将所述立体视频段进行子段划分,同一子段内的视频帧的参考视差单调变化且变化速度相同,根据公式(3)计算所述立体视频段的视频帧的参考视差在时域的变化,根据公式(5)计算所述立体视频段的视频帧的参考视差出现的频率在时域的变化,根据公式(2)计算所述立体视频段的视频帧的第二观看舒适度影响因子。公式(3)、公式(2)和公式(5)的表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置的第六种可能的实现方式,在第八种可能的实现方式中,处理器603可根据公式(4)计算所述立体视频段的视频帧的参考视差在时域的变化,根据公式(5)计算所述立体视频段的视频帧的参考视差出现的频率在时域的变化,根据公式(2)计算所述立体视频段的视频帧的第二观看舒适度影响因子。公式(4)、公式(5)和公式(2)的表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置或者上述装置的第一种至第八种可能的实现方式中的任意一种可能的实现方式,在第九种可能的实现方式中,处理器603具体用于:

根据所述立体视频段的每一个视频帧的空域特性和时域特性,分别计算所述每一个视频帧的观看舒适度;

根据所述立体视频段的每一个视频帧的视觉焦点位置,对所述立体视频段进行子段划分,每个子段的视频帧的视觉焦点位置转移量不大于设定转移量阈值;根据每个子段内每个视频帧的观看舒适度,分别计算所述每个子段的观看舒适度;

根据每个子段的观看舒适度计算所述立体视频段的观看舒适度。

结合上述装置的第九种可能的实现方式,在第十种可能的实现方式中,处理器603可根据公式(6)、公式(7)和公式(8)计算所述立体视频段的视频帧的观看舒适度。公式(4)、公式(5)和公式(2)的表达式以及相关参数的含义同前所述,在此不再重复。计算过程中涉及到的立体视频段的视频帧的参考视差、立体视频段的视频帧的参考视差的百分比、第一观看舒适度影响因子、第二观看舒适度影响因子等参数的计算方法,同前所述,在此不再重复。

结合上述装置的第九种或第十种可能的实现方式,在第十一种可能的实现方式中,处理器603具体用于:根据公式(9)计算所立体视频段的的观看舒适度。公式(9)表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置的第九种至第十一种可能的实现方式中的任意一种可能的实现方式,在第十二种可能的实现方式中,处理器603可根据公式(10)计算所述立体视频段的观看舒适度。公式(10)表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置或者上述装置的第一种至第十二种可能的实现方式中的任意一种可能的实现方式,在第十三种可能的实现方式中,处理器603可根据所述立体视频段的视频帧的空域特性,计算所述立体视频段的空域特性,根据所述立体视频段的视频帧的时域特性,计算所述立体视频段的时域特性,根据所述立体视频段的空域特性和时域特性,计算所述立体视频段的观看舒适度。

结合上述装置的第十三种可能的实现方式,在第十四种可能的实现方式中,所述立体视频段的视频帧的空域特性包括以下参数之一或任意组合:所述立体视频段的视频帧的参考视差,参考视差的百分比和第一观看舒适度影响因子,这些参数的具体计算方法同前所述,在此不再重复。相应的,处理器603可根据公式(11)计算所述立体视频段中所有视频帧的参考视差的加权平均值,根据公式(12)计算所述立体视频段内所有视频帧的第一观看舒适度影响因子的平均值。公式(11)和公式(12)表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置的第十三种或第十四种可能的实现方式,在第十五种可能的实现方式中,所述立体视频段的视频帧的时域特性包括:所述立体视频段的视频帧的第二观看舒适度影响因子(具体计算方法同前所述,在此不再重复),处理器603可根据公式(13)计算所述立体视频段的第二观看舒适度影响因子。公式(13)表达式以及相关参数的含义同前所述,在此不再重复。

结合上述装置的第十三种至第十五种可能的实现方式中的任意一种可能的实现方式,在第十六种可能的实现方式中,处理器603可根据公式(14)、公式(15)和公式(16)计算所述立体视频段的观看舒适度。公式(14)、公式(15)和公式(16)表达式以及相关参数的含义同前所述,在此不再重复。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器,使得通过该计算机或其他可编程数据处理设备的处理器执行的指令可实现流程图中的一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图的一个流程或多个流程和/或方框图的一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的可选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括可选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1