一种基于内容感知的立体全景视频晕动程度预测方法

文档序号:32312746发布日期:2022-11-23 12:50阅读:86来源:国知局
一种基于内容感知的立体全景视频晕动程度预测方法

1.本发明涉及一种视频舒适度评价技术,尤其是涉及一种基于内容感知的立体全景视频晕动程度预测方法。


背景技术:

2.随着沉浸式虚拟现实(virtual reality,vr)系统的逐渐普及,人们对视觉内容的追求已经不只局限于普通立体视频,还有具有更强沉浸体验感的立体全景视频。vr系统在与数字内容的交互方面具有革命性潜力,其已经在网络游戏、医疗、教育、农业等众多领域得到了广泛运用。然而,在给观众提供一个身临其境的观看环境的同时,vr系统还可能带来晕动症(motion sickness,ms),也被称为vr病或晕屏,降低了观众的体验质量(quality of experience,qoe)。晕动症表现出的常见症状是恶心、定向障碍、视觉不适,这些不良的感知体验在一定程度上限制了vr系统的发展。
3.截至目前,在不借助外力辅助的情况下(如前庭刺激),还没有一种完整的解决方案能够在保持观看者良好体验感的前提下有效地消除vr系统带来的晕动症。在这种情况下,通过预测观看立体全景视频可能发生的晕动症等级是一个十分有意义的工作,这可以让用户提前得知所观看的视频内容可能引发的反应。j.kim,w.kim,s.ahn,j.kim,and s.lee,"virtual reality sickness predictor:analysis of vi sual-vestibular conflict and vr contents,"2018tenth international conference on quality of multimedia experience,pp.1-6,2018.(虚拟现实疾病预测:视觉前庭冲突与虚拟现实内容分析)指出晕动症预测模型可以考虑场景中的用户观看行为,这可以通过显著性检测的形式进行建模,因为视觉注意是人类视觉系统(human visual system,hvs)中有限的有效资源,并不是所有的视觉刺激都会演化成感知视觉信息。此外,hvs还具有多尺度特性,视网膜可以同时处理多种分辨率的视觉信息。立体视觉内容也能给用户带来逼真的视觉体验,然而,长时间观看立体视觉内容时会产生一定程度的视觉不舒适。当立体感知与vr视频(普通全景视频)相结合时即立体全景视频,会使视觉的不舒适和晕动症症状更加严重。
4.目前,关于立体全景视频晕动程度预测的研究还较为缺乏,如何建立有效的客观预测模型还是需要深入探索。


技术实现要素:

5.本发明所要解决的技术问题是提供一种基于内容感知的立体全景视频晕动程度预测方法,其能够有效预测出观看立体全景视频时的晕动程度。
6.本发明解决上述技术问题所采用的技术方案为:一种基于内容感知的立体全景视频晕动程度预测方法,其特征在于包括如下步骤:
7.步骤1:取一个立体全景视频数据库作为基准数据库,将基准数据库中的第k个立体全景视频记为ik,将ik的左视点视频中的第i帧视频帧记为l
k,i
,将ik的右视点视频中的第i帧视频帧记为r
k,i
;其中,立体全景视频数据库中包含立体全景视频及其主观评分,1≤k≤
num,num表示基准数据库中包含的立体全景视频的总个数,num≥100,1≤i≤t,t表示立体全景视频的左视点视频或右视点视频中包含的视频帧的总帧数,t≥300,立体全景视频的左视点视频和右视点视频中的视频帧的宽度为w且高度为h;
8.步骤2:采用显著性检测算法,计算每个立体全景视频的左视点视频中的每帧视频帧的显著性对象图像,将l
k,i
的显著性对象图像记为并采用光流算法,计算每个立体全景视频的右视点视频中的每帧视频帧的运动信息图像,将r
k,i
的运动信息图像记为采用视差计算方法,计算每个立体全景视频的左视点视频中的每帧视频帧与右视点视频中同一时刻的视频帧的视差图像,将由l
k,i
与r
k,i
计算得出的视差图像记为d
k,i

9.步骤3:构建基于深度学习网络的立体全景视频晕动程度预测模型,其包括显著性加权模块、双目视觉感知模块、视觉运动感知模块、双目视差感知模块、池化融合模块、第一全连接层、第二全连接层、门控循环单元、第三全连接层、时间池化模型;
10.将每个立体全景视频的左视点视频中的每帧视频帧及其显著性对象图像输入到显著性加权模块中,显著性加权模块输出对应的第一尺度显著性加权特征图、第二尺度显著性加权特征图、第三尺度显著性加权特征图,将l
k,i
和输入到显著性加权模块中时显著性加权模块输出的对应的第一尺度显著性加权特征图、第二尺度显著性加权特征图、第三尺度显著性加权特征图对应记为f
k,i,s2
、f
k,i,s4
、f
k,i,s8
;将每个立体全景视频的左视点视频中的每帧视频帧及右视点视频中的每帧视频帧输入到双目视觉感知模块中,双目视觉感知模块输出对应的包含双目视觉信息的特征图,将l
k,i
和r
k,i
输入到双目视觉感知模块中时双目视觉感知模块输出的对应的包含双目视觉信息的特征图记为f
k,i,b
;将每个立体全景视频的右视点视频中的每帧视频帧的运动信息图像输入到视觉运动感知模块中,视觉运动感知模块输出对应的包含视觉运动信息的特征图,将输入到视觉运动感知模块中时视觉运动感知模块输出的对应的包含视觉运动信息的特征图记为f
k,i,m
;将每个立体全景视频的左视点视频中的每帧视频帧与右视点视频中同一时刻的视频帧的视差图像输入到双目视差感知模块中,双目视差感知模块输出对应的包含双目视差信息的特征图,将d
k,i
输入到双目视差感知模块中时双目视差感知模块输出的对应的包含双目视差信息的特征图记为f
k,i,d
;其中,第一尺度显著性加权特征图的宽度为且高度为通道数为64,第二尺度显著性加权特征图的宽度为且高度为通道数为256,第三尺度显著性加权特征图的宽度为且高度为通道数为512,双目视觉信息的特征图的宽度为且高度为通道数为2048,视觉运动信息的特征图的宽度为且高度为通道数为512,双目视差信息的特征图的宽度为且高度为通道数为512;
11.然后将显著性加权模块输出的对应的第一尺度显著性加权特征图、第二尺度显著性加权特征图、第三尺度显著性加权特征图,双目视觉感知模块输出的对应的包含双目视觉信息的特征图,视觉运动感知模块输出的对应的包含视觉运动信息的特征图,以及双目
视差感知模块输出的对应的包含双目视差信息的特征图,均输入到池化融合模块中,池化融合模块输出一个用于回归帧分数的特征向量,将l
k,i
和r
k,i
所对应的特征向量记为f
k,i,vectors
;其中,f
k,i,vectors
的维数为11712
×
1;
12.再将每个立体全景视频的左视点视频中的每帧视频帧和右视点视频中对应的视频帧所对应的特征向量输入到第一全连接层中,第一全连接层输出对应的维数为1024
×
1的特征向量;然后将第一全连接层输出的对应的特征向量输入到第二全连接层中,第二全连接层输出对应的维数为128
×
1的特征向量;接着将第二全连接层输出的对应的特征向量输入到门控循环单元中,门控循环单元输出对应的维数为32
×
1的特征向量;之后将门控循环单元输出的对应的特征向量输入到第三全连接层中,第三全连接层输出对应的一个数值,将这个数值作为该立体全景视频中的每帧视频帧所对应的初步帧晕动分数,将l
k,i
和r
k,i
所对应的初步帧晕动分数记为q
k,i
;其中,第一全连接层的神经元个数为1024,第二全连接层的神经元个数为128,第三全连接层的神经元个数为1;
13.最后将每个立体全景视频所对应的t个初步帧晕动分数输入到时间池化模型中,时间池化模型先获得每个立体全景视频中的每帧视频帧的具有人眼时间记忆效应的晕动预测分数,将l
k,i
和r
k,i
所对应的具有人眼时间记忆效应的晕动预测分数记为q'
k,i
,再对每个立体全景视频所对应的t个具有人眼时间记忆效应的晕动预测分数求平均,将平均值作为该立体全景视频的客观晕动程度预测分数,将ik的客观晕动程度预测分数记为qk,
14.步骤4:将基准数据库按(5~8):(5~2)比例分成训练数据库和测试数据库;
15.步骤5:使用训练数据库对基于深度学习网络的立体全景视频晕动程度预测模型进行训练,最终训练得到立体全景视频晕动程度预测模型的训练模型;其中,训练使用l1损失函数,采用初始学习率为0.00001的adam优化器;
16.步骤6:对于测试数据库中的任意一个待预测的立体全景视频,将其记为i
test
;然后按照步骤1和步骤2的过程,以相同的方式获得i
test
的左视点视频中的每帧视频帧的显著性对象图像、i
test
的右视点视频中的每帧视频帧的运动信息图像、i
test
的左视点视频中的每帧视频帧与i
test
的右视点视频中对应的视频帧的视差图像,将i
test
的左视点视频中的第i帧视频帧l
test,i
的显著性对象图像记为将i
test
的右视点视频中的第i帧视频帧r
test,i
的运动信息图像记为将i
test
的左视点视频中的第i帧视频帧l
test,i
与i
test
的右视点视频中的第i帧视频帧r
test,i
的视差图像记为d
test
,i;再将i
test
的左视点视频中的每帧视频帧的显著性对象图像、i
test
的右视点视频中的每帧视频帧的运动信息图像、i
test
的左视点视频中的每帧视频帧与i
test
的右视点视频中对应的视频帧的视差图像作为输入数据,通过立体全景视频晕动程度预测模型的训练模型,得到i
test
的客观晕动程度预测分数,记为q
test

17.所述的步骤3中,将l
k,i
和输入到显著性加权模块中,显著性加权模块的处理过程为:
18.步骤3_a1:对分别进行2倍、4倍、8倍下采样,对应得到的2倍下采样图像、4倍下采样图像、8倍下采样图像,对应记为其中,的宽度为且高度
为的宽度为且高度为的宽度为且高度为
19.步骤3_a2:对l
k,i
进行卷积核大小为7
×
7且卷积核个数为64的卷积操作,然后对卷积操作得到的特征图进行步长为2的3
×
3最大值池化操作,提取得到粗略特征图,记为l
k,i,2
;其中,l
k,i,2
的宽度和高度与的宽度和高度对应一致;
20.步骤3_a3:对l
k,i,2
进行卷积核大小为1
×
1且卷积核个数为64的第1次卷积操作,然后对第1次卷积操作得到的特征图进行卷积核大小为3
×
3且卷积核个数为64的第2次卷积操作,再对第2次卷积操作得到的特征图进行卷积核大小为1
×
1且卷积核个数为256的第3次卷积操作,最后对第3次卷积操作得到的特征图进行步长为2的3
×
3最大值池化操作,将3
×
3最大值池化操作得到的特征图记为l
k,i,4
;其中,l
k,i,4
的宽度和高度与的宽度和高度对应一致;
21.步骤3_a4:对l
k,i,4
进行卷积核大小为1
×
1且卷积核个数为128的第1次卷积操作,然后对第1次卷积操作得到的特征图进行卷积核大小为3
×
3且卷积核个数为128的第2次卷积操作,再对第2次卷积操作得到的特征图进行卷积核大小为1
×
1且卷积核个数为512的第3次卷积操作,最后对第3次卷积操作得到的特征图进行步长为2的3
×
3最大值池化操作,将3
×
3最大值池化操作得到的特征图记为l
k,i,8
;其中,l
k,i,8
的宽度和高度与的宽度和高度对应一致;
22.步骤3_a5:对与l
k,i,2
进行相乘操作,得到第一尺度显著性加权特征图,记为f
k,i,s2
;同样,对与l
k,i,4
进行相乘操作,得到第二尺度显著性加权特征图,记为f
k,i,s4
;对与l
k,i,8
进行相乘操作,得到第三尺度显著性加权特征图,记为f
k,i,s8
;其中,f
k,i,s2
的宽度为且高度为f
k,i,s4
的宽度为且高度为f
k,i,s8
的宽度为且高度为
23.所述的步骤3中,将l
k,i
和r
k,i
输入到双目视觉感知模块中,双目视觉感知模块的处理过程为:
24.步骤3_b1:将l
k,i
输入到第1个第一模块中,然后将第1个第一模块输出的特征图输入到第1个第二模块中,第1个第二模块输出l
k,i
的初步语义特征图,记为同样,将r
k,i
输入到第2个第一模块中,然后将第2个第一模块输出的特征图输入到第2个第二模块中,第2个第二模块输出r
k,i
的初步语义特征图,记为其中,和的宽度为且高度为和的通道数为2048;
25.步骤3_b2:对和进行拼接操作,将拼接操作得到的特征图记为p
k,i
;其中,p
k,i
的宽度为且高度为p
k,i
的通道数为4096;
26.步骤3_b3:对进行卷积核大小为1
×
1且卷积核个数为4096的第1次卷积操作,然后对第1次卷积操作得到的特征图进行卷积核大小为3
×
3且卷积核个数为4096的第2次
卷积操作,将第2次卷积操作得到的特征图记为同样,对进行卷积核大小为1
×
1且卷积核个数为4096的第1次卷积操作,然后对第1次卷积操作得到的特征图进行卷积核大小为3
×
3且卷积核个数为4096的第2次卷积操作,将第2次卷积操作得到的特征图记为其中,和的宽度为且高度为和的通道数为4096;
27.步骤3_b4:对p
k,i
与进行相减操作,将相减操作得到的特征图记为进行相减操作,将相减操作得到的特征图记为同样,对p
k,i
与进行相减操作,将相减操作得到的特征图记为进行相减操作,将相减操作得到的特征图记为然后对和进行拼接操作,再对拼接操作得到的特征图进行卷积核大小为1
×
1且卷积核个数为2048的卷积操作,卷积操作得到的特征图为包含双目视觉信息的特征图,并记为f
k,i,b
;其中,和的宽度为且高度为和的通道数为4096,f
k,i,b
的宽度为且高度为f
k,i,b
的通道数为2048。
28.所述的步骤3中,将输入到视觉运动感知模块中,视觉运动感知模块的处理过程为:将输入到第3个第一模块中,第3个第一模块输出包含视觉运动信息的特征图,记为f
k,i,m
;其中,f
k,i,m
的宽度为且高度为f
k,i,m
的通道数为512。
29.所述的步骤3中,将d
k,i
输入到双目视差感知模块中,双目视差感知模块的处理过程为:将d
k,i
输入到第4个第一模块中,第4个第一模块输出包含双目视差信息的特征图,记为f
k,i,d
;其中,f
k,i,d
的宽度为且高度为f
k,i,d
的通道数为512。
30.四个所述的第一模块的处理过程相同,其对输入到第一模块中的图像进行卷积核大小为7
×
7且卷积核个数为64的卷积操作;然后对卷积操作得到的通道数为64的特征图进行步长为2的3
×
3最大值池化操作;接着将第1次最大值池化操作得到的特征图输入到第1个第一卷积块中,将第1个第一卷积块输出的通道数为256的特征图输入到第2个第一卷积块中,将第2个第一卷积块输出的通道数为256的特征图输入到第3个第一卷积块中;之后对第3个第一卷积块输出的通道数为256的特征图进行步长为2的3
×
3最大值池化操作;再将第2次最大值池化操作得到的特征图输入到第1个第二卷积块中,将第1个第二卷积块输出的通道数为512的特征图输入到第2个第二卷积块中,将第2个第二卷积块输出的通道数为512的特征图输入到第3个第二卷积块中,将第3个第二卷积块输出的通道数为512的特征图输入到第4个第二卷积块中;最后对第4个第二卷积块输出的通道数为512的特征图进行步长为2的3
×
3最大值池化操作,将第3次最大值池化操作得到的特征图作为第一模块输出的特征图;
31.两个所述的第二模块的处理过程相同,其将输入到第二模块中的特征图输入到第1个第三卷积块中,将第1个第三卷积块输出的通道数为1024的特征图输入到第2个第三卷积块中,将第2个第三卷积块输出的通道数为1024的特征图输入到第3个第三卷积块中,将
第3个第三卷积块输出的通道数为1024的特征图输入到第4个第三卷积块中,将第4个第三卷积块输出的通道数为1024的特征图输入到第5个第三卷积块中,将第5个第三卷积块输出的通道数为1024的特征图输入到第6个第三卷积块中;然后对第6个第三卷积块输出的通道数为1024的特征图进行步长为2的3
×
3最大值池化操作;接着将第1次最大值池化操作得到的特征图输入到第1个第四卷积块中,将第1个第四卷积块输出的通道数为2048的特征图输入到第2个第四卷积块中,将第2个第四卷积块输出的通道数为2048的特征图输入到第3个第四卷积块中;最后对第3个第四卷积块输出的通道数为2048的特征图进行步长为2的3
×
3最大值池化操作,将第2次最大值池化操作得到的特征图作为第二模块输出的特征图。
32.三个所述的第一卷积块的处理过程相同,其对输入到第一卷积块中的特征图进行卷积核大小为1
×
1且卷积核个数为64的第1次卷积操作,然后对第1次卷积操作得到的通道数为64的特征图进行卷积核大小为3
×
3且卷积核个数为64的第2次卷积操作,再对第2次卷积操作得到的通道数为64的特征图进行卷积核大小为1
×
1且卷积核个数为256的第3次卷积操作,将第3次卷积操作得到的通道数为256的特征图作为第一卷积块输出的特征图;
33.四个所述的第二卷积块的处理过程相同,其对输入到第二卷积块中的特征图进行卷积核大小为1
×
1且卷积核个数为128的第1次卷积操作,然后对第1次卷积操作得到的通道数为128的特征图进行卷积核大小为3
×
3且卷积核个数为128的第2次卷积操作,再对第2次卷积操作得到的通道数为128的特征图进行卷积核大小为1
×
1且卷积核个数为512的第3次卷积操作,将第3次卷积操作得到的通道数为512的特征图作为第二卷积块输出的特征图;
34.六个所述的第三卷积块的处理过程相同,其对输入到第三卷积块中的特征图进行卷积核大小为1
×
1且卷积核个数为256的第1次卷积操作,然后对第1次卷积操作得到的通道数为256的特征图进行卷积核大小为3
×
3且卷积核个数为256的第2次卷积操作,再对第2次卷积操作得到的通道数为256的特征图进行卷积核大小为1
×
1且卷积核个数为1024的第3次卷积操作,将第3次卷积操作得到的通道数为1024的特征图作为第三卷积块输出的特征图;
35.三个所述的第四卷积块的处理过程相同,其对输入到第四卷积块中的特征图进行卷积核大小为1
×
1且卷积核个数为512的第1次卷积操作,然后对第1次卷积操作得到的通道数为512的特征图进行卷积核大小为3
×
3且卷积核个数为512的第2次卷积操作,再对第2次卷积操作得到的通道数为512的特征图进行卷积核大小为1
×
1且卷积核个数为2048的第3次卷积操作,将第3次卷积操作得到的通道数为2048的特征图作为第四卷积块输出的特征图。
36.所述的步骤3中,将f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
输入到池化融合模块中,池化融合模块的处理过程为:分别对f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
进行全局均值池化操作,得到各自的第一特征向量;分别对f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
进行全局标准差池化操作,得到各自的第二特征向量;分别对f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
进行全局最大值池化操作,得到各自的第三特征向量;然后将f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
各自的第一特征向量按顺序合并成一个第一合并特征向量,记为f
k,i,(1)
,f
k,i,(1)
=[gp
mean
(f
k,i,s2
),gp
mean
(f
k,i,s4
),gp
mean
(f
k,i,s8
),gp
mean
(f
k,i,b
),gp
mean
(f
k,i,m
),gp
mean
(f
k,i,d
)];并将f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
各自的第二特征向量按顺序合并成一
个第二合并特征向量,记为f
k,i,
(2),f
k,i,(2)
=[gp
std
(f
k,i,s2
),gp
std
(f
k,i,s4
),gp
std
(f
k,i,s8
),gp
std
(f
k,i,b
),gp
std
(f
k,i,m
),gp
std
(f
k,i,d
)];将f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
各自的第三特征向量按顺序合并成一个第三合并特征向量,记为f
k,i,(3)
,f
k,i,(3)
=[gp
max
(f
k,i,s2
),gp
max
(f
k,i,s4
),gp
max
(f
k,i,s8
),gp
max
(f
k,i,b
),gp
max
(f
k,i,m
),gp
max
(f
k,i,d
)];再将f
k,i,(1)
、f
k,i,(2)
、f
k,i,(3)
按顺序合并成f
k,i,vectors
,f
k,i,vectors
=[f
k,i,(1)
,f
k,i,(2)
,f
k,i,(3)
];其中,gp
mean
(f
k,i,s2
),gp
mean
(f
k,i,s4
),gp
mean
(f
k,i,s8
),gp
mean
(f
k,i,b
),gp
mean
(f
k,i,m
),gp
mean
(f
k,i,d
)对应表示f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
的第一特征向量,对应维数为64
×
1、256
×
1、512
×
1、2048
×
1、512
×
1、512
×
1,gp
mean
()表示全局均值池化操作,gp
std
(f
k,i,s2
),gp
std
(f
k,i,s4
),gp
std
(f
k,i,s8
),gp
std
(f
k,i,b
),gp
std
(f
k,i,m
),gp
std
(f
k,i,d
)对应表示f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
的第二特征向量,对应维数为64
×
1、256
×
1、512
×
1、2048
×
1、512
×
1、512
×
1,gp
std
()表示全局标准差池化操作,gp
max
(f
k,i,s2
),gp
max
(f
k,i,s4
),gp
max
(f
k,i,s8
),gp
max
(f
k,i,b
),gp
max
(f
k,i,m
),gp
max
(f
k,i,d
)对应表示f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
的第三特征向量,对应维数为64
×
1、256
×
1、512
×
1、2048
×
1、512
×
1、512
×
1,gp
max
()表示全局最大值池化操作,符号“[]”为向量或矩阵表示符号。
[0037]
所述的步骤3中,将ik所对应的t个初步帧晕动分数输入到时间池化模型中,时间池化模型的处理过程为:
[0038]
步骤3a:将ik的左视点视频或右视点视频分成t个帧组,第1个帧组由第1帧视频帧作为起始帧的连续12帧视频帧构成,第2个帧组由第2帧视频帧作为起始帧的连续12帧视频帧构成,依次类推,第t-11个帧组由第t-11帧视频帧作为起始帧的连续12帧视频帧构成,而第t-10个帧组由第t-10帧视频帧作为起始帧的剩余的所有视频帧与1帧补0帧构成,依次类推,第t个帧组由第t帧视频帧作为起始帧与11帧补0帧构成;
[0039]
步骤3b:计算每个帧组的基础分数,将第i个帧组的基础分数记为q
k,i,basic
,q
k,i,basic
为第i个帧组所对应的所有初步帧晕动分数中的最小值;其中,1≤i≤t;
[0040]
步骤3c:计算每个帧组的滞后影响分数,将第i个帧组的滞后影响分数记为q
k,i,lag
,其中,1≤j≤j,j表示第i个帧组中包含的除补0帧外的所有视频帧的总帧数,q
k,i,j
表示ik的左视点视频或右视点视频的第i个帧组中的第j帧视频帧所对应的初步帧晕动分数,ω
k,i,j
表示q
k,i,j
的权重,e为自然基数;
[0041]
步骤3d:计算每个帧组的晕动分数,将第i个帧组的晕动分数记为q
k,i,cin
,q
k,i,cin
=λ
×qk,i,basic
+(1-λ)
×qk,i,lag
;其中,λ为用于平衡q
k,i,basic
与q
k,i,lag
权重的超参数,λ∈(0,1);
[0042]
步骤3e:将q
k,i,cin
作为l
k,i
和r
k,i
所对应的具有人眼时间记忆效应的晕动预测分数q'
k,i

[0043]
所述的步骤1中,立体全景视频数据库自行构建,构建过程如下:
[0044]
步骤1_1:从公开的斯坦福数据库、天津大学立体全向视频数据库以及youtube网站中共搜集116个立体全景视频;然后对每个立体全景视频进行插帧或抽帧处理,使每个处理后的立体全景视频的持续时间均为20秒,帧速率为30~90fps,分辨率大小为1k、2k、4k或6k;
[0045]
步骤1_2:挑选12名女性和18名男性作为受试者,受试者的年龄在22~32岁之间,
受试者的视力正常或矫正正常,且没有听觉或平衡方面的障碍情况;然后每个受试者佩戴头戴式显示器观看每个处理后的立体全景视频,并进行主观评分,主观评分设定有五个等级,分别是1分、2分、3分、4分、5分,对应表示非常不舒适、中度不舒适、轻度不舒适、较为舒适、非常舒适;再剔除评分异常的受试者的所有主观评分;最后针对每个处理后的立体全景视频,计算保留的所有主观评分的平均值,将该平均值作为该处理后的立体全景视频的主观评分;
[0046]
步骤1_3:将116个处理后的立体全景视频及各自的主观评分构成立体全景视频数据库。与现有技术相比,本发明的优点在于:
[0047]
1)本发明方法在自行构建的立体全景视频数据库(spvcd)上取得了优良的预测性能,与主观评分具有显著的相关性,可以有效地预测观看立体全景视频时的晕动程度,且本发明方法在斯坦福数据库(stanford database)上做跨库测试时也有较为良好的预测效果。
[0048]
2)本发明方法考虑到双目视觉感知,提出双目视觉感知模块,构建深度学习网络分别对立体全景视频的左右视点的视觉信息进行双目视觉感知的三阶段模拟:首先,对左右视图同时处理,代表第一阶段的同时视觉;其次,将所得的结果进行融合,得到第二阶段的初步融合结果;最后,将融合结果分别与左右视点信息进行交互反馈,模拟第三阶段产生立体感的双目视觉。结果表明当去掉双目视觉感知模块时,plcc、srocc指标值分别下降了31.4%和28.8%,说明双目视觉感知模块可以有效地实现双目视觉的三阶段模拟。
[0049]
3)本发明方法考虑到人类视觉系统的注意力机制和视网膜的多分辨率特性,提出多尺度的显著性加权模块:求出立体全景视频的左视点视频内容的显著性对象图像,将显著性对象图像多次下采样,将下采样结果分别用于深度学习网络中多尺度场景内容特征的显著性加权,以减轻低注意区域视觉信息的影响。结果表明当去掉多尺度的显著性加权模块时,plcc、srocc指标值分别下降了15.3%和29.3%。
[0050]
4)本发明方法鉴于vr观看环境中的感官冲突目前还无法以一种直观的方式进行测量表示,考虑到感官冲突多是由于虚拟环境中的视觉运动刺激所导致的,因此通过求取立体全景视频的右视点视频内容的运动特征对感官冲突进行间接建模,提出视觉运动感知模块,结果表明当去掉视觉运动感知模块以后,plcc、srocc指标值分别下降了31.4%和37.9%,说明所提取的运动信息特征可以较好地建模vr观看环境中的感观冲突。
[0051]
5)本发明方法考虑到立体内容的视差,提出双目视差感知模块:求取立体全景视频的左视点视频和右视点视频的视差,输入深度学习网络中提取视差相关特征,结果表明当去掉双目视差感知模块时,plcc、srocc指标值分别下降了21.1%和24.7%。
附图说明
[0052]
图1为本发明方法的总体实现框图;
[0053]
图2为本发明方法中构建的基于深度学习网络的立体全景视频晕动程度预测模型中所使用的第一模块的组成结构示意图;
[0054]
图3为本发明方法中构建的基于深度学习网络的立体全景视频晕动程度预测模型中所使用的第二模块的组成结构示意图。
具体实施方式
[0055]
以下结合附图实施例对本发明作进一步详细描述。
[0056]
本发明提出的一种基于内容感知的立体全景视频晕动程度预测方法,其总体实现框图如图1所示,其包括如下步骤:
[0057]
步骤1:取一个立体全景视频数据库作为基准数据库,将基准数据库中的第k个立体全景视频记为ik,将ik的左视点视频中的第i帧视频帧记为l
k,i
,将ik的右视点视频中的第i帧视频帧记为r
k,i
;其中,立体全景视频数据库中包含立体全景视频及其主观评分,1≤k≤num,num表示基准数据库中包含的立体全景视频的总个数,num≥100,在本实施例中取num=116,1≤i≤t,t表示立体全景视频的左视点视频或右视点视频中包含的视频帧的总帧数,t≥300,在本实施例中取t=400,立体全景视频的左视点视频和右视点视频中的视频帧的宽度为w且高度为h。
[0058]
在本实施例中,步骤1中,立体全景视频数据库自行构建,构建过程如下:
[0059]
步骤1_1:从公开的斯坦福数据库(stanford database)、天津大学立体全向视频数据库以及youtube网站中共搜集116个立体全景视频;然后对每个立体全景视频进行插帧或抽帧处理,使每个处理后的立体全景视频的持续时间均为20秒,帧速率为30~90fps,分辨率大小为1k、2k、4k或6k。
[0060]
针对立体全景视频舒适度主观数据库缺乏的问题,自行构建了一个立体全景视频数据库,以作为基准测试晕动症程度预测模型的性能。这116个立体全景视频包含各种场景,如过山车、自驾车、游戏场景、太空、风景、音乐厅、演唱会等;这116个立体全景视频按摄像机运动情况来分,有73个立体全景视频为摄像机运动的视频、有43个立体全景视频为摄像机固定的视频;这116个立体全景视频按视频内容的运动程度来分,有运动剧烈的视频、运动平缓的视频、基本不运动的视频;这116个立体全景视频按视频内容的视差大小来分,有较大视差的视频和较小视差的视频。
[0061]
步骤1_2:挑选12名女性和18名男性作为受试者,受试者的年龄在22~32岁之间,受试者的视力正常或矫正正常,且没有听觉或平衡方面的障碍情况;然后每个受试者佩戴头戴式显示器观看每个处理后的立体全景视频,并进行主观评分,主观评分设定有五个等级,分别是1分、2分、3分、4分、5分,对应表示非常不舒适、中度不舒适、轻度不舒适、较为舒适、非常舒适;再剔除评分异常的受试者的所有主观评分;最后针对每个处理后的立体全景视频,计算保留的所有主观评分的平均值,将该平均值作为该处理后的立体全景视频的主观评分。
[0062]
步骤1_3:将116个处理后的立体全景视频及各自的主观评分构成立体全景视频数据库(spvcd)。
[0063]
在主观实验时,用htc vive pro作为头戴式显示器(hmd)用于观看视频,其单眼分辨率为1440
×
1600,视野(field of view,fov)为110
°
,刷新率为90hz,并配备nvidia gtx 1080gpu和32gb ram的dell t630服务器做支持。实验过程中,所有条件符合itu-r bt 500标准,用户通过steamvr提供的vr图形用户界面(graphical user interface,gui)实现与虚拟世界的互动。主观评分设定有五个等级,分别是1分(非常不舒适)、2(中度不舒适)、3(轻度不舒适)、4(较为舒适)、5(非常舒适)。越不舒适代表晕动症程度越严重。评分异常的受试者的结果将被剔除,例如,对视频内容的晕动不敏感(所有视频分数几乎都是5)。最终
得到了25名有效受试者的评分。此外,需要指出的是在主观实验中限制了受试者的头部运动,因为其头部转动时可能会因为自身原因发生晕动症和不适而非视频内容原因,这意味着受试者进行打分时只使用了每个立体全景视频的前向中心视口。
[0064]
步骤2:采用现有的显著性检测算法,计算每个立体全景视频的左视点视频中的每帧视频帧的显著性对象图像,将l
k,i
的显著性对象图像记为并采用现有的光流算法,计算每个立体全景视频的右视点视频中的每帧视频帧的运动信息图像,将r
k,i
的运动信息图像记为采用现有的视差计算方法,计算每个立体全景视频的左视点视频中的每帧视频帧与右视点视频中同一时刻的视频帧的视差图像,将由l
k,i
与r
k,i
计算得出的视差图像记为d
k,i

[0065]
在本实施例中,采用的显著性检测算法来源于j.wei,s.wang,z.wu,c.su,q.huang,and q.tian,"label decoupling framework for salient object detection,"2020ieee/cvf conference on computer vision and pattern recognition,pp.13022-13031,2020.(“显著目标检测的标签解耦框架”,2020ieee/cvf计算机视觉和模式识别会议);采用的光流算法(输入为同一视点的前后视频帧)和视差计算方法(输入为同一时间的左右视点)均来源于c.liu,w.t.freeman,e.h.adelson,and y.weiss,"human-assisted motion annotation,"2008ieee conference on computer vision and pattern recognition,pp.1-8,2008.(“人类辅助运动标注”,2008ieee计算机视觉与模式识别会议)。在本发明中采用上述现有技术能够取得最好的效果,当然也可由现有的其他方法替代,只是效果可能会差些,但不影响整体方案的实现。
[0066]
步骤3:构建基于深度学习网络的立体全景视频晕动程度预测模型,如图1所示,其包括显著性加权模块、双目视觉感知模块、视觉运动感知模块、双目视差感知模块、池化融合模块、第一全连接层、第二全连接层、门控循环单元、第三全连接层、时间池化模型。
[0067]
将每个立体全景视频的左视点视频中的每帧视频帧及其显著性对象图像输入到显著性加权模块中,显著性加权模块输出对应的第一尺度显著性加权特征图、第二尺度显著性加权特征图、第三尺度显著性加权特征图,将l
k,i
和输入到显著性加权模块中时显著性加权模块输出的对应的第一尺度显著性加权特征图、第二尺度显著性加权特征图、第三尺度显著性加权特征图对应记为f
k,i,s2
、f
k,i,s4
、f
k,i,s8
;将每个立体全景视频的左视点视频中的每帧视频帧及右视点视频中的每帧视频帧输入到双目视觉感知模块中,双目视觉感知模块输出对应的包含双目视觉信息的特征图,将l
k,i
和r
k,i
输入到双目视觉感知模块中时双目视觉感知模块输出的对应的包含双目视觉信息的特征图记为f
k,i,b
;将每个立体全景视频的右视点视频中的每帧视频帧的运动信息图像输入到视觉运动感知模块中,视觉运动感知模块输出对应的包含视觉运动信息的特征图,将输入到视觉运动感知模块中时视觉运动感知模块输出的对应的包含视觉运动信息的特征图记为f
k,i,m
;将每个立体全景视频的左视点视频中的每帧视频帧与右视点视频中同一时刻的视频帧的视差图像输入到双目视差感知模块中,双目视差感知模块输出对应的包含双目视差信息的特征图,将d
k,i
输入到双目视差感知模块中时双目视差感知模块输出的对应的包含双目视差信息的特征图记为f
k,i,d
;其中,第一尺度显著性加权特征图的宽度为且高度为通道数为64,第二尺度
显著性加权特征图的宽度为且高度为通道数为256,第三尺度显著性加权特征图的宽度为且高度为通道数为512,双目视觉信息的特征图的宽度为且高度为通道数为2048,视觉运动信息的特征图的宽度为且高度为通道数为512,双目视差信息的特征图的宽度为且高度为通道数为512。
[0068]
然后将显著性加权模块输出的对应的第一尺度显著性加权特征图、第二尺度显著性加权特征图、第三尺度显著性加权特征图,双目视觉感知模块输出的对应的包含双目视觉信息的特征图,视觉运动感知模块输出的对应的包含视觉运动信息的特征图,以及双目视差感知模块输出的对应的包含双目视差信息的特征图,均输入到池化融合模块中,池化融合模块输出一个用于回归帧分数的特征向量,将l
k,i
和r
k,i
所对应的特征向量记为f
k,i,vectors
;其中,f
k,i,vectors
的维数为11712
×
1。
[0069]
再将每个立体全景视频的左视点视频中的每帧视频帧和右视点视频中对应的视频帧所对应的特征向量输入到第一全连接层中,第一全连接层输出对应的维数为1024
×
1的特征向量;然后将第一全连接层输出的对应的特征向量输入到第二全连接层中,第二全连接层输出对应的维数为128
×
1的特征向量;接着将第二全连接层输出的对应的特征向量输入到门控循环单元中,门控循环单元输出对应的维数为32
×
1的特征向量;之后将门控循环单元输出的对应的特征向量输入到第三全连接层中,第三全连接层输出对应的一个数值,将这个数值作为该立体全景视频中的每帧视频帧所对应的初步帧晕动分数,将l
k,i
和r
k,i
所对应的初步帧晕动分数记为q
k,i
;其中,第一全连接层的神经元个数为1024,第二全连接层的神经元个数为128,第三全连接层的神经元个数为1,门控循环单元是一种常用的门控循环神经网络。
[0070]
在三个全连接层中嵌入一个门控循环单元的原因是基于门控循环单元能在集成特征向量的同时学习特征向量之间的依赖关系。
[0071]
最后将每个立体全景视频所对应的t个初步帧晕动分数输入到时间池化模型中,时间池化模型先获得每个立体全景视频中的每帧视频帧的具有人眼时间记忆效应的晕动预测分数,将l
k,i
和r
k,i
所对应的具有人眼时间记忆效应的晕动预测分数记为q'
k,i
,再对每个立体全景视频所对应的t个具有人眼时间记忆效应的晕动预测分数求平均,将平均值作为该立体全景视频的客观晕动程度预测分数,将ik的客观晕动程度预测分数记为qk,
[0072]
在本实施例中,步骤3中,如图1所示,将l
k,i
和输入到显著性加权模块中,显著性加权模块的处理过程为:
[0073]
步骤3_a1:对分别进行2倍、4倍、8倍下采样,对应得到的2倍下采样图像、4倍下采样图像、8倍下采样图像,对应记为其中,的宽度为且高度
为的宽度为且高度为的宽度为且高度为在此,用于对l
k,i
进行卷积操作后得到的特征图的加权,图1中ds表示下采样操作。
[0074]
步骤3_a2:对l
k,i
进行卷积核大小为7
×
7且卷积核个数为64的卷积操作,然后对卷积操作得到的特征图进行步长为2的3
×
3最大值池化(maxpool)操作,提取得到粗略特征图,记为l
k,i,2
;其中,l
k,i,2
的宽度和高度与的宽度和高度对应一致。
[0075]
步骤3_a3:对l
k,i,2
进行卷积核大小为1
×
1且卷积核个数为64的第1次卷积操作,然后对第1次卷积操作得到的特征图进行卷积核大小为3
×
3且卷积核个数为64的第2次卷积操作,再对第2次卷积操作得到的特征图进行卷积核大小为1
×
1且卷积核个数为256的第3次卷积操作,最后对第3次卷积操作得到的特征图进行步长为2的3
×
3最大值池化操作,将3
×
3最大值池化操作得到的特征图记为l
k,i,4
;其中,l
k,i,4
的宽度和高度与的宽度和高度对应一致。
[0076]
步骤3_a4:对l
k,i,4
进行卷积核大小为1
×
1且卷积核个数为128的第1次卷积操作,然后对第1次卷积操作得到的特征图进行卷积核大小为3
×
3且卷积核个数为128的第2次卷积操作,再对第2次卷积操作得到的特征图进行卷积核大小为1
×
1且卷积核个数为512的第3次卷积操作,最后对第3次卷积操作得到的特征图进行步长为2的3
×
3最大值池化操作,将3
×
3最大值池化操作得到的特征图记为l
k,i,8
;其中,l
k,i,8
的宽度和高度与的宽度和高度对应一致。
[0077]
步骤3_a5:对与l
k,i,2
进行相乘操作,得到第一尺度显著性加权特征图,记为f
k,i,s2
,同样,对与l
k,i,4
进行相乘操作,得到第二尺度显著性加权特征图,记为f
k,i,s4
,对与l
k,i,8
进行相乘操作,得到第三尺度显著性加权特征图,记为f
k,i,s8
,其中,符号“·”表示对应元素相乘,相乘操作为常规技术,f
k,i,s2
的宽度为且高度为f
k,i,s4
的宽度为且高度为f
k,i,s8
的宽度为且高度为图1中mu表示相乘操作。
[0078]
在本实施例中,步骤3中,如图1所示,将l
k,i
和r
k,i
输入到双目视觉感知模块中,双目视觉感知模块的处理过程为:
[0079]
步骤3_b1:将l
k,i
输入到第1个第一模块中,然后将第1个第一模块输出的特征图输入到第1个第二模块中,第1个第二模块输出l
k,i
的初步语义特征图,记为同样,将r
k,i
输入到第2个第一模块中,然后将第2个第一模块输出的特征图输入到第2个第二模块中,第2个第二模块输出r
k,i
的初步语义特征图,记为其中,和的宽度为且高度为和的通道数为2048;该过程用于模拟左右眼对所看内容的同时视觉初步处理。
[0080]
步骤3_b2:对和进行拼接操作,以模拟双目视觉的初步融合过程,将拼接操作得到的特征图记为p
k,i
,其中,p
k,i
的宽度为且高度为p
k,i
的通道数为4096,符号表示拼接操作符号;在此,拼接操作为常规技术,图1中co表示拼接操作。
[0081]
步骤3_b3:对进行卷积核大小为1
×
1且卷积核个数为4096的第1次卷积操作,然后对第1次卷积操作得到的特征图进行卷积核大小为3
×
3且卷积核个数为4096的第2次卷积操作,将第2次卷积操作得到的特征图记为同样,对进行卷积核大小为1
×
1且卷积核个数为4096的第1次卷积操作,然后对第1次卷积操作得到的特征图进行卷积核大小为3
×
3且卷积核个数为4096的第2次卷积操作,将第2次卷积操作得到的特征图记为其中,和的宽度为且高度为和的通道数为4096;在此,进行卷积核大小为1
×
1的卷积操作是为了调整特征图的通道数至4096,进行卷积核大小为3
×
3的卷积操作是为了模拟hvs对左右视点信息的单独处理。
[0082]
步骤3_b4:对p
k,i
与进行相减操作,将相减操作得到的特征图记为进行相减操作,将相减操作得到的特征图记为同样,对p
k,i
与进行相减操作,将相减操作得到的特征图记为进行相减操作,将相减操作得到的特征图记为然后对和进行拼接操作即再对拼接操作得到的特征图进行卷积核大小为1
×
1且卷积核个数为2048的卷积操作,卷积操作得到的特征图为包含双目视觉信息的特征图,并记为f
k,i,b
;其中,和的宽度为且高度为和的通道数为4096,f
k,i,b
的宽度为且高度为f
k,i,b
的通道数为2048。图1中su表示相减操作。
[0083]
在此,进行相减操作用以表示p
k,i
对左右单视点信息处理的交互反馈,反映了右眼与左眼无法融合的部分,即右眼对左眼的交互反馈;反映了左眼与右眼无法融合的部分,即左眼对右眼的交互反馈;相减操作为常规技术;对和进行拼接操作,即对左右眼交互反馈的结果结合,得到双目信息的交互反馈。
[0084]
在本实施例中,步骤3中,如图1所示,将输入到视觉运动感知模块中,视觉运动感知模块的处理过程为:将输入到第3个第一模块中,第3个第一模块输出包含视觉运动信息的特征图,记为f
k,i,m
;其中,f
k,i,m
的宽度为且高度为f
k,i,m
的通道数为512。
[0085]
在本实施例中,步骤3中,如图1所示,将d
k,i
输入到双目视差感知模块中,双目视差感知模块的处理过程为:将d
k,i
输入到第4个第一模块中,第4个第一模块输出包含双目视差信息的特征图,记为f
k,i,d
;其中,f
k,i,d
的宽度为且高度为f
k,i,d
的通道数为512。
[0086]
在本实施例中,如图2所示,四个所述的第一模块的处理过程相同,其对输入到第一模块中的图像进行卷积核大小为7
×
7且卷积核个数为64的卷积操作;然后对卷积操作得
到的通道数为64的特征图进行步长为2的3
×
3最大值池化操作;接着将第1次最大值池化操作得到的特征图输入到第1个第一卷积块中,将第1个第一卷积块输出的通道数为256的特征图输入到第2个第一卷积块中,将第2个第一卷积块输出的通道数为256的特征图输入到第3个第一卷积块中;之后对第3个第一卷积块输出的通道数为256的特征图进行步长为2的3
×
3最大值池化操作;再将第2次最大值池化操作得到的特征图输入到第1个第二卷积块中,将第1个第二卷积块输出的通道数为512的特征图输入到第2个第二卷积块中,将第2个第二卷积块输出的通道数为512的特征图输入到第3个第二卷积块中,将第3个第二卷积块输出的通道数为512的特征图输入到第4个第二卷积块中;最后对第4个第二卷积块输出的通道数为512的特征图进行步长为2的3
×
3最大值池化操作,将第3次最大值池化操作得到的特征图作为第一模块输出的特征图。如图3所示,两个所述的第二模块的处理过程相同,其将输入到第二模块中的特征图输入到第1个第三卷积块中,将第1个第三卷积块输出的通道数为1024的特征图输入到第2个第三卷积块中,将第2个第三卷积块输出的通道数为1024的特征图输入到第3个第三卷积块中,将第3个第三卷积块输出的通道数为1024的特征图输入到第4个第三卷积块中,将第4个第三卷积块输出的通道数为1024的特征图输入到第5个第三卷积块中,将第5个第三卷积块输出的通道数为1024的特征图输入到第6个第三卷积块中;然后对第6个第三卷积块输出的通道数为1024的特征图进行步长为2的3
×
3最大值池化操作;接着将第1次最大值池化操作得到的特征图输入到第1个第四卷积块中,将第1个第四卷积块输出的通道数为2048的特征图输入到第2个第四卷积块中,将第2个第四卷积块输出的通道数为2048的特征图输入到第3个第四卷积块中;最后对第3个第四卷积块输出的通道数为2048的特征图进行步长为2的3
×
3最大值池化操作,将第2次最大值池化操作得到的特征图作为第二模块输出的特征图。
[0087]
在本实施例中,三个所述的第一卷积块的处理过程相同,如图2所示,其对输入到第一卷积块中的特征图进行卷积核大小为1
×
1且卷积核个数为64的第1次卷积操作,然后对第1次卷积操作得到的通道数为64的特征图进行卷积核大小为3
×
3且卷积核个数为64的第2次卷积操作,再对第2次卷积操作得到的通道数为64的特征图进行卷积核大小为1
×
1且卷积核个数为256的第3次卷积操作,将第3次卷积操作得到的通道数为256的特征图作为第一卷积块输出的特征图。四个所述的第二卷积块的处理过程相同,如图2所示,其对输入到第二卷积块中的特征图进行卷积核大小为1
×
1且卷积核个数为128的第1次卷积操作,然后对第1次卷积操作得到的通道数为128的特征图进行卷积核大小为3
×
3且卷积核个数为128的第2次卷积操作,再对第2次卷积操作得到的通道数为128的特征图进行卷积核大小为1
×
1且卷积核个数为512的第3次卷积操作,将第3次卷积操作得到的通道数为512的特征图作为第二卷积块输出的特征图。六个所述的第三卷积块的处理过程相同,如图3所示,其对输入到第三卷积块中的特征图进行卷积核大小为1
×
1且卷积核个数为256的第1次卷积操作,然后对第1次卷积操作得到的通道数为256的特征图进行卷积核大小为3
×
3且卷积核个数为256的第2次卷积操作,再对第2次卷积操作得到的通道数为256的特征图进行卷积核大小为1
×
1且卷积核个数为1024的第3次卷积操作,将第3次卷积操作得到的通道数为1024的特征图作为第三卷积块输出的特征图。三个所述的第四卷积块的处理过程相同,如图3所示,其对输入到第四卷积块中的特征图进行卷积核大小为1
×
1且卷积核个数为512的第1次卷积操作,然后对第1次卷积操作得到的通道数为512的特征图进行卷积核大小为3
×
3且卷积
核个数为512的第2次卷积操作,再对第2次卷积操作得到的通道数为512的特征图进行卷积核大小为1
×
1且卷积核个数为2048的第3次卷积操作,将第3次卷积操作得到的通道数为2048的特征图作为第四卷积块输出的特征图。
[0088]
在本实施例中,步骤3中,将f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
输入到池化融合模块中,池化融合模块的处理过程为:分别对f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
进行全局均值池化(global mean pooling,gpmean)操作,得到各自的第一特征向量;分别对f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
进行全局标准差池化(global standard deviation pooling,gpstd)操作,得到各自的第二特征向量;分别对f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
进行全局最大值池化(global maximum pooling,gpmax)操作,得到各自的第三特征向量;然后将f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
各自的第一特征向量按顺序合并成一个第一合并特征向量,记为f
k,i,(1)
,f
k,i,(1)
=[gp
mean
(f
k,i,s2
),gp
mean
(f
k,i,s4
),gp
mean
(f
k,i,s8
),gp
mean
(f
k,i,b
),gp
mean
(f
k,i,m
),gp
mean
(f
k,i,d
)];并将f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
各自的第二特征向量按顺序合并成一个第二合并特征向量,记为f
k,i,
(2),f
k,i,(2)
=[gp
std
(f
k,i,s2
),gp
std
(f
k,i,s4
),gp
std
(f
k,i,s8
),gp
std
(f
k,i,b
),gp
std
(f
k,i,m
),gp
std
(f
k,i,d
)];将f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
各自的第三特征向量按顺序合并成一个第三合并特征向量,记为f
k,i,(3)
,f
k,i,(3)
=[gp
max
(f
k,i,s2
),gp
max
(f
k,i,s4
),gp
max
(f
k,i,s8
),gp
max
(f
k,i,b
),gp
max
(f
k,i,m
),gp
max
(f
k,i,d
)];再将f
k,i,(1)
、f
k,i,
(
2)
、f
k,i,
(3)按顺序合并成f
k,i,vectors
,f
k,i,vectors
=[f
k,i,(1)
,f
k,i,(2)
,f
k,i,(3)
];其中,gp
mean
(f
k,i,s2
),gp
mean
(f
k,i,s4
),gp
mean
(f
k,i,s8
),gp
mean
(f
k,i,b
),gp
mean
(f
k,i,m
),gp
mean
(f
k,i,d
)对应表示f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
的第一特征向量,对应维数为64
×
1、256
×
1、512
×
1、2048
×
1、512
×
1、512
×
1,gp
mean
()表示全局均值池化操作,gp
std
(f
k,i,s2
),gp
std
(f
k,i,s4
),gp
std
(f
k,i,s8
),gp
std
(f
k,i,b
),gp
std
(f
k,i,m
),gp
std
(f
k,i,d
)对应表示f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
的第二特征向量,对应维数为64
×
1、256
×
1、512
×
1、2048
×
1、512
×
1、512
×
1,gp
std
()表示全局标准差池化操作,gp
max
(f
k,i,s2
),gp
max
(f
k,i,s4
),gp
max
(f
k,i,s8
),gp
max
(f
k,i,b
),gp
max
(f
k,i,m
),gp
max
(f
k,i,d
)对应表示f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
、f
k,i,d
的第三特征向量,对应维数为64
×
1、256
×
1、512
×
1、2048
×
1、512
×
1、512
×
1,gp
max
()表示全局最大值池化操作,符号“[]”为向量或矩阵表示符号。
[0089]
在此,全局均值池化综合考虑了特征图中的所有像素点的信息,反映了特征图的一般性水平;全局标准差池化则保存了特征图中的所有像素点的变化信息;全局最大值池化考虑了对特征图中的部分像素点信息的突出。
[0090]
在本实施例中,步骤3中,将ik所对应的t个初步帧晕动分数输入到时间池化模型中,时间池化模型的处理过程为:
[0091]
步骤3a:将ik的左视点视频或右视点视频分成t个帧组,第1个帧组由第1帧视频帧作为起始帧的连续12帧视频帧构成,第2个帧组由第2帧视频帧作为起始帧的连续12帧视频帧构成,依次类推,第t-11个帧组由第t-11帧视频帧作为起始帧的连续12帧视频帧构成,而第t-10个帧组由第t-10帧视频帧作为起始帧的剩余的所有视频帧与1帧补0帧构成,依次类推,第t个帧组由第t帧视频帧作为起始帧与11帧补0帧构成。
[0092]
步骤3b:计算每个帧组的基础分数,将第i个帧组的基础分数记为q
k,i,basic
,q
k,i,basic
为第i个帧组所对应的所有初步帧晕动分数中的最小值,对于前t-11个帧组,每个帧组的基础分数为该帧组所对应的12个初步帧晕动分数中的最小值,对于第t-10个帧组,
其基础分数为该帧组所对应的11个初步帧晕动分数中的最小值,对于第t个帧组,其基础分数为第t帧视频帧对应的初步帧晕动分数;其中,1≤i≤t。
[0093]
步骤3c:计算每个帧组的滞后影响分数,将第i个帧组的滞后影响分数记为q
k,i,lag
,其中,1≤j≤j,j表示第i个帧组中包含的除补0帧外的所有视频帧的总帧数,j最大为12,最小为1,q
k,i,j
表示ik的左视点视频或右视点视频的第i个帧组中的第j帧视频帧所对应的初步帧晕动分数,ω
k,i,j
表示q
k,i,j
的权重,赋予分数较低的帧一个较大的权重,e为自然基数,e=2.71


[0094]
步骤3d:计算每个帧组的晕动分数,将第i个帧组的晕动分数记为q
k,i,cin
,q
k,i,cin
=λ
×qk,i,basic
+(1-λ)
×qk,i,lag
;其中,λ为用于平衡q
k,i,basic
与q
k,i,lag
权重的超参数,λ∈(0,1),在本实施例中取λ=0.5。
[0095]
步骤3e:将q
k,i,cin
作为l
k,i
和r
k,i
所对应的具有人眼时间记忆效应的晕动预测分数q'
k,i

[0096]
步骤4:将基准数据库按(5~8):(5~2)比例分成训练数据库和测试数据库。
[0097]
步骤5:使用训练数据库对基于深度学习网络的立体全景视频晕动程度预测模型进行训练,最终训练得到立体全景视频晕动程度预测模型的训练模型;其中,训练使用l1损失函数,采用初始学习率为0.00001的adam优化器。
[0098]
步骤6:对于测试数据库中的任意一个待预测的立体全景视频,将其记为i
test
;然后按照步骤1和步骤2的过程,以相同的方式获得i
test
的左视点视频中的每帧视频帧的显著性对象图像、i
test
的右视点视频中的每帧视频帧的运动信息图像、i
test
的左视点视频中的每帧视频帧与i
test
的右视点视频中对应的视频帧的视差图像,将i
test
的左视点视频中的第i帧视频帧l
test,i
的显著性对象图像记为将i
test
的右视点视频中的第i帧视频帧r
test,i
的运动信息图像记为将i
test
的左视点视频中的第i帧视频帧l
test,i
与i
test
的右视点视频中的第i帧视频帧r
test,i
的视差图像记为d
test,i
;再将i
test
的左视点视频中的每帧视频帧的显著性对象图像、i
test
的右视点视频中的每帧视频帧的运动信息图像、i
test
的左视点视频中的每帧视频帧与i
test
的右视点视频中对应的视频帧的视差图像作为输入数据,通过立体全景视频晕动程度预测模型的训练模型,得到i
test
的客观晕动程度预测分数,记为q
test

[0099]
为进一步说明本发明方法的可行性和有效性,对本发明方法进行实验。
[0100]
将自行构建的立体全景视频数据库(spvcd)按8:2的比例划分为训练数据库和测试数据库,且训练数据库和测试数据库的场景不重叠,为确保实验结果不依赖于特定的训练数据库和测试数据库,将自行构建的立体全景视频数据库(spvcd)随机划分为50对训练数据库和测试数据库进行重复测试,取50次测试中均方根误差rmse的中值所对应的模型代表最终性能。同时将斯坦福数据库也作为测试数据库。
[0101]
使用训练数据库对基于深度学习网络的立体全景视频晕动程度预测模型进行训练,训练过程中,λ=0.5,使用pytorch实现,使用l1损失函数和初始学习率为0.00001的adam优化器,训练的epoch=2000。使用两个测试数据库分别进行测试,测试的epoch=2000。
[0102]
对比方法有:j.kim,w.kim,s.ahn,j.kim,and s.lee,"virtual reality sickness predictor:analysis of vi sual-vestibular conflict and vr contents,"2018tenth international conference on quality of multimedia experience,pp.1-6,2018.(虚拟现实疾病预测:视觉前庭冲突与虚拟现实内容分析,2018第十届多媒体体验质量国际会议)、s.lee,s.kim,h.g.kim,m.s.kim,s.yun,b.jeong,and y.m.ro,"physiological fusion net:quantifying individual vr sickness with content stimulus and physiological response,"2019ieee international conference on image processing,pp.440-444,2019.(生理融合网络:用内容刺激和生理反应量化个体vr疾病,2019年ieee图像处理国际会议)、s.lee,j.kim,h.kim,s.kim,and m.yong,"saca net:cybersickness assessment of individual viewers for vr content via graph-based symptom relation embedding."european conference on computer vision.springer,cham,pp.170-186,2020.(saca网络:通过基于图形的症状关系嵌入,对虚拟现实内容的个人观众进行晕动症评估,欧洲计算机视觉会议)、h.g.kim,h.lim,s.lee,and y.m.ro,"a deep motion sickness:vr sickness assessment considering exceptional motion for 360
°
vr video,"ieee transactions on image processing,vol.28,no.4,pp.1646-1660,2019.(深度晕动症:考虑到360vr视频异常运动的vr晕动症评估,ieee图像处理学报)、h.oh,w.son,"cybersickness and its severity arising from virtual reality content:a comprehensive study,"sensors,vol.22,no.4,pp.1314,2022.(虚拟现实内容引起的晕动症及其严重程度:一项综合性研究,传感器)。
[0103]
评价的性能指标有:皮尔逊线性相关系数(pearson linear correlation coefficient,plcc)、斯皮尔曼相关系数(spearman rank-order correlation coefficient,srocc)、肯德尔相关系数(kendall rank-order correlation coefficient,krocc)、均方根误差(root mean square error,rmse),plcc、srocc、krocc越大,rmse越小,表明客观晕动程度预测分数与主观评分的相关性越好、准确性越高。
[0104]
表1给出了本发明方法在立体全景视频数据库(spvcd)以及斯坦福数据库上的测试性能。
[0105]
表1本发明方法在立体全景视频数据库(spvcd)以及斯坦福数据库上的测试性能
[0106]
数据库plccsrocckroccrmsespvcd0.8160.8750.7160.740斯坦福数据库stanford0.6060.6140.4970.713
[0107]
在表1中,spvcd一行代表本发明方法在spvcd数据库上按照训练数据库和测试数据库8:2划分时的总体性能;stanford一行代表本发明方法在spvcd数据库的训练数据库上训练,在斯坦福数据库上测试的跨库实验结果。实验结果显示,本发明方法在spvcd数据库上的plcc指标值为0.816,srocc为0.875,krocc为0.716,rmse为0.740。从指标值可以看出,本发明方法具有较好的预测性能。
[0108]
表2给出了本发明方法在立体全景视频数据库(spvcd)以及斯坦福数据库上测试得到的客观晕动程度预测分数与误差。
[0109]
表2本发明方法在立体全景视频数据库(spvcd)以及斯坦福数据库上测试得到的客观晕动程度预测分数与误差
[0110][0111]
由表2数据可以看出,以主观实验所得mos值(mean opinion score,主观评分的平均值,即表中的真值)为参照,本发明方法对大部分立体全景视频的晕动症预测都可以达到一个较小的误差,个别立体全景视频的晕动症预测可以精确到小数点后两位。但也有预测误差较大的视频,例如,序号为13、18、23、75的立体全景视频等,误差超过1。这些视频内容大多是开始时运动速度或者镜头转换较快,然后慢慢地趋于平缓,即立体全景视频的前半部分可能导致较为严重的晕动症,但后半部分内容较为正常。通过这些立体全景视频的mos值可以看出,受试者普遍认为这些立体全景视频给人带来的视觉不适与晕动症较为严重,猜测可能的原因是受试者在主观评分的过程中,已经因为立体全景视频的前半部分造成较为严重的心理不适以至于无法对视频内容后半部分进行有效的评分,甚至无法对视频后半部分内容进行有效观看。而在本发明方法所提出的立体全景视频晕动程度预测模型中,则认为立体全景视频的前半部分带来的不适在几秒后可以趋于一定的缓解,这个认知差异在一定程度上导致预测误差变大。在斯坦福数据库的预测结果中超过一半的立体全景视频误差在10以内,也即是一个评分等级(无、轻微、中等、高),说明该立体全景视频晕动程度预测模型在斯坦福数据库上也有一定的预测效果。
[0112]
表3给出了本发明方法与现有的5种晕动症预测方法的性能对比。需要指出的是,
目前已经公开的立体全景视频数据库只有斯坦福数据库,该数据库包含生理信号数据,这在立体全景视频数据库(spvcd)中是不存在的,因此无法将现有的5种晕动症预测方法直接应用于立体全景视频数据库(spvcd)中。本发明方法是基于vr视频内容的,所以无需使用生理信号数据即可在斯坦福数据库上测试。对比方法使用的数据库一是涉及生理信号数据,二是并未公开,因此无法获取其完整的数据库用于验证所提出模型的泛化性。表3中对比方法的性能指标来源于相关论文本身(’/’表示相应的论文中未给出相应指标),由于各方法使用的数据库配置不同导致建立模型的出发点不同,因而表3中的对比结果仅用于说明各方法的性能,不能直接作比较以判断各方法的优劣。值得一提的是,从表3中的rmse指标一项可以看出本发明方法预测的精确性和潜力。
[0113]
表3本发明方法与现有的5种晕动症预测方法的性能对比
[0114]
方法plccsroccrmsej.kim0.7240.710/s.lee0.8300.8197.341s.lee0.7510.67925.373h.g.kim0.8850.88210.251h.oh0.6020.606/本发明方法0.8160.8750.740
[0115]
表4给出了本发明方法构建的基于深度学习网络的立体全景视频晕动程度预测模型中的显著性加权模块、双目视觉感知模块、视觉运动感知模块、双目视差感知模块的消融实验以验证各模块的有效性。
[0116]
表4本发明方法去掉显著性加权模块、双目视觉感知模块、视觉运动感知模块、双目视差感知模块其中一个模块时基于深度学习网络的立体全景视频晕动程度预测模型的性能
[0117]
特征向量plccsrocckroccrmsef
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,m
、f
k,i,d
0.5600.6230.4110.830f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,b
、f
k,i,m
0.6440.6590.4860.813f
k,i,d
、f
k,i,b
、f
k,i,m
0.6910.6190.4480.857f
k,i,b
、f
k,i,s2
、f
k,i,s4
、f
k,i,s8
、f
k,i,d
0.5600.5430.4070.997f
k,i,vectors
0.8160.8750.7160.740
[0118]
从表4中可以看出,当去掉双目视觉感知模块时,plcc、srocc指标值分别下降了31.4%和28.8%,说明双目视觉感知模块可以有效地实现双目视觉的三阶段模拟。去掉视觉运动感知模块以后,plcc、srocc指标值分别下降了31.4%和37.9%,与此同时,rmse增大较多,说明所提取的运动信息特征可以较好地建模vr观看环境中的感观冲突。去掉双目视差感知模块时,plcc、srocc指标值分别下降了21.1%和24.7%。去掉多尺度的显著性加权模块时,plcc、srocc指标值分别下降了15.3%和29.3%。相比较去掉双目视觉感知模块以及视觉运动感知模块,去掉双目视差感知模块和多尺度的显著性加权模块时指标值下降较少,不使用这两个模块时,立体全景视频晕动程度预测模型性能未达到最优,说明这两个模块可以对立体全景视频晕动程度预测模型做一个较好的补充和优化。无论去掉哪一个模块,立体全景视频晕动程度预测模型的性能均有不同程度的下降,而同时使用四个模块时,
立体全景视频晕动程度预测模型的性能得到较大提升,其预测精确度更优。从侧面反映出四个模块相辅相成,缺一不可。
[0119]
针对立体全景视频数据库(spvcd)可分为两种类型的视频,一类是摄像机运动的视频,另一类是摄像机固定的视频。表5给出了本发明方法进行场景分类以后的测试结果。
[0120]
表5本发明方法在spvcd数据库场景分类后的性能
[0121]
类型plccsrocckroccrmse摄像机固定0.8760.8930.7140.594摄像机运动0.6840.6410.4540.909
[0122]
由表5中数据可以看出,该立体全景视频晕动程度预测模型对摄像机固定类型的视频预测性能较好,同时rmse指标值低于整体性能。在主观实验中发现,对于摄像机固定的视频,造成观看者不舒适以及晕动症的原因主要是立体内容的视差过大;而对于摄像机运动的视频,则是因为立体全景视频内容的运动速度或者加速度过快。当观看者处于一个沉浸式的观看环境中,若速度的急剧变化与视差同时出现,观看者首先感觉到的会是速度的变化,速度在一定程度上会抑制视差给观看者带来的影响。若速度变化较小,不适感和晕动症则会取决于双目视觉特性和视差的大小。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1