VR音视频整体用户体验质量评估方法与流程

文档序号:15701512发布日期:2018-10-19 19:55阅读:7913来源:国知局
本发明涉及一种音视频整体用户体验质量评估方法,特别涉及虚拟现实环境中的音视频整体用户体验质量评估,属于多媒体
技术领域

背景技术
:虚拟现实(VirtualReality,简称VR)技术给人们带来了全新的音视频体验,其中全景视频和空间音频是沉浸式体验的不可或缺的组成部分。凭借其良好的用户体验与人机交互性,虚拟现实技术被广泛应用于娱乐、教育、医疗以及工业等诸多领域,在一定程度上改变了原有的生产设计方式。在虚拟现实环境中影响用户体验的不仅仅是全景视频,还有空间音频以及音视频的混合效果,这意味着VR环境下用户体验评估模型与传统视频质量评估有着显著的不同。与此同时,用户对于VR音视频体验的要求也日益增长,如何为用户提供良好的音视频体验已成为近年来相关领域的研究热点。VR视频指的是对于一个固定的观察点提供水平观测方位角360度,垂直观测方位角180度保证用户自由观看的全景视频。当观看者使用VR头戴式显示器时,计算机或其他设备根据头部的运动信息进行计算并将数据传输回显示器,使用户可以看到全景视频的来自各个方位的图像,带给用户沉浸感。对于VR体验来说,音频的空间感也极其重要。当观看者戴上耳机后,空间音效能保证在虚拟世界中的声音有迹可循,意味着视觉中前方发出的声音会从前方传来,后方发出的声音会从后方传来。在VR环境下,全景视频和空间音频间的相互作用同样会对用户体验质量造成影响,分为两个方面:时间和空间。音视频时间同步指音频和视频同时开始并且同时结束。音视频时间同步能使音频与视频内容建立联系,相得益彰。音视频空间一致指空间音频(听觉)中音源位置与全景视频(视觉)中音源位置相同。音视频空间一致能营造一种身临其境的气氛,增强真实感与沉浸感。现有的音视频整体质量评估方法大多针对传统音视频,并未结合VR环境中的全景视频与空间音频特点以及音视频相互作用的影响。我国授权公开号为CN103379358B的专利“评估多媒体质量的方法和装置”公开了一种评估多媒体质量的方法和装置,但并未考虑到音视频空间相互作用,并不适用于VR环境下的音视频整体用户体验质量评估。技术实现要素:本发明公开的VR音视频整体用户体验质量评估方法要解决的技术问题是:提供一种VR音视频整体用户体验质量评估模型实现对VR环境下的音视频整体用户体验质量进行评估,评估效果结合音视频空间相互作用,使评估效果符合用户的主观感受。所述模型输入为一段损伤VR音视频和一段同样内容的无损VR音视频,输出为损伤VR音视频的整体质量分数。其中,损伤VR音视频也称为待测VR音视频;无损VR音视频也称为参考VR音视频。该模型共分为两层,第一层中含四个子模型:视频质量、音频质量、音视频时间相互作用和音视频空间相互作用模型,第二层为整体质量融合模型。本发明目的是通过下述技术方案实现。本发明公开的VR音视频整体用户体验质量评估方法,首先将待测VR音视频和参考VR音视频通过第一层中的视频质量、音频质量、音视频时间相互作用和空间相互作用模型,分别计算出待测VR音视频的视频质量参数、音频质量参数、音视频时间参数和音视频空间参数。然后将所述四个参数输入第二层中的整体质量融合模型,最终输出待测VR音视频的整体质量分数。所述的视频质量、音频质量计算采用视频、音频质量客观评估算法实现。所述的音视频时间相互作用计算采用函数关系f实现。所述的空间相互作用模型采用函数关系g实现。所述的空间相互作用模型是由基于用户主观感受而设计的函数关系g实现的,进而能够反映音视频空间相互作用对VR音视频整体用户体验质量的影响,使评估效果更符合用户的主观感受。本发明公开的VR音视频整体用户体验质量评估方法,包括如下步骤:步骤一:将待测VR音视频和参考VR音视频输入到第一层中的视频质量模型中,计算得到待测VR音视频的视频质量分数Qv。所述的视频质量模型用于计算得到待测VR音视频的视频质量分数Qv,采用全参考视频质量客观评估算法,全参考视频质量客观评估算法包括传统视频质量评估算法或者为全景视频质量评估算法。传统视频质量评估算法包括峰值信噪比PSNR、结构相似性SSIM、视频质量度量VQM。作为优选,采用峰值信噪比PSNR算法,计算方法如公式(1)、(2)所示。M为视频帧的长度,N为视频帧的宽度。X代表无损参考视频帧,Y代表对应失真待测视频帧。bits为采样值的比特数。MSE为均方误差。最终得到的PSNR值即为待测VR音视频的视频质量分数Qv。步骤二:将待测VR音视频和参考VR音视频输入到第一层中的音频质量模型中,计算得到待测VR音视频的音频质量分数Qa。所述的音频质量模型用于计算得到待测VR音视频的音频质量分数Qa,采用全参考音频质量客观评估算法,全参考音频质量客观评估算法选用传统音频质量评估算法或者为空间音频质量评估算法。传统音频质量评估算法包括感知音频质量评估PEAQ。步骤三:将待测VR音视频输入到第一层中的音视频时间相互作用模型中,计算得到待测VR音视频的时间相互作用分数Qt。步骤3.1:提取待测VR音视频的音频时间信息和视频时间信息,计算得到音视频时间差Δt。Δt为正,代表音频超前视频;Δt为负,代表音频滞后视频。步骤3.2:根据公式(3)计算得到待测VR音视频的时间相互作用分数Qt:Qt=f(Δt)(3)其中函数关系f为线性、非线性或者为线性与非线性的组合。|Δt|值越大,音视频时间差Δt越大,时间相互作用分数Qt越小,用户体验质量越差。函数关系f是基于用户主观感受而设计的。作为优选,函数关系f采用指数函数的形式,如公式(4)所示:参数a,b均为正常数,参数b取值范围为(0,1)。参数a,b的具体数值由经验设计或主观实验数据训练得到。|Δt|值越大,音视频时间差|Δt|越大,时间相互作用分数Qt越小,用户体验质量越差,反映出函数关系f能较好地符合用户的主观感受。步骤四:将待测VR音视频输入到第一层中的音视频空间相互作用模型中,计算得到待测VR音视频的音视频空间相互作用分数Qs。步骤4.1:提取音频中的音源数目及位置信息。音源总数目用正整数n表示,音源位置用三维直角坐标(x,y,z)来表示。音频中的音源位置信息集合表示为{La1(x,y,z),La2(x,y,z)…Lan(x,y,z)}。步骤4.2:提取视频中的音源位置信息。视频中音源位置信息集合表示为{Lv1(x,y,z),Lv2(x,y,z)…Lvn(x,y,z)}。视频中音源与音频中的对应音源位置信息中左下脚标序号相同。步骤4.3:根据两点间距离公式计算音频中音源与视频中音源的距离{d1,d2,…dn}。根据公式(5)、(6)计算得到待测VR音视频的空间相互作用分数Qs。Qs=g(d)(6)其中函数关系g为线性、非线性或线性与非线性的组合。音频与视频中音源距离平均值d越大,听觉认知与视觉认知差距越大,空间相互作用分数Qs值越小,用户体验质量越差。函数关系g是基于用户主观感受而设计的。作为优选,函数关系g采用指数函数的形式,如公式(7)所示:Qs=c1*c2d(7)参数c1,c2均为正常数,参数c2取值范围为(0,1)。参数c1,c2的具体数值由经验设计或主观实验数据训练得到。d值越大,音视频间音源的距离差越大,空间相互作用分数Qs越小,用户体验质量越差,反映出函数关系g能较好地符合用户的主观感受。上述步骤一,二,三和四能够交换顺序,序号不是时间上的先后顺序,只是步骤的标记。步骤五:将上述四个步骤得出的视频质量分数Qv,音频质量分数Qa,音视频时间相互作用分数Qt和音视频空间相互作用分数Qs输入第二层中的整体质量融合模型,最终输出待测VR音视频的整体质量分数Q。所述第二层中的整体质量融合模型为线性回归、非线性回归或者神经网络模型。融合模型的参数是基于用户主观感受而设计的。作为优选,采用神经网络模型。神经网络模型的输入参数为{Qv,Qa,Qt,Qs}。视频质量分数Qv,音频质量分数Qa,音视频时间相互作用分数Qt和音视频空间相互作用分数Qs是通过步骤一到步骤四计算得到的。输出参数为VR音视频整体用户体验质量的主观实验得分。利用训练数据训练得到BP神经网络的参数,使得{Qv,Qa,Qt,Qs}分数融合的结果尽可能接近主观得分,使得BP神经网络模型符合用户的主观感受。至此,通过步骤一到步骤五,即完成VR音视频整体用户体验质量的评估,评估效果结合音、视频空间相互作用,使评估效果更符合用户的主观感受。有益效果:1、本发明公开的VR音视频整体用户体验质量评估方法,在实现VR音视频整体用户体验质量评估时,首次结合VR音视频空间相互作用,并给出基于用户主观感受而设计的函数关系g,进而能够反映音视频空间相互作用对整体用户体验质量的影响,使评估结果更符合用户的主观感受。2、本发明公开的VR音视频整体用户体验质量评估方法,将步骤四计算得到音视频空间相互作用分数Qs融入传统多媒体质量评估方法,使对VR环境下的音视频整体用户体验质量评估能够反映音视频空间相互作用对整体用户体验质量的影响,使评估结果更符合用户的主观感受。3、实验表明,本发明公开的VR音视频整体用户体验质量评估方法,通过本方法得到的VR音视频整体质量分数Q与主观实验结果间的相关性较高,反映出本方法具有较高的准确性。附图说明图1为本发明中整体质量融合模型优选例BP神经网络结构图;图2为本发明公开的VR音视频整体用户体验质量评估方法的流程图;图3为本发明实施例中的结果散点图。具体实施方式下面结合附图和实施例对本发明作进一步描述。本实施例基于两段VR音视频对VR音视频整体用户体验质量评估模型进行说明,其中一段为无损参考音视频Reference.mp4,另一段为有损待测音视频Test.mp4。参考视频与待测视频为内容相同,分辨率4096*2048的经纬图格式全景视频。两个视频均为时长10s,帧率30fps。损伤视频是由无损视频经过H.264压缩编码后得到的。参考视频的码率为50Mbps,待测视频的码率为3Mbps。参考与待测VR音视频内容为咖啡厅中的对话场景,一共6个音源:背景音,男声,女声,服务员,人群1,人群2。对应6条音频材料时长均为10s(与视频相同),双声道48KHz采样率,WAV格式。VR音视频制作软件为Unity3D。本发明方法的实施步骤如图2所示,具体如下:步骤一:将待测VR音视频和参考VR音视频输入到第一层中的视频质量模型中,计算得到待测VR音视频的视频质量分数Qv。采用PSNR算法计算待测VR音视频质量分数。计算公式如下:X代表无损参考视频帧,Y代表对应失真视频帧。待测VR音视频共300帧,将所有帧的PSNR值取平均即可得待测VR音视频的视频质量分数Qv。步骤二:将待测VR音视频和参考VR音视频输入到第一层中的音频质量模型中,计算得到待测VR音视频的音频质量分数Qa。参考与待测VR音视频中共6个音源:背景音,男声,女声,服务员,人群1,人群2。使用PEAQ算法计算出所有音频的质量,PEAQ(i)代表第i个音频的质量分数。将所有音频的质量分数取平均值后即可得待测VR音视频的音频质量分数Qa。计算公式如下:步骤三:将待测VR音视频输入到第一层中的音视频时间相互作用模型中,计算得到待测VR音视频的时间相互作用分数Qt。步骤3.1:提取音频时间信息和视频时间信息,得到音视频时间差Δt。Δt为正2s,代表音频超前视频2s。步骤3.2:计算待测VR音视频的时间相互作用分数Qt。本实例中Qt与Δt为公式(11)所示的函数关系:常数a,b的具体数值由经验设计或主观实验数据训练得到。本实例中采用5分满分制,常数a值取5,常数b值取0.5。步骤四:将待测VR音视频输入到第一层中的音视频空间相互作用模型中,计算得到音视频空间相互作用分数Qs。步骤4.1:从Unity3D工程中提取音频中的音源位置信息。待测VR音视频场景中共6个音源:背景音,男声,女声,服务员,人群1,人群2。音频中的音源位置信息集合可在直角坐标系下表示为:La1(背景音):(0,0,0)La2(男声):(3.4,-2.2,2.58)La3(女声):(4.39,-1.29,0.44)La4(服务员):(1.9,-0.8,-4.29)La5(人群1):(-4.04,-1,-2)La6(人群2):(-4.7,-0.8,-0.2)步骤4.2:从Unity3D工程中提取视频中的音源位置信息。视频中音源与音频中对应音源位置左下脚标序号相同。视频中的音源位置信息集合可在直角坐标系下表示为:Lv1(背景音):(0,0,0)Lv2(男声):(-3.4,2.2,-2.58)Lv3(女声):(-4.39,1.29,-0.44)Lv4(服务员):(-1.9,0.8,4.29)Lv5(人群1):(4.04,1,2)Lv6(人群2):(4.7,0.8,0.2)步骤4.3:计算音频中音源与视频中音源的距离{d1,d2,…d6}。d1=0,d2=9.60,d3=9.19,d4=9.52,d5=9.24,d6=9.54距离平均值d=7.85,本实例中Qs与d具有公式(12)所示的函数关系:Qs=c1*c2d(12)常数c1,c2的具体数值由经验设计或主观实验数据训练得到。本实例中采用5分满分制,常数c1值取5,常数c2值取0.85。上述步骤一,二,三和四可以交换顺序,序号不是时间上的先后顺序,只是步骤的标记。步骤五:将上述四个步骤得出的视频质量分数Qv,音频质量分数Qa,音视频时间相互作用分数Qt和音视频空间相互作用分数Qs输入第二层中的整体质量融合模型,最终输出待测VR音视频的整体质量分数Q。本实例中使用BP神经网络模型作为融合模型。BP神经网络含4个输入结点,1个输出结点,一个结点数目为12的隐藏层。BP神经网络参数由主观实验结果训练得到。在上述主观实验中,测试者观看待测VR音视频并对音视频整体质量进行打分。BP神经网络的训练过程为:将通过步骤一到步骤四计算得到的{Qv,Qa,Qt,Qs}分数作为输入,主观实验得分作为输出,使得{Qv,Qa,Qt,Qs}分数融合的结果尽可能接近主观得分,得到的BP神经网络模型符合用户的主观感受。使用本发明方法对VR音视频数据库中的810条待测VR音视频整体质量进行评估,图3为本方法在本实例中的评估结果散点图。图中散点的横坐标为由本方法计算得到的VR音视频整体质量分数Q,纵坐标为主观实验得分。y=x线上的点横纵坐标相同,代表客观模型评估分数与主观实验得分完全相同。图中散点分布的趋势比较接近y=x线,反映出本方法得到的整体质量分数Q与主观实验结果间的相关性较高,具有较高的准确性。使用斯皮尔曼秩相关系数SROCC来衡量客观模型评估结果与主观实验结果间的相关性。SROCC值越大,代表本方法得到的整体质量分数Q与主观实验结果间的相关性越高,准确性越高。表1为采用全部输入参数与去掉某一参数的评估模型性能对比。从表1可得输入无空间相互作用参数时,即输入为{Qv,Qa,Qt}时,SROCC值为0.6737;输入为全部参数,即输入为{Qv,Qa,Qt,Qs}时,SROCC值为最大值0.7514,相比输入无空间相互作用参数时的相关性提高了11.5%。以上数据反映出本方法通过设计函数g来计算音视频空间相互作用分数Qs,并将Qs融入传统多媒体质量评估方法,进而能够反映音视频空间相互作用对整体用户体验质量的影响,使评估结果更符合用户的主观感受,具有较高的准确性。表1全部输入参数与去掉某一参数对比输入参数集SROCC全部参数0.7514无视频质量Qv0.3340无音频质量Qa0.7316无时间相互作用参数Qt0.7295无空间相互作用参数Qs0.6737以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1