基于空间可伸缩编码的交互式全景视频转码与播放方法及系统与流程

文档序号:11480252阅读:339来源:国知局
基于空间可伸缩编码的交互式全景视频转码与播放方法及系统与流程

本发明属于交互式全景视频转码与播放技术领域,具体涉及一种基于空间可伸缩编码的交互式全景视频转码与播放方法及系统。



背景技术:

交互式全景视频是兴起的一种新型媒体,它在传统的二维视频的基础上,增加了视觉的现实感和逼真感,它允许用户自由的选择视点与视角以获得其所感兴趣的视频内容。交互性是这种媒体的重要特征。

2001年,国际音视频标准组织mpeg成立研究组,对三维音视频3dav技术展开探索性研究,itu-t的视频编码专家组vceg与mpeg成立的联合视频专家组jvt也对3dav编码标准的进行研究与制定。3dav的主要研究目标是拓展现有标准视频所具有的功能,向用户提供:(1)交互性,在一个场景中允许用户自主地选择场景视点;(2)沉浸感,提供给用户具有深度感和临境感的视频服务。

对于全景视频,通常使用360度全景浏览器在显示器上显示,需通过鼠标控制视口进行360度观看,某时刻观察到的图像仅是全景图像的一部分。而对于整个全景视频播放系统而言,服务器需要将每帧全景视频数据发送给播放终端,因此浪费大量的传输带宽和计算资源。

针对这一问题,国际国内许多研究机构与企业提出了改进方法。长春理工大学的权巍等人提出了一种基于cave的交互式全景视频显示方法,其使用五个虚拟相机对该全景视频映射球面的四面及顶面进行拍摄,并将所得五幅图像分别投影到cave系统中各投影幕中;美国北卡罗来纳大学的sriharipratapa等人提出了一种针对视频显示图像进行纹理压缩的方法;韩国电信研究院的seongyonglim等人提出了一种基于tile分块显示的基于mpeg-dash协议的全景视频传输系统;挪威奥斯陆大学的vamsidharreddygaddam等人也提出了一种针对全景视频的tile划分方法。以上这些改进方法,基本思想均是将全景视频划分为固定数据量的多块数据,只传输用户观看的部分,能够部分缓解传输带宽占用的压力,但是未考虑接收播放终端的计算能力、网络状态的动态变化以及用户互动操作pan/tilt/zoom(平移/旋转/缩放)等指令的特点,因此实际使用效果还有待改进。



技术实现要素:

本发明针对交互式全景视频数据量大、收播放终端的计算能力多样化、网络带宽动态变化以及用户互动操作pan/tilt/zoom等指令的特点,提出了一种基于空间可伸缩编码的交互式全景视频转码与播放方法及系统,能够在降低传输带宽的同时,针对播放终端、网络状态和用户互动操作指令提供合适的视频数据,大大增强播放终端的用户体验。

一种基于空间可伸缩编码的交互式全景视频转码与播放方法,包括如下步骤:

(1)通过源地址获取超高清的原始全景视频,通过高斯金字塔对原始全景视频进行空间下采样,得到多组不同分辨率的空间层视频数据;

(2)将所述空间层视频数据划分成多个tile,每个tile大小为n×n,n=2n且n为大于0的自然数;

(3)根据用户的pan/tilt/zoom操作指令确定roi(感兴趣区域)的位置,该roi即为用户当前观看的视频窗口;

(4)选取最适合用户播放器终端分辨率的一组空间层视频数据,并将roi投影到该空间层视频数据上;

(5)将该空间层视频数据上roi所覆盖占用的tile转码重写成标准码流,其余tile以skip数据流填充并采用skip模式进行编码,进而将得到的视频码流传输给用户播放器终端,由终端对其解码后进行播放显示。

所述步骤(1)中通过高斯金字塔对原始全景视频进行空间下采样,得到的多组空间层视频数据的分辨率从上往下依次减小,即利用高斯核与上一层视频数据gi的卷积和移除gi中的偶数行和偶数列,从而得到当前空间层视频数据gi+1,依此得到多组不同分辨率的空间层视频数据。

优选地,所述步骤(3)中采用卡尔曼滤波算法预测用户的pan/tilt/zoom操作指令,即用户播放器终端根据信号与噪声的状态空间模型,利用前一时刻pan/tilt/zoom操作指令的估计值和当前时刻pan/tilt/zoom操作指令的观测值来更新对pan/tilt/zoom操作指令的估计,求出当前时刻pan/tilt/zoom操作指令的估计值,从而确定roi的位置,并将预测得到的roi位置信息实时地反馈给转码分发服务器,以减少交互延时。

所述步骤(4)中根据用户播放器终端的分辨率以及各空间层视频数据的分辨率,基于视频缩放系数最趋近于1的原则,即空间层视频数据分辨率与用户播放器终端分辨率最接近的原则,从而选取最适合用户播放器终端分辨率的一组空间层视频数据。

一种基于空间可伸缩编码的交互式全景视频转码与播放系统,包括用户播放器终端以及转码分发服务器;所述用户播放器终端用于向转码分发服务器提供全景视频的源地址、终端的本地配置信息以及roi(即用户当前观看的视频窗口)的位置信息,所述转码分发服务器包括:

空间采样单元,用于通过源地址获取超高清的原始全景视频,通过高斯金字塔对原始全景视频进行空间下采样,得到多组不同分辨率的空间层视频数据;

数据划分单元,用于将所述空间层视频数据划分成多个tile,每个tile大小为n×n,n=2n且n为大于0的自然数;

匹配投影单元,用于选取最适合用户播放器终端分辨率的一组空间层视频数据,并将roi投影到该空间层视频数据上;

编码单元,用于将该空间层视频数据上roi所覆盖占用的tile转码重写成标准码流,其余tile以skip数据流填充并采用skip模式进行编码;

通信传输单元,用于将编码单元生成的视频码流传输给用户播放器终端;

所述用户播放器终端对接收到的视频码流解码后进行播放显示。

所述空间采样单元通过高斯金字塔对原始全景视频进行空间下采样,得到的多组空间层视频数据的分辨率从上往下依次减小,即利用高斯核与上一层视频数据gi的卷积和移除gi中的偶数行和偶数列,从而得到当前空间层视频数据gi+1,依此得到多组不同分辨率的空间层视频数据。

优选地,所述用户播放器终端采用卡尔曼滤波算法预测用户的pan/tilt/zoom操作指令,即用户播放器终端根据信号与噪声的状态空间模型,利用前一时刻pan/tilt/zoom操作指令的估计值和当前时刻pan/tilt/zoom操作指令的观测值来更新对pan/tilt/zoom操作指令的估计,求出当前时刻pan/tilt/zoom操作指令的估计值,从而确定roi的位置,并将预测得到的roi位置信息实时地反馈给转码分发服务器,以减少交互延时。

所述匹配投影单元根据用户播放器终端的分辨率以及各空间层视频数据的分辨率,基于视频缩放系数最趋近于1的原则,即空间层视频数据分辨率与用户播放器终端分辨率最接近的原则,从而选取最适合用户播放器终端分辨率的一组空间层视频数据。

本发明将原始视频分成多个分辨率不同的空间层视频数据,再将每层数据按tile形式划分,根据用户的操作指令将roi投影到各层视频上,通过对比用户播放器终端的视频窗口分辨率及所选空间层视频分辨率,基于视频缩放系数最趋近于1的原则,转码分发服务器选择最合适的空间层视频数据以及对应的tile,进行转码重写,其他未选定的数据则以skip数据流填充以减少带宽,保证兼容性;同时,用户播放器终端采用kalman滤波方式预测用户的操作指令,从而预测roi的位置以减少交互延时。

故本发明能够根据不同的带宽环境,给用户播放最适合播放窗口分辨率的视频数据,具有空间可伸缩、空间分辨率自适应匹配等特点,能够使用户更好的享受交互视频的自然场景或虚拟场景的三维沉浸视觉感受、无缝式视点切换与灵活的人机交互特性。

附图说明

图1为本发明系统的结构示意图。

图2为高斯金字塔下采样的示意图。

图3为本发明方法的流程示意图。

图4为空间下采样的示意图。

图5为感兴趣区域的投影示意图。

图6为空间层视频数据的选择示意图。

图7为skip数据流的填充示意图。

图8为感兴趣区域的预测示意图。

具体实施方式

为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图1所示,本发明基于空间可伸缩编码的交互式全景视频转码与播放系统包括用户播放器终端与转码分发服务器。用户播放器终端用于提供交互视频的源地址以及作为用户的操作界面,为转码分发服务器提供本地屏幕分辨率等配置信息。布置于云端的转码分发服务器用于接收用户播放器终端传过来的pan/tilt/zoom操作指令,并根据操作指令在各层视频上投影的roi作出pan/tilt/zoom指令反馈,本发明的总体实施流程如图3所示。

如图4所示,转码分发服务器将超高清原始视频按金字塔方式进行空间下采样,对超高清原始视频序列进行抽样,获得m个分辨率不同的空间层视频数据,这些空间层视频数据的分辨率依次由大到小排列,然后将每层数据按tile形式划分,每个tile的大小均为n×n,n为2的指数倍,每个空间层视频数据的tile数因各层的分辨率不同而有所差异,通过采用空间下采样的方案可以实现空间可伸缩性。

如图5所示,用户播放器终端将pan/tilt/zoom操作指令传到转码分发服务器,转码分发服务器将用户感兴趣区域roi,即当前观看的视频窗口,投影到各层视频上。

如图6所示,转码分发服务器根据用户播放器终端的视频窗口分辨率及所选空间层视频分辨率,基于视频缩放系数最趋近于1的原则,即空间层视频的分辨率与用户播放器终端的视频窗口分辨率最接近的原则,选择最合适的空间层视频数据,以及对应的tile。

如图7所示,转码分发服务器提取选定的空间层视频tile数据,转码重写成标准码流,使其他未选定的tile数据均以skip数据流填充,采用skip跳跃式编码模式,可以节省码流,保证兼容性,减少带宽。

用户播放器终端接收到转码分发服务器重写后的视频流后,解码并提取roi视频数据进行缩放显示,用户可根据喜好对播放的视频进行pan(平移)或是tilt(旋转)或是zoom(缩放)的操作,从而获取更好的观看视点。

如图8所示,用户播放器终端采用kalman滤波方式预测用户pan/tilt/zoom操作,用户播放器终端根据信号与噪声的状态空间模型,利用前一时刻对用户操作指令的估计值和现时刻对用户操作指令的观测值来更新对用户操作指令的估计,求出现时刻的估计值,从而预测用户感兴趣区域roi的位置,并将预测与实际位置实时地反馈给转码分发服务器,以减少交互延时。

如图2所示,转码分发服务器对原始视频进行空间采样时,所采用的是高斯金字塔下采样。图像的分辨率从上往下依次减小,通过利用高斯核与gi层的卷积和移走每个偶数行和列产生gi+1层,如此可生成m层,即m个分辨率不同的空间层视频数据。

本发明将原始视频分成m个分辨率不同的空间层视频数据,再将每层数据按tile形式划分,根据用户的操作指令将roi投影到各层视频上,通过对比用户播放器终端的视频窗口分辨率及所选空间层视频分辨率,基于视频缩放系数最趋近于1的原则,转码分发服务器选择最合适的空间层视频数据以及对应的tile,进行转码重写,其他未选定的数据则以skip数据流填充以减少带宽,保证兼容性;同时,用户播放器终端采用kalman滤波方式预测用户的操作指令,从而预测roi的位置以减少交互延时。

因此,本发明能够根据不同的带宽环境,给用户播放最适合播放窗口分辨率的视频数据,具有空间可伸缩、空间分辨率自适应匹配等特点,大大提升了交互式全景视频播放的用户体验。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1