一种720度全景视频快速浏览方法与流程

文档序号:11865835阅读:676来源:国知局
一种720度全景视频快速浏览方法与流程
本发明属于图像处理
技术领域
,涉及视频全景图像处理,特指一种720度全景视频快速浏览方法。
背景技术
:随着信息技术的发展,人们对获取广视角范围的场景信息要求越来越高,传统摄影方法只能获得有限角度范围的图像帧,图像拼接技术为解决这一难题而产生并迅速发展。它是通过将相互有重叠信息的两幅或多幅图片拼接成一个超宽视角的完整图像,以达到降低图像冗余度和获取更广视角信息的目的,其中全景图像的生成也是图像拼接技术的一个典型应用。720度全景视频是一种基于球面模型的视频图像序列,可实现水平360度和垂直360度任意视角方向的环视浏览。浏览时,需要根据当前视线方向和视域范围对球面视频图像进行反投影变换,以获得符合人眼视觉习惯的平面透视图像。通过这种方式,可以同时实现模拟相机旋转运动和变焦运动,改变视域。对于调阅和回放海量视频数据需要耗费大量的时间和精力,传统的拖拉浏览方法容易忽视短时间内的突发异常事件,长时间视频数据的搜索不利于有效信息的提取。因此需要对全景视频进行了进一步的处理,实现对全景视频的快速浏览,其核心工作是对原始视频的分割和视频中关键序列的提取。当前,视频分割与关键帧提取方法主要分为四类:一是简单的生成算法,通过对视频序列进行等时间均匀采样提取关键帧的方法,但这种方法由于短时间内视频信息量变化不同,容易出现关键帧提取过多或代表不足的问题;二是基于视觉信息的生成方法,根据视频中的颜色、形状、纹理等视觉信息,应用各种视频处理技术进行场景聚类、镜头探测、关键帧提取等操作,最终生成缩略视频,这种基于视觉特征的方法在简单生成算法上有了明显的提高,但忽略了原始视频中的音频、字幕等信息;三是融合多特征的生成方法,如采用人脸识别技术探测新闻中重要人物的出现,利用音频处理技术探测体育视频中的精彩片段等,结合视频自身的特征和其他图像处理技术对视频的多个特征融合,算法处理过程比较复杂;四是基于视频句法语义的生成方法,探寻镜头与镜头之间、场景与场景之间的结构规则,以此为基础形成视频摘要。综上所述,针对不同的视频类型和用途,对视频快速浏览处理方法不同,目前全景视频技术广泛的应用于旅游景点、房产居家、汽车展示、休闲会所、城市建筑规划等网络虚拟展示中,这些视频场景主要以给人一种身临其境的体验和完美展现全景达到较好的宣传目的。技术实现要素:本发明提出一种720度全景视频快速浏览方法,其通过反投影方法实现了水平360度和垂直360度全方位角度下观测视频,并依据视频不同场景下拍摄镜头长短的不同,提取关键帧,形成视频概要,达到快速浏览的目的。一种720度全景视频快速浏览方法,包括以下步骤:S1,首先利用反投影法对720度全景视频图像进行重构,得到球面视点空间每一个视线方向上所对应的视图序列。S2,通过计算视频序列中相邻图像帧的绝对亮度帧差来判断镜头长短,然后提取关键帧,实现全景视频快速浏览。其中,S1包括以下步骤:S1.1,基于球面视点空间模型完成720度全景图像的拼接,并建立以球心为中心的两个坐标系,分别表示世界坐标系XYZ和照相机坐标系xyz;其中照相机坐标系xyz是由世界坐标系XYZ绕世界坐标系中的X轴旋转α角,再绕世界坐标系中的Y轴旋转β角度而得到的。S1.1中基于球面视点空间模型完成720度全景图像的拼接的方法是:根据照相机坐标系xyz中与y轴平行的直线按照球面参数变换式生成的图像中与图像横轴垂直的直线仍为垂线这一性质,对鱼眼镜头拍摄的多张实景图像进行旋转变换校正,得到每张实景图像上像素点的在视点空间的方位信息,利用方位信息对多张图像进行拼接,消除实景图像之间可能存在的重复信息,最后投影到一个球面上,以球面全景图像的形式存储。S1.2,将S1.1中两坐标系下像素点的基本度量单位统一,则要计算以像素作为基本量度单位的像素焦距即在照相机坐标系下对每个像素点估计视点到视平面的像素焦距f。S1.2中,设图像S为一张拼接完毕的球面全景图像,Q是球面全景图像S上任意一个像素点,图像坐标为;J是需要生成的视图,点P为球面全景图像上的点Q在视图J上所对应的点,其图像坐标为;f表示像素焦距,f根据拍摄实景图像使用的是镜头进行估计。广角镜头或标准镜头的像素焦距f的估计方法为:设照相机水平旋转一周所拍摄的实景图像n张,则照相机的水平视角为360/n,实景图像宽度为W,根据三角函数关系可以得出普通镜头的像素焦距估计公式为:f=W/(2tan(180/n))。鱼眼镜头的像素焦距f的估计方法为:将鱼眼图像的黑色边框去掉之后图像的宽度记为W,则鱼眼镜头的像素焦距估计公式为:f=W/φ,其中φ为鱼眼镜头的水平视域。S1.3,用像素焦距f建立二维图像点的坐标与球面所对应的三维参数坐标点的转化关系式,再根据世界坐标系XYZ绕世界坐标系中的X轴旋转α角度,再绕世界坐标系中的Y轴旋转β角度的过程中,随着坐标轴的旋转,像素点在各坐标分量上的表示也发生相应的变化(坐标系旋转后各像素点的对应位置需要在新的坐标系下重新表示,坐标分量为各自在x,y,z三个坐标轴上的对应分量),这一变化可以用三角函数关系在各自坐标分量上表示出来,从而得到两坐标系下对应点的变换矩阵H。S1.4,由变换矩阵H建立反变换函数,找出全景图像上任意点到球面空间各视图上点的对应关系式,计算各点坐标,得到视点空间每个视线方向上对应的视图。在S1.3中,用像素焦距f建立二维图像点的坐标与球面所对应的三维参数坐标点的转化关系式,如下:u=fcos(π2-yf)cos(xf)v=fsin(π2-yf)w=fcos(π2-yf)sin(xf)---(1)]]>计算两坐标系下对应点的变换矩阵H,表达式如下:H=1000cosαsinα0-sinαcosαcosβ0-sinβ010sinβ0cosβ---(2)]]>在S1.4中,由S1.3中的式(1)和(2)可知,坐标系XYZ下的点,在坐标系xyz下对应的坐标为。已知视频中所拍摄实景图像的宽度为W,高度为H,建立球面全景图像上任意一点Q与点Q在视图J上所对应的点P的函数关系式,并利用式(3)计算各对应点的坐标,得到视点空间每个视线方向上对应的视图。x=W2-fcos(π2-y′f)cos(x′f+β)cos(π2-y′f)cosαsin(x′f+β)-sin(π2-y′f)sinαy=H2-fsin(π2-y′f)cosα+fcos(π2-y′f)sinαsin(x′f+β)cos(π2-y′f)cosαsin(x′f+β)-sin(π2-y′f)sinα---(3)]]>本发明的S2的包括以下步骤:S2.1,对全景视频序列进行结构化处理,全景视频在每一个视线方向上所对应的都是一组视图构成的视频序列,将步骤S1得到的视频序列按照投影在不同方向视角上的视图帧序列进行分类,得到多个视角上可单独浏览的视频序列组;S2.2,分别对各视角方向的视频序列组进行分割,计算视频序列中相邻图像帧的绝对亮度帧差,判断视频镜头的转换节点,将视频序列分割为多个镜头片段;S2.3,计算各镜头片段的运动量总和,设定运动量衡量门限,根据镜头持续时间判断当前镜头为长镜头或短镜头;S2.4,对长、短镜头分别提取关键帧,对于短镜头随机提取一个关键帧,长镜头则按等间隔法提取多帧图像作为关键帧;S2.5,将提取的关键帧序列进行重组,还原到不同视角方向上生成视频概要,观察者通过对视频概要的操作达到视频快速浏览的目的。在S2.2中,选用绝对亮度帧差AIFD作为衡量视频内容变化程度的特征量,其定义式如下:AIFD(t)=Σx=1WΣy=1Habs(f(x,y,t+1)-f(x,y,t))---(4)]]>上式中和分别表示视频序列中t时刻图像帧在坐标处像素点的亮度值和t时刻下一帧在坐标处像素点的亮度值,W和H分别表示视频帧的宽度和高度;设某一视角方向上视频完整播放的图像帧数目为N,则视频的亮度帧差均值为:AIFD(t)‾=1NAIFD(t)---(5)]]>通过计算亮度帧差均值作为判定基准,设置两个不同系数a和b(当a和b的值设定太小时,容易误检;设定太大时,容易漏检。实验中a的取值为1.2,b取值为2.3,经验值)对亮度帧差均值进行加权得到高低阈值thresh_low和thresh_high,作为镜头是否转换和以哪种方式转换的判定条件,其中thresh_low=a·AIFD(t)‾thresh_high=b·AIFD(t)‾---(6)]]>在S2.2中,对视频序列组进行分割的方法如下:首先对输入的视频帧数据进行初始化,计算t时刻相邻两帧的AIFD特征值,比较并判断当前帧的特征值与判定阈值的大小,以此来检测当前帧与下一帧之间是否存在镜头转换,判定方法为若当前帧特征值小于thresh_low则不存在镜头切换,若大于thresh_low且小于thresh_high则认为当前帧发生了渐变镜头转换,若大于thresh_high则认为当前帧发生了突变镜头转换,渐变镜头转换和突变镜头转换都表示当前帧记录为发生了镜头的转换,当前帧即为记录镜头转换节点。在S2.3中,通过对计算镜头的运动量总和的计算,并与预先设置的运动量衡量门限比较,判断镜头属于长镜头还是短镜头,其中表示t时刻相邻两视频帧之间的相对运动量,表示镜头的持续时间,当镜头运动量总和大于运动量衡量门限时判定为长镜头,否则为短镜头。本发明提出的一种72度全景视频快速浏览方法能够快速地生成虚拟场景在不同视线方向上的透视视图,并在各方向视图上有效地模拟相机旋转和变焦运动,提高了虚拟场景的浏览速度,能够很好的满足虚拟现实系统这一特定应用领域。附图说明图1全景图像反投影坐标系示意图图2全景视频不同视图方向上分割重组框图图3关键帧提取框图图4为W、f、θ三者之间的三角函数关系示意图具体实施方式以下将结合附图对本发明做进一步详细说明。为了能在各个方向视图上对720度全景视频进行高速有效地浏览,本发明的第一步是利用反投影法对全景视频进行重构,得到球面视点空间每一个视线方向上所对应的视图序列,并模拟相机的旋转和变焦运动实现在不同视角上浏览视频,具体步骤如下:S1.1,基于球面视点空间模型完成720度全景图像的拼接,并建立以球心为中心的两个坐标系,分别表示世界坐标系XYZ和照相机坐标系xyz。其中,基于球面视点空间模型完成720度全景图像的拼接的方法是:根据照相机坐标系xyz中与y轴平行的直线按照球面参数变换式生成的图像中与图像横轴垂直的直线仍为垂线这一性质,对鱼眼镜头拍摄的多张实景图像进行旋转变换校正,得到每张实景图像上像素点的在视点空间的方位信息,利用方位信息对多张图像进行拼接,消除实景图像之间可能存在的重复信息,最后投影到一个球面上,以球面全景图像的形式存储。其中照相机坐标系xyz是由世界坐标系XYZ绕世界坐标系中的X轴旋转角,再绕世界坐标系中的Y轴旋转角度而得到的。设定图像S为一张拼接完毕的球面全景图像,Q是球面全景图像S上任意一个像素点,图像坐标为;J是需要生成的视图(即J是最终要得到的某一个视线方向上的一张视图),如图1所示,点P为球面上的点Q在视图J上所对应的点,其图像坐标为;f表示像素焦距,根据拍摄实景图像使用的是普通镜头(一般的广角镜头和标准镜头)或者鱼目镜头进行估计。S1.2,为了将两个坐标系下像素点的基本量度单位统一,对镜头的像素焦距f进行估计。普通镜头(一般的广角镜头和标准镜头)的像素焦距估计方法为:设照相机水平旋转一周所拍摄的实景图像n张,则照相机的水平视角为360/n,实景图像宽度为W,根据三角函数关系可以得出普通镜头的像素焦距估计公式为:f=W/(2tan(180/n))。其中三角函数关系是指直角三角形内存在的正弦、余弦、正切等关系。参照图4,取全景图的一个切面图,可以由三角函数关系对各个量进行表示。假设图中用θ表示照相机的水平视角,则有θ=360/n,由图可知W、f、θ三者之间的三角函数关系可以得到:转换推导出,f=W/(2tan(θ/2)),即f=W/(2tan(180/n))鱼眼镜头的像素焦距估计可以由鱼眼镜头的等距成像模型推导出来,具体为:将鱼眼图像的黑色边框去掉之后图像的宽度记为W,则鱼眼镜头的像素焦距估计公式为:f=W/φ,其中φ为鱼眼镜头的水平视域,可以通过鱼眼镜头说明书进行查找。S1.3,根据全景图像生成过程的逆运算,将二维图像坐标转化为三维参数坐标下进行运算,图像坐标点Q对应球面上点,满足如下转化关系式:u=fcos(π2-yf)cos(xf)v=fsin(π2-yf)w=fcos(π2-yf)sin(xf)---(1)]]>计算两坐标系下对应点的变换矩阵H,表达式如下:H=1000cosαsinα0-sinαcosαcosβ0-sinβ010sinβ0cosβ---(2)]]>求得变换矩阵之后,由上面两个式子可知,坐标系XYZ下的点,在坐标系xyz下对应的坐标为。S1.4,已知视频中所拍摄实景图像帧的宽度为W,高度为H,建立球面全景图像上任意一点Q与其在视图J上对应的点P的函数关系式,并计算各对应点的坐标。x=W2-fcos(π2-y′f)cos(x′f+β)cos(π2-y′f)cosαsin(x′f+β)-sin(π2-y′f)sinαy=H2-fsin(π2-y′f)cosα+fcos(π2-y′f)sinαsin(x′f+β)cos(π2-y′f)cosαsin(x′f+β)-sin(π2-y′f)sinα---(3)]]>至此完成了本发明的第一步,将720度全景视频的图像帧经过反投影变换,得到视点空间任意视线方向上对应的视图,即可以对720度全景视频进行任意视线方向上进行观看。由于直接对720度全景视频进行全方位逐一浏览,存在浏览访问数据量过大的问题,一方面容易造成观察者的疲劳,另一方面影响关键信息提取的效率,基于此,本发明还包括第二步,第二步根据不同场景下拍摄视频镜头的长短提取关键帧,将提取出来的关键帧构建一段视频摘要,观察者通过对重组的关键帧序列视频进行操作,达到对720度全景视频快速浏览的目的。视频是由多个不同场景组成的,每个场景下包含多个镜头,其中有长镜头、短镜头,每个镜头都是由多帧关联图像按照一定顺序播放形成的,因此视频帧是形成视频最基本的单元。为了能实现视频的快速浏览,获取视频图像中的关键帧成为视频有效信息提取的关键。一般而言,不同类型的视频会根据自身主题对拍摄场景有重点和次重点之分,镜头的长短也会根据关注点的不同有所区分,因此通过检测和判断视频中的长短镜头,对于关键帧的提取更有利。S2.1,第一步得到全景视频在不同方向上的视图序列,将这些视频序列按照投影在不同方向视角上的视图序列进行分类(一幅展开的360度全景图由多个不同视角的图像拼接而成,经过反投影就是将全景图还原到不同视角上的多张视图,这些视图按照序列排放,按照序号分类),得到多个视角上可单独浏览的视图序列组。全景视频中的一帧全景图反投影得到的是多个视线方向上的视图,而全景视频反投影得到的是多个视角方向上的视频视图序列,每个方向上都有多张视图。S2.2,分别对不同方向视角上的视频序列组进行分割处理。选用绝对亮度帧差AIFD(absoluteintensityframedifference)作为衡量视频内容变化程度的特征量,其定义式如下:AIFD(t)=Σx=1WΣy=1Habs(f(x,y,t+1)-f(x,y,t))---(4)]]>上式中和分别表示视频序列中t时刻图像帧在坐标处像素点的亮度值和t+1时刻图像帧在坐标处像素点的亮度值,W和H分别表示视频帧的宽度和高度。设某一视角方向上视频完整播放的图像帧数目为N,则视频的亮度帧差均值为:AIFD(t)‾=1NAIFD(t)---(5)]]>由于同一镜头下像素点的亮度帧差变化不大,呈现出比较均匀的分布情况,因此可以通过计算亮度帧差均值作为判定基准,设置两个不同系数a和b,当a和b的值设定太小时,容易误检;设定太大时,容易漏检。(实验中a的取值为1.2,b取值为2.3,经验值),对亮度帧差均值进行加权得到高低阈值thresh_low和thresh_high,作为镜头是否转换和以哪种方式转换的判定条件。thresh_low=a·AIFD(t)‾thresh_high=b·AIFD(t)‾---(6)]]>对视频序列进行分割的具体实现步骤为首先对输入的视频帧数据进行初始化,计算t时刻相邻两帧的AIFD特征值,比较并判断当前帧的特征值与判定阈值的大小,以此来检测当前帧与下一帧之间是否存在镜头转换。判定方法为若当前帧特征值小于thresh_low则不存在镜头切换,若大于thresh_low且小于thresh_high则认为当前帧可能发生了渐变镜头转换,若大于thresh_high则认为当前帧可能发生了突变镜头转换,无论是渐变或突变都将当前帧记录为发生了镜头的转换,即记录镜头转换节点。S2.3,运动分量通常用来表征视频中内容变化的情况,通过对计算镜头的运动量总和的计算,并与设置的运动量衡量门限(运动量衡量门限为预先设定的阈值,通常认为同一镜头下两帧图像的直方图差异较小,当差异累计值即运动量总和超过设定的运动量衡量门限时,判定为长镜头)比较,判断镜头属于长镜头还是短镜头,其中表示t时刻相邻两视频帧之间的相对运动量,就是相邻两帧之间的差异,用直方图差异率来衡量的,即便是同一镜头下的两帧图像并非完全不变,只是差异值较小。表示镜头的持续时间,当镜头运动量总和大于运动量衡量门限时判定为长镜头,否则为短镜头。S2.4,对于短镜头按照随机选取方法提取一个关键帧,长镜头则按照镜头起始帧开始,等间隔的选取多帧图像作为长镜头的关键帧。S2.5,对提取的关键帧序列进行重组,还原到不同视角方向上生成视频概要,观察者通过对视频概要的操作达到视频快速浏览的目的。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1