深度信息获取方法及装置与流程

文档序号:12604158阅读:261来源:国知局
深度信息获取方法及装置与流程
本公开涉及图像处理领域,具体地,涉及一种深度信息获取方法及装置。
背景技术
:深度图是以物体纵向深度值代替灰度图像的灰度级形成的图像。由于其中的每个像素代表了一个相对的深度信息,反映了景物表面的三维坐标信息,所以图像的深度信息包含了可以直接利用的三维信息(即较可靠的深度数据)。因此,深度信息提取技术是二维视频转三维视频的关键技术之一。相关技术中,常根据二维视频图像的特征,利用经典的运动信息或者几何信息来提取各帧图像的深度信息。这种深度信息提取方法,获取到的深度图质量差,不够精确,导致转换成的视频不符合人眼视觉特性,适应性较差。技术实现要素:本公开的目的是提供一种深度信息获取方法及装置,以解决深度信息提取不准确的问题。为了实现上述目的,第一方面,本公开提供一种深度信息获取方法,包括:读取二维视频的各帧视频图像;对所述视频图像进行静止区域和运动区域的分离;分别获取所述静止区域的第一深度信息和所述运动区域的第二深度信息;获取所述视频图像的纹理深度信息;根据所述第一深度信息、所述第二深度信息和所述纹理深度信息,获取所述视频图像的深度信息。在一个实施例中,所述根据所述第一深度信息、所述第二深度信息和所述纹理深度信息,获取所述视频图像的深度信息包括:将所述视频图像的各像素点的灰度值分别与一预设阈值进行比较;当像素点的灰度值大于所述预设阈值时,将所述第一深度信息和所述第二深度信息进行加权以获得该像素点的深度信息;当像素点的灰度值小于所述预设阈值时,将所述第一深度信息和所述纹理深度信息进行加权以获得该像素点的深度信息。在一个实施例中,所述对所述视频图像进行静止区域和运动区域的分离包括:建立高斯模型;利用建立的高斯模型对视频图像进行静止区域和运动区域的分离。在一个实施例中,所述方法还包括:对进行了静止区域和运动区域分离的视频图像进行阴影检测;对经阴影检测后的视频图像进行数学形态学滤波。在一个实施例中,所述获取所述静止区域的第一深度信息的步骤包括:对经数学形态学滤波后的静止区域的图像进行边缘检测;对经边缘检测后的静止区域的图像,进行Hough变换;Hough变换后,对静止区域的图像进行去水平线和垂直线;对去水平和垂直线后的静止区域的图像,进行深度信息分配以获取所述第一深度信息。在一个实施例中,所述获取视频图像的纹理深度信息的步骤包括:获取视频图像的每个像素点的纹理梯度值;根据每个像素点的纹理梯度值,获取每个像素点的平均纹理梯度;根据所述平均纹理梯度,对每个像素点进行深度信息分配以获取所述纹理深度信息。第二方面,提供一种深度信息获取装置,包括:读取模块,被配置为读取二维视频的各帧视频图像;分离模块,被配置为对所述视频图像进行静止区域和运动区域的分离;第一获取模块,被配置为分别获取所述静止区域的第一深度信息和所述运动区域的第二深度信息;纹理深度信息获取模块,被配置为获取所述视频图像的纹理深度信息;深度信息获取模块,被配置为根据所述第一深度信息、所述第二深度信息和所述纹理深度信息,获取所述视频图像的深度信息。在一个实施例中,所述深度信息获取模块包括:比较子模块,被配置为将所述视频图像的各像素点的灰度值分别与一预设阈值进行比较;第一加权子模块,被配置为当像素点的灰度值大于所述预设阈值时,将所述第一深度信息和所述第二深度信息进行加权以获得该像素点的深度信息;第二加权子模块,被配置为当像素点的灰度值小于所述预设阈值时,将所述第一深度信息和所述纹理深度信息进行加权以获得该像素点的深度信息。在一个实施例中,所述分离模块包括:模型建立子模块,被配置为建立高斯模型;分离子模块,被配置为利用建立的高斯模型对视频图像进行静止区域和运动区域的分离。在一个实施例中,所述装置还包括:阴影检测模块,被配置为对进行了静止区域和运动区域分离的视频图像进行阴影检测;滤波模块,被配置为对经阴影检测后的视频图像进行数学形态学滤波。在一个实施例中,所述第一获取模块包括:边缘检测子模块,被配置为对经数学形态学滤波后的静止区域的图像进行边缘检测;变换子模块,被配置为对经边缘检测后的静止区域的图像,进行Hough变换;去除子模块,被配置为对所述变换子模块进行Hough变换后的静止区域的图像进行去水平线和垂直线;深度信息分配子模块,被配置为对经去除子模块去水平和垂直线后的静止区域的图像,进行深度信息分配以获取所述第一深度信息。在一个实施例中,所述纹理深度信息获取模块包括:纹理梯度值获取子模块,被配置为获取视频图像的每个像素点的纹理梯度值;平均纹理梯度获取子模块,被配置为根据每个像素点的纹理梯度值,获取每个像素点的平均纹理梯度;像素点深度信息分配子模块,被配置为根据所述平均纹理梯度,对每个像素点进行深度信息分配以获取所述纹理深度信息。通过上述技术方案,采用运动信息(即第二深度信息)、几何信息(即第一深度信息)、纹理深度信息三种信息获取图像的混合深度信息,使得所获取的深度信息具有比较明显的深度细节,比利用单一信息获取的深度图质量更好,有效地提高了深度图的质量,更接近人的视觉特性;且由于采用了三种信息加权的方式获取深度信息,可以适应各类视频图像。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1是本公开一实施例的深度信息获取方法的流程示意图;图2是本公开另一实施例的深度信息获取方法的流程示意图;图3是本公开一实施例的高斯模型的建立方法的流程示意图;图4a-图4f是本公开一实施例的静止区域图像的分离示意图;图5是本公开一实施例第一深度信息的获取方法流程示意图;图6是本公开一实施例的深度信息分配原则示意图;图7a-图7d是本公开一示例性实施例的静止区域的深度图获取过程图;图8a-图8b是本公开一示例性实施例的运动区域的深度图获取过程图;图9是本公开一实施例的视频图像的纹理深度信息获取方法流程示意图;图10a-图10b是本公开一示例性实施例的纹理深度信息的深度图获取过程图;图11是本公开一实施例的深度信息获取流程图;图12a-图12i是本公开一实施例的视频图像深度图获取过程示意图;图13是本公开一实施例的深度信息获取装置的结构示意图;图14是根据一示例性实施例示出的一种用于终端的深度信息获取装置的框图。具体实施方式以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。参见图1为本公开一实施例的深度信息获取方法的流程示意图。该深度信息获取方法包括以下步骤:在步骤S101中,读取二维视频的各帧视频图像。在一个实施例中,首先,获取二维视频,对二维视频进行视频流解析,生成RGB格式的多帧视频图像。由此,可读取二维视频的各帧视频图像以进行处理。二维视频可以是预先拍摄好并存储到预设存储空间的,也可以是实时通过拍摄设备拍摄得到的。在步骤S102中,对视频图像进行静止区域和运动区域的分离。实际拍摄的二维视频场景往往包含相对静止的背景和多个运动前景,因此,对每帧视频图像进行静止区域和运动区域的分离。在一个实施例中,可利用预先建立的模型,对视频图像进行静止区域和运动区域的分离。预先建立的模型可为高斯模型,例如,基于K均值的混合高斯模型。在本公开的实施例中,静止区域即相对静止的背景区域,运动区域即包括运动物体的前景区域。在步骤S103中,分别获取静止区域的第一深度信息和运动区域的第二深度信息。对于静止区域和运动区域采用不同的方式获取其深度信息。例如,可利用线性透视方法获取静止区域的第一深度信息,可利用基于变形理论的高精度光流法获取运动矢量并转换为运动区域的第二深度信息。在步骤S104中,获取视频图像的纹理深度信息。在本公开的一实施例中,除了上述第一深度信息和第二深度信息的获取外,对于每帧视频图像的整个场景区域,可利用基于Laws的能量法提取纹理梯度并转化为纹理深度信息。通过纹理深度信息,可以增加获得的图像深度信息的细节信息。在步骤S105中,根据第一深度信息、第二深度信息和纹理深度信息,获取视频图像的深度信息。在本公开的一实施例中,设置一个预设阈值,将视频图像中的各像素点的灰度值分别与该预设阈值进行比较。当一像素点的灰度值大于该预设阈值时,则将第一深度信息和第二深度信息进行加权以获得该像素点的深度信息;当一像素点的灰度值小于该预设阈值时,则将第一深度信息和纹理深度信息进行加权以获得该像素点的深度信息。在一个实施例中,首先将视频图像转换为二值图像,转换方法为:设置一转换阈值,将视频图像的各个像素点的灰度值与该转换阈值进行比较,若大于该转换阈值,则将其像素值设为255,若不大于该转换阈值,则将其像素值设为0。由此,当二值图像中的像素点的像素值为255时,将第一深度信息和第二深度信息进行加权得到该像素点的深度信息;当二值图像中的像素点的像素值为0时,将第一深度信息和纹理深度信息进行加权得到该像素点的深度信息。由此,将视频图像中的像素点的灰度值逐一与设置的转换阈值以及值255进行比较,可得到视频图像的每一像素点的深度信息,将这些深度信息组合即得到该图像的深度图。通过本公开实施例的深度信息获取方法,采用运动信息(即第二深度信息)、几何信息(即第一深度信息)、纹理深度信息三种信息获取图像的混合深度信息,使得所获取的深度信息具有比较明显的深度细节,比利用单一信息获取的深度图质量更好,有效地提高了深度图的质量,更接近人的视觉特性;且由于采用了三种信息加权的方式获取深度信息,可以适应各类视频图像。参见图2为根据本公开另一实施例的深度信息获取方法的流程示意图。该实施例的深度信息获取方法包括以下步骤:在步骤S201中,建立高斯模型。在本公开的实施例中,为了对二维视频的视频图像进行静止区域和运动区域的分离,预先利用该二维视频建立高斯模型。参见图3,为本公开一实施例的高斯模型的建立方法的流程示意图。在步骤S2010中,用K个高斯分布对背景像素点建立高斯模型。在T时刻下获得的二维视频的视频图片的像素值为随机变量X的采样值,则对于第k个状态(0<k≤K)像素的分布可表示为:η(Xi,μi,t,Σi,t)=1(2π)n2|Σi,t|12exp{-12(Xt-μi,t)TΣi,t-1(Xt-μi,t)}---(1)]]>其中,Xt为t时刻的像素值,k表示高斯模型的个数;μi,t和∑i,t分别为t时刻第i个高斯分布的均值矢量和协方差矩阵。随机变量X的分布可用K个状态分布的加权和代表为:P(Xt)=Σi=1Kωi,t*η(Xt,μi,t,Σi,t)---(2)]]>式中,ωi,t为第i个高斯分布在t时刻的权值,且满足在步骤S2011中,对建立的高斯模型进行初始化。K均值聚类方法对高斯模型进行初始化,是检测新到来的视频图像相应位置的数据是否和已经存储的数据属于同一类,如果属于同一类,则用当前的像素值对其更新,如果不属于同一类,则记录该数据。最后用这些数据初始化高斯模型。第一步,获取第一帧视频图像,记录(存储)其像素点(x,y)的均值(u1),R值,G值,B值,方差和匹配次数。即用P1,xy(u1,r1,g1,b1,σ12=0,m1=1)记录第一帧视频图像的像素点(x,y)的均值,R值,G值,B值,方差和匹配次数。其中,u1=(R+G+B)/3。方差是指高斯模型的方差,当当前视频图像的所有像素点的灰度值视为符合高斯模型,则该高斯模型的方差就是此处的方差。均值决定高斯分布的位置,方差决定高斯分布的一个幅度。匹配次数是指,在新到来的一帧视频图像的数据与存储的数据满足下式(3),则当前数据匹配已存储数据模型,匹配次数记为1。第二步,依次获取第一帧视频图像后的视频图像以进行学习,使得建立的高斯分布能够很好地代表二维视频的背景。即获取第一帧视频图像之后的第c帧视频图像,用记录(存储)其像素点(x,y)的均值,R值,G值,B值,方差和匹配次数。并将第c帧视频图像的均值uc与第c帧视频图像之前的所有视频图像的均值(u1、u2……uc-1)进行比较,将均值的差值最小的视频图像作为与第c帧视频图像距离最近的视频图像。即根据以下式(3)获取与第c帧视频图像距离最近的视频图像:J=argminj(abs(uc-uj)),j=1,2,…n,(n<=c)(3)式(3)中,n代表第c帧之前记录的视频图像的帧数,uj代表第j帧视频图像的R、G、B三色的均值。式(3)中的abs(uc-uj)代表取(uc-uj)的绝对值。获取到与第c帧视频图像距离最近的视频图像后,将(uc-uj)的绝对值(即abs(uc-uj))与预设阈值(TH)进行比较,若(uc-uj)的绝对值小于预设阈值TH,则第c帧视频图像的像素点(x,y)和第J帧视频图像的像素点(x,y)归于同一种模式,用当前对应的值对已经记载的PJ,xy(uJ,rJ,gJ,bJ,σJ2,mJ)值进行更新。更新时,通过式(4)到式(10),用当前数据的参数更新已存储的数据参数。mj=mj+1(4)uo=uj(5)uj=uj+(uc-uj)/mj(6)Qj=Qj+(Qc-Qj)/mj,Q∈(R,G,B)(7)σ2j=[(mj-1)(σ2j+uj2)+uo2]/mj-uj2(8)式(4)到式(8)需要改变的条件是依据前n个数的均值和方差σn2以及第n+1个数xn+1时,则这n+1个数的均值和方差为:un+1‾=un‾+(xn+1-un)/(n+1)---(9)]]>σn+12=n[(σn2+un2)+xn+12]/(n+1)-un+1‾2---(10)]]>在一个实施例中,当第c帧视频图像的像素点(x,y)和第J帧视频图像的像素点(x,y)归于同一种模式时,不存储如果(uc-uj)的绝对值大于或等于预设阈值TH,则第c帧视频图像的像素点(x,y)和第j帧视频图像的像素点(x,y)不属于同一种模式,存储数据第三步,判断是否满足预设条件,若满足则执行第四步,若不满足,则返回执行第二步。在一个实施例中,预设条件为获取以进行学习的视频图像的帧数的数量可拟定的二维视频的总帧数,使得建立的高斯分布能够很好地代表二维视频的背景。第四步,初始化高斯模型,用匹配次数(mi)与学习的帧数的比值作为相应高斯模型的权重。对学习完成后方差还为0的高斯分布,将其方差σi2设为预设值。在步骤S2012中,对高斯模型的参数进行更新。参数更新率的选择至关重要,若太小则长时间不能更新高斯模型;若太大,则高斯模型更新频繁,场景中的水波纹、光线或者阴影都会对模型的准确性带来很大影响。在本公开的一个实施例中,采用权重和匹配次数同时制约均值的更新率,使得视频图像中各参数的变化能够及时的被反映出来。参见下式(11):ρu=a/w+(1-a/w)/c(11)其中,ρu为均值的更新率,c为匹配次数,a为权重的更新率,w权重。方差的更新率ρσ=0.001,由此,通过给方差的更新率稍小的值,可避免在学习过程中过大波动。在步骤S202中,利用建立的高斯模型对视频图像进行静止区域和运动区域的分离。通过上述步骤S2010-S2012,建立的高斯分布能够很好地代表二维视频的背景。在一个实施例中,可通过以下方式对建立的高斯分布进行验证:计算权重pi=wi/max(σi,R,σi,G,σi,B),i=1,2,…,K的值,并按照由大到小的顺序排列分布,当前面若干个的权重之和满足设定的阈值,则高斯分布可代表了真实的背景模型。其中,wi是指K个高斯分布前的权重系数,其和为1。max(σi,R,σi,G,σi,B)是指R/G/B分量中最大的方差值。对于灰度图像,只有一个通道的值。用pi来衡量高斯分布是否代表真实的背景模型,由于结合了权重和方差两个因素,更精确。采用建立并验证后的高斯模型,对二维视频的视频图像进行静止区域和运动区域的分离时,对于获取的视频图像帧的像素点,若像素点的值符合高斯分布中的任何一个,则判定该像素点属于静止区域(即背景区域),否则属于运动区域(即前景区域)。由此,可将视频图像划分为静止区域和运动区域。在本公开的实施例中,建立的高斯模型利用K均值方法改进传统混合高斯模型,可改善采用第一帧图像初始化的不准确性的问题。在一个实施例中,为了增加静止区域和运动区域提取的准确性,本公开实施例的深度信息获取方法还包括:在步骤S203中,对进行了静止区域和运动区域分离的视频图像进行阴影检测,以去除运动区域的阴影部分。在本公开的一实施例中,采用基于HSV空间的阴影检测方法。HSV彩色模型依据人类视觉特性给出了三个属性,H(色调)、S(饱和度)、V(亮度)。H是表面呈现近似红、黄、绿、蓝等颜色的一种或几种的目视感知属性;S是颜色具有“白光”的程度;V是物体表面相对独立性。其转换公式如下所示:H=θB≤G360-θB>G---(12)]]>S=1-3R+G+Bmin(R,G,B)---(13)]]>V=13(R+G+B)---(14)]]>其中,θ=arccos(R-G)+(R-B)2(R-G)2+(R-B)(G-B)---(15)]]>检测阴影的算法如下所示:其中,Vc,Sc,Hc为所检测的视频图像的色度、饱和度和亮度,Vb,Sb,Hb为高斯背景模型的色度、饱和度和亮度,Ts和TH分别表示饱和度、亮度分量的阈值。式16中,取值为1的区域即是所确定的阴影区域,在图像处理的时候可以将背景图像相应点的像素值代替所检测的视频图像阴影区域的像素值。在另一些实施例中,也可以将阴影部分直接剔除,即将阴影部分的像素点的灰度值设为0。通过对视频图像进行阴影检测,可以去除阴影对运动区域提取的准确性提高运动区域的运动目标提取的准确性。在一个实施例中,本公开实施例的深度信息获取方法还包括:在步骤S204中,对经阴影检测后的视频图像进行数学形态学滤波。数学形态学滤波算法是以腐蚀和膨胀两种运算为基础,通过不同的组合构成开、闭等基本运算,再通过组合基本的运算便能够实现更为复杂的图像处理的功能。设A为图像集合即所要处理的当前一帧视频图像。B为结构元素,为一个数组。Φ为空集。膨胀算子为A被B膨胀记为膨胀的作用是用来扩大图像,对填补图像分割后的区域形成的空洞有很好的填补效果。腐蚀算子为Θ,A被B腐蚀记为AΘB,腐蚀的作用是用来收缩图像,能够消除原图像边界上不光滑的凸起部分,顺便把小于结构元素的部分去掉。定义为:A⊕B={x|(B^)x∩A≠Φ}---(17)]]>AΘB={x|(B)x⊆A}---(18)]]>开运算的算子用表示,用B对A做开运算记做闭运算的算子用·表示,用B对A做闭运算记做A·B。定为:A·B=(A⊕B)ΘB---(20)]]>二维视频的视频图像经过上述运动区域和静止区域的分离,存在光线的反射或者物体与背景灰度差别不大的情况,分离出的区域,不可避免的存在横向或者竖向的断层现象,而且分割区域的边缘比较粗糙,目标区域会存在一些空洞,同时一些噪声可能会被当成运动目标被分割出来,也成为一些孤立的噪声。本公开的实施例中,通过形态学滤波,能够很好地滤除随机噪声,减少对阴影区域操作,节约处理时间和空间,减少对图像的影响,同时能够分割或者连接图像中的相邻区域,便于图像的后期处理。参见图4a-图4f为本公开一实施例的静止区域图像的分离示意图。其中,图4a为未经分离的原始视频图像;图4b为分离出的静止区域的图像;图4c为分离出的减除静止区域后的运动区域的图像;图4d为对运动区域进行阴影去除后的图像;图4e为对阴影去除后的图像进行腐蚀后得到的图像;图4f为最终获得的运动区域的图像。通过上述步骤,准确进行静止区域和运动区域的分离后,继续参见图2,本公开实施例的深度信息获取方法包括:在步骤S205中,获取静止区域的第一深度信息。在一个实施例中,可利用线性透视方法获取静止区域的第一深度信息。参见图5,在本公开的一个实施例中,第一深度信息的获取包括以下步骤:在步骤S2051中,对经数学形态学滤波后的静止区域的图像进行边缘检测。在本公开的一实施例中,进行边缘检测时,第一步,对数学形态学滤波后的图像,计算梯度幅值和方向。对经数学形态学滤波后的图像提取x和y上的偏导数,分别记做Ex(i,j)和Ey(i,j),得到梯度幅值:M(i,j)=Ex(i,j)2+Ey(i,j)2---(21)]]>梯度的方向定义为:θ(i,j)=tan-1[Ey(i,j)Ex(i,j)]---(22)]]>第二步,根据Canny算子进行非极大值抑制,即将视频图像的像素点(x,y)的梯度幅度值同幅值方向两侧的相邻像素点的梯度幅值进行对比,以进行非极大值抑制。若像素点(x,y)的梯度幅值比两侧像素点的幅值都大,则保持此像素点的梯度幅值不变;若像素点(x,y)的梯度幅值比两侧像素点的幅值小,则将像素点(x,y)的赋值变为0,实现非极大值抑制。在本公开的实施例中,进行非极大值抑制,是因为边缘检测的时候会出现很多的极大值,为了减少存储空间和检测准确性,去掉相对不大的非极大值。Canny算子通过非极大值抑制过程(Non-MaximumSuppression,NMS)细化梯度幅值图像中的屋脊带,只保留了梯度值局部最大的点,即图像像素值变化最大的点,实现了边缘的细化,能够提高定位精度和图像边缘的连贯性。第三步,进行检测和边缘连接。在一个实施例中,采用双阈值检测和边缘连接。首先确定双阈值中的高低阈值的大小,高阈值决定边缘点的数量,太少会导致边缘信息的丢失,太大则会引入太多的噪声,影响结果的准确性。高阈值通常由梯度直方图的累积直方图确定,低值取高值的三分之二。采用高低阈值操作能够获得两幅边缘图像,其中,借助高值获得边缘图像不含假的边缘,但是在轮廓上也许会出现不理想的间断现象;而借助低值获得的边缘图像主要用来完善高值图像中间断的轮廓,从而获得比较完整且符合现实场景的边缘图像。在步骤S2052中,对经边缘检测后的静止区域的图像,进行Hough变换。Hough变换利用图像全局特性将边缘像素连起来组成封闭边界,具有受噪声和间断曲线的影响不大的优点。由解析几何可知,图像空间中的一点和参数空间中的一条曲线相对应。如果图像空间中的某些点在一条直线上,那么这些点在参数空间中相应的线簇会汇聚于某点。参数空间中每个点的Hough值就是表示聚集于该点的线的个数,如果某个点的Hough值较大,则表示图像坐标空间中有较多的对应点在一条直线上。由此,检测坐标中的直线便转换为检测Hough峰值问题。选择Hough值超过一定阈值的点被保留下来,这些点代表了图像坐标空间中的主要直线。在步骤S2053中,Hough变换后,对静止区域的图像进行去水平线和垂直线。水平线和垂直线的出现代表这些线的消失点位于图像边界之外,由于消失点位于图像边界之内的消失点,因此将这些垂直线和水平线去掉,剩余的被定义为消失线的直线。由于计算误差的影响,不一定能够完全地汇集到一个点,而往往是交点汇集在一个区域,为了确定消失点的具体位置,本公开实施例将这个区域定义为消失区域,取这个区域的重心坐标作为消失点的确切位置。由于水平线和垂直线的消失点在无穷远处,超过了图像边界,可将水平线和垂直线去掉。在步骤S2054中,对去水平和垂直线后的静止区域的图像,进行深度信息分配。深度信息分配的原则是:消失点距离观察者最远,从消失点出发沿着消失线的方向,深度依次递减,距离消失点越远,深度值越小。本公开的一实施例中,消失点出现在图像画面之内的情况,选择那些能够代表场景几何结构信息的消失线,按照图6所示的分配原则分配深度信息。假设背景的深度值为0~255的数值,设深度梯层为N,处于L1和L2之间的像素,深度信息赋值公式如式(23)所示。其中,经过Hough变换可以得到很多条可能的消失线,再经过消失点的确定后,经过消失点的两条消失线就称为L1和L2。depth_LP=255-round(round(j×N/yo)×255/N)(23)式(23)中,Round是四舍五入;j指像素点的横坐标值,即x0;N是将区域N等分,例如,可为100;y0是消失点的纵坐标。通过式(23)将消失点与两消失线之间的部分区域,在纵坐标方向上划分为平等的N分,根据该像素点与消失点在纵坐标上的差值与该区域的纵坐标总长进行比较,将该比值归一化到0-255上即可。通过从上到下,从左到右的顺序给所有像素点都赋值,最终获取静止区域的深度信息,根据这些深度信息即可得到静止区域的深度图。参见图7a-图7d所示为本公开一示例性实施例的静止区域的深度图获取过程图。其中,图7a为分离出的背景区域的图像;图7b是Hough变换得到的主要直线图;图7c是经灭点和灭线后的图像;图7d是最终得到的静止区域的深度图。继续参见图2,本公开实施例的深度信息获取方法包括:在步骤S206中,获取运动区域的第二深度信息。在本公开的一实施例中,采用基于运动信息的深度信息获取方法,从相邻的两帧图像中,利用时间上的连续性获得运动物体的运动矢量,并将运动幅度转化成深度信息。在本公开的一实施例中,引用ThomasBrox的基于变形理论的高精度光流法获取其运动矢量。基于灰度值不变假设,梯度不变假设,光滑性假设和多尺度方法,本公开引用H.-H.Nagel的凸函数Ψ,提高全局偏离值估计的准确性,故模型可用能量函数来表示:EData(u,v)=∫ΩΨ(|I(X+W)-I(X)|2+γ|▿I(X+W)-▿I(X)|2)dx---(24)]]>其中,X=(x,y,t)T为当前图像的参数,W=(u,v,1)T为偏移参数,γ代表权重系数,以上能量函数满足灰度不变假设和梯度不变假设。考虑图像像素之间的相互作用,本公开用一个平滑术语来表示分段光滑的光流场的函数模型:ESmooth(u,v)=∫ΩΨ(|▿3u|2+|▿3v|2)dX---(25)]]>由于本公开模型操作时,是将当前帧与后一帧图像对比,涉及到两帧图像间的时间梯度,故令本公开模型的总能量函数由数据项和光滑项的加权融合得到:E(u,v)=EData+αESmooth(26)其中,α>0。由于E(u,v)是非线性函数,本公开采用P.Anandan的方法来计算当前帧图像和运动后的下一帧图像的变量(du,dv)。深度信息的获取可以参考坐标轴两轴方向上的运动矢量,其深度信息可以用下面的公式估计:depth_OF=λdu2+dv2---(27)]]>其中,是运动矢量的模。λ为深度调整系数。调整λ的值来调整视频帧的整体深度。max(du,dv)为获得的运动矢量场中最大运动矢量的大小。参见图8a-图8b所示为本公开一示例性实施例的运动区域的深度图获取过程图。其中,图8a为未经静止区域和运动区域分离的原始视频图像;图8b是最终得到的运动区域的深度图。继续参见图2,本公开实施例的深度信息获取方法包括:在步骤S207中,获取视频图像的纹理深度信息。参见图9,在本公开的一实施例中,获取视频图像的纹理深度信息,先从视频图像中提取纹理梯度值,并将其转化为深度信息。在步骤S2071中,获取视频图像的每个像素点的纹理梯度值。在一个实施例中,采取Laws八模板,计算视频图像中每个像素点的纹理梯度值:Zi(x,y)=|Σk=-11Σt=-11ωi(k,l)I(x+k,y+l)|---(28)]]>式中,I(x,y)表示像素点(x,y)的灰度值大小,ωi(k,l)(i=1-8)表示Laws八模板。在步骤S2072中,根据每个像素点的纹理梯度值,获取每个像素点的平均纹理梯度。对于一像素点的平均纹理梯度值,可以利用该点和周围点的纹理梯度值结合来确定。在一个实施例中,利用7×7的窗口模板求得每个像素点的平均纹理梯度,通过归一化处理将其值转换到0~255区间。Zmean(x,y)=17Σm=-33Σn=-33Σi=18Zi(x+m,y+n)---(29)]]>Zmean′(x,y)=255×[Zmean(x,y)-Zmin(x,y)]Zmax(x,y)-Zmin(x,y)---(30)]]>式中,Zmax(x,y)是指纹理梯度中最大的那个值,Zmin(x,y)代表纹理梯度最小值。在步骤S2073中,根据每个像素点的平均纹理梯度对每个像素点进行深度信息分配。depth_order(x,y)=Zmean′(x,y)256/N---(31)]]>depth_Text(x,y)=255N×(depth_order(x,y)+1)---(32)]]>其中,N为深度梯层。由此,可得到每个像素点的深度信息,根据每个像素点的深度信息可得到视频图像的纹理深度信息,根据每个像素点的纹理深度信息,可得到纹理深度图。在本公开的一个实施例中,在步骤S2073之后,还包括:在步骤S2074中,采用双边滤波法对纹理深度图进行后处理。由此,可减少噪声的影响。在本公开的实施例中,双边滤波法比高斯滤波多一个高斯方差,对离边缘较远的像素不会被轻易滤掉,在处理低频信息的同时,可保存高频信息。参见图10a-图10b为本公开一实施例的纹理深度信息的深度图。其中,图10a是未经静止区域和运动区域分离的原始视频图像;图10b是基于纹理信息获得的深度图。继续参见图2,本公开实施例的深度信息获取方法包括:在步骤S208中,根据第一深度信息、第二深度信息和纹理深度信息,获取视频图像的深度信息。本公开的实施例中,通过纹理深度信息来增添视频图像的深度信息的细节信息。参见图11,首先本发明将视频图像划分为静止区域(即前景区域)和运动区域(即背景区域),对静止区域和运动区域分别采取加权方式赋值,最后通过融合静止区域深度图和运动区域深度图获取最终的深度图。对于运动区域的加权深度信息,根据式(33)获得:depth1=depth_OF×ω1+depth_LP×ω2(33)其中,depth1代表运动区域的加权深度信息,depth_OF代表第二深度信息,depth_LP代表第一深度信息;ω1和ω2代表权重。对于静止区域的加权深度信息,根据式(34)获得:depth2=depth_LP×ω3+depth_Text×ω4(34)其中,depth2代表静止区域的加权深度信息,depth_Text代表纹理深度信息,depth_LP代表第一深度信息;ω3和ω4代表权重。在本公开的一实施例中,采用式(35)将运动区域和静止区域的深度信息进行融合:depth=depth1(x,y)B(x,y)=255depth2(x,y)B(x,y)=0---(35)]]>B(x,y)为表示视频图像经过高斯模型获取的二值图像。在本公开的一实施例中,将视频图像转换为二值图像后,当某像素点的像素值为255时,将其判定运动前景区域,其深度信息通过运动区域的第二深度信息和纹理深度值加权得到;相反,如果该点像素值为0时,其深度信息由几何信息得到的深度图和纹理深度图加权得到。在本公开的实施例中,ω1和ω2分别为第二深度信息和第一深度信息的权重。由于,根据视觉主观测试可知人们对运动的物体更敏感,所以可将ω1的值设置为大于ω2。在一个实施例中,可将ω1设为0.75,将ω2设为0.25。ω3和ω4分别为第一深度信息和纹理深度信息的权重。由于静态的背景几何信息在全局深度信息上占主导地位,可将ω3的值设为大于ω4。在一个实施例中,可将设为0.75,将ω4设为0.25。ω1、ω2、ω3和ω4的值还可根据实际情况进行设置。参见图12a-图12i,为本公开一实施例的深度图获取过程示意图。其中,图12a是未经静止区域和运动区域分离的原始二维视频图像;图12b是分离出的静止区域图像;图12c是分离出的运动区域图像;图12d是静止区域的深度图;图12e是分离出的运动区域的深度图;图12f是纹理深度图;图12g是运动区域的加权深度图;图12h是静止区域的加权深度图;图12i是最终得到的混合深度图。在本公开的一实施例中,二维视频可为自拍视频,通过本公开的深度信息获取方法,获得的深度信息,具有比较明显的深度细节,比单一一种深度线索获取的深度图质量更好,更接近人的视觉特性;且由于采用了三种信息加权的方式获取深度信息,可以适应各类视频图像。参见图13,为本公开一实施例提供的深度信息获取装置的结构示意图。该深度信息获取装置130包括:读取模块131,被配置为读取二维视频的各帧视频图像;分离模块132,被配置为对所述视频图像进行静止区域和运动区域的分离;第一获取模块133,被配置为分别获取所述静止区域的第一深度信息和所述运动区域的第二深度信息;纹理深度信息获取模块134,被配置为获取所述视频图像的纹理深度信息;深度信息获取模块135,被配置为根据所述第一深度信息、所述第二深度信息和所述纹理深度信息,获取所述视频图像的深度信息。在一个实施例中,深度信息获取模块135包括:比较子模块1351,被配置为将所述视频图像的各像素点的灰度值分别与一预设阈值进行比较;第一加权子模块1352,被配置为当像素点的灰度值大于所述预设阈值时,将所述第一深度信息和所述第二深度信息进行加权以获得该像素点的深度信息;第二加权子模块1353,被配置为当像素点的灰度值小于所述预设阈值时,将所述第一深度信息和所述纹理深度信息进行加权以获得该像素点的深度信息。在一个实施例中,分离模块132包括:模型建立子模块1321,被配置为建立高斯模型;分离子模块1322,被配置为利用建立的高斯模型对视频图像进行静止区域和运动区域的分离。在一个实施例中,装置130还包括:阴影检测模块136,被配置为对进行了静止区域和运动区域分离的视频图像进行阴影检测;滤波模块137,被配置为对经阴影检测后的视频图像进行数学形态学滤波。在一个实施例中,第一获取模块133包括:边缘检测子模块1331,被配置为对经数学形态学滤波后的静止区域的图像进行边缘检测;变换子模块1332,被配置为对经边缘检测后的静止区域的图像,进行Hough变换;去除子模块1333,被配置为对所述变换子模块进行Hough变换后的静止区域的图像进行去水平线和垂直线;深度信息分配子模块1334,被配置为对经去除子模块去水平和垂直线后的静止区域的图像,进行深度信息分配以获取第一深度信息。在一个实施例中,纹理深度信息获取模块134包括:纹理梯度值获取子模块1341,被配置为获取视频图像的每个像素点的纹理梯度值;平均纹理梯度获取子模块1342,被配置为根据每个像素点的纹理梯度值,获取每个像素点的平均纹理梯度;像素点深度信息分配子模块1343,被配置为根据所述平均纹理梯度,对每个像素点进行深度信息分配以获取纹理深度信息。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。图14是根据一示例性实施例示出的一种用于终端的深度信息获取装置140的框图,该装置140可以是移动终端。如图14所示,该装置140可以包括:处理器1401,存储器1402,多媒体组件1403,输入/输出(I/O)接口1404,通信组件1405以及视频拍摄组件1406。其中,处理器1401用于控制该装置140的整体操作,以完成上述的用于终端的控制方法中的全部或部分步骤。存储器1402用于存储各种类型的数据以支持在该装置140的操作,这些数据的例如可以包括用于在该装置140上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器1402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(StaticRandomAccessMemory,简称SRAM),电可擦除可编程只读存储器(ElectricallyErasableProgrammableRead-OnlyMemory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammableRead-OnlyMemory,简称EPROM),可编程只读存储器(ProgrammableRead-OnlyMemory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件1403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1402或通过通信组件1405发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口1404为处理器1401和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1405用于该装置140与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(NearFieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件1405可以包括:Wi-Fi模块,蓝牙模块,NFC模块。视频拍摄组件1406可包括摄像头、信号处理等模块,用于采集视频图像。在本公开的实施例中,二维视频图像可为通过视频拍摄组件1406拍摄采集的视频图像,也可为通过通信组件1405从网络服务器或其它终端设备处获取的视频图像。在一示例性实施例中,装置140可以被一个或多个应用专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、数字信号处理器(DigitalSignalProcessor,简称DSP)、数字信号处理设备(DigitalSignalProcessingDevice,简称DSPD)、可编程逻辑器件(ProgrammableLogicDevice,简称PLD)、现场可编程门阵列(FieldProgrammableGateArray,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的用于终端的控制方法。在另一示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1402,上述指令可由装置140的处理器1401执行以完成上述的用于终端的控制方法。示例地,该非临时性计算机可读存储介质可以是ROM、随机存取存储器(RandomAccessMemory,简称RAM)、CD-ROM、磁带、软盘和光数据存储设备等。流程图中或在本公开的实施例中以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所述
技术领域
的技术人员所理解。以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1