一种基于深度的视频感兴趣区域提取方法

文档序号:7703328阅读:240来源:国知局
专利名称:一种基于深度的视频感兴趣区域提取方法
技术领域
本发明涉及一种视频信号的处理方法,尤其是涉及一种基于深度的视频感兴趣区域 提取方法。
背景技术
电视的出现极大的改变了人们的生活方式,有力地推动了社会的进步与发展。迄今 为止,广播电视领域已经经历了两次技术革命,实现了从黑白到彩色、从模拟到数字高 清的跨越。立体电视,又称3DTV (Three Dimensional Television,三维电视),因立体 电视能提供从平面到立体的跨越,必将成为广播电视技术新发展方向,因此立体电视受 到了国内外研究机构和产业界的高度重视。
2002年,在欧洲委员会支持的1ST计划中启动了一个ATTEST (高级三维电视系 统技术)项目,目标致力于建立一条完整的可向后兼容的三维数字电视广播链系统。 ATTEST的目标是提出一个3DTV广播链的新理念,与现有的二维广播实现向下兼容, 并广泛地支持各种不同形式的二维和三维显示。ATTEST的主要设计理念在于提出了在 传统二维视频图像传输的基础上,增加深度图(Depth Map)作为增强层信息,即"二 维彩色视频加深度"的数据表示,以二维彩色视频加深度的方式在显示终端解码、重建 三维视频,而且业界部分先进裸眼自由立体显示终端也已支持二维彩色视频加深度的 显不模式。
运动图像专家组在2001年12月成立专项工作组从事3DAV (Three Audio Visual, 三维音视频)技术的核心探索实验研究。国际标准化组织JVT (联合视频专家组)2006 年正式开始三维立体相关技术的标准化工作,提出了多视点视频加深度(Multi-view video plus depth, MVD)的三维场景表示方式,即采用K个视点的二维彩色视频及二维 彩色视频对应的深度视频信息来表达场景的三维信息。MVD能够较好地支持基于深度 图的视点绘制(Depth Image Based Rendering)方法,该方法具有虚拟视点绘制质量高、 绘制视角广、速度快等特点,已逐渐成为3DTV和自由立体电视等多媒体系统中主 流三维表示方式。其中,深度视频的生成目前主要有两种方法, 一种是通过深度获取 设备直接采集景物深度,深度获取设备最为典型的如3DV Systems公司生产的深度立体 摄像头Zcam;另一种是通过算法从采集到的普通二维视频中生成深度信息,具有针对多路摄像机和单路摄相机的系列处理方法。
视频感兴趣区域提取是视频压縮与通信、视频检索、模式识别等领域中基于内容的 视频处理方法的核心技术之一。传统的视频感兴趣区域提取方法主要利用彩色视频的颜 色、边缘以及运动等信息进行感兴趣区域分割,该提取方法的计算复杂度高,同时由于 可以利用的信息量的限制导致提取的感兴趣区域的精度不高,且难以在复杂背景环境下 提取符合语义特征的感兴趣区域。

发明内容
本发明所要解决的技术问题是提供一种计算复杂度低、提取的感兴趣区域的精度较 高,且所提取的感兴趣区域符合语义特征的基于深度的视频感兴趣区域的提取方法。
本发明解决上述技术问题所采用的技术方案为 一种基于深度的视频感兴趣区域的 提取方法,包括以下步骤-
(1) 、定义纹理视频为二维彩色视频或灰度视频,定义纹理视频中各时刻的纹理视 频帧的尺寸大小均为『x/f,『为纹理视频中各时刻的纹理视频帧的宽,i/为纹理视频
中各时刻的纹理视频帧的高,记纹理视频中^时刻的纹理视频帧为F,,定义纹理视频中
r时刻的纹理视频帧F,为当前纹理视频帧,采用运动检测方法检测当前纹理视频帧的运 动区域,并提取当前纹理视频帧的运动区域的二值掩模图像,记当前纹理视频帧的运动
区域的二值掩模图像为M;",然后采用边缘提取算子提取当前纹理视频帧的轮廓纹理, 并对当前纹理视频帧的轮廓纹理进行二值化处理得到当前纹理视频帧的轮廓纹理的二 值掩模图像,记当前纹理视频帧的轮廓纹理的二值掩模图像为M^;
(2) 、定义纹理视频对应的深度视频中各时刻的深度视频帧为Z比特深度表示的灰 度图,将深度视频中各时刻的深度视频帧的尺寸大小均设置为『x//,『为深度视频中 各时刻的深度视频帧的宽,//为深度视频中各时刻的深度视频帧的高,记深度视频中/ 时刻的深度视频帧为D,,定义深度视频中f时刻的深度视频帧D,为当前深度视频帧,根
据深度将当前深度视频帧分割成Z个深度层,提取当前深度视频帧的各个深度层的二值 掩模图像,记第/个深度层的二值掩模图像为1^0,,,,其中,/e
,然后采用边缘
提取算子提取当前深度视频帧的深度不连续区域,并对当前深度视频帧的深度不连续区 域进行二值化处理得到当前深度视频帧的深度不连续区域的二值掩模图像,记当前深度 视频帧的深度不连续区域的二值掩模图像为M,;(3) 、利用当前深度视频帧的各个深度层的二值掩模图像、当前纹理视频帧的运动 区域的二值掩模图像及当前深度视频帧的深度不连续区域的二值掩模图像提取当前深 度视频帧的各个深度层的对象层种子点,计算各个深度层的对象层种子点的深度直方 图,对各个深度层的对象层种子点的深度直方图进行平滑处理,将各个平滑处理后的深
度直方图划分成r个分段,根据各个平滑处理后的深度直方图的r个分段对当前深度视 频帧的各个深度层的二值掩模图像进行细分并提取得到r个深度对象层的二值掩模图 像;
(4) 、利用当前深度视频帧的各个深度层的二值掩模图像、当前纹理视频帧的运动 区域的二值掩模图像、当前纹理视频帧的轮廓纹理的二值掩模图像及当前深度视频帧的 深度不连续区域的二值掩模图像构建当前深度视频帧的各个深度层的初步轮廓特征区 域的二值掩模图像,然后采用轮廓恢复方法分别对各个深度层的初步轮廓特征区域的二 值掩模图像进行断裂轮廓修复,再分别滤除断裂轮廓修复后得到的二值掩模图像中存在 的孤立噪声区域,得到各个深度层的轮廓特征区域的二值掩模图像,记第/个深度层的
轮廓特征区域的二值掩模图像为M。;
(5) 、以当前深度视频帧的各个深度层的轮廓特征区域的二值掩模图像为特征,对
各个深度层中的各个深度对象层的二值掩模图像进行扫描,清除各个深度对象层的二值 掩模图像中的非感兴趣区域,得到各个深度层的各个深度对象层的二值掩模图像中的感
兴趣区域;
(6) 、将各个深度层的各个深度对象层的二值掩模图像中的感兴趣区域加权叠加, 合并得到当前纹理视频帧的感兴趣区域,记当前纹理视频帧的感兴趣区域为R,,
<formula>formula see original document page 12</formula>
其中,"x,力
表示当前纹理视频帧的感兴趣区域中坐标为(x,力的像素的像素值,/7,,,为在(0,1]范围的
加权系数,/Oc,力表示当前纹理视频帧中坐标为Oc,力的像素的像素值,RM方为第/
个深度层的第A个深度对象层的二值掩模图像中的感兴趣区域。
所述的步骤(1)中的运动检测方法的具体过程为(1) -a、记纹理视频中与当前纹
理视频帧时间上连续的r+A:时刻的纹理视频帧为Fw,其中,Ae[-7V/2,iV/2],且A-O,
W为小于10的正整数;(l)-b、采用公知的图像帧差法计算当前纹理视频帧与,+;t时刻 的纹理视频帧F^的帧差图像,记帧差图像为F,-F,^; (1) -c、将帧差图像F,-F,+^分
割成若干个尺寸大小为w, x/^的块且块与块之间互不重叠,记横坐标为";c且纵坐标为^的块为BL,砂,其中,oxe
,砂e
,『为当前纹理视频帧的宽, //为当前纹理视频帧的高;(1) -d、根据帧差图像F,-F,"中的各个块确定当前纹理视 频帧中与帧差图像F,-F,+,中的各个块分别对应的区域为运动区域还是非运动区域,对 于块BL^,判断块B^^中当前纹理视频帧与f+A:时刻的纹理视频帧F^的各个像素的 像素值之差的绝对值之和是否大于设定的第一阈值7;,其中,0S7;〈10xm^x/^,如果 是,则将当前纹理视频帧中与块BL^对应的区域中的所有像素的像素值置1,并确定该 区域为运动区域,否则,将当前纹理视频帧中与块BL"对应的区域中的所有像素的像 素值置0,并确定该区域为非运动区域;(l)-e、提取运动区域的二值掩模图像M「, M「 为U^
中所有像素值为1的像素的集合,其中,0(F,-F,+J) 表示通过步骤(1) -d得到的当前纹理视频帧中与当前纹理视频帧与^ + /时刻的纹理视 频帧F 的帧差图像F,-F吣中的各个块分别对应的区域中所有像素值为1的像素的集 合,G)(F, - F,力)表示通过步骤(1) -d得到的当前纹理视频帧中与当前纹理视频帧与/ - _/ 时刻的纹理视频帧F,力的帧差图像F,-F。中的各个块分别对应的区域中所有像素值为1 的像素的集合。
所述的步骤(1)中的运动检测方法的具体过程为(1) -1、记纹理视频中与当前 纹理视频帧时间上连续的时刻的纹理视频帧为F,+r其中,A:e[-7V/2,iV/2],且
A*0, W为小于10的正整数;(1) -2、采用公知的光流法计算当前纹理视频帧与 时刻的纹理视频帧F,^的运动矢量图像,记运动矢量图像为V; (1) -3、将运动矢量图
像V分割成若干个尺寸大小为vv2 的块且块与块之间互不重叠,记横坐标为且纵坐
标为^的块为BL办,其中,&xe
, &>^
,『为当前纹理视频
帧的宽,//为当前纹理视频帧的高;(1) -4、根据运动矢量图像V中的各个块确定当前 纹理视频帧中与运动矢量图像V中的各个块分别对应的区域为运动区域还是非运动区
域,对于块B^^,判断块B^^中运动矢量图像V的运动幅度的绝对值的平均值是否大 于设定的第二阈值7;,其中,0^r <10xW2></z2,如果是,则将当前纹理视频帧中与块B^ 对应的区域中的所有像素的像素值置l,并确定该区域为运动区域,否则,将当前 纹理视频帧中与块BL 对应的区域中的所有像素的像素值置0,并确定该区域为非运动 区域;(1)-5、提取运动区域的二值掩模图像M,"', Mr为U-
,其中,/e
, MD,,
为当前深度视频帧的第/个深度层的二值掩模图像,M「为当前纹理视频帧的运动区域 的二值掩模图像,Mf为当前深度视频帧的深度不连续区域的二值掩模图像;(3) -2、
记第/个深度层的对象层种子点i;,的深度直方图为第/个深度层的对象层种
子点T1;的深度直方图/z(i;,,/)表示第/个深度层的对象层种子点T,,中深度值《(;c,力为 /的像素的个数,其中,/e
; (3) -3、对第/个深度层的对象层种子点i;,的深 度直方图//(T,,,/)进行平滑处理,记平滑处理后的深度直方图为/^(T,,,/),
1(T""卜i::/2。MV"力,其中,。为加权系数且满足1]^/2。=1, R为平
滑窗口的尺寸大小,Re[2,io], //(1;,,/+力表示第/个深度层的对象层种子点1;/中深
度值《(x,力为/+/ 的像素的个数;(3) -4、将平滑处理后的深度直方图/^,(1;/,/)划分
成r个分段,记第A个分段为[A,&],其中,;u[o,r-1], ^和^为分段参数,且^和&满足条件
、,(U)*o,y/ebA,^j , z;为设定的第三阈值,
/^e
o^7)^!;"72 ^,,^; (3)-5、根据深度直方图/^(T,,,,/)的r个分段对第/个深度层 的二值掩模图像1^ \,进行细分并提取得到1^个深度对象层的二值掩模图像,记第/i个深
度对象层的二值掩模图像为MD,,。
所述的步骤(3) -5中根据深度直方图/^(T;"/)的r个分段对第/个深度层的二值 掩模图像md,,,进行细分并提取得到r个深度对象层的二值掩模图像的具体过程为对于
深度直方图、,(1;/,/)的第/1个分段[;7/1,^1],计算第A个分段[^,^]的深度均值和深度
平均绝对离差,记第a个分段[a,《j的深度均值为& , i
7Hft(/x/Uru,^,记第义个分段[At,^]的深度平均绝对离差为
°^,
S:/4^,,')卜〃」,根据第A个分段[A,&]的深度均值A
和深度平均绝对离差CJ,将第/1个深度对象层中深度值《(x,力满足条件
《(x,力e[/^-G^,A+(y^]的所有像素的像素值置1,将不满足条件的所有像素的像
素值置0,得到第/l个深度对象层的二值掩模图像,记第义个深度对象层的二值掩模图 像为MD;1, , MD(, ^(;c,力l《(x,力e[〃广cyo^/^+wcrj},其中,w为加权系数,《(jc,力
为当前深度视频帧中坐标为(x, j)的像素的深度值。
所述的步骤(4)的具体过程为(4) -1、对于当前深度视频帧的第/个深度层,利 用第/个深度层的二值掩模图像MD,,,、当前纹理视频帧的运动区域的二值掩模图像
M「、当前纹理视频帧的轮廓纹理的二值掩模图像M[及当前深度视频帧的深度不连续
区域的二值掩模图像Mf构建第/个深度层的初步轮廓特征区域的二值掩模图像,记第/个深度层的初步轮廓特征区域的二值掩模图像为T2,, , T2/ -MD^r^MruMfuM;],
其中,"[(U-l],将第/个深度层的初步轮廓特征区域的二值掩模图像T2,,分割成若干
个尺寸大小为w3x&的块,块与块之间互不重叠,记横坐标为cx且纵坐标为矽的块为
BLa,其中,"e
, ^£
,『为当前深度视频帧的宽,i/为当 前深度视频帧的高;(4) -2、采用轮廓恢复方法对第/个深度层的初步轮廓特征区域的 二值掩模图像T2,,进行断裂轮廓修复,轮廓恢复方法的具体过程为首先判断第/个深
度层的初步轮廓特征区域的二值掩模图像T2,,中的各个块是否为疑似轮廓特征区域,对
于第/个深度层的初步轮廓特征区域的二值掩模图像T2,,中的块B二^ ,判断块B^^中像
素值为1的像素的个数是否大于设定的第四阈值 ;,其中,0S7;^w3x^,如果是,则
将块BL,^中的所有像素的像素值置1,并确定该块B^^为疑似轮廓特征区域,否则,将
块BL,C的所有像素的像素值置O,并确定该块B^为非疑似轮廓特征区域;由各个疑 似轮廓特征区域和各个非疑似轮廓特征区域构成疑似轮廓特征区域的二值掩模图像,然 后采用公知的形态学膨胀和腐蚀算法,以尺寸大小为w4x/z4的矩形区域为膨胀腐蚀运算
的基元,对疑似轮廓特征区域的二值掩模图像进行巧次膨胀和"2腐蚀操作;(4) -3、滤
除膨胀和腐蚀操作后的疑似轮廓特征区域的二值掩模图像中存在的孤立噪声区域,得到 第/个深度层的轮廓特征区域的二值掩模图像,具体过程为采用公知的连通区域计算 法计算膨胀和腐蚀操作后的疑似轮廓特征区域的二值掩模图像中的疑似轮廓特征区域 的八邻接连通区域,并判断疑似轮廓特征区域中的各个连通区域中像素值为1的像素的
个数是否小于设定的第五阈值7;,其中,0<7;<『><///100,如果是,则标记该连通区
域为非轮廓特征区域,否则,标记该连通区域为轮廓特征区域,得到第/个深度层的轮
廓特征区域的二值掩模图像,记第/个深度层的轮廓特征区域的二值掩模图像为M「,,。
所述的步骤(5)的具体过程为(5) -1、对于当前深度视频帧的第/个深度层,将
第/个深度层的轮廓特征区域的二值掩模图像M〖,中坐标为(;^)的像素的像素值表示为
附力(x,30,对于第/个深度层的第义个深度对象层,记第/个深度层的第义个深度对象层 的二值掩模图像为MDi,将MD么中坐标为(x,力的像素的像素值表示为mt^(;c,力;(5)-2、以MD^的最左上角像素为起始像素,从左到右逐列对MD^进行列扫描,在列扫描 过程中自上而下逐像素进行扫描,对于MD^,的第p列,从该列中位于MD力的上边界的 像素开始自上而下向该列中位于MD力,的下边界的像素逐像素扫描,当M。中与该列中 坐标为(x,力的像素对应的像素的像素值附力(x,;0-O时,将该列中坐标为(xj;)的像素的像 素值wc^(x,少)置0,并确定该列中坐标为(xjO的像素为非感兴趣区域,继续扫描该列的 下一个像素,确定该像素是否为非感兴趣区域,直至M。中与该列中坐标为(jc,力的像素 对应的像素的像素值附力(x,;04或己扫描到该列中位于MD^的下边界的像素时停止 对该列的扫描;(5) -3、对于MD^的第p+l列,重复步骤(5) -2,确定第p+l列中各个 像素是否为非感兴趣区域,直至扫描完MD么的最后一列;(5) -4、以MDf,的最左下角 像素为起始像素,从左到右逐列对MD^进行列扫描,在列扫描过程中自下而上逐像素 进行扫描,对于MD〖,的第p列,从该列中位于MD力的下边界的像素开始自下而上向该 列中位于MD二的上边界的像素逐像素扫描,当M〖,中与该列中坐标为(x,力的像素对应的
像素的像素值附i(U)-O时,将该列中坐标为(x,力的像素的像素值m《(x,力置0,并 确定该列中坐标为(x,力的像素为非感兴趣区域,继续扫描该列的下一个像素,确定该像 素是否为非感兴趣区域,直至M^中与该列中坐标为(jc,力的像素对应的像素的像素值
4(x,力"或已扫描到该列中位于MD^的上边界的像素时停止对该列的扫描;(5) -5、
对于MDi的第^+l列,重复步骤(5)-4,确定第/7+l列中各个像素是否为非感兴趣区域,
直至扫描完MDi的最后一列;(5) -6、以MD么的最左上角像素为起始像素,自上而下
逐行对MD^进行行扫描,在行扫描过程中从左到右逐像素进行扫描,对于MDf,的第《
行,从该行中位于MDf,,的左边界的像素开始从左到右向该行中位于MD,,的右边界的像
素逐像素扫描,当1V^中与该行中坐标为(x,力的像素对应的像素的像素值"^(x,力二0
时,将该行中坐标为0c,力的像素的像素值w《,^,30置O,并确定该行中坐标为(xjO的像 素为非感兴趣区域,继续扫描该行的下一个像素,确定该像素是否为非感兴趣区域,直至M。中与该行中坐标为(x,;;)的像素对应的像素的像素值m二0:,力二l或已扫描到该行 中位于MD古的右边界的像素时停止对该行的扫描;(5) -7、对于MDf,的第g+l行,重 复步骤(5) -6,确定第《+l列中各个像素是否为非感兴趣区域,直至扫描完MD么的最 后一行;(5) -8、以MD力,的最右上角像素为起始像素,自上而下逐行对MD力进行行扫 描,在行扫描过程中从右到左逐像素进行扫描,对于MDf,的第《行,从该行中位于MD,(,
的右边界的像素开始从右到左向该行中位于md^的左边界的像素逐像素扫描,当mj;,
中与该行中坐标为(x,力的像素对应的像素的像素值w力(x,;;)-O时,将该行中坐标为(xjO 的像素的像素值附"力(x,力置O,并确定该行中坐标为(x,力的像素为非感兴趣区域,继续 扫描该行的下一个像素,确定该像素是否为非感兴趣区域,直至M。中与该行中坐标为 Oqy)的像素对应的像素的像素值^(A力"或已扫描到该行中位于MD二的左边界的像 素时停止对该行的扫描;(5) -9、对于MD力,的第《+1行,重复步骤(5) -8,确定第《+l 列中各个像素是否为非感兴趣区域,直至扫描完MD力,的最后一行;(5) -10、通过上述 对MDf,,的扫描得到MD力,中的感兴趣区域,记MD,,中的感兴趣区域为RM,,, RM,(,((x,力lm《(x,j;卜l)。
与现有技术相比,本发明的优点在于联合利用了时间上同步的纹理视频帧和纹理视 频帧对应的深度视频帧,首先通过提取纹理视频帧的运动区域和轮廓纹理,获取运动区 域的二值掩模图像和轮廓纹理的二值掩模图像,将深度视频帧分割成多个深度层,获取 各个深度层的二值掩模图像,提取深度视频帧的深度不连续区域,获取深度不连续区域 的二值掩模图像,然后利用各个深度层的二值掩模图像、运动区域的二值掩模图像及深 度不连续区域的二值掩模图像获取各个深度层的各个深度对象层的二值掩模图像,利用 各个深度层的二值掩模图像、运动区域的二值掩模图像、轮廓纹理的二值掩模图像及深 度不连续区域的二值掩模图像构建当前深度视频帧的各个深度层的初步轮廓特征区域 的二值掩模图像,并对各个深度层的初步轮廓特征区域的二值掩模图像进行断裂轮廓修 复和孤立噪声区域滤除,得到各个深度层的轮廓特征区域的二值掩模图像,再以各个深 度层的轮廓特征区域的二值掩模图像为特征,对各个深度对象层的二值掩模图像进行扫 描,得到各个深度对象层的二值掩模图像中的感兴趣区域,最后加权叠加各个深度对象 层的二值掩模图像中的感兴趣区域得到纹理视频帧的感兴趣区域,该方法计算复杂度低,能够从纹理复杂的背景环境中提取感兴趣区域,通过该方法获取的感兴趣区域符合 人眼对运动对象感兴趣的视觉特性外,还符合人眼在立体视觉中对深度感强且距离近的 对象感兴趣的深度感知特性,符合语义特征且精度较高。


图la为测试序列"Ballet"彩色视频中/时刻的彩色视频帧;
图lb为测试序列"Breakdancers"彩色视频中?时刻的彩色视频帧;
图lc为测试序列"Ballet"彩色视频对应的深度视频中/时刻的深度视频帧;
图Id为测试序列"Breakdancers"彩色视频对应的深度视频中/时刻的深度视频帧;
图2为本发明方法的总体流程框图3a为图la所示的彩色视频帧的运动区域的二值掩模图像;
图3b为图la所示的彩色视频帧的轮廓纹理的二值掩模图像;
图3c为图lc所示的深度视频帧的各个深度层的二值掩模图像;
图3d为图lc所示的深度视频帧的深度不连续区域的二值掩模图像;
图4a为利用图3c所示的深度视频帧的最小深度层的二值掩模图像、图3a所示的
运动区域的二值掩模图像及图3d所示的深度不连续区域的二值掩模图像提取得到的最
小深度层的对象种子点;
图4b为图3c所示的深度视频帧的最小深度层的二值掩模图像的第0个深度对象层
的二值掩模图像;
图4c为图3c所示的深度视频帧的最小深度层的二值掩模图像的第1个深度对象层 的二值掩模图像;
图5a为利用图3c所示的深度视频帧的最小深度层的二值掩模图像、图3a所示的 运动区域的二值掩模图像、图3d所示的深度不连续区域的二值掩模图像及图3b所示的 轮廓纹理的二值掩模图像构建得到的最小深度层的初步轮廓特征区域的二值掩模图像; 图5b为图5a所示的最小深度层的初步轮廓特征区域的二值掩模图像经断裂轮廓修 复及孤立噪声区域去除后得到的最小深度层的轮廓特征区域的二值掩模图像; 图6a为图4b所示的第0个深度对象层的二值掩模图像中的感兴趣区域; 图6b为图4c所示的第1个深度对象层的二值掩模图像中的感兴趣区域; 图7a为加权叠加图6a和图6b所示的感兴趣区域得到的"Ballet"彩色视频中f时 刻的彩色视频帧中的感兴趣区域;
图7b为测试序列"Breakdancers"彩色视频中f时刻的彩色视频帧经本发明处理后 得到的感兴趣区域;
图8a为测试序列"Ballet"彩色视频中什l时刻的彩色视频帧本发明处理后得到的感兴趣区域;
图8b为测试序列"Ballet"彩色视频中&2时刻的彩色视频帧本发明处理后得到的 感兴趣区域;
图8c为测试序列"Ballet"彩色视频中/+3时刻的彩色视频帧本发明处理后得到的 感兴趣区域;
图8d为测试序列"Ballet"彩色视频中&4时刻的彩色视频帧本发明处理后得到的 感兴趣区域;
图9a为测试序列"Breakdancers"彩色视频中f+l时刻的彩色视频帧本发明处理后 得到的感兴趣区域;
图9b为测试序列"Breakdancers"彩色视频中r+2时刻的彩色视频帧本发明处理后 得到的感兴趣区域;
图9c为测试序列"Breakdancers"彩色视频中/+3时刻的彩色视频帧本发明处理后 得到的感兴趣区域;
图9d为测试序列"Breakdancers"彩色视频中r+4时刻的彩色视频帧本发明处理后 得到的感兴趣区域。
具体实施例方式
以下结合附图实施例对本发明作进一步详细描述。
本发明的基于深度的视频感兴趣区域的提取方法,主要联合利用了时间上同步的深 度视频的信息和纹理视频的信息来提取视频的感兴趣区域,在本实施例中定义纹理视频 为二维彩色视频或灰度视频。在此,纹理视频以测试序列"Ballet"彩色视频和 "Breakdancers"彩色视频为例,图la给出了 "Ballet"彩色视频中t时刻的彩色视频帧, 图lb给出了"Breakdancers"彩色视频中t时刻的彩色视频帧,图lc为测试序列"Ballet" 彩色视频对应的深度视频中f时刻的深度视频帧,图Id为测试序列"Breakdancers"彩 色视频对应的深度视频中f时刻的深度视频帧,彩色视频对应的深度视频中各时刻的深 度视频帧为Z比特深度表示的灰度图,灰度图的灰度值表示深度视频帧中各像素所表示 的对象到相机的相对距离。纹理视频帧的尺寸大小定义为『x//,而对于深度视频,若 尺寸与纹理视频帧的尺寸不相同,则一般采用现有的尺度变换和插值等方法将深度视频 帧设置为与纹理视频帧相同的尺寸,即也为『xi/,『为纹理视频中各时刻的纹理视频 帧的宽或深度视频中各时刻的深度视频帧的宽,if为纹理视频中各时刻的纹理视频帧的 高或深度视频中各时刻的深度视频帧的高,将深度视频帧的尺寸大小设置成与纹理视频 帧的尺寸大小相同,目的是为了更方便地提取视频感兴趣区域。本发明方法的总体处理 流程框图如图2所示,具体包括以下步骤(1)、定义纹理视频为二维彩色视频或灰度视频,定义纹理视频中各时刻的纹理视 频帧的尺寸大小均为『x//,『为纹理视频中各时刻的纹理视频帧的宽,//为纹理视频
中各时刻的纹理视频帧的高,记纹理视频中?时刻的纹理视频帧为F,,定义纹理视频中
^时刻的纹理视频帧F,为当前纹理视频帧,采用运动检测方法检测当前纹理视频帧的运
动区域,并提取当前纹理视频帧的运动区域的二值掩模图像,记当前纹理视频帧的运动 区域的二值掩模图像为M;1 ,然后采用边缘提取算子提取当前纹理视频帧的轮廓纹理,
并对当前纹理视频帧的轮廓纹理进行二值化处理得到当前纹理视频帧的轮廓纹理的二 值掩模图像,记当前纹理视频帧的轮廓纹理的二值掩模图像为。
在该步骤中运动检测方法的具体过程为(1) -a、记纹理视频中与当前纹理视频帧 时间上连续的f+A时刻的纹理视频帧为F,+r其中,Ae[-7V/2,7V/2],且A:^0, 7V为小
于10的正整数;(l)-b、采用公知的图像帧差法计算当前纹理视频帧与&A:时刻的纹理 视频帧F^的帧差图像,记帧差图像为F,-F,+,; (l)-c、将帧差图像F,-F^分割成若干
个尺寸大小为vv,x/^的块且块与块之间互不重叠,记横坐标为ox且纵坐标为qy的块为
BL,。"其中,"xe
, ";;e
,『为当前纹理视频帧的宽,//为当
前纹理视频帧的高;(l)-d、根据帧差图像F,-F,^中的各个块确定当前纹理视频帧中与
帧差图像F, -F,+4中的各个块分别对应的区域为运动区域还是非运动区域,对于块BL,",
判断块8| ^中当前纹理视频帧与/+&时刻的纹理视频帧巧+,的各个像素的像素值之差的
绝对值之和是否大于设定的第一阈值 ;,其中,os7;〈iOxw,xA,第一阈值 ;的数值
选择是因为一般由于相机噪声造成连续两帧纹理视频帧的静止区域的对应单像素值抖 动绝对差值小于10,如果是,则将当前纹理视频帧中与块B'^。^寸应的区域中的所有像
素的像素值置l,即标记该区域为运动区域,否则,将当前纹理视频帧中与块B;^对应
的区域中的所有像素的像素值置0,即标记该区域为非运动区域;(1) -e、提取运动区 域的二值掩模图像M;", M「为U-[G)(F,-F,+》。0(F,-F,—」]中所有像素值为1的像
素的集合,其中,0(F,-F )表示通过步骤(1) -d得到的当前纹理视频帧中当前纹理
视频帧与f + y时刻的纹理视频帧F^的帧差图像F,-F,"中的各个块分别对应的区域中所有像素值为1的像素的集合,表示了前纹理视频帧相对于^ + _/时刻的纹理视频帧^+7 的运动区域,F,力)表示通过步骤(1) -d得到的当前纹理视频帧中当前纹理视频 帧与卜/时刻的纹理视频帧F,力的帧差图像F,-F,力中的各个块分别对应的区域中所有 像素值为1的像素的集合,表示了前纹理视频帧相对于纟-y时刻的纹理视频帧F,力的运 动区域,。在本实施例中,可取iV-2, ^=^=2,乙=15,即采用基于2x2块的图像 帧差法提取连续3帧即H、 Z和汁l时刻的纹理视频帧的运动区域,当2x2块B二。y中 帧差图像F, -F,+1的各个像素的像素值的绝对值之和大于15并且2x2块B^^中帧差图像 F,-Fw的各个像素的像素值的绝对值之和也大于15时,则标记当前纹理视频帧中与块 B^^对应的区域为运动区域,否则标记当前纹理视频帧中与块BL,^对应的区域为非运 动区域,得到运动区域的运动掩模M「,图la所示的彩色视频帧的运动区域的二值掩模
图像M;"如图3a所示。
运动检测方法除上述给出的过程外,也可采用以下具体过程(1) -1、记纹理视频 中与当前纹理视频帧时间上连续的f+it时刻的纹理视频帧为F,+t ,其中,
A:eHV/2,iV/2],且A:^0, iV为小于10的正整数;(1) -2、采用公知的光流法计算当
前纹理视频帧与/+^时刻的纹理视频帧5"的运动矢量图像,记运动矢量图像为V; (1)
-3、将运动矢量图像V分割成若干个尺寸大小为v^x&的块且块与块之间互不重叠,记
横坐标为6x且纵坐标为&的块为BL ,其中,&ce
, ^e
,『
为当前纹理视频帧的宽,//为当前纹理视频帧的高;(1)-4、根据运动矢量图像V中的 各个块确定当前纹理视频帧中与运动矢量图像V中的各个块分别对应的区域为运动区
域还是非运动区域,对于块BL^,判断块B^^中运动矢量图像V的运动幅度的绝对值
的平均值是否大于设定的第二阈值 ;,其中,0^7;〈ioxw2x/^,第二阈值 ;的数值选
择因为由于相机噪声造成连续两帧纹理视频帧的静止区域的对应像素值抖动,并由像素 值抖动误差导致采用光流法进行运动检测所得的单像素运动矢量绝对误差一般小于io,
如果是,则将当前纹理视频帧中与块BL^对应的区域中的所有像素的像素值置1,即标记该区域为运动区域,否则,将当前纹理视频帧中与块B^^对应的区域中的所有像素 的像素值置0,即标记该区域为非运动区域;(1)-5、提取运动区域的二值掩模图像M「,
M「为LO(F',F'"〕。①(F',F )]中所有像素值为1的像素的集合,其中,。(F,,F,+乂) 表示通过步骤(1) -4得到的当前纹理视频帧中当前纹理视频帧与纟+ /时刻的纹理视频 帧F"的运动矢量图像中的各个块分别对应的区域中所有像素值为1的像素的集合,表 示了前纹理视频帧相对于/ + 乂时刻的纹理视频帧巧"的运动区域,O(F,,F,力)表示通过步
骤(1) -4得到的当前纹理视频帧中当前纹理视频帧与卜)时刻的纹理视频帧^力的运动
矢量图像中的各个块分别对应的区域中所有像素值为1的像素的集合,表示了前纹理视 频帧相对于,-7时刻的纹理视频帧F 的运动区域。
在此,运动检测方法还可采用其他现有的运动检测方法;在提取当前纹理视频帧的 轮廓纹理过程中采用的边缘提取算子可采用Sobel边缘提取算子、Canny边缘提取算子、 Roberts边缘提取算子、Laplace边缘提取算子中的任一种,如采用Sobel边缘提取算子 对当前纹理视频帧的亮度分量作纵、横向两次运算,并取纵、横方向的较大边缘作为当 前纹理视频帧的轮廓纹理,图3b给出了图la所示的彩色视频帧经Sobel边缘提取算子 提取后得到的轮廓纹理再经二值化处理后得到的二值掩模图像。
(2)、定义纹理视频对应的深度视频中各时刻的深度视频帧为Z比特深度表示的灰
度图,其0到2Z-1范围的灰度值表示深度视频帧中的各个像素所表示的对象到相机的
相对距离,灰度值0对应最大深度,灰度值22-1对应最小深度,将深度视频中各时刻 的深度视频帧的尺寸大小均设置为『x/f ,『为深度视频中各时刻的深度视频帧的宽, //为深度视频中各时刻的深度视频帧的高,记深度视频中r时刻的深度视频帧为D,,定
义深度视频中f时刻的深度视频帧D,为当前深度视频帧,将当前深度视频帧中坐标为Ocj)
的像素的深度值记为《(;c,力,用丄+l个阈值7^D,其中,we
,7^D=0, 7^D=2Z,
将当前深度视频帧依据深度分割成丄个深度层,提取当前深度视频帧的各个深度层的二 值掩模图像,记第/个深度层的二值掩模图像为MD(/ ,
MD,,={(x,y)|《(x,;;)e[7^D,7^)},其中,Ze
, / = 0时MD,0表示最小深度层
的二值掩模图像,/ = £-1时MD,n表示最大深度层的二值掩模图像,对于最大深度层的二值掩模图像MD,,,可直接确认其为非感兴趣的背景区域。在此,比特深度可以根
据需要选取,如16比特深度或8比特深度等,在本实施例中深度视频帧为8比特深度 的灰度图,即2=8,另外在此为方便说明,丄取值为2,这样分割当前深度视频帧的深
度层的三个阈值分别为T^、 7!和7^D, C=0, C^2T。'I^》^,力/^xW和 r:=28 =256,根据深度将当前深度视频帧分割为两层,即MD,。和MD,"在此认为 当前深度视频帧的最小深度层的二值掩模图像MD,。为感兴趣的前景区域,最大深度层 的二值掩模图像MD,j为非感兴趣的背景区域,将图lc所示的深度视频帧依照上述方法
分割成两层深度层MD,。和MD,,,, MD,。如图3c的黑色区域所示,MD,,,如图3c的白
色区域所示。
然后采用边缘提取算子提取当前深度视频帧的深度不连续区域即边缘,并对当前深 度视频帧的深度不连续区域进行二值化处理得到当前深度视频帧的深度不连续区域的
二值掩模图像,记当前深度视频帧的深度不连续区域的二值掩模图像为Mf 。在提取当
前深度视频帧的深度不连续区域过程中采用的边缘提取算子可采用Sobel边缘提取算 子、Canny边缘提取算子、Roberts边缘提取算子、Laplace边缘提取算子中的任一种, 如采用Sobel边缘提取算子对当前深度视频帧作纵、横向两次运算,并取纵、横方向的 较强边缘作为当前深度视频帧的深度不连续区域,然后可采用较大的阈值80分割方法 对提取得到的深度不连续区域进行二值化处理,得到深度不连续区域的二值掩模图像, 图3d给出了图lc所示的深度视频帧经Sobel边缘提取算子提取后得到的深度不连续区 域再经二值化处理后得到的二值掩模图像。
(3)、在立体视频中,深度不连续区域所包含的对象能够给予用户特有的立体感或 深度感,是用户感兴趣的区域之一;观看者对靠近拍摄相机(或视频观看者)的区域的 感兴趣程度大于远离拍摄相机(或视频观看者)的区域的感兴趣程度;另外对于视频中 的运动物体是用户感兴趣的另一主要内容,所以前景区域的中运动和深度不连续区域通 常是观看者感兴趣区域的一部分,根据这些区域划分感兴趣区域所在的深度层,可以縮 小感兴趣区域所在的范围。
利用当前深度视频帧的各个深度层的二值掩模图像、当前纹理视频帧的运动区域的 二值掩模图像及当前深度视频帧的深度不连续区域的二值掩模图像提取当前深度视频 帧的各个深度层的对象层种子点,计算各个深度层的对象层种子点的深度直方图,对各 个深度层的对象层种子点的深度直方图进行平滑处理,将各个平滑处理后的深度直方图
划分成r个分段,根据各个平滑处理后的深度直方图的r个分段对当前深度视频帧的各个深度层的二值掩模图像进行细分并提取提到r个深度对象层的二值掩模图像。具体过
程为(3) -1、对于当前深度视频帧的第/个深度层,记第/个深度层的对象层种子点 为i;〃 Ti^MD^nfMruMf],其中,"[O,丄-l], MD,,为当前深度视频帧的第/
个深度层的二值掩模图像,M,"'为当前纹理视频帧的运动区域的二值掩模图像,M,"为
当前深度视频帧的深度不连续区域的二值掩模图像;图4a给出了利用图3c所示的深度 视频帧的最小深度层的二值掩模图像、图3a所示的运动区域的二值掩模图像及图3d所
示的深度不连续区域的二值掩模图像提取得到的最小深度层的对象种子点T,。; (3) -2、
记第/个深度层的对象层种子点i;,的深度直方图为/z(i;口),第/个深度层的对象层种
子点T,,的深度直方图表示第/个深度层的对象层种子点T,,中深度值《(jc,力为 /的像素的个数,其中,/e
; (3) -3、对第/个深度层的对象层种子点i;,,的深
度直方图/ (1;/,/)进行平滑处理,记平滑处理后的深度直方图为,
i(t1^)=it4 (tw+/),其中'f,为加权系数且满足d::ci, ^为平
滑窗口的尺寸大小,^e[2,10], /2(1;/,/+力表示第/个深度层的对象层种子点1;/中深
度值4^,力为/+/的像素的个数;(3) -4、将平滑处理后的深度直方图/^(T,"/)划分
成r个分段,记第/i个分段为[/^,^j,其中,Ae[o,r-1], ^和^为分段参数,且^
t(U)^o,zyve[A,^] , t;为设定的第三阈值,
/^e〖0,2z-1]
0《^〈2^d训(Ti,,,乃;(3)-5、根据深度直方图、,Ci;/,/)的r个分段对第/个深度层 的二值掩模图像MD,.,进行细分并提取得到r个深度对象层的二值掩模图像,记第;i个深 度对象层的二值掩模图像为MDA ,在该步骤中细分并提取得到r个深度对象层的二值掩
和&满足条件
模图像的具体过程如下,对于深度直方图、,(1;,,!')的第义个分段[; /1,^1],计算第义 分段[A,&]的深度均值和深度平均绝对离差,记第义个分段[^,^]的深度均值为/",,
水记第义个分段[^,^]的深度平均绝对离差为 ,根据第;1个分段[/7/1,^1]的深度均值^
J,(x,力e^-6^,/^+w^]的所有像素的像素值置1,将不满足条件的所有像素的像
素值置o,得到第;i个深度对象层的二值掩模图像,记第/i个深度对象层的二值掩模图
像为MD,,, MD',—(x,;;)l《(x,力e[/^-w ,A+wo^]1 ,其中,w为加权系数,《可 取值为0.6,《(;c,;;)为当前深度视频帧中坐标为(x,力的像素的深度值。对于Ballet测试 序列,图3c所示的深度视频帧的最小深度层的二值掩模图像MD,。被细分为2个深度对 象层,即r^2,得到各个深度对象层的二值掩模图像,即MD 。和MD)。, MD ,。如图
4b所示,MD:,。如图4c所示。
(4)、利用当前深度视频帧的各个深度层的二值掩模图像、当前纹理视频帧的运动 区域的二值掩模图像、当前纹理视频帧的轮廓纹理的二值掩模图像及当前深度视频帧的 深度不连续区域的二值掩模图像构建当前深度视频帧的各个深度层的初步轮廓特征区 域的二值掩模图像,然后采用轮廓恢复方法分别对各个深度层的初步轮廓特征区域的二 值掩模图像进行断裂轮廓修复,再分别滤除断裂轮廓修复后得到的二值掩模图像中存在 的孤立噪声区域,得到各个深度层的轮廓特征区域的二值掩模图像,记第/个深度层的
轮廓特征区域的二值掩模图像为M;;,。具体过程如下(4) -1、对于当前深度视频帧的
第/个深度层,利用第/个深度层的二值掩模图像MD,/、当前纹理视频帧的运动区域的 二值掩模图像Mr 、当前纹理视频帧的轮廓纹理的二值掩模图像M〖及当前深度视频帧 的深度不连续区域的二值掩模图像Mf构建第/个深度层的初步轮廓特征区域的二值掩 模图像,记第/个深度层的初步轮廓特征区域的二值掩模图像为Tv ,
T2,,=MD,,,n[M"uMfuM〖],其中,/e
,图5a给出了利用图3c所示的深度
视频帧的最小深度层的二值掩模图像、图3a所示的运动区域的二值掩模图像、图3d所 示的深度不连续区域的二值掩模图像及图3b所示的轮廓纹理的二值掩模图像构建得到
2::力'xtd/))和深度平均绝对离差
26的最小深度层的初步轮廓特征区域的二值掩模图像T2,。;将第/个深度层的初步轮廓特
征区域的二值掩模图像T2,,分割成若干个尺寸大小为W3X/23的块且块与块之间互不重
叠,记横坐标为cx且纵坐标为^的块为B乙,其中,cxe
, c^e

『为当前深度视频帧的宽,//为当前深度视频帧的高;(4) -2、采用轮廓恢复方法对第 /个深度层的初步轮廓特征区域的二值掩模图像12,,进行断裂轮廓修复,轮廓恢复方法的
具体过程为首先判断第/个深度层的初步轮廓特征区域的二值掩模图像12,,中的各个
块是否为疑似轮廓特征区域,对于第/个深度层的初步轮廓特征区域的二值掩模图像Tv
中的块BL^,判断块BL,中像素值为i的像素的个数是否大于设定的第四阈值 ;,其
中,O^K^^x/^如果是,则将块Bi,^中的所有像素的像素值置l,即标记该块BL^
为疑似轮廓特征区域,否则,将块BL^中的所有像素的像素值置0,即标记该块B^y为
非疑似轮廓特征区域;由各个疑似轮廓特征区域和各个非疑似轮廓特征区域构成疑似轮 廓特征区域的二值掩模图像,然后采用公知的形态学膨胀和腐蚀算法,以尺寸大小为
w4x/ 4的矩形区域为膨胀腐蚀运算的基元,对疑似轮廓特征区域的二值掩模图像进行A
次膨胀和"2腐蚀操作;(4) -3、滤除膨胀和腐蚀操作后的疑似轮廓特征区域的二值掩模
图像中存在的孤立噪声区域,得到第/个深度层的轮廓特征区域的二值掩模图像,具体 过程为采用公知的连通区域计算法计算膨胀和腐蚀操作后的疑似轮廓特征区域的二值 掩模图像中的疑似轮廓特征区域的各个八邻接连通区域,并判断疑似轮廓特征区域中的
各个连通区域中像素值为i的像素的个数是否小于设定的第五阈值7;,其中, o< ;<『x/f/ioo,第五阈值7;的数值的选择因为一般远小于图像面积百分之一的小面
积区域可以确认为非感兴趣区域,如果是,则标记疑似轮廓特征区域的该连通区域为非 轮廓特征区域,否则,标记疑似轮廓特征区域的该连通区域为轮廓特征区域,得到第/ 个深度层的轮廓特征区域的二值掩模图像,记第/个深度层的轮廓特征区域的二值掩模
图像为M^。
在此,轮廓修复还可采用其他现有的轮廓恢复方法;在此具体实施例中,W3=&=8, T6 = w3 x/ 3/8;对疑似轮廓特征区域的二值掩模图像进行膨胀和腐蚀操作过程中,取尺
寸大小为^4>^4=4><4的矩形区域为膨胀腐蚀运算的基元,进行3次膨胀和1腐蚀操作;采用公知的连通区域计算法计算膨胀和腐蚀操作后的疑似轮廓特征区域的二值掩模图 像中的疑似轮廓特征区域中的各个八邻接连通区域,由于人们通常对较大面积的区域感 兴趣,所以将连通区域中像素值为1的像素个数小于『x/Z/150的连通区域内的像素的 像素值置O,即标记为非轮廓特征区域。对图5a所示的最小深度层的初步轮廓特征区域
的二值掩模图像1V。进行断裂轮廓修复及孤立噪声区域去除操作后,得到如图5b所示的
第0个深度层即最小深度层的轮廓特征区域的二值掩模图像M:。。
(5)、以当前深度视频帧的各个深度层的轮廓特征区域的二值掩模图像为特征,对 各个深度层中的各个深度对象层的二值掩模图像进行扫描,清除各个深度对象层的二值 掩模图像中的非感兴趣区域,得到各个深度层的各个深度对象层的二值掩模图像中的感 兴趣区域。具体过程如下(5) -1、对于当前深度视频帧的第/个深度层,将第/个深
度层的轮廓特征区域的二值掩模图像M;;,中坐标为(x,力的像素的像素值表示为
m力(x,力,对于第/个深度层的第义个深度对象层,记第/个深度层的第A个深度对象 层的二值掩模图像为MD二,将MD^中坐标为(;cj;)的像素的像素值表示为/m^(x,;/);
(5) -2、以MD么的最左上角像素为起始像素,从左到右逐列对MDf,进行列扫描,在 列扫描过程中自上而下逐像素进行扫描,对于MD〖,的第p列,从该列中位于MD么的上 边界的像素开始自上而下向该列中位于MDf,的下边界的像素逐像素扫描,当M。中与 该列中坐标为(x,力的像素对应的像素的像素值《(x,少)=0时,将该列中坐标为(;c,力的像 素的像素值附^/(A力置0,即标记该列中坐标为(x,力的像素为非感兴趣区域,继续扫描 该列的下一个像素,确定该像素是否为非感兴趣区域,直至M,中与该列中坐标为(x,力
的像素对应的像素的像素值/^,(x,"-i或己扫描到该列中位于MD;;,的下边界的像素
时停止对该列的扫描;(5) -3、对于MD^的第p+l歹ij,重复步骤(5) -2,确定第p+l 列中各个像素是否为非感兴趣区域,直至扫描完MD^的最后一列;(5) -4、以MD古的 最左下角像素为起始像素,从左到右逐列对MDi进行列扫描,在列扫描过程中自下而 上逐像素进行扫描,对于MD^的第;7列,从该列中位于MD,,的下边界的像素开始自下 而上向该列中位于MD;,的上边界的像素逐像素扫描,当M〖,中与该列中坐标为(;c,力的像素对应的像素的像素值W力(x,jO-0时,将该列中坐标为(x,力的像素的像素值m6^(X,力 置0,即标记该列中坐标为(xj;)的像素为非感兴趣区域,继续扫描该列的下一个像素, 确定该像素是否为非感兴趣区域,直至M。中与该列中坐标为(x,力的像素对应的像素的
像素值附;!/(x,力^i或已扫描到该列中位于MD;;,的上边界的像素时停止对该列的扫描;
(5) -5、对于MD二的第; +1列,重复步骤(5) -4,确定第/7+1列中各个像素是否为
非感兴趣区域,直至扫描完MD纟,的最后一列;(5) -6、以MD么的最左上角像素为起始
像素,自上而下逐行对MD纟进行行扫描,在行扫描过程中从左到右逐像素进行扫描,
对于MD力的第g行,从该行中位于MD力,的左边界的像素开始从左到右向该行中位于
MD么的右边界的像素逐像素扫描,当M。中与该行中坐标为(x,力的像素对应的像素的
像素值</(",力=0时,将该行中坐标为(Xy)的像素的像素值w《(x,力置0,即标记该 行中坐标为(x,力的像素为非感兴趣区域,继续扫描该行的下一个像素,确定该像素是否 为非感兴趣区域,直至M。中与该行中坐标为(jc,力的像素对应的像素的像素值
附(,(A力"或已扫描到该行中位于MD;;,的右边界的像素时停止对该行的扫描;(5)-7、
对于MDf,的第g+l行,重复步骤(5) -6,确定第《+l列中各个像素是否为非感兴趣区
域,直至扫描完MD^的最后一行;(5) -8、以MDf,的最右上角像素为起始像素,自上
而下逐行对MDi进行行扫描,在行扫描过程中从右到左逐像素进行扫描,对于MDf,的
第g行,从该行中位于MD;,的右边界的像素开始从右到左向该行中位于MD;1,,的左边界
的像素逐像素扫描,当M〖,中与该行中坐标为(x,力的像素对应的像素的像素值
m力(x,力-O时,将该行中坐标为(x,力的像素的像素值w《(x,力置0,即标记该行中坐 标为Oc,力的像素为非感兴趣区域,继续扫描该行的下一个像素,确定该像素是否为非感 兴趣区域,直至MG中与该行中坐标为(x,力的像素对应的像素的像素值wi(x,力-l或已 扫描到该行中位于MD(,的左边界的像素时停止对该行的扫描;(5) -9、对于MD方的第 《+l行,重复步骤(5) -8,确定第《+l列中各个像素是否为非感兴趣区域,直至扫描完 MD,,的最后一行;(5)-10、通过上述对MDf,的扫描得到MDf,中的感兴趣区域,记MD, 中的感兴趣区域为RM〖,,RMf,={(x,;;)|m《(x,_y) = l}。对于图4b所示的第0个深度
对象层的二值掩模图像中的感兴趣区域如图6a所示,对于图4c所示的第1个深度对象 层的二值掩模图像中的感兴趣区域如图6b所示。
(6)、将各个深度层的各个深度对象层的二值掩模图像中的感兴趣区域加权叠加,
合并得到当前纹理视频帧的感兴趣区域,记当前纹理视频帧的感兴趣区域为R,, R, = & ",力k (A " = 7," (x j), (x,少)e画',,义e
,/ e
},其中'r ";;) 表示当前纹理视频帧的感兴趣区域中坐标为(x,力的像素的像素值,7,,,为在(0,1]范围的 加权系数,在此实施例中取77,,,^, /(x,力表示当前纹理视频帧中坐标为Oc,;0的像素的
像素值,RMf,,为第/个深度层的第/l个深度对象层的二值掩模图像中的感兴趣区域。将
图6a和图6b所示的感兴趣区域加权叠加,合并得到图la的彩色视频帧的感兴趣区域, 图la的彩色视频帧的感兴趣区域如图7a所示。
图7b给出了图lb所示的测试序列"Breakdancers"彩色视频中t时刻的彩色视频帧 经本发明处理后得到的感兴趣区域。图8a给出了测试序列"Ballet"彩色视频中什l时 刻的彩色视频帧本发明处理后得到的感兴趣区域;图8b给出了测试序列"Ballet"彩色 视频中什2时刻的彩色视频帧本发明处理后得到的感兴趣区域;图8c给出了测试序列 "Ballet"彩色视频中什3时刻的彩色视频帧本发明处理后得到的感兴趣区域;图8d给 出了测试序列"Ballet"彩色视频中什4时刻的彩色视频帧本发明处理后得到的感兴趣区 域。图9a给出了测试序列"Breakdancers"彩色视频中汁l时刻的彩色视频帧本发明处 理后得到的感兴趣区域;图9b给出了测试序列"Breakdancers"彩色视频中f+2时刻的 彩色视频帧本发明处理后得到的感兴趣区域;图9c给出了测试序列"Breakdancers"彩 色视频中/+3时刻的彩色视频帧本发明处理后得到的感兴趣区域;图9d给出了测试序 列"Breakdancers"彩色视频中什4时刻的彩色视频帧本发明处理后得到的感兴趣区域。
权利要求
1、一种基于深度的视频感兴趣区域提取方法,其特征在于包括以下步骤(1)、定义纹理视频为二维彩色视频或灰度视频,定义纹理视频中各时刻的纹理视频帧的尺寸大小均为W×H,W为纹理视频中各时刻的纹理视频帧的宽,H为纹理视频中各时刻的纹理视频帧的高,记纹理视频中t时刻的纹理视频帧为Ft,定义纹理视频中t时刻的纹理视频帧Ft为当前纹理视频帧,采用运动检测方法检测当前纹理视频帧的运动区域,并提取当前纹理视频帧的运动区域的二值掩模图像,记当前纹理视频帧的运动区域的二值掩模图像为Mtm,然后采用边缘提取算子提取当前纹理视频帧的轮廓纹理,并对当前纹理视频帧的轮廓纹理进行二值化处理得到当前纹理视频帧的轮廓纹理的二值掩模图像,记当前纹理视频帧的轮廓纹理的二值掩模图像为Mtc;(2)、定义纹理视频对应的深度视频中各时刻的深度视频帧为Z比特深度表示的灰度图,将深度视频中各时刻的深度视频帧的尺寸大小均设置为W×H,W为深度视频中各时刻的深度视频帧的宽,H为深度视频中各时刻的深度视频帧的高,记深度视频中t时刻的深度视频帧为Dt,定义深度视频中t时刻的深度视频帧Dt为当前深度视频帧,根据深度将当前深度视频帧分割成L个深度层,提取当前深度视频帧的各个深度层的二值掩模图像,记第l个深度层的二值掩模图像为MDt,l,其中,l∈
,然后采用边缘提取算子提取当前深度视频帧的深度不连续区域,并对当前深度视频帧的深度不连续区域进行二值化处理得到当前深度视频帧的深度不连续区域的二值掩模图像,记当前深度视频帧的深度不连续区域的二值掩模图像为Mtd;(3)、利用当前深度视频帧的各个深度层的二值掩模图像、当前纹理视频帧的运动区域的二值掩模图像及当前深度视频帧的深度不连续区域的二值掩模图像提取当前深度视频帧的各个深度层的对象层种子点,计算各个深度层的对象层种子点的深度直方图,对各个深度层的对象层种子点的深度直方图进行平滑处理,将各个平滑处理后的深度直方图划分成Γ个分段,根据各个平滑处理后的深度直方图的Γ个分段对当前深度视频帧的各个深度层的二值掩模图像进行细分并提取得到Γ个深度对象层的二值掩模图像;(4)、利用当前深度视频帧的各个深度层的二值掩模图像、当前纹理视频帧的运动区域的二值掩模图像、当前纹理视频帧的轮廓纹理的二值掩模图像及当前深度视频帧的深度不连续区域的二值掩模图像构建当前深度视频帧的各个深度层的初步轮廓特征区域的二值掩模图像,然后采用轮廓恢复方法分别对各个深度层的初步轮廓特征区域的二值掩模图像进行断裂轮廓修复,再分别滤除断裂轮廓修复后得到的二值掩模图像中存在的孤立噪声区域,得到各个深度层的轮廓特征区域的二值掩模图像,记第l个深度层的轮廓特征区域的二值掩模图像为Mt,lT;(5)、以当前深度视频帧的各个深度层的轮廓特征区域的二值掩模图像为特征,对各个深度层中的各个深度对象层的二值掩模图像进行扫描,清除各个深度对象层的二值掩模图像中的非感兴趣区域,得到各个深度层的各个深度对象层的二值掩模图像中的感兴趣区域;(6)、将各个深度层的各个深度对象层的二值掩模图像中的感兴趣区域加权叠加,合并得到当前纹理视频帧的感兴趣区域,记当前纹理视频帧的感兴趣区域为Rt,<maths id="math0001" num="0001" ><math><![CDATA[ <mrow><msub> <mi>R</mi> <mi>t</mi></msub><mo>=</mo><mo>{</mo><mi>r</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo></mrow><mo>|</mo><mi>r</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo></mrow><mo>=</mo><msub> <mi>&eta;</mi> <mrow><mi>l</mi><mo>,</mo><mi>&lambda;</mi> </mrow></msub><msub> <mi>f</mi> <mi>t</mi></msub><mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo></mrow><mo>,</mo><mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo></mrow><mo>&Element;</mo><msubsup> <mi>RM</mi> <mrow><mi>t</mi><mo>,</mo><mi>l</mi> </mrow> <mi>&lambda;</mi></msubsup><mo>,</mo><mi>&lambda;</mi><mo>&Element;</mo><mo>[</mo><mn>0</mn><mo>,</mo><mi>&Gamma;</mi><mo>-</mo><mn>1</mn><mo>]</mo><mo>,</mo><mi>l</mi><mo>&Element;</mo><mo>[</mo><mn>0</mn><mo>,</mo><mi>L</mi><mo>-</mo><mn>2</mn><mo>]</mo><mo>}</mo><mo>,</mo> </mrow>]]></math> id="icf0001" file="A2009100997060003C1.tif" wi="134" he="6" top= "110" left = "22" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/></maths>其中,r(x,y)表示当前纹理视频帧的感兴趣区域中坐标为(x,y)的像素的像素值,ηl,λ为在(0,1]范围的加权系数,ft(x,y)表示当前纹理视频帧中坐标为(x,y)的像素的像素值,RMt,lλ为第l个深度层的第λ个深度对象层的二值掩模图像中的感兴趣区域。
2、根据权利要求1所述的一种基于深度的视频感兴趣区域提取方法,其特征在于 所述的步骤(1)中的运动检测方法的具体过程为(1) -a、记纹理视频中与当前纹理视频帧时间上连续的f+Jt时刻的纹理视频帧为F^,其中,A:e[-W/2,iV/2],且A^0, iV为小于10的正整数;(1) -b、釆用公知的图像帧差法计算当前纹理视频帧与f+A:时刻的 纹理视频帧F^的帧差图像,记帧差图像为F,-F,+" (1) -c、将帧差图像F,-F^分割成若干个尺寸大小为Wl x/^的块且块与块之间互不重叠,记横坐标为ox且纵坐标为^的块为BL,。"其中,axe
, ^e
'『为当前纹理视频帧的宽,//为当前纹理视频帧的高;(l)-d、根据帧差图像F,-F^中的各个块确定当前纹理视频帧中与帧差图像F,-F^中的各个块分别对应的区域为运动区域还是非运动区域,对于块BL^,判断块B^^中当前纹理视频帧与f+A时刻的纹理视频帧F^的各个像素的像素值之差的绝对值之和是否大于设定的第一阈值7;,其中,0《7;〈ioxvnx/^如果是,则将当前纹理视频帧中与块BL。,对应的区域中的所有像素的像素值置1,并确定该区域为运动区域,否则,将当前纹理视频帧中与块B^"对应的区域中的所有像素的像素值 置0,并确定该区域为非运动区域;(l)-e、提取运动区域的二值掩模图像M;", M「为 U-[O(F,-F,")。0(F,-F。)]中所有像素值为1的像素的集合,其中,0(F,—F,")表示通过步骤(1) -d得到的当前纹理视频帧中与当前纹理视频帧与,+ y时刻的纹理视频帧F,"的帧差图像F,-F 中的各个块分别对应的区域中所有像素值为1的像素的集合,O(F,-F,力)表示通过步骤(1) -d得到的当前纹理视频帧中与当前纹理视频帧与/-/时刻的纹理视频帧F,—^的帧差图像F,-F,力中的各个块分别对应的区域中所有像素值为1 的像素的集合。
3、根据权利要求1所述的一种基于深度的视频感兴趣区域提取方法,其特征在于 所述的步骤(1)中的运动检测方法的具体过程为(1) -1、记纹理视频中与当前纹理视频帧时间上连续的汁A;时刻的纹理视频帧为Fw,其中,Ae[-7V/2,iV/2],且A:^0,iV为小于10的正整数;(1)-2、采用公知的光流法计算当前纹理视频帧与&A:时刻的纹 理视频帧F,^的运动矢量图像,记运动矢量图像为V; (1)-3、将运动矢量图像V分割成若干个尺寸大小为w2 x/ 2的块且块与块之间互不重叠,记横坐标为h且纵坐标为^的块为BL加,其中,&ce
, tye
,『为当前纹理视频帧的宽,/f为当前纹理视频帧的高;(1)-4、根据运动矢量图像V中的各个块确定当前纹理视频 帧中与运动矢量图像V中的各个块分别对应的区域为运动区域还是非运动区域,对于块B^ ,判断块BL, 中运动矢量图像V的运动幅度的绝对值的平均值是否大于设定的第二阈值7;,其中,0S7;〈10xw2x/^,如果是,则将当前纹理视频帧中与块B^加对应的区域中的所有像素的像素值置1,并确定该区域为运动区域,否则,将当前纹理视频帧 中与块B^加对应的区域中的所有像素的像素值置0,并确定该区域为非运动区域;(1)
4.
5、提取运动区域的二值掩模图像Mr, Mj^Un^F,,F,+》。<D(F,,F,—》]中所有像素值为1的像素的集合,其中,O(F,,F,")表示通过步骤(1) -4得到的当前纹理视频帧中当前纹理视频帧与f + y时刻的纹理视频帧F,w的运动矢量图像中的各个块分别对应的区域中所有像素值为1的像素的集合,(D(F,,F。)表示通过步骤(1) -4得到的当前纹理视频帧中与当前纹理视频帧与/-/时刻的纹理视频帧F,力的运动矢量图像中的各个块分别对应的区域中所有像素值为1的像素的集合。4、 根据权利要求2或3所述的一种基于深度的视频感兴趣区域提取方法,其特征 在于所述的步骤(1)中的边缘提取算子为Sobel边缘提取算子、Canny边缘提取算子、 Roberts边缘提取算子、Laplace边缘提取算子中的任一种。5、 根据权利要求1所述的一种基于深度的视频感兴趣区域提取方法,其特征在于 所述的步骤(3)的具体过程为(3) -1、对于当前深度视频帧的第/个深度层,记第/个深度层的对象层种子点为i;,, l^-MD^r^MruMf],其中,/e
, MD,乂为当前深度视频帧的第/个深度层的二值掩模图像,M,"'为当前纹理视频帧的运动区域的 二值掩模图像,Mf为当前深度视频帧的深度不连续区域的二值掩模图像;(3) -2、记第/个深度层的对象层种子点1;,/的深度直方图为/7(1;/,/),第/个深度层的对象层种子 点1;/的深度直方图/^1;,,/)表示第/个深度层的对象层种子点T;,中深度值4(x,力为/的像素的个数,其中,/e
; (3) -3、对第/个深度层的对象层种子点i;,的深度直方图;^i;,,/)进行平滑处理,记平滑处理后的深度直方图为t(T,,,/),ltV) = S:/2C(T""".),其中'。为加权系数且满足I^C,1, K为平 滑窗口的尺寸大小,^e[2,io], / (1;/,/+力表示第/个深度层的对象层种子点11/中深度值《(x,刃为W的像素的个数;(3) -4、将平滑处理后的深度直方图/^(T^/)划分成r个分段,记第;i个分段为[;v&],其中,;u[o,r-1], ^和^为分段参数,且^和&满足条件jl(U)-0,^Ve[;v^] ,7;为设定的第三阈值'/7^e
^个分段对第/个深度层的二值掩模图像MD,.,进行细分并提取得到r个深度对象层的二值掩模图像的具体过程为对于深度 直方图/^(TL,,/)的第/L个分段[A,&],计算第义个分段[/7,,^]的深度均值和深度平均绝对离差,记第/l个分段[A,&]的深度均值为A ,A = " , ^ .、U.x化,/)),记第A个分段[A,&]的深度平均绝对离差为^ 1, ^s: 根据第A个分段[A,^]的深度均值^o*3 , o"3 = _和深度平均绝对离差a,将第A个深度对象层中深度值《(x,"满足条件《(;c,j;)e[^-GKj,,/^+OKJ」的所有像素的像素值置1,将不满足条件的所有像素的像素值置0,得到第义个深度对象层的二值掩模图像,记第义个深度对象层的二值掩模图 像为MD,, , MDf,—(x,力l《(x,力e[/^—wo^A+wcrj},其中,w为加权系数,《(x为当前深度视频帧中坐标为(x,少)的像素的深度值。
7、根据权利要求1所述的一种基于深度的视频感兴趣区域提取方法,其特征在于 所述的步骤(4)的具体过程为(4) -1、对于当前深度视频帧的第/个深度层,利用第/个深度层的二值掩模图像1> >,,、当前纹理视频帧的运动区域的二值掩模图像M「、当 前纹理视频帧的轮廓纹理的二值掩模图像M〖及当前深度视频帧的深度不连续区域的二 值掩模图像Mf构建第/个深度层的初步轮廓特征区域的二值掩模图像,记第/个深度层 的初步轮廓特征区域的二值掩模图像为T2,,, l^-MD^r^MruMfuM;'],其中, /e
,将第/个深度层的初步轮廓特征区域的二值掩模图像T2,,分割成若干个尺寸大小为^x/^的块,块与块之间互不重叠,记横坐标为cx且纵坐标为c;;的块为B^^,其中,<formula>formula see original document page 7</formula>为当前深度视频帧的宽,//为当前深度 视频帧的高;(4) -2、采用轮廓恢复方法对第/个深度层的初步轮廓特征区域的二值掩 模图像12,,进行断裂轮廓修复,轮廓恢复方法的具体过程为首先判断第/个深度层的初步轮廓特征区域的二值掩模图像T2,,中的各个块是否为疑似轮廓特征区域,对于第/个深度层的初步轮廓特征区域的二值掩模图像T2,,中的块B^,,判断块B^^中像素值为1的像素的个数是否大于设定的第四阈值 ;,其中,OS7;Sw3x/23,如果是,则将块BL^ 中的所有像素的像素值置l,并确定该块BL^为疑似轮廓特征区域,否则,将块B^^中 的所有像素的像素值置O,并确定该块B^^为非疑似轮廓特征区域;由各个疑似轮廓特 征区域和各个非疑似轮廓特征区域构成疑似轮廓特征区域的二值掩模图像,然后采用公 知的形态学膨胀和腐蚀算法,以尺寸大小为、x/^的矩形区域为膨胀腐蚀运算的基元,对疑似轮廓特征区域的二值掩模图像进行巧次膨胀和"2腐蚀操作;(4) -3、滤除膨胀和腐蚀操作后的疑似轮廓特征区域的二值掩模图像中存在的孤立噪声区域,得到第/个深 度层的轮廓特征区域的二值掩模图像,具体过程为采用公知的连通区域计算法计算膨 胀和腐蚀操作后的疑似轮廓特征区域的二值掩模图像中的疑似轮廓特征区域的八邻接 连通区域,并判断疑似轮廓特征区域中的各个连通区域中像素值为1的像素的个数是否小于设定的第五阈值7;,其中,0<7;<『><///100,如果是,则标记该连通区域为非轮廓特征区域,否则,标记该连通区域为轮廓特征区域,得到第/个深度层的轮廓特征区域的二值掩模图像,记第/个深度层的轮廓特征区域的二值掩模图像为M。。
8、根据权利要求1所述的一种基于深度的视频感兴趣区域提取方法,其特征在于 所述的步骤(5)的具体过程为(5) -1、对于当前深度视频帧的第/个深度层,将第/个深度层的轮廓特征区域的二值掩模图像M。中坐标为Oc^)的像素的像素值表示为w;Mx,力,对于第/个深度层的第;i个深度对象层,记第/个深度层的第A个深度对象层的二值掩模图像为MDf,,,将MDf,,中坐标为O,力的像素的像素值表示为附<,; (5) -2、以MD么的最左上角像素为起始像素,从左到右逐列对MDi进行列扫描,在列扫描过程中自上而下逐像素进行扫描,对于MDf,的第^列,从该列中位于MDf,的上 边界的像素开始自上而下向该列中位于MD力,的下边界的像素逐像素扫描,当M。中与 该列中坐标为(xj)的像素对应的像素的像素值^= 0时,将该列中坐标为(x,力的像 素的像素值附^/(x,力置0,并确定该列中坐标为(x,力的像素为非感兴趣区域,继续扫描 该列的下一个像素,确定该像素是否为非感兴趣区域,直至M。中与该列中坐标为(x,力 的像素对应的像素的像素值A^,(x,力^或已扫描到该列中位于MD二的下边界的像素 时停止对该列的扫描;(5) -3、对于MDi的第p+l歹l」,重复步骤(5) -2,确定第p+l 列中各个像素是否为非感兴趣区域,直至扫描完MD古的最后一列;(5) -4、以MD方的 最左下角像素为起始像素,从左到右逐列对MDf,进行列扫描,在列扫描过程中自下而 上逐像素进行扫描,对于MD二的第户列,从该列中位于MDf,的下边界的像素开始自下 而上向该列中位于MDi的上边界的像素逐像素扫描,当M〖,中与该列中坐标为(x,力的像素对应的像素的像素值附;!,(x,少^0时,将该列中坐标为(x,力的像素的像素值m《Oc,少) 置0,并确定该列中坐标为(x,力的像素为非感兴趣区域,继续扫描该列的下一个像素, 确定该像素是否为非感兴趣区域,直至M。中与该列中坐标为(x,力的像素对应的像素的像素值附;!,(x,力-i或已扫描到该列中位于MD^的上边界的像素时停止对该列的扫描;(5) -5、对于MDf,的第; +l歹lj,重复步骤(5) -4,确定第p+l列中各个像素是否为非感兴趣区域,直至扫描完MDi的最后一列;(5) -6、以MDf,的最左上角像素为起始像素,自上而下逐行对MD^进行行扫描,在行扫描过程中从左到右逐像素进行扫描,对于MD^的第《行,从该行中位于MDi的左边界的像素开始从左到右向该行中位于MDf,的右边界的像素逐像素扫描,当M。中与该行中坐标为(xj;)的像素对应的像素的像素值^,(x,力-0时,将该行中坐标为(x,力的像素的像素值w《(x,力置0,并确定该 行中坐标为(x,力的像素为非感兴趣区域,继续扫描该行的下一个像素,确定该像素是否为非感兴趣区域,直至MG中与该行中坐标为(x,力的像素对应的像素的像素值 <(A力=1或已扫描到该行中位于MD么的右边界的像素时停止对该行的扫描;(5) -7、 对于MD古的第《+1行,重复步骤(5)-6,确定第《+l列中各个像素是否为非感兴趣区 域,直至扫描完MD^的最后一行;(5) -8、以MD^的最右上角像素为起始像素,自上 而下逐行对MD么进行行扫描,在行扫描过程中从右到左逐像素进行扫描,对于MD么的 第《行,从该行中位于MD力,的右边界的像素开始从右到左向该行中位于MD力的左边界的像素逐像素扫描,当M。中与该行中坐标为(xjO的像素对应的像素的像素值 /^(x,力-0时,将该行中坐标为(jc,力的像素的像素值m《(x,;;)置0,并确定该行中坐 标为(x,力的像素为非感兴趣区域,继续扫描该行的下一个像素,确定该像素是否为非感 兴趣区域,直至M。中与该行中坐标为(x,力的像素对应的像素的像素值m力(x,力-l或已扫描到该行中位于MDi的左边界的像素时停止对该行的扫描;(5) -9、对于MDf,的第 《+l行,重复步骤(5) -8,确定第《+l列中各个像素是否为非感兴趣区域,直至扫描完 MD,,的最后一行;(5)-10、通过上述对MD^的扫描得到MD;;,中的感兴趣区域,记MD,(,中的感兴趣区域为RM方,RM,,, = {(x," I m《(x," = 1}。
全文摘要
本发明公开了一种基于深度的视频感兴趣区域提取方法,优点在于联合利用了时间上同步的纹理视频帧和纹理视频帧对应的深度视频帧,首先获取纹理视频帧的运动区域和轮廓纹理的二值掩模图像及深度视频帧的各个深度层和深度不连续区域的二值掩模图像,然后获取各个深度层的各个深度对象层的二值掩模图像,及各个深度层的轮廓特征区域的二值掩模图像,再以各个深度层的轮廓特征区域的二值掩模图像为特征,对各个深度对象层的二值掩模图像进行扫描,得到各个深度对象层的二值掩模图像中的感兴趣区域,最后叠加各个深度对象层的二值掩模图像中的感兴趣区域得到纹理视频帧的感兴趣区域,通过该方法获取的感兴趣区域符合语义特征,计算复杂度低且精度较高。
文档编号H04N5/14GK101588445SQ20091009970
公开日2009年11月25日 申请日期2009年6月9日 优先权日2009年6月9日
发明者云 张, 蒋刚毅, 梅 郁 申请人:宁波大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1