一种增强网络视频中视觉重要区域清晰度的方法

文档序号:7945610阅读:155来源:国知局
专利名称:一种增强网络视频中视觉重要区域清晰度的方法
技术领域
本发明是关于增强网络视频中视觉重要区域清晰度的方法,具体是增强 视频中说话内容字幕以及人脸区域的清晰度的方法。
背景技术
视频中说话内容字幕以及人物面部的清晰度是影响观众欣赏的一个重要 因素,也是网络环境下视频点播业务中的一个重要内容。字幕信息是视频节 目中一种重要的信息,其直观地说明了视频节目的内容,能够帮助观众了解 其中的故事情节。对视频字幕进行快速的检测定位是许多视频分析和检索系 统中的一个重要环节。视频中人脸的表情是观众关注的重要区域之一,也是 观众获取人物心理等信息的主要渠道。但是如果视频中字幕以及人脸区域出 现较大的失真,则会极大地影响观众的欣赏。在网络带宽受限的视频点播系 统或者在线视频浏览系统中有针对性地对提升视觉重要区域的画面质量,以 提供更加贴近用户需求的服务。视频中的字幕作为视觉重要区域,对其进行 快速检测并进行清晰度增强是非常重要的,虽然基于对象的视频编码早在
MPEG-4标准中提出,但是其难点是快速高效的对象检测问题是制约了其应 用的一个重要因素。
以视频字幕检测为例,现有字幕对象检测的速度和性能是制约在线视频 业务的一个重要问题,在中国专利ZL02801652.1中公开了一种基于图像区域 复杂度的字幕检测方法,在字幕检测中仅仅实现对静止字幕区域的检测并且 对字幕出现的位置也局限在图像的中下部。在中国专利ZL03123473.9中所公 开的字幕检测方法对位置也进行了限定。现有的字幕检测方法的技术局限性 表现在如下两个方面第一是对字幕出现在画面中的位置信息敏感,如果有 用的信息不在所制定的检测范围内,则不能很好地应用;第二是字幕检测的 速度慢,不能达到实时处理的要求,尤其是对于分辨率较大的情况下。对视 频中人脸区域快速的检测同样也面临着速度慢的问题。

发明内容
本发明是针对网络视频带宽不稳定的特点以及观众最关注的视频中人脸 区域和视频字幕的特点,提出了一种将视频中的字幕和人脸作为两个视觉重 要区域,对其进行快速检测并进行清晰度增强的方法。该方法有效地提升了 视频对象提取的速度,并对视觉重要区域进行有效增强。
为达到以上目的,本发明是采用如下技术方案予以实现的 一种增强网络视频中视觉重要区域清晰度的方法,其特征是,包括如下 执行步骤首先并行地执行字幕区域检测单元00和进行人脸区域检测单元 01;然后执行当前帧视觉重要区域确定单元02,通过对人脸以及字幕两种重
要区域进行或操作,也即MAP-MAPt I MAPf,实现对该两种重要区域合并 以得到当前帧中视觉重要区域MAP,其中MAPt为当前字幕在原始视频中的 字幕区域;MAPf为原始图像中人脸区域所在的区域;接下来执行基于视觉 重要区域的编码单元03,以对视觉重要区域和视觉非重要区域进行有差别的 编码,实现增强视觉重要区域的编码清晰度;最后执行单元04形成待发送的 视频码流。
上述方案中,所述的字幕区域检测单元OO,包含下述具体步骤首先执 行字幕检测帧亮度分量抽取单元10;然后执行字幕时间加速单元20以进行 自适应的视频字幕检测帧抽取;接下来执行字幕空间加速单元30以对原始分 辨率下的亮度分量进行自适应的金字塔抽样以降低图像的分辨率;接着执行 字幕空间定位单元40,以实现对步骤30中降低分辨率的图像Ip进行字幕所 在区域定位;然后执行字幕时间定位单元50,以确定字幕在视频中的出现和 消失帧;然后执行字幕检测区域单元60,根据每条字幕检测起始、终止帧以 及金字塔图像中的位置来确定当前字幕在原始视频中的字幕区域MAPt。
所述的人脸区域检测单元Ol,包含下述具体步骤首先执行金字塔图像 序列抽样70,对视频序列每一帧的亮度和色度分量都执行金字塔抽样,以得 到金字塔抽样后的图像序列;然后执行人脸区域检索80,实现在金字塔图像 中进行人脸区域检测;最后执行人脸区域90,输出原始图像中人脸区域所在 的区域MAPf。
所述在基于视觉重要区域的编码单元03中对视觉重要区域和视觉非重 要区域实现有差别的编码,其基本原则是当前帧中MAP(i,j)=l所在的块区域的量化步长Ql较小,而对MAP(i,j)=0所在的块区域的量化步长QO较大, 其中(i,j)表示图像中坐标位置;或者当前帧中MAP(i,j)=l所在的块区域的平 均码率B1较大,而对MAP(i,j)-O所在的块区域的平均码率BO较小,也即 B1>B0,Q1<Q0。
所述的时间加速单元20,是在步骤10所抽取的亮度分量图像的基础上 自适应地根据本帧中字幕检测的情况确定下一个字幕检测帧的间隔",在当
前帧检测到字幕的情况下,选取较小的帧间隔以进行当前帧检测字幕的匹配;
在当前帧没有检测到字幕的情况下选取较大的帧间隔。
所述字幕空间定位单元40,包含下述具体步骤首先执行步骤41,对步 骤30中降低分辨率的图像Ip采用基于梯度运算算子Top的纹理提取方法来 实现,其执行的是空间巻积操作,设算子提取纹理图Isd;然后执行步骤42, 对Isd以自适应地确定阈值^生成字幕点图像TxTd,最终的字幕区域图像是 在不同方向下字幕点图像的交集形式;接着执行步骤43以确定字幕排列方 式,首先将字幕点图像划分成一系列由4*4大小块所组成的基本单元,接下 来确定每个基本单元中的字幕点保留与否的判断条件,如果每个基本单元中 的字幕点数大于4,则保留该基本单元中的字幕点,否则不保留该基本单元 中的字幕点;在所有基本单元判断完成之后再对字幕点图像TxTd中进行水 平和垂直方向的投影以确定可能的字幕区域的字幕排列方式;接下来执行单 元44进行字幕区域定位,并记录字幕区域在金字塔图像中的左上和右下角的 坐标(xl,yl)和(xr,yr)。
所述字幕时间定位单元50中,包含下述具体步骤首先执行步骤51, 自适应地根据前一检测帧Prev中字幕检测的结果判断下一检测帧的帧间隔 n,如果前一检测帧中没有字幕,则设置较大的帧间隔;如果有字幕则设置较 小的帧间隔;然后执行步骤52,对间隔n帧的图像Curr分别执行空间加速 单元30以实现对Curr帧进行空间金字塔采样,然后对采样后的图像执行步 骤40以进行字幕检测;然后执行步骤53,进行检测的字幕匹配跟踪,相邻 两个执行字幕检测的帧是否需要进行字幕匹配跟踪是按照这两帧中所检测出 的字幕条数目来进行判断的。
所述步骤53中,如果匹配的字幕在两个执行字幕检测的帧中的位置不变 则判断为静止,否则判断为滚动字幕;静态字幕条跟踪中的出现帧和终止帧确定方法是通过抽取字幕区域中的DC线条并进行匹配实现的,动态字幕跟 踪中的出现帧和终止帧确定方法是通过计算匹配速度来实现的。
本发明中所提供的增强网络视频中视觉重要区域清晰度的方法与不进行 视觉重要区域清晰度增强的方法相比,其有益效果表现在,通过对视觉重要 的人脸和字幕区域进行检测和增强可以有效提高这些区域的画面质量。并且 人脸和字幕区域的检测采用金字塔抽样的方法进行快速的提取,和现有的人 脸检测以及字幕检测技术相比较,在性能相当的情况下有效地提升了检测速 度。


图1为本发明中增强网络视频中视觉重要区域清晰度的方法的总体步骤 示意图。
图2为图1中字幕区域检测步骤的具体步骤示意图。 图3为图1中人脸区域检测步骤的具体步骤示意图。 图4是图2中字幕区域空间定位单元的具体步骤示意图。 图5为本发明中采用增强视频帧中的字幕和人脸等重要区域清晰度的对 比效果图。其中图5A给出了一个原始的视频图像,图5B给出了人脸和字幕 区域检测的效果图,如图中高亮标记的区域;图5C、图5D给出了不采用对 象增强和采用对象增强的效果图;图5E、图5F及图5G分别给出了人脸和 字幕区域在原始视频、未进行重要区域增强以及采用对象增强的局部区域对 比的效果图。
具体实施例方式
以下结合附图及实施例对本发明作进一步的详细说明。 图1给出了本发明中关于增强网络视频中视觉重要区域清晰度的方法总 体实施步骤结构框图。其中包含如下执行步骤并行地执行字幕区域检测单 元00和进行人脸区域检测单元01;然后执行当前帧视觉重要区域确定单元 02,实现对人脸以及字幕两种重要区域合并以得到当前帧中视觉重要区域; 接下来执行基于视觉重要区域的编码单元03,以对视觉重要区域和视觉非重 要区域实现有差别的编码,从而实现增强视觉重要区域的编码清晰度;最后执行单元04形成待发送的视频码流。
图2示例地给出了上述字幕区域检测单元00中所包含的执行步骤:首先 执行字幕检测帧亮度分量抽取单元10;然后执行时间加速单元20以进行自 适应的视频字幕检测帧抽取;接下来执行空间加速单元30以对原始分辨率下 的亮度分量进行自适应的金字塔抽样处理以降低图像的分辨率;接着执行字 幕空间定位单元40,以实现对单元30中降低分辨率的图像中进行字幕所在 区域定位;然后执行字幕时间定位单元50,以确定字幕在视频中的出现和消 失帧;然后确定字幕检测区域单元60,以确定当前字幕在原始视频中区域 MAPt。
图3示例地给出了上述人脸区域检测单元01中所包含的执行步骤:首先
对视频序列执行步骤70对原始序列进行金字塔抽样,以得到金字塔抽样后的 图像序列;然后执行步骤80实现在金字塔图像中进行人脸区域检测;最后在 步骤90中输出原始图像中人脸区域所在的区域MAPf。
在图1当前帧视觉重要区域确定单元02中,实现对人脸以及字幕两种重 要区域合并已得到当前帧中视觉重要区域MAP,在实现中是对上述两种区域 进行或操作,也即MAP-MAPtlMAPf。
在图1基于视觉重要区域的编码单元03中,以对视觉重要区域和视觉非 重要区域实现有差别的编码来实现增强视觉重要区域的编码清晰度。在编码 中的基本原则是当前帧中MAP(i,j)=l所在的块区域的量化步长Ql较小,而 对MAP(i,j)=0所在的块区域的量化步长QO较大,其中(i,j)表示图像中坐标位 置;或者当前帧中MAP(i,j)=l所在的块区域的平均码率Bl较大,而对 MAP(i,j)-O所在的块区域的平均码率BO较小。也即B1>B0,Q1<Q0。
在图2的字幕检测帧亮度分量抽取单元10中,其实现方式是从视频序列 中获取指定帧的亮度分量,而不需要色度分量。如果是需要转码的压縮视频 (格式可以是MPEG-1/2/4或者AVI格式等)则仅解码指定帧的亮度分量即 可。
在图2的时间加速单元20中,是在步骤IO所抽取的亮度分量图像的基 础上自适应地根据本帧中字幕检测的情况确定下一个字幕检测帧的间隔w。 在当前帧检测到字幕的情况下,选取较小的帧间隔以进行当前帧检测字幕的 匹配(如选取的帧间隔"的取值为5);在当前帧没有检测到字幕的情况下选取较大的帧间隔(如选取的帧间隔w的取值为50)。
在图2的空间加速单元30中,是时间加速单元20选取的检测帧亮度分 量的基础上,对亮度图像进行空间金字塔抽样以降低图像的分辨率。假设原 始图像的亮度分量的高度为H,宽度为W,抽样的最终分辨率不小于 176*144,因此在高度方向上的下采样比例Rh,以及宽度方向上的下采样比 例Rw的计算方法如下
'朋=|_節44」
其中bc」表示对数值x进行下取整运算。也就是说原图象Io中一个Rh*Rw的 一个区域对应于金字塔图像Ip中的一个点。金字塔采样后的图像的高度Hp 和宽度Wp分别为-
在图2的字幕空间定位单元40中,以实现对单元30中降低分辨率的图 像lp中进行字幕所在区域定位。其具体执行步骤的如图4中所示,首先执行 步骤41,图像Ip可采用基于梯度运算算子Top的纹理提取方法来实现,其 执行的是空间巻积操作,假设算子提取纹理图Isd。这里选用的梯度运算算子 可以是4方向的Sobd算子,也可以是其它类型的算子如Robert, Laplacian, 两方向的Sobel算子等。其中0° , 45°, 90°, 135°等4个方向的Sobel算子
的形式如下:
12
00
一l一2
1
0
一l
2 1 1 0 0 —l
0
—1 —2
1 0 —l
2 0 -2 1 0 —l
0 1 2 _1 0 1 —2 _1 0
以Sobel算子所提取的纹理图为例来说明本发明中的方法,假设上面四 哥算子所得出梯度幅值矩阵分别为GT1, GT2, GT3和GT4。首先对采 样后的图像进行不同方向的梯度计算,然后统计在平均的纹理幅值图像Isd, 其计算方法如下
Isd = wl*GTl+w2*GT2+ w3*GT3+w4*GT4; 其中wl w4是加权系数,本例中wl~w4=0.25.然后执行步骤42,对Isd以自适应地确定阈值&生成字幕点图像TxTd。
其中包括自适应阈值^的计算方法如下
rrf 二 max{2 +1.5^,50} 其中,A和^分别表示图像Isd的均值和标准差。字幕点图像TxTd的生成
方法如下
<formula>formula see original document page 11</formula>
对于同方向的Sobd算子,可以生成不同方向的字幕点图像,最终的字 幕区域图像是在不同方向下字幕点图像的交集形式。
接着执行步骤43以确定字幕排列方式,首先将字幕点图像划分成一系列 由4*4大小块所组成的基本单元,接下来确定每个基本单元中的字幕点保留 与否的判断条件,如果每个基本单元中的字幕点数大于4,则保留该基本单 元中的字幕点,否则不保留该基本单元中的字幕点;在所有基本单元判断完 成之后再对字幕点图像TxTd中进行水平和垂直方向的投影以确定可能的字 幕区域的字幕排列方式。其中投影的过程是统计每个位置上可能的字幕点数 目,记水平和垂直方向上的投影分别为PH和PV,其具体的计算方法如下
<formula>formula see original document page 11</formula>
然后分别对PH和PV进行半径为2的中值滤波,然后在PH和PV中分别寻 找波峰和波谷,如果连续4个点处的值大于20,则将其确定为可能的字幕区 域,否则认为该帧中没有字幕。在确定中可能字幕区域中在水平方向的投影 值的均值大于垂直方向上的投影值的均值,则确定为水平排列的字幕,否则 确定为垂直排列的字幕。
接下来执行单元44进行字幕区域定位,如果在单元43中没有可能的字 幕,这直接跳过该步骤,且当前帧字幕输出为O。如果在单元43中确定为水 平排列的字幕采用水平方向上的形态学滤波,首先采用算子为10*1的闭运 算,然后再釆用算子为1*5的开运算;如果在单元43中确定为垂直排列的字幕采用垂直方向上的形态学滤波,首先采用算子为1*10的闭运算,然后再采
用算子为5*1的开运算。然后确定所在连通区域的最小外接矩形作为字幕区 域。并记录字幕区域在金字塔图像中的左上和右下角的坐标(xl,yl)和(xr,yr)。 在图2的字幕时间定位单元50中,以确定字幕在时间上的出现和消失帧。 其具体执行步骤包括如下环节首先执行步骤51,自适应地根据前一检测帧 (记为Prev)中字幕检测的结果判断下一检测帧的帧间隔n,如果前一检测帧中 没有字幕则,设置较大的帧间隔(如n=50);如果有字幕则设置较小的帧间 隔(如11=5)。
然后执行步骤52,对间隔n帧的图像(记为Curr)分别执行上述步骤中空 间加速单元30以实现对Curr帧进行空间金字塔采样,然后对采样有的图像 执行步骤40以进行字幕检测。
然后执行步骤53,进行检测的字幕匹配跟踪。相邻两个执行字幕检测的 帧是否需要进行字幕匹配跟踪是按照这两帧中所检测出的字幕条数目并按如 下四种可能的情况进行判断-
① 如果Prev帧和Curr帧的字幕条数均为0,则无需进行匹配和跟踪。
② 如果Prev帧的字幕条数量为0,而Curr帧的字幕条数量不为0,则 Curr帧的字幕条全部为新出现字幕条,需要确定其起始帧。作起始帧判断时 首先需要根据Curr帧和下一个间隔n=5帧(Next)中的字幕匹配情况以及所确 定的字幕属性来进行处理。如果Next中没有字幕或者有字幕但是和Curr帧 中检测的字幕不匹配,则将Curr帧中检测的字幕当成错检并予以剔除,否则 对当前帧Curr中所检测的新出现字幕条进行字幕跟踪。
③ 如果Prev帧的字幕条数量不为0,而Curr帧的字幕条数量为0,则 Curr帧的字幕条为消失字幕条,需要确定其终止帧。
④ 如果Prev帧和Curr帧的字幕条数均不为0,则需执行对Prev和Curr 帧中的字幕匹配,以确定Prev帧中哪些字幕是匹配的哪些是消失的以及Curr 帧中哪些字幕是匹配哪些是新出现的。对于在Prev帧中哪些在Prev到Curr 之间消失的帧需要确定其终止帧,对于Curr帧中新出现的字幕条需要从Prev 帧到Curr帧之间确定该字幕的出现帧。对于匹配上的字幕条,根据从字幕匹 配的相对位置差异所计算出的匹配速度可以将其分成静态字幕条和滚动字幕 条两种类型。如果匹配的字幕在两个执行字幕检测的帧中的位置不变则判断为静止, 否则判断为滚动字幕。静态字幕条跟踪中的出现帧和终止帧确定方法是通过 抽取字幕区域中的DC线条并进行匹配实现的,动态字幕跟踪中的出现帧和 终止帧确定方法是通过计算匹配速度来实现的。若为滚动字幕条,则根据匹 配速度来确定字幕边框进入以及退出画面的相应帧为出现帧和终止帧,具体
的方法如论文(X.Qian, G丄iu, H.Wang, and R.Su, "Text detection, localization and tracking in compressed video," Signal Processing: Image Communication, 2007, vol.22, no.9,pp.752-768.)所述。若为静态字幕条则计算金字塔图像所 在区域中心位置((xl+xr)/2,(yl+yr)/2)处相应的像素条的平均绝对误差MAD 值,根据MAD值来确定静态字幕的出现帧和终止帧。
其中字幕匹配跟踪的方法是,按照检测字幕在金字塔图像中的所确定的 位置((xl+xr)/2,(yl+yr)/2)确定一个搜索范围然后逐像素点进行匹配,字幕匹配 是根据前一个检测帧Prev和当前检测帧Curr的字幕检测情况来判断检测出 的字幕是否匹配,如果匹配则表明相匹配的字幕属于同一字幕,否则属于不 同字幕。其中的抽样匹配的实现方法可以参考论文(H. Jiang, G. Liu, X.Qian, N. Nan, D. Guo, Z. Li, L Sun, "A fast and effective text tracking in compressed video, " International Symposium on Multimedia, 2008)中所述的基于相似匹配 的方法来实现,在实现中与其不同之处在于论文中的方法是采用像素域抽象 来实现的,本发明中的抽样是采用金字塔图像的抽样来实现的。
在图2的字幕检测区域单元60中,根据每条字幕检测起始、终止帧以及 金字塔图像中的位置来获得原始图像中字幕区域MAPt。在金字塔图像中的 字幕检测的位置通过如下计算获得字幕在原始图像中的坐标位置
、=5 x*
其中Os,^)和(、,凡)分别为在金字塔图像和原始图像中的坐标。而原始图像
中字幕区域MAPt的计算方法如下
1《^义。^《与;;:^;;。<;;:与^ ^A<V [0 其他
其中(《,乂), 0C乂), " ^和^分别为在一条字幕区域在原始图像中左上 角,右下角的坐标,当前帧,起始帧和终止帧。
13
M4尸一 (/,_/ )=在图3的金字塔图像序列抽样单元70中,实现对原始视频序列中的每一 帧的亮度和色度分量都执行抽样,抽样方法与步骤30相同。
在图3的人脸区域检测单元80中,对每个金字塔抽样的图像进行人脸检 测以获得金字塔图像序列中每帧的人脸所在区±或,其中人脸区域的检测方法 采用文献(P. Viola, and M. J. Jones, "Robust Real-time Face Detection,,, International Journal of Computer Vision, 57(2), pp.137-154, 2004.)中公知的技 术,该技术本身的一个显著优点是其处理速度块,而且在本发明中基于金字 塔采样后的图像其处理的速度更快,单帧人脸检测的速度在200帧每秒以上。 并对检测的区域进行面积统计,对于一些面积较小的、形状不规则的区域予 以删除。
在图3的人脸区域单元90中,根据金字塔图像中人脸检测的区域信息获 得原始图像中人脸区域MAPf,计算方法类似于步骤60。
图5示例地给出了本发明中采用增强视频帧中的字幕和人脸等重要区域 清晰度方法的优异之处。图5A给出了一个原始的视频图像,图5B给出了人 脸和字幕区域检测的效果图,在图中以绿色区域标记出采用本发明中快速的 字幕和人脸区域检测的结果;图5C、图5D给出了不采用对象增强和采用对 象增强的效果图;图5E、图5F及图5G分别给出了人脸和字幕区域在原始 视频、未进行重要区域增强以及采用对象增强的局部区域对比的效果图;从 局部区域的对比效果中可以看出经过视觉重要区域的图像质量增强,有效地 提升了画面的质量。
权利要求
1、一种增强网络视频中视觉重要区域清晰度的方法,其特征是,包括如下执行步骤首先并行地执行字幕区域检测单元00和进行人脸区域检测单元01;然后执行当前帧视觉重要区域确定单元02,通过对人脸以及字幕两种重要区域进行或操作,即MAP=MAPt|MAPf,实现对该两种重要区域合并以得到当前帧中视觉重要区域MAP,其中MAPt为当前字幕在原始视频中的字幕区域;MAPf为原始图像中人脸区域所在的区域;接下来执行基于视觉重要区域的编码单元03,以对视觉重要区域和视觉非重要区域进行有差别的编码,实现增强视觉重要区域的编码清晰度;最后执行单元04形成待发送的视频码流。
2、 根据权利要求1所述的增强网络视频中视觉重要区域清晰度的方法, 其特征是,所述的执行字幕区域检测单元00,包含下述具体步骤首先执行 字幕检测帧亮度分量抽取单元10;然后执行字幕时间加速单元20以进行自 适应的视频字幕检测帧抽取;接下来执行字幕空间加速单元30以对原始分辨 率下的亮度分量进行自适应的金字塔抽样以降低图像的分辨率;接着执行字 幕空间定位单元40,以实现对步骤30中降低分辨率的图像Ip进行字幕所在 区域定位;然后执行字幕时间定位单元50,以确定字幕在视频中的出现和消 失帧;然后执行字幕检测区域单元60,根据每条字幕检测起始、终止帧以及 金字塔图像中的位置来确定当前字幕在原始视频中的字幕区域MAPt。
3、 根据权利要求1所述的增强网络视频中视觉重要区域清晰度的方法, 其特征是,所述的执行人脸区域检测单元Ol,包含下述具体步骤首先执行 金字塔图像序列抽样70,对视频序列每一帧的亮度和色度分量都执行金字塔 抽样,以得到金字塔抽样后的图像序列;然后执行人脸区域检索80,实现在 金字塔图像中进行人脸区域检测;最后执行人脸区域90,输出原始图像中人 脸区域所在的区域MAPf。
4、 根据权利要求1所述的增强网络视频中视觉重要区域清晰度的方法, 其特征是,所述在基于视觉重要区域的编码单元03中对视觉重要区域和视觉 非重要区域实现有差别的编码,其基本原则是当前帧中MAP(i,j)-l所在的块 区域的量化步长Ql较小,而对MAP(i,j)=0所在的块区域的量化步长QO较 大,其中(i,j)表示图像中坐标位置;或者当前帧中MAP(i,j)=l所在的块区域的平均码率Bl较大,而对MAP(i,j)=0所在的块区域的平均码率B0较小, 也即B1〉B0,Q1〈Q0。
5、 根据权利要求2所述的增强网络视频中视觉重要区域清晰度的方法, 其特征是,所述的执行时间加速单元20,是在步骤10所抽取的亮度分量图 像的基础上自适应地根据本帧中字幕检测的情况确定下一个字幕检测帧的间 隔",在当前帧检测到字幕的情况下,选取较小的帧间隔以进行当前帧检测 字幕的匹配;在当前帧没有检测到字幕的情况下选取较大的帧间隔。
6、 根据权利要求2所述的增强网络视频中视觉重要区域清晰度的方法, 其特征是,所述执行字幕空间定位单元40,包含下述具体步骤首先执行步 骤41,对步骤30中降低分辨率的图像Ip采用基于梯度运算算子Top的纹理 提取方法来实现,其执行的是空间巻积操作,设算子提取纹理图Isd;然后执 行步骤42,对Isd以自适应地确定阈值K生成字幕点图像TxTd,最终的字 幕区域图像是在不同方向下字幕点图像的交集形式;接着执行步骤43以确定 字幕排列方式,首先将字幕点图像划分成一系列由4*4大小块所组成的基本 单元,接下来确定每个基本单元中的字幕点保留与否的判断条件,如果每个 基本单元中的字幕点数大于4,则保留该基本单元中的字幕点,否则不保留 该基本单元中的字幕点;在所有基本单元判断完成之后再对字幕点图像TxTd 中进行水平和垂直方向的投影以确定可能的字幕区域的字幕排列方式;接下 来执行单元44进行字幕区域定位,并记录字幕区域在金字塔图像中的左上和 右下角的坐标(xl,yl)和(xr,yr)。
7、 根据权利要求2所述的增强网络视频中视觉重要区域清晰度的方法, 其特征是,所述执行字幕时间定位单元50,包含下述具体步骤首先执行步 骤51,自适应地根据前一检测帧Prev中字幕检测的结果判断下一检测帧的 帧间隔n,如果前一检测帧中没有字幕,则设置较大的帧间隔;如果有字幕 则设置较小的帧间隔;然后执行步骤52,对间隔n帧的图像Cmr分别执行 空间加速单元30以实现对Curr帧进行空间金字塔采样,然后对采样后的图 像执行步骤40以进行字幕检测;然后执行步骤53,进行检测的字幕匹配跟 踪,相邻两个执行字幕检测的帧是否需要进行字幕匹配跟踪是按照这两帧中 所检测出的字幕条数目来进行判断的。
8、 根据权利要求7所述的增强网络视频中视觉重要区域清晰度的方法,其特征是,所述步骤53中,如果匹配的字幕在两个执行字幕检测的帧中的位 置不变则判断为静止,否则判断为滚动字幕;静态字幕条跟踪中的出现帧和 终止帧确定方法是通过抽取字幕区域中的DC线条并进行匹配实现的,动态 字幕跟踪中的出现帧和终止帧确定方法是通过计算匹配速度来实现的。
全文摘要
本发明公开了一种增强网络视频中视觉重要区域清晰度的方法,其特征是,包括如下执行步骤首先并行地执行字幕区域检测单元00和进行人脸区域检测单元01;然后执行当前帧视觉重要区域确定单元02,通过对人脸以及字幕两种重要区域进行或操作,也即MAP=MAPt|MAPf,实现对该两种重要区域合并以得到当前帧中视觉重要区域MAP,其中MAPt为当前字幕在原始视频中的字幕区域;MAPf为原始图像中人脸区域所在的区域;接下来执行基于视觉重要区域的编码单元03,以对视觉重要区域和视觉非重要区域进行有差别的编码,实现增强视觉重要区域的编码清晰度;最后执行单元04形成待发送的视频码流。
文档编号H04N5/445GK101527786SQ200910021768
公开日2009年9月9日 申请日期2009年3月31日 优先权日2009年3月31日
发明者刘贵忠, 姜海侠, 智 李, 欢 汪, 喆 王, 琛 王, 郭旦萍, 钱学明 申请人:西安交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1