字幕检测方法及装置、背景恢复方法及装置的制作方法

文档序号：7705635阅读：153来源：国知局

专利名称：字幕检测方法及装置、背景恢复方法及装置的制作方法
技术领域：
本发明涉及视频检测技术，具体涉及字幕检测方法及装置、背景恢复方法及装置。
背景技术：
随着计算机技术、多媒体技术以及通信技术的飞速发展，为信息提供了大容量的存储载体、高速度的运算处理和快速有效的传递手段。图像、声音、视频等多媒体数据逐渐成为信息处理领域的主要媒体形式。特别是视音频数据，由于能记录、再现空间和时间信息，给人以直观的视听感受，使人们以更自然方式获得来自外部世界的信息，因而迅速成为重要的通用信息媒体，越来越受到人们的重视。在视频中，文字信息如新闻标题、节目内容、旁白、工作人员名单等均包含了丰富的高层语义信息。视频中还可以有滚动字幕，滚动字幕比起静态叠加字幕和突然改变文字，有独特的观看效果，且多条字幕循环播出，可以用有限的显示空间，实现多条、大容量的文字信息显示，因而已广泛应用于电台新闻、车载电视、可视对讲、小区信息广播、视频监控等广播领域。如果这些文字能自动地被检测、分割、识别，对图像高层语义的自动理解、索引和检索非常有价值。现有的一种字幕检测方法是通过灰度边缘信息以及预先确定的规则，在单独的视频帧上定位字幕区域。在对现有技术的研究中，发明人发现虽然使用上述的字幕检测方法可以对视频的字幕进行检测，但是上述的字幕检测方法仅在单独的视频帧上定位字幕区域，不能够有效地反映出边缘的变化情况，会造成字幕区域的漏检测或误检测。

发明内容
本发明实施例提供了字幕检测方法及装置、背景恢复方法及装置，使用本发明实施例提供的技术方案，可以使用帧间信息对视频的字幕进行检测。本发明实施例提供了一种字幕检测方法，包括获取视频帧中像素区域属于平滑背景的概率；使用帧间相关系数确定所述像素区域属于静止纹理的概率；获取所述像素区域属于动态纹理的概率；根据所述像素区域属于平滑背景的概率、属于静止纹理的概率和属于动态纹理的概率确定所述像素区域是否属于滚动字幕区域。本发明实施例还提供了一种背景恢复方法，包括确定像素区域的周边像素区域的颜色值，所述像素区域属于文字区域；使用所述颜色值进行线性插值，获得所述像素区域的颜色值；使用所述像素区域的颜色值所对应的颜色对所述像素区域进行恢复。本发明实施例还提供了一种字幕检测装置，包括平滑背景概率获取单元，用于获取视频帧中像素区域属于平滑背景的概率；
静止纹理概率确定单元，用于使用帧间相关系数确定所述像素区域属于静止纹理的概率；动态纹理概率获取单元，用于获取所述像素区域属于动态纹理的概率；滚动字幕区域确定单元，用于根据所述平滑背景概率获取单元获取的像素区域属于平滑背景的概率、所述静止纹理概率确定单元确定的像素区域属于静止纹理的概率和所述动态纹理概率获取单元获取的所述像素区域属于动态纹理的概率，确定所述像素区域是否属于滚动字幕区域。本发明实施例还提供了一种背景恢复装置，包括确定单元，用于确定像素区域的周边像素区域的颜色值，所述像素区域属于文字区域；插值单元，用于使用所述确定单元确定的颜色值进行线性插值，获得所述像素区域的颜色值；恢复单元，用于使用所述插值单元得到的像素区域的颜色值所对应的颜色对所述像素区域进行恢复。从本发明实施例提供的以上技术方案可以看出，由于本发明实施例可以使用帧间相关系数确定像素区域属于静止纹理的概率，从而可以使用多个视频帧的信息定位视频帧上的字幕区域，能够有效地反映出边缘的变化情况，减少字幕区域的漏检测或误检测，并且使用帧间相关系数确定可以提高检测速度。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1为本发明实施例中字幕检测方法实施例一的流程图；图2为本发明实施例中字幕检测方法实施例二的流程图；图3为本发明实施例中背景恢复方法实施例的流程图；图4为本发明实施例中字幕检测装置实施例一的结构图；图5为本发明实施例中字幕检测装置实施例二的结构图；图6为本发明实施例中背景恢复装置实施例的结构图。
具体实施例方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。先介绍本发明实施例提供的字幕检测方法，图1描述了字幕检测方法实施例一的流程，包括101、获取视频帧中像素区域属于平滑背景的概率；
像素区域可以包括一个像素点，也可以包括多个像素点；某个区域属于平滑背景的概率可以通过该区域的边缘区域的强度值确定，因此可以对视频帧进行大尺度区域的边缘区域的强度值计算，即将视频帧划分为数量较少的大尺度区域，分别计算每个区域的边缘区域的强度值；也可以对视频帧进行小尺度空间的边缘区域的强度值计算，即将视频帧划分为数量较多的小尺度区域，分别计算每个区域的边缘区域的强度值；本发明实施例还提供一种获取视频帧中像素区域属于平滑背景的概率的流程如下对视频帧进行多尺度的小波分解，获得小波分解区域，小波分解区域包括像素区域；计算小波分解区域的边缘区域的平均强度值；根据平均强度值确定小波分解区域是否属于平滑背景。通过对视频帧进行多尺度的小波分解，可以将视频帧分成尺度不同的小波分解区域，进而分别计算各个小波分解区域的边缘区域的平均强度值，从而确定各个小波分解区域属于平滑背景的概率，小波分解区域中的像素区域的平滑背景的概率与该小波分解区域属于平滑背景的概率相同。本发明实施例假设像素区域属于平滑背景的概率为Ps。由于对视频帧进行了多尺度的小波分解，从而避免了仅采用大尺度空间或仅采用小尺度空间带来的检测不准。102、使用帧间相关系数确定像素区域属于静止纹理的概率；帧间相关系数(IFCCInter-Frame Correlation Coefficient)可以是相邻帧之间的相关系数，也可以是包括当前视频帧在内的连续几帧之间的相关系数；静止纹理是指视频帧中保持不变的区域，可以是图像，也可以是字幕(如滚动字幕的标题文字等)；本发明实施例提供的一种帧间相关系数是相邻帧之间的相关系数，可以通过如下流程确定像素区域属于静止纹理的概率首先计算两帧间相应子带的子带间相关系数(ISCC)，即计算第i_l帧和第i帧的小波子带WS(WS e {LH，HL})中点处边缘的稳定性，假设中点的坐标为(x, y)，其中，LH是垂直方向小波系数，HL是水平方向的小波系数；本发明实施例可以通过式(1)计算以该中点为中心的一个邻域内的边缘强度的方差<formula>formula see original document page 7</formula>式(1)中，WS“a，b)是第i帧的小波子带WS中(a,b)处的小波系数，即特定方向的边缘强度。通过对WS中(a，b)处的(2M+1) X (2M+1)邻域内的小波系数进行平均，可以有效的避免由于压缩效应和噪声对边缘强度造成的影响。再计算第i-Ι帧和第i帧的小波子带WS中点(x，y)处的协方差，可以采用式(2) 计算<formula>formula see original document page 7</formula>式(2)中，协方差可以用来表示两帧相应子带的小波系数在(a，b)周围的局部小区域内的耦合情况；其中，为了量化的表示相对边缘变化情况，可以使用式⑶计算子带WS 中某点的帧间相关系数
<formula>formula see original document page 8</formula>(3)一个帧各个位置的IFCC可以为该帧各子带中相应位置ISCC的最大值。从式(3)可以看出，帧间相关系数不仅考虑了局部区域内的平均边缘强度变化以减少噪声和压缩效应的影响，还通过计算两帧间局部区域的耦合性，可以反映这些边缘点的运动情况。而通过耦合程度与平均边缘强度之积的比值，相当于使用相对边缘强度来表示点(X，y)所在的局部区域内，边缘位置的变化情况。为了量化的表示边缘的稳定程度，在式(3)中将帧间相关系数的取值可以限定在-1和1之间。ε为预定义的一个比较小的数值，表明对无边缘区域，其相关性取为-1，从而减少计算量。通过式(3)计算帧间相关系数，可以在有效的在摒弃噪声和压缩效应的情况下，计算背景发生改变的两帧特定子带特定位置的边缘稳定性，从而根据式(3)计算得到的帧间相关系数确定每个像素区域属于静止纹理的概率ΡΜ。103、获取像素区域属于动态纹理的概率；由于视频中运动纹理的运动方向不固定，且运动速度也不一致，从而表现为视频中运动区域的边缘强度、运动强度等属性不固定。本发明实施例可以通过基于运动宏块特征的支持向量机(SVM)分类器获取像素区域属于动态纹理的概率，该SVM分类器可以通过预先标注的训练集进行训练。具体地，可以将视频帧的多级小波高频子带(LH，HL，HH)划分为宏块，其中HH是对角方向的小波系数；计算每个宏块与其四邻域内宏块的关系，即计算每个宏块与上下左右相邻的宏块的关系；再由SVM分类器根据宏块与其四邻域内宏块的关系计算该宏块属于动态纹理的概率Ρτ;其中，宏块与其四邻域内宏块的关系可以是边缘强度对比度(4维)和运动强度(4维)和方向对比度(4维)等，其中运动强度可以由宏块匹配得到，方向对比度可以由运动方向的夹角确定。通过SVM分类器可以提高检测速度和检测准确度。可以理解的是，101、和102、和103的执行并没有时间上的先后顺序；104、根据像素区域属于平滑背景的概率、属于静止纹理的概率和属于动态纹理的概率确定像素区域是否属于滚动字幕区域。在获得像素区域属于平滑背景的概率、属于静止纹理的概率和属于动态纹理的概率后，可以将这三个概率的概率值计算成一个概率值(例如可以通过直接相乘、或直接相力口、或加权相乘、或加权相加等方式计算)，进而使用该一个概率值与预先设置的阈值进行判断，从而确定像素区域是否属于滚动字幕区域。在确定了各个属于滚动字幕区域的像素区域后，就可以将这些属于滚动字幕区域的像素区域连接起来形成滚动字幕，从而检测出视频帧中的滚动字幕。从上可知，本实施例可以使用帧间相关系数确定像素区域属于静止纹理的概率，从而可以使用多个视频帧的信息定位视频帧上的字幕区域，能够有效地反映出边缘的变化情况，减少字幕区域的漏检测或误检测，并且使用帧间相关系数确定可以提高检测速度。图2描述了字幕检测方法实施例二的流程，包括201、获取视频帧中像素区域属于平滑背景的概率；
202、使用帧间相关系数确定像素区域属于静止纹理的概率；203、获取像素区域属于动态纹理的概率；204、根据像素区域属于平滑背景的概率、属于静止纹理的概率和属于动态纹理的概率确定像素区域是否属于滚动字幕区域；其中，201至204可以参照101至104执行；205、将确定属于滚动字幕区域的像素区域的所在区域聚为滚动字幕区域；通过204可以确定视频帧中所有可能属于滚动字幕区域的像素区域；在确定一个像素区域属于滚动字幕区域后，从该像素区域向邻域搜索，将邻域中与该像素区域具有一致特征的像素区域归入一个区域，并用相应区域编号来标志，直到没有新的像素区域进入该区域，从而可以得到连通区域。将相邻的连通区域进行连接，就可以形成文字块，再通过切分的方法，就可以将确定为滚动字幕区域的像素区域聚为滚动字幕区域。
206、计算滚动字幕区域的全局特征；在确定了一个视频帧的滚动字幕区域后，可以计算某滚动字幕区域的像素区域的全局特征，其中全局特征可以包括平均边缘能量、和平均运动方向、和平均运动强度及颜色直方图等；207、根据全局特征确定滚动字幕区域的运动特征；其中，如果全局特征包括了平均运动方向和平均运动强度，则可以直接使用平均运动方向和平均运动强度作为滚动字幕区域的运动特征；208、根据运动特征确定滚动字幕区域在视频中的起始帧和终止帧。在确定了滚动字幕的整体运动特征后，可以根据运动特征估计视频帧的前后视频帧中滚动字幕区域的可能位置，计算该可能位置的像素区域的全局特征，再将可能位置的全局特征与206得到的全局特征进行比较，判断可能位置是否为滚动字幕区域，具体地，如果可能位置的全局特征与206得到的全局特征的差值小于预先设定的阈值，则可以认为可能位置为滚动字幕区域。直到根据某个视频帧的前一视频帧的可能位置的全局特征确定该前一视频帧没有滚动字幕区域后，就可以确定该某个视频帧是滚动字幕在视频中的起始帧。或根据某个视频帧的后一视频帧的可能位置的全局特征确定该后一视频帧没有滚动字幕区域后，就可以确定该某个视频帧是滚动字幕在视频中的终止帧；从而可以标注出视频中所有的滚动字幕区域。从上可知，本实施例可以使用帧间相关系数确定像素区域属于静止纹理的概率，从而可以使用多个视频帧的信息定位视频帧上的字幕区域，能够有效地反映出边缘的变化情况，减少字幕区域的漏检测或误检测，并且使用帧间相关系数确定可以提高检测速度；进一步，通过滚动字幕区域的运动特征在时域上确定滚动字幕区域在视频中的起始帧和终止帧，可以加快视频中滚动字幕区域的检测速度。本发明实施例还提供了背景恢复方法，图3描述了背景恢复方法实施例一的流程，包括301、确定像素区域的周边像素区域的颜色值；该像素区域属于文字区域；在通过本发明实施例提供的字幕检测方法或其他字幕检测方法确定了视频帧上的文字区域后，就可以对文字区域进行背景恢复；其中，文字区域可以是滚动字幕区域、标题文字区域等；
302、使用颜色值进行线性插值，获得像素区域的颜色值；由于一个文字像素区域的前、后帧及周边位置既可能是其他的文字像素区域，也可能是背景区域，因此，某文字像素区域所在位置的颜色，可以由该文字像素区域前后N帧 (时间上下文)以及左右M个像素区域(空间上下文)的颜色值进行线性插值得出；例如，在计算某特定像素点(X，y)时，其周边像素点的颜色权重由三个参数决定时空距离、文字像素概率和空域边缘强度。时空距离表征周边像素(x+i，y+j，t+k)对该像素(X，1’ t)的影响，一般距离越大，权值越小；文字像素概率&&，y)越大，说明该周边像素对恢复背景颜色的贡献越小，相应的权值也越小；空域边缘强度越大，该周边像素属于文字区域的可能性越大，因而其权值也越小。对于上述三种权重进行加权，并进行归一化处理，然后可以通过某个像素区域周边的(2M+1) (2N+D-1个像素区域的颜色值进行线性的插值，从而获得待恢复像素的颜色值。例如可以通过式(4)进行计算
<formula>formula see original document page 10</formula>
其中，N和M可以根据需要进行取值，Ci^k是每个周边像素的权重。303、使用像素区域的颜色值所对应的颜色对像素区域进行恢复。在得到像素区域的颜色值后，就可以使用该颜色值对应的颜色对像素区域进行恢
Μ. ο由于文字区域的所有像素区域都需要进行恢复，因此可以随机的对文字区域的像素区域的颜色进行恢复，也可以按照一定的顺序对文字区域的像素区域的颜色进行恢复。在本发明实施例的一个实现方式中，可以按照文字区域中像素区域的恢复优先级对文字区域的像素区域的颜色进行恢复，此时，需要先确定各个像素区域的恢复优先级，然后再按照恢复优先级的顺序，使用文字区域中各个像素区域颜色值对应的颜色对各个像素区域进行恢复。其中，像素区域的优先级可以由该像素区域属于文字区域的概率以及该像素区域的周边像素区域属于文字区域的概率进行确定，因此可以先计算像素区域属于文字区域的概率Pt(χ，y)以及该像素区域的周边像素区域属于文字区域的概率Pa(χ，y)，再根据该像素区域属于文字区域的概率和周边像素区域属于文字区域的概率，确定该像素区域的恢复优先级。具体地，可以确定Pt(X，y)高和Pa(x，y)低具有较高的恢复优先级，例如可以根据 Pt(x, y)和ΡΑ(χ，y)的差值的大小确定恢复优先级，差值大的具有较高的恢复优先级，差值小的具有较低的恢复优先级；或者根据Pa(χ，y)*[l_PT(x，y)]的结果值的大小确定恢复优先级，结果值大的具有较高的恢复优先级，结果值小的具有较低的恢复优先级。从上可知，本实施例可以根据像素区域的周边像素区域的颜色确定该像素区域的颜色，可以使用环境信息，避开大量的区域匹配，能够快速有效地进行背景恢复。本发明实施例还提供了字幕检测装置，图4描述了字幕检测装置实施例一的结构，包括平滑背景概率获取单元401，用于获取视频帧中像素区域属于平滑背景的概率；其中，平滑背景概率获取单元401具体可以包括分解单元4011，用于对视频帧进行多尺度的小波分解，获得小波分解区域，小波分解区域包括像素区域；强度值计算单元4012，用于计算分解单元4011分解获得的小波分解区域的边缘区域的平均强度值；确定单元4013，用于根据强度值计算单元4012计算得到的平均强度值确定小波分解区域是否属于平滑背景。静止纹理概率确定单元402，用于使用帧间相关系数确定像素区域属于静止纹理的概率；其中，静止纹理概率确定单元402具体可以包括系数计算单元4021，用于计算帧间子带相关系数；系数确定单元4022，用于使用系数计算单元4021计算得到的帧间子带相关系数确定帧间相关系数；概率确定单元4023，用于根据系数确定单元4022确定的帧间相关系数确定像素区域属于静止纹理的概率。动态纹理概率获取单元403，用于获取像素区域属于动态纹理的概率；其中，动态纹理概率获取单元403具体可以包括划分单元4031，用于将视频帧的多级小波高频子带划分为宏块，宏块包括像素区域；关系计算单元4032，用于计算划分单元划分的宏块与四邻域内宏块的关系；概率确定单元4033，用于根据关系计算单元计算得到的宏块与四邻域内宏块的关系，计算宏块属于动态纹理的概率。滚动字幕区域确定单元404，用于根据平滑背景概率获取单元401 (具体可以是确定单元4013)获取的像素区域属于平滑背景的概率、和静止纹理概率确定单元402 (具体可以是概率确定单元4023)确定的像素区域属于静止纹理的概率、和动态纹理概率获取单元 403 (具体可以是概率确定单元4033)获取的像素区域属于动态纹理的概率，确定像素区域是否属于滚动字幕区域。从上可知，字幕检测装置的本实施例可以使用帧间相关系数确定像素区域属于静止纹理的概率，从而可以使用多个视频帧的信息定位视频帧上的字幕区域，能够有效地反映出边缘的变化情况，减少字幕区域的漏检测或误检测，并且使用帧间相关系数确定可以提高检测速度。图5描述了字幕检测装置实施例二的结构，包括平滑背景概率获取单元501，用于获取视频帧中像素区域属于平滑背景的概率；其中，平滑背景概率获取单元501具体可以包括分解单元5011，用于对视频帧进行多尺度的小波分解，获得小波分解区域，小波分解区域包括像素区域；强度值计算单元 5012，用于计算分解单元5011分解获得的小波分解区域的边缘区域的平均强度值；确定单元5013，用于根据强度值计算单元5012计算得到的平均强度值确定小波分解区域是否属于平滑背景。静止纹理概率确定单元502，用于使用帧间相关系数确定像素区域属于静止纹理的概率；其中，静止纹理概率确定单元502具体可以包括系数计算单元5021，用于计算帧间子带相关系数；系数确定单元5022，用于使用系数计算单元5021计算得到的帧间子带相关系数确定帧间相关系数；概率确定单元5023，用于根据系数确定单元5022确定的帧间相关系数确定像素区域属于静止纹理的概率。动态纹理概率获取单元503，用于获取像素区域属于动态纹理的概率；其中，动态纹理概率获取单元503具体可以包括划分单元5031，用于将视频帧的多级小波高频子带划分为宏块，宏块包括像素区域；关系计算单元5032，用于计算划分单元划分的宏块与四邻域内宏块的关系；概率确定单元5033，用于根据关系计算单元计算得到的宏块与四邻域内宏块的关系，使用SVM分类器计算宏块属于动态纹理的概率。滚动字幕区域确定单元504，用于根据平滑背景概率获取单元501 (具体可以是确定单元5013)获取的像素区域属于平滑背景的概率、和静止纹理概率确定单元502 (具体可以是概率确定单元5023)确定的像素区域属于静止纹理的概率、和动态纹理概率获取单元 503 (具体可以是概率确定单元5033)获取的像素区域属于动态纹理的概率，确定像素区域是否属于滚动字幕区域。汇聚单元505，用于将滚动字幕区域确定单元504确定的属于滚动字幕区域的像素区域的所在区域聚为滚动字幕区域；计算单元506，用于计算汇聚单元505聚成的滚动字幕区域的全局特征；运动特征确定单元507，用于根据计算单元506计算得到的全局特征确定滚动字幕区域的运动特征；
帧确定单元508，用于根据运动特征确定单元507确定的运动特征确定滚动字幕区域在视频中的起始帧和终止帧。从上可知，字幕检测装置的本实施例可以使用帧间相关系数确定像素区域属于静止纹理的概率，从而可以使用多个视频帧的信息定位视频帧上的字幕区域，能够有效地反映出边缘的变化情况，减少字幕区域的漏检测或误检测，并且使用帧间相关系数确定可以提高检测速度；进一步，通过滚动字幕区域的运动特征在时域上确定滚动字幕区域在视频中的起始帧和终止帧，可以加快视频中滚动字幕区域的检测速度。本发明实施例还提供了背景恢复装置，图6描述了背景恢复装置实施例的结构，包括确定单元61，用于确定像素区域的周边像素区域的颜色值，像素区域属于文字区域；插值单元62，用于使用确定单元61确定的颜色值进行线性插值，获得像素区域的颜色值；恢复单元63，用于使用插值单元得到的像素区域的颜色值所对应的颜色对像素区域进行恢复。恢复单元63具体可以包括优先级确定单元631，确定像素区域的恢复优先级；颜色恢复单元632，用于按照优先级确定单元631确定的恢复优先级的顺序，使用插值单元62 获得的文字区域中各个像素区域的颜色值对应的颜色对各个像素区域进行恢复。其中，优先级确定单元631具体可以包括概率计算单元6311，用于计算像素区域属于文字区域的概率；计算该像素区域的周边像素区域属于文字区域的概率；优先级计算单元6312，用于根据概率计算单元计算得到的像素区域属于文字区域的概率和周边像素区域属于文字区域的概率，确定像素区域的恢复优先级。从上可知，本实施例可以根据像素区域的周边像素区域的颜色确定该像素区域的颜色，可以使用环境信息，避开大量的区域匹配，能够快速有效地进行背景恢复。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述的字幕检测方法和/或背景恢复方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory, RAM)等。
以上对本发明实施例所提供的字幕检测方法及装置、背景恢复方法及装置进行了详细介绍，以上实施例的说明只是用于帮助理解本发明的方法及其思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式
及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
权利要求
一种字幕检测方法，其特征在于，包括获取视频帧中像素区域属于平滑背景的概率；使用帧间相关系数确定所述像素区域属于静止纹理的概率；获取所述像素区域属于动态纹理的概率；根据所述像素区域属于平滑背景的概率、属于静止纹理的概率和属于动态纹理的概率确定所述像素区域是否属于滚动字幕区域。
2.如权利要求1所述的字幕检测方法，其特征在于，确定所述像素区域属于滚动字幕区域后，该方法还包括将确定属于滚动字幕区域的像素区域的所在区域聚为滚动字幕区域；计算所述滚动字幕区域的全局特征；根据所述全局特征确定滚动字幕区域的运动特征；根据所述运动特征确定所述滚动字幕区域在视频中的起始帧和终止帧。
3.如权利要求1所述的字幕检测方法，其特征在于，所述使用帧间相关系数确定所述像素区域属于静止纹理的概率的步骤包括计算帧间子带相关系数；使用所述帧间子带相关系数确定帧间相关系数；根据所述帧间相关系数确定所述像素区域属于静止纹理的概率。
4.如权利要求1至3任一所述的字幕检测方法，其特征在于，所述获取所述像素区域属于动态纹理的概率的步骤包括将所述视频帧的多级小波高频子带划分为宏块，所述宏块包括像素区域；计算所述宏块与四邻域内宏块的关系；根据所述宏块与四邻域内宏块的关系，计算所述宏块属于动态纹理的概率。
5.如权利要求4所述的字幕检测方法，其特征在于，所述宏块与四邻域内宏块的关系包括边缘强度对比度、运动强度和方向对比度。
6.如权利要求1至3任一所述的字幕检测方法，其特征在于，所述获取视频帧中像素区域属于平滑背景的概率的步骤包括对所述视频帧进行多尺度的小波分解，获得小波分解区域，所述小波分解区域包括像素区域；计算所述小波分解区域的边缘区域的平均强度值；根据所述平均强度值确定所述小波分解区域是否属于平滑背景。
7.一种背景恢复方法，其特征在于，包括确定像素区域的周边像素区域的颜色值，所述像素区域属于文字区域；使用所述颜色值进行线性插值，获得所述像素区域的颜色值；使用所述像素区域的颜色值所对应的颜色对所述像素区域进行恢复。
8.如权利要求7所述的背景恢复方法，其特征在于，使用所述像素区域的颜色值所对应的颜色对所述像素区域进行恢复的步骤包括确定所述像素区域的恢复优先级；按照恢复优先级的顺序，使用所述文字区域中各个像素区域颜色值对应的颜色对各个像素区域进行恢复。
9.如权利要求8所述的背景恢复方法，其特征在于，所述确定像素区域的恢复优先级的步骤包括计算所述像素区域属于文字区域的概率；计算该像素区域的周边像素区域属于文字区域的概率；根据所述像素区域属于文字区域的概率和所述周边像素区域属于文字区域的概率，确定所述像素区域的恢复优先级。
10.一种字幕检测装置，其特征在于，包括平滑背景概率获取单元，用于获取视频帧中像素区域属于平滑背景的概率；静止纹理概率确定单元，用于使用帧间相关系数确定所述像素区域属于静止纹理的概率；动态纹理概率获取单元，用于获取所述像素区域属于动态纹理的概率；滚动字幕区域确定单元，用于根据所述平滑背景概率获取单元获取的像素区域属于平滑背景的概率、所述静止纹理概率确定单元确定的像素区域属于静止纹理的概率和所述动态纹理概率获取单元获取的所述像素区域属于动态纹理的概率，确定所述像素区域是否属于滚动字幕区域。
11.如权利要求10所述的字幕检测装置，其特征在于，还包括汇聚单元，用于将所述滚动字幕区域确定单元确定的属于滚动字幕区域的像素区域的所在区域聚为滚动字幕区域；计算单元，用于计算所述汇聚单元聚成的滚动字幕区域的全局特征；运动特征确定单元，用于根据所述计算单元计算得到的全局特征确定滚动字幕区域的运动特征；帧确定单元，用于根据所述运动特征确定单元确定的运动特征确定所述滚动字幕区域在视频中的起始帧和终止帧。
12.如权利要求10所述的字幕检测装置，其特征在于，所述静止纹理概率确定单元包括系数计算单元，用于计算帧间子带相关系数；系数确定单元，用于使用所述系数计算单元计算得到的帧间子带相关系数确定帧间相关系数；概率确定单元，用于根据所述系数确定单元确定的帧间相关系数确定所述像素区域属于静止纹理的概率。
13.如权利要求10至12任一所述的字幕检测装置，其特征在于，所述动态纹理概率获取单元包括划分单元，用于将所述视频帧的多级小波高频子带划分为宏块，所述宏块包括像素区域；关系计算单元，用于计算所述划分单元划分的宏块与四邻域内宏块的关系；概率确定单元，用于根据所述关系计算单元计算得到的宏块与四邻域内宏块的关系，计算所述宏块属于动态纹理的概率。
14.如权利要求10至12任一所述的字幕检测装置，其特征在于，所述平滑背景概率获取单元包括分解单元，用于对所述视频帧进行多尺度的小波分解，获得小波分解区域，所述小波分解区域包括像素区域；强度值计算单元，用于计算所述分解单元分解获得的小波分解区域的边缘区域的平均强度值；确定单元，用于根据所述强度值计算单元计算得到的平均强度值确定所述小波分解区域是否属于平滑背景。
15.一种背景恢复装置，其特征在于，包括确定单元，用于确定像素区域的周边像素区域的颜色值，所述像素区域属于文字区域；插值单元，用于使用所述确定单元确定的颜色值进行线性插值，获得所述像素区域的颜色值；恢复单元，用于使用所述插值单元得到的像素区域的颜色值所对应的颜色对所述像素区域进行恢复。
16.如权利要求15所述的背景恢复装置，其特征在于，所述恢复单元包括优先级确定单元，确定所述像素区域的恢复优先级；颜色恢复单元，用于按照所述优先级确定单元确定的恢复优先级的顺序，使用所述文字区域中各个像素区域的颜色值对应的颜色对各个像素区域进行恢复。
17.如权利要求16所述的背景恢复装置，其特征在于，所述优先级确定单元包括概率计算单元，用于计算所述像素区域属于文字区域的概率；计算该像素区域的周边像素区域属于文字区域的概率；优先级计算单元，用于根据所述概率计算单元计算得到的像素区域属于文字区域的概率和所述周边像素区域属于文字区域的概率，确定所述像素区域的恢复优先级。
全文摘要
本发明涉及视频检测技术，公开了字幕检测方法及装置、背景恢复方法及装置，其中字幕检测方法包括获取视频帧中像素区域属于平滑背景的概率；使用帧间相关系数确定所述像素区域属于静止纹理的概率；获取所述像素区域属于动态纹理的概率；根据所述像素区域属于平滑背景的概率、属于静止纹理的概率和属于动态纹理的概率确定所述像素区域是否属于滚动字幕区域。使用本发明实施例提供的技术方案，可以使用帧间信息对视频的字幕进行检测。
文档编号H04N5/445GK101835011SQ200910118779
公开日2010年9月15日申请日期2009年3月11日优先权日2009年3月11日
发明者严军, 张毅, 彭展, 李甲, 田永鸿, 贾国琛申请人:华为技术有限公司;北京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贾国琛;严军;李甲;彭展;田永鸿;张毅
技术所有人：华为技术有限公司;北京大学
我是此专利的发明人

上一篇：S101隧道重定向的方法和相关装置的制作方法
上一篇：一种实现点到多点伪线的方法、设备和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。