一种在视频画面中提取字幕区域的方法与流程

文档序号：11845164阅读：1432来源：国知局

本发明涉及一种在视频画面中提取字幕区域的方法。

背景技术：

对于电视台来说，本台的新闻材料有完整的存储管理系统，很容易对一个新闻视频中的一则新闻进行后续使用；但是，其余来源的新闻视频就需要进行拆条处理，即将新闻视频拆分成一个一个单独的新闻以便后续使用。新闻视频中的字幕，尤其是标题字幕能简明扼要地体现这则新闻的要点。如果能把视频画面中的字幕提取出来，那么就能快速为拆分成一个一个的单独的新闻确定合适的标题,这对于视频分类整理、快速搜索等都有很大的好处。

为了提高新闻拆条处理的效率,快速给拆分的新闻确定合适的标题,同时为了方便对新闻视频的分类整理、快速搜索而发明的一种依据视频字幕特性从视频画面中提取字幕区域的方法。

技术实现要素：

本发明的目的在于克服现有技术的不足，提供一种在视频画面中提取字幕区域的方法。

本发明的目的是通过以下技术方案来实现的：一种在视频画面中提取字幕区域的方法，它包括以下步骤：

S1：去除噪音处理：根据字幕和背景画面的纹理差异采用最大值梯度方法得到梯度图像数据：其中，字幕部分会有整齐的数据，而背景画面则会出现无规律的噪音数据；去除无规律的噪音数据部分；

S2：定位字幕区域，包括以下子步骤：

S21：布种子，初始状态下，把整个区域的值设置为背景，根据梯度图像数据寻找合适的地方布下种子，以保证种子在字上；

S22：采用最大值法计算待判断腐蚀的点即G点的值，包括以下子步骤：

S221：分别计算出原始图在垂直、水平、对角线三个方向的灰度、R、G、B四个通道的最大值；

S222：计算四个值中的最大值，所述最大值记为G点的值；

S23：加锁腐蚀，包括以下子步骤：

S231：依次遍历种子图中种子的左、右、上、下四个方向的点，判断该点是否被腐蚀即判断该点是否为G点：如果该点已经被腐蚀，继续判断下一个点；若该点未被腐蚀，则继续下一步；

S232：比较该点的值和一个设定的第一阈值nGsensitive的大小，若该点的值大于阈值则不能腐蚀该点，即为该点加了一层锁；若该点的值小于阈值，则进行下一步，进行向左腐蚀；

S233： G点为种子左边待判断腐蚀的点，种子右边有0到N个已经被腐蚀的点，向左腐蚀，包括以下子步骤：

S2331：判断种子右边的被腐蚀的点的数量：

（1）当种子右边没有被腐蚀的点时，则G点可以被腐蚀；

（2）当种子右边有1到N 个被腐蚀的点时，计算G点与最右边的点的灰度、R、G、B四通道的最大值，当该最大值小于设定的第二阈值nSensitive，则G点可以腐蚀，否则不能被腐蚀即给该点加一层锁；

S2332：被腐蚀的点成为种子，并返回步骤S2331直到无法再腐蚀位置；

S234：监测字幕边缘区域是否达到腐蚀标准，如果已达到则结束腐蚀，否则加大腐蚀的第二阈值nSensitive再重复上述步骤；

S235：根据腐蚀结果提取字幕数据，然后再根据文字特征去除噪音数据，最后得到一个准确的字幕位置区域；

S3：确定新闻标题，包括以下子步骤：

S31：依据视频特性中字幕的连续性特征对视频中连续的相同字幕区域进行筛选和过滤，并选取效果较好的作为识别字幕的图片；

S32：将字幕图片转换为文字，即为这则新闻的新闻标题。

一种在视频画面中提取字幕区域的方法还包括一个阈值设置子步骤S0，在开始之前分别对第一阈值nGsensitive和第二阈值nSensitive进行设置。

所述的N取值为4。

所述的步骤S1还包括以下子步骤：根据新闻字幕轮廓上下对齐的特征对视频画面进行横向的条带化识别，并根据新闻字幕的特征进行噪音去除处理。

本发明的有益效果是：

本发明是为了提高新闻拆条处理的效率,快速给拆分的新闻确定合适的标题,同时为了方便对新闻视频的分类整理、快速搜索而提供的一种依据视频字幕特性从视频画面中提取字幕区域的方法。其中，采用加锁腐蚀的方法确定字幕区域方便并且可靠性高。

附图说明

图1为本发明方法流程图；

图2为原始图垂直、水平、对角线三个方向示意图；

图3为加锁腐蚀流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案：

首先，新闻视频具有如下特点：

1）字幕和背景的纹理差异：一般为了使字幕清楚易分辨，字幕和背景会有明显的分割线，所以字幕和背景的纹理差异是很大的，可以以此确定字幕的轮廓。

2）新闻字幕的特征：

a）轮廓上下对齐：从轮廓上看，背景画面一般是无规律的图案信息，而新闻字幕则是上下齐整的图案。

b）轮廓变换密度大：从轮廓上看，背景画面很少有轮廓参差变换很多的，而新闻字幕的轮廓变换密度是很大的。

c）可以切分：因为字与字之间有间隔，字幕中每一个字从轮廓看都是形状相似的独立的个体，对于字幕区域，是可以切分的；而背景画面却很难出现可以按轮廓切分成形状相似的个体。

d）一般存在边框特性：新闻字幕一般都会放在专门的字幕底板上，具有本身颜色连续渐变或不变，但与上下或左右却明显变化的特征，可根据底板特征去除旁边的节目标识数据。

3）视频的特性：

a）连续性：对于字幕来说，连续一段时间（对于新闻内容字幕可能是几毫秒也可能是几秒，但对于新闻标题字幕可能长达几分钟甚至十几分钟），视频画面在变化时，字幕却不会发生变化。也就是说，在一段连续的帧中，字幕没有发生变化，具有连续性。

b）位置不变：字幕是编辑在字幕底板的规定区域上的，而字幕底板的位置一般是不变的，所以字幕区域的位置也是固定不变的，而且字幕底板的背景色是渐变或不变的。

因此，根据上述特点，如图1所示，一种在视频画面中提取字幕区域的方法，它包括以下步骤：

S1：去除噪音处理：

（1）根据字幕和背景画面的纹理差异采用最大值梯度方法得到梯度图像数据：其中，字幕部分会有整齐的数据，而背景画面则会出现无规律的噪音数据；去除无规律的噪音数据部分；

（2）根据新闻字幕轮廓上下对齐的特征对视频画面进行横向的条带化识别（条带化识别：对画面进行一定宽度的一条一条的识别），并根据新闻字幕的特征进行噪音去除处理。

S2：定位字幕区域，

a）根据新闻字幕的特征定位出画面上可能有字幕的区域；

b）标题字都是编辑在字幕底板上的,根据字幕底板位置不变且背景色是渐变或不变的可以确定字幕底板大小，并再次定位出字幕区域；

c）采用加锁腐蚀的方法进一步确定字幕区域：包括以下子步骤：

S21：布种子，初始状态下，把整个区域的值设置为背景（255），根据梯度图像数据寻找合适的地方布下种子，以保证种子在字上；其中，种子的值为0；

S22：采用最大值法计算待判断腐蚀的点即G点的值，包括以下子步骤：

S221：分别计算出原始图在垂直、水平、对角线三个方向（如图2所示）的灰度、R、G、B四个通道的最大值：

G_灰度[x]=Max（abs（a1-a2）,abs(b1-b2),abs(c1-c2),abs(d1-d2)）；

G_R[x]=Max（abs（a1-a2）,abs(b1-b2),abs(c1-c2),abs(d1-d2)）；

G_G[x]=Max（abs（a1-a2）,abs(b1-b2),abs(c1-c2),abs(d1-d2)）；

G_B[x]=Max（abs（a1-a2）,abs(b1-b2),abs(c1-c2),abs(d1-d2)）；

S222：计算四个值中的最大值，所述最大值记为G点的值：

G[x]=Max(G灰度[x], G_R[x], G_G[x], G_B[x])

S23：如图3所示，加锁腐蚀，包括以下子步骤：

S231：依次遍历种子图中种子的左、右、上、下四个方向的点，判断该点是否被腐蚀即判断该点是否为G点：如果该点的值为0则已经被腐蚀，继续判断下一个点；若该点的值不为0，则继续下一步；

S233：G点为种子左边待判断腐蚀的点，种子右边有0到4个已经被腐蚀的点，向左腐蚀，包括以下子步骤：