一种视频字幕提取的方法

文档序号:6610018阅读:394来源:国知局
专利名称:一种视频字幕提取的方法
技术领域
本发明属于视频分析和检索技术领域,具体涉及一种视频字幕提取 的方法。
背景技术
随着互联网视频内容的不断增加,以及数字图书馆、视频点播、远 程教学等大量的多媒体应用,如何在海量视频中检索出所需要的资料显 得至关重要。传统的基于关键词描述的视频检索因为描述能力有限、主 观性强、手工标注等原因,已经不能满足海量视频检索的需求。因此从
20世纪90年代开始,基于内容的视频检索技术成为研究的热点问题, 而视频字幕的识别技术正是实现视频检索的关键技术,如果能够自动识 别出视频中的字幕信息,则可以建立高效的文本索引结构,从而实现基 于查询文本的视频检索。因此,该技术不仅是下一代搜索引擎的关键技 术,也是互联网视频管理和监控的关键技术,具有十分重要的研究和应 用价值。现有的视频字幕提取技术, 一般都是针对特定的视频,没有考 虑视频字幕的多样性和复杂性,以及视频在时间上的冗余信息,因此不 能有效提取视频中的字幕信息。
2005年在IEEE Transactions on Circuits and Systems for Video Technology上发表的文献"A comprehensive method for multilingual video text detection, localization, and extraction"(作者是 Michael R. Lyu, Jiqiang Song, Min Cai,页石马是243-255 ),提出了 一种视频字幕提取的方法。
该文献首先利用边缘;险测算子求得视频帧的边缘图,然后用分析边缘投 影图的波峰和波谷的方法来找到可能的字幕区域。基于字幕区域检测的 结果,该文献利用局部阈值对字幕区域进行二值化,并对得到的二值图 片进行填充以去除噪声,进而从中提取出文字。该方法主要针对背景简 单、文字对比度较强的字幕区域。而对于背景复杂、文字对比度较弱的 字幕区域提取的效果较差。因此适应面并不广,视频字幕的提取效果还 需要提高。

发明内容
针对现有技术的不足,本发明提出了一种视频字幕提取的方法,用 于获取视频中的字幕信息。该方法可以有效地获取准确、清晰的二值化
字幕图片,从而可以更好地利用OCR软件获^^见频完整的字幕文本。 为达到以上目的,本发明的技术方案如下
一种视频字幕提取的方法,用于把视频字幕区域检测结果由灰度图 转换成二值图,并利用OCR软件获取字幕文字识别结果,包括以下步骤
(1) 对视频字幕区域进行基于连通区统计的字幕颜色判断,确认字 幕颜色是深色还是浅色,同时反转浅色字幕的灰度图片为深色字幕图 片;
(2) 对步骤(1)获得的灰度图片进行基于局部窗口分析的灰度图 片二值化;
(3) 对步骤(2)中得到的二值图片进行OCR软件识别,提取字幕
结果。该字幕结果可以是视频字幕文本。
进一步,上述的视频字幕提取的方法,所述步骤(l)之前增加如 下灰度值调整的步骤。具体方法如下
对字幕区域的每一个像素x,按照下列公式调整它的灰度值。 公式一I' (x)=128 + (I(x)- med) x ratio 公式二 med= (max-min) x 0. 5 公式三ratio=255/(max-min) 其中,I' (x)是经过调整后像素x的新灰度值,I(x)是调整之前像 素x的灰度值,med是字幕区域内所有像素的最大灰度值max与最小灰 度值min的平均值,ratio表示灰度值调整的幅度。
进一步,上述的^L频字幕提取的方法,所述步骤(2)和(3)之间
增加如下步骤对所述步骤(2)获得的二值图片进行周边融合去噪。
具体地,去除二值化图片背景噪声的方法可以按照如下步骤进行
A:把二值图片周边一定像素宽的所有像素都变成黑色;
B:寻找有周边像素的连通区,把这个连通区转成和背景相同的白色。
进一步,上述的视频字幕提取的方法,所述步骤(1)的颜色判断
的具体方法是用0tsu方法把灰度图片二值化,然后查找白色和黑色 的4连通块,去除连通块外接矩形的宽高都极小的那些连通块,最后统 计出的白色连通块个数和黑色连通块个数"私m。如果 "1^〉"恥m,则字幕是浅色的,反之则为深色。
进一步,上述的视频字幕提取的方法,所述步骤(2)的具体方法 是利用一个小窗口从左到右依次重叠扫描灰度字幕区域,然后对小窗 口中的灰度值进行分析得到0tsu阈值,进行二值化。
进一步,上述的视频字幕提取的方法,所述步骤(3)的具体方法 是把步骤(2)中得到的二值图片,输入OCR软件进行识别以获^^见 频字幕文本。
本发明的效果在于与现有方法相比,本发明可以取得更高的视频 字幕的识别率,从而充分发挥视频字幕信息在视频检索和视频搜索引擎 中的巨大作用。
本发明之所以具有上述发明效果,其原因在于本发明提出了基于 连通区统计的字幕文字颜色判断、基于局部窗口分析的灰度图片二值化 方法,最后通过OCR软件识别字幕区域的二值化图片,以获取视频的字 幕文本。相比现有方法而言,本发明使用了字幕文字颜色判断和局部阈 值的方法,能取得较好的二值化效果。本发明还可以首先对字幕区域进 行灰度值调整,并对获得的二值化图片进行周边融合去噪,因此进一步 提高了本发明的字幕识别结果。


图l是本发明的流程示意图。
具体实施例方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
本实施方式中,首先通过一种定位视频字幕区域的方法对^L频中的 字幕区域进行检测,然后采用本发明的视频字幕提取方法进行字幕提 取。当然,对于采用任何现有的其他方法获得的视频字幕区域,也可以 采用本发明的方法进行字幕提取。
1、视频字幕区域检测,包括
(l)抽取视频帧,把视频帧转换成边缘强度图。
利用改进后的Sobel边缘检测算子计算每个像素点的边缘强度值, 公式如下<formula>formula see original document page 7</formula>
其中,SH、 Sv、 Sld、 Skd分別表示水平、垂直、左对角线、右对角线 这四个方向上的Sobel边缘强度值,Max是计算最大值。
(2 )根据背景的复杂程度自动调整分割尺度,多次应用水平和垂直 投影的方法分割出字幕区域。
需要一个待处理区域集合S,刚开始时,集合S中只有当前抽取的 视频帧的边缘强度图区域。在处理的过程中,每次在S中取一个区域A。 进行处理,直到集合S为空为止。对区域A。处理的方法是首先对区域 A。进行水平方向的投影,统计每行边缘像素的数目,然后根据A。的水平 投影图进行垂直方向的分割。如果A。在垂直方向是不可分割的,就把它 作为一个整体进行垂直方向的投影和水平方向的分割;否则,把所有从 A。中分割出来的区域A,, A2 ... An进行垂直方向的投影和水平方向的分 割。如果区域Ai根据其垂直投影图不能再进行水平方向的分割,就把它 放入结果集合R中,否则把从Ai分割出来的区域放入集合S中等待处理。 在上述过程中,对于一个待分割的区域,才艮据背景复杂程度自动调 整分割尺度对其进行分割。方法描述如下对于一个待分割的区域,垂 直分割的方法是从下往上扫描边缘强度的水平投影图做分割。水平分割 的方法是从左往右扫描边缘强度的垂直投影图做分割。上述水平和垂直 分割在扫描的过程中,把强度相近的行归为一组,并随时更新这个组所 有行的边缘像素数目的平均值。如果当前扫描行的边缘像素数目和当前 组的平均值差别很大,就进行分割,然后继续扫描下一行。只有扫描行 的强度值大于一个阈值时,才开始一个新的组。当扫描到最后一行时, 对这个区域的分割就完成了 。
(3 )利用视频在时间上的冗余信息,对检测到的字幕区域进行过滤, 去除误判为字幕区域的背景块和重复出现的字幕区域。
去除误判为字幕区域的背景块的具体方法是:在单帧字幕区域检测 过程中,本发明首先在每6个连续视频帧抽取1帧,把5个抽取帧的结 果放在一个队列中,先进先出,对于一个新的抽取帧结果,把它加入队 尾,然后队首的抽取帧退出队列,对退出队列的抽取帧中所有检测到的 字幕区域进行分析;如果某个字幕区域A在队列的后面连续3个视频抽 取帧中找到相同的字幕区域,就通过验证,确认该区域A确实是字幕区
域,同时删除队列中抽取帧的相同字幕区域(短时间内重复出现),否
则该区域A不能通过验证而确认为被误判为字幕区域的背景块并去除。 最后去除重复出现的字幕区域的具体方法是把所有和当前抽取帧 的播放时间点小于一定时间间隔的抽取帧中的所有字幕区域结果备份 在一个緩存集合中,在检测下一个抽取帧时,定期清除此集合中超过预 先定义时间间隔的字幕区域。对于每一个通过多帧确认的字幕区域,如 果能在此集合中找到相同的字幕区域,则认为是短期内重复出现的,忽 略此区域,确认该字幕区域为一个重复出现的字幕区域并去除。如果找 不到,则表明此字幕区域在一段时间内没有出现,是新的区域,因此把 此区域放入最终结果中,同时在所述緩存集合中保持一个备份。
上述去除误判为字幕区域的背景块和重复出现的字幕区域的步骤 中,使用如下公式判断两个字幕区域是否相同,当下述三个公式同时满 足时,确认字幕区域A和字幕区域B相同,否则不同
公式1: abs(area(A) area(B)) < Rl x max (area (A) , area (B))) 其中abs(area(A), area (B))是字幕区域A与B的面积之差的绝 对值,max(area(A),area(B)))是A与B中较大的面积; 公式2: Cord(SP) > (R2 x SameSec (A, B))
其中SP-(Pixel I (Pixela==0 && Pixel严O) I I (Pixela>0 && Pixe 1 b>0)}, Cord (SP)表示集合SP中元素的数目; 乂>式3: Average (abs (Pixela PixeU I Pixel 6 SNZP) < R3
其中SNZP = {Pixel I (Pixela〉0&&Pixelb>0)}。 对于在不同视频帧的字幕区域A和字幕区域B,设它们左上角的坐 标分别为(xa, ya)和(xb, yb),宽高分别为[wa, ha]和[wb, hb] , i殳w = min (wa, wb), h = min (ha, hb),两个区域的重叠区i或SameSec为区域A 中的矩形(xa, ya)(xa + w, ya + h)和区域B中的矩形(xb, yb) (xb + w, yb+h)。 Pixela , Pixelb为重叠区域SameSec中的相应的像素对,Rl、 R2、 R3为比率系数。
2、采用本发明的是视频字幕提取方法提取字幕结果,具体流程如 图1所示,包括如下步骤
(1)对定位得到的视频字幕区域进行灰度值调整。 对字幕区域的每一个像素x,按照下列公式调整它的灰度值。 乂>式一I' (x)=128 + (I(x)- med) xratio
公式二med= (max-min) x 0. 5 公式三ratio=255/ (max-min) 其中,I' (x)是经过调整后像素x的新灰度值,I(x)是调整之前像 素x的灰度值,med是字幕区域内所有像素的最大灰度值max与最小灰 度值min的平均值,ratio表示灰度值调整的幅度。
(2 )对视频字幕区域进行基于连通区统计的字幕颜色判断,确认字 幕颜色是深色还是浅色,同时反转浅色字幕的灰度图片为深色字幕图 片。
利用0tsu方法把灰度图片二值化,然后查找白色和黑色的4连通 块,去除连通块外接矩形的宽高都极小的那些连通块,最后统计出的白 色连通块个数和黑色连通块个数"恥m。如果OWw,"恥w, 则字幕是浅色的,反之则为深色。同时反转浅色字幕的灰度图片为深色 字幕图片。
(3)对步骤(2)获得的灰度图片进行基于局部窗口分析的灰度图 片二值化处理。
利用一个小窗口从左到右依次重叠扫描灰度字幕区域,然后对小窗 口中的灰度值进行分析得到0tsu阈值,进行二值化。其中,窗口的高 取为字幕区域的高,窗口的宽取为字幕区域高度的一半,窗口从左往右 扫描的步长是窗口宽度的一半。
(4 )对步骤(3 )获得的二值图片进行周边融合去噪。
具体方法为
A:把二值图片周边2个像素宽的所有像素都变成黑色;
B:寻找有周边像素的连通区,把这个连通区转成和背景相同的白色。
(5) OCR软件识别。
最后把处理后的字幕区域二值化图片输入给OCR软件进行识别, 以得到^L频字幕文本。
下面的实验结果表明,与现有方法相比,本发明可以取得更高的查 全率和查准率,从而充分发挥视频字幕信息在视频检索和视频搜索引擎 中的巨大作用。
本实施例中建立了 25个小时的视频数据库,其中RMVB格式的视频 有10个,大约15个小时,包括电影和记录片;MPEG格式的电视节目有
6个,大约10个小时,包括新闻和电视剧等视频节目。这些视频内容丰 富,字幕的字体特征、颜色风格和排列走向也变化多样,这些都有助于 证明本文方法对各种情况的适应性以及最终结果的有效性。
为了确认本发明在视频字幕提取方面的有效性,我们共进行了五组 对比试验第一组是对定位的灰度视频字幕图片不做任何处理,直接送 给0CR软件识别(N0-ALL);接下来的三组试鸟全是在处理过程中,都少 做本发明视频字幕提取方法的一项操作,分别是不进行字幕区域灰度 值调整的预处理(NO-PRE ),不进行字幕文字颜色判断(N0-C0L0R)和 不进行二值化去噪(NO-BIN);最后一组是执行本具体实施方式
中提取 方法的所有操作。用字幕提取率(Caption Recognition)作为评价标准, 它的定义如下所示,字幕提取率的结果是越高越好。五组实验的最终统 计结果如表2所示。
字幕提取率-正确提取的字幕文字数目/ ;f见频中所有的字幕文字数目
从表2可以看出,因为目前的OCR软件都是针对文档图片设计的, 所以把视频字幕图片直接送给OCR软件识别,效果会很差(NO-ALL ), 只有15。/。的字幕文字能被正确识别出来。基于同样的原因,不进行二值 化去噪(NO-BIN )的识别率也很低。在不进行字幕颜色判断(NO-COLOR ) 的实验中,因为不知道字幕颜色的深浅,导致一部分字幕图片二值化处 理错误,影响OCR软件的提取效果。同样,不进行预处理(NO-PRE )的 提取效果也不好。最终,如果执行本发明的所有操作,最终的平均提取 率可以达到77%,取得了表2最好的结果,这充分说明本发明在字幕提 取方面的有效性。
离本发明的精神;口范围。、这:羊:倘若本发明的这些修改和变型属于本发
明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和 变型在内。
注本发明的工作,由国家自然科学基金资助(项目批准号 60503062 )。
表2视频字幕提取的五组实验对比结果
视频类型
RMVB视频 MPEG视频 平均
本发明 0. 8权利要求
1、一种视频字幕提取的方法,用于把视频字幕区域检测结果由灰度图转换成二值图,并利用OCR软件获取字幕的识别结果,其特征在于,包括以下步骤(1)对视频字幕区域进行基于连通区统计的字幕颜色判断,确认字幕颜色是深色还是浅色,同时反转浅色字幕的灰度图片为深色字幕图片;(2)对步骤(1)获得的灰度图片进行基于局部窗口分析的灰度图片二值化;(3)进行OCR软件识别,提取字幕结果。
2、 如权利要求1所述的一种视频字幕提取的方法,其特征在于, 所述步骤(1)之前增加字幕区域的灰度值调整步骤,按照下列公式调 整字幕区域的每一个像素x的灰度值7>式一I' (x)=428 + (I(x)- med) x ratio公式二 med= (max-min) x 0. 5公式三ratio=255/ (max-min) 其中,I' (x)是经过调整后像素x的新灰度值,I(x)是调整之前像 素x的灰度值,med是字幕区域内所有像素的最大灰度值max与最小灰 度值min的平均值,ratio表示灰度值调整的幅度。
3、 如权利要求1所述的一种视频字幕提取的方法,其特征在于, 所述步骤(2 )和(3 )之间增加如下步骤对所述步骤(2 )获得的二 值图片进行周边融合去噪,具体方法为(A) 把二值图片周边一定像素宽的所有像素都变成黑色;(B) 寻找有周边像素的连通区,把这个连通区转成和背景相同的白色。
4、 如权利要求1所述的一种视频字幕提取的方法,其特征在于, 所述步骤(1)中颜色判断的具体方法是用Otsu方法把灰度图片二值 化,然后查找白色和黑色的4连通块,去除连通块外接矩形的宽高都极 小的那些连通块,最后统计出白色连通块个数和黑色连通块个 数"恥M,如果"》l7e>a%M,则字幕是浅色的,反之则为深色。
5、如权利要求l所述的一种视频字幕提取的方法,其特征在于,所述步骤(2)的具体方法是利用一个小窗口从左到右依次重叠扫描 灰度字幕区域,然后对小窗口中的灰度值进行分析得到0tsu阈值,进 行二值化。
6、如权利要求1所述的一种视频字幕提取的方法,其特征在于, 所述步骤(3)中用OCR软件识别视频字幕区域的二值图片以获取视频 字幕文本。
全文摘要
本发明提供了一种视频字幕提取的方法,属于视频分析和检索技术领域。该方法包括以下步骤(1)对视频字幕区域进行基于连通区统计的字幕颜色判断,确认字幕颜色是深色还是浅色,同时反转浅色字幕的灰度图片为深色字幕图片;(2)对步骤(1)获得的灰度图片进行基于局部窗口分析的灰度图片二值化;(3)进行OCR软件识别,提取字幕文本结果。相比现有方法而言,本发明使用了字幕文字颜色判断和局部阈值的方法,能取得较好的二值化效果。本发明还可以首先对字幕区域进行灰度值调整,并对获得的二值化图片进行周边融合去噪,因此进一步提高了本发明的字幕识别结果。
文档编号G06K9/32GK101115151SQ20071011859
公开日2008年1月30日 申请日期2007年7月10日 优先权日2007年7月10日
发明者彭宇新, 鸿 李, 肖建国 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1