一种视频字幕处理装置及方法

文档序号:7696348阅读:124来源:国知局
专利名称:一种视频字幕处理装置及方法
技术领域
本发明涉及视频处理领域,特别涉及一种字幕处理装置及方法。
背景技术
随着计算机技术、多媒体技术的飞速发展,视频播放设备日趋繁多,即4、 手机由于它们方便携带的优势,成为最受欢迎的视频播放设备。然而,这些便 携式设备在具有其优势的同时,由于其显示屏的大小有限,会导致视频字幕过 小,用户阅读困难的问题出现。
由于一般情况下,视频文件都带有与视频相关的字幕文件,用户可以用相 应的字幕编辑软件对字幕进行编辑,这样可以达到放大字幕的效果。然而,还 存在一些^L频文件,并没有自己的字幕文件,要想对这些浮见频文件中的字幕进 行放大,用户则无,人下手。

发明内容
有鉴于此,本发明的目的在于提供一种视频字幕处理装置,不依赖于字幕
文件,实现对—见频中的字幕进行处理。
本发明的目的还在于提供一种视频字幕处理方法,不依赖于文件字幕,实
现对视频中的字幕进行处理。
为达到上述目的, 一种视频字幕处理装置,包括 字幕检测提取模块,检测并提取出视频图像中的字幕区域; 字幕处理模块,用于根据确定的字幕显示参数对所述提取出的字幕区域进
行处理。
视频图像处理模块,用于对提取出字幕区域的视频图像进行处理;
5
字幕叠加模块,用于将处理后的字幕区域与处理后的视频图像进行叠加。
所述视频图像处理模块,包括
视频图像缩小单元,用于将所述提取出字幕区域的视频图像缩小到预设的 显示尺寸;
视频图像修复单元,用于对缩小后的视频图像中的字幕区域进行修复。 所述视频图像处理模块,包括
视频图像修复单元,用于对所述提取出字幕区域的视频图像中的字幕区域 进行修复;
视频图像缩小单元,用于将修复后的视频图像缩小到预设的显示尺寸。 所述字幕显示参数包括字幕大小参数和显示位置参数; 所述字幕处理模块包括,
字幕大小参数存储单元,用于存储预设的字幕大小参数; 显示位置确定单元,用于确定字幕在预设尺寸大小的视频图像中的显示位 置参数;
字符识别单元,用于对所述提取出的字幕区域完成单个字符的分割,还用 于对分割得到的单个字符进行分析,得到相应的文字信息,并根据文字信息在 字符库中找到单个字符所对应的字符影像信息;
字幕处理单元,用于根据在字符库查找到的单个字符的影像信息和所述字 幕大小存储单元中存储的字幕大小参数,对视频图像的字幕进行处理。
所述字幕大小参数为字幕的字号大小。
所述字幕显示参数包括放大倍数参数、字幕间的行距参数和显示位置参数; 所述字幕处理^f莫块包括
放大尺寸确定单元,用于确定允许字幕放大的最大倍数参数; 字幕参数存储单元,用于存储字幕的参数,包括字幕间的行距参数; 显示位置确定单元,用于根据每帧视频图像中字幕的行数,确定第一行字 幕的显示位置参数。
一行字幕区域进行放大处理。
背景去除单元,用于将放大后的字幕区域中除字幕的区域灰度值设为0。 所述允许字幕放大的最大倍数为预设尺寸大小的视频图像宽度与第 一帧视
频图像中最长字幕区域长度之商。
所述字幕处理模块还包括字幕拆分单元,用于当一行字幕的长度大于视 频图像宽度时,对一行字幕进行拆分。
本发明还提供一种^L频字幕处理方法,该方法包括
1) 检测当前帧视频图像中是否含有字幕区域,如果含有则提取字幕区域, 执行步骤3),否则,执行步骤2);
2) 对当前帧视频图像进行缩小处理,并获取下一帧图像,返回步骤l);
3 )对提取的字幕区域进行处理,并确定其在预设尺寸大小的视频图像中的 显示位置,执行步骤4);
4) 对提取出字幕区域的视频图像进行缩小和修复处理,执行步骤5);
5) 将处理后的字幕区域和处理后的视频图像进行叠加。 所述对提取的字幕进行处理为
将提取的字幕区域进行单个字符切分,并对字符进行分析,得到字幕的文 字信息;
根据单个字符的文字信息在字符库中找到其所对应的字符影像信息;
根据在字符库查找到的单个字符的影像信息和所预设的字幕大小参数,对 视频图像的字幕进行处理。
所述对揭3又的字幕进行处理为
将预设尺寸大小的视频图像宽度与第 一帧视频图像中最长字幕区域长度之
商作为允许视频字幕放大的最大倍数;
根据用户需要对所提取的每一行字幕区域在所确定的允许视频字幕放大的 最大倍数的范围内进行放大处理。
将放大后的字幕区域中除字幕的区域灰度值设为o 。
由以上的技术方案可见,本发明提供的视频字幕处理装置及方法,通过对 从视频图像中提取出的字幕区域进行处理,解决了现有技术无法对未带有字幕 文件的视频文件进行字幕编辑的问题,满足了用户在视频图像在缩小后调整字 幕大小的需求。
而且本发明对原始视频图像进行了修复处理,避免了由于放大字幕而导致 的视频图像出现斑痕的问题。


图l是本发明提供的一种视频字幕处理装置的结构示意图; 图2是本发明提供的一种视频字幕处理装置的结构实施例示意图; 图3是本发明提供的另一种视频字幕处理装置的结构实施例示意图; 图4是本发明提供的一种视频字幕处理方法的流程实施例示意图。
具体实施例方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实 施例,对本发明进一 步详细说明。
图l是本发明提供的一种视频字幕处理装置,该装置包括
字幕检测提取模块101,检测视频数据中是否存在字幕区域,如果有,则 将字幕区域提取出来,发送给字幕处理模块102,并将提取出字幕的视频图像 数据发送给视频图像处理模块103;
字幕处理模块102,用于根据用户需要或显示屏的大小确定字幕显示的参 数,对来自字幕检测提取模块101的字幕数据进行处理,并将处理后的结果发 送给字幕叠加模块104;
其中字幕显示的参数包括字幕的大小参数和字幕显示的位置参数。
视频图像处理模块103,用于对来自字^f企测提取模块101的视频图像数 据进行处理,并将处理后的结果发送给字幕叠加一莫块104;
字幕叠加模块104,用于将处理后的字幕区域与处理后的视频图像进行叠加。
图2是本发明提供的一种视频字幕处理装置的结构实施例示意图,其中以 视频图像的大小等于显示器大小为例。在本实施中,该装置包括字幕检测提 取模块、字幕处理模块、视频图像处理模块、字幕叠加模块,其中
字幕检测提取模块,根据来自视频解码模块的视频数据检测视频数据中是 否存在字幕区域,如果有,则将字幕区域提取出来,发送给字幕处理模块,并 将提取出字幕的视频图像数据发送给视频图像处理模块;
字幕处理模块包括字幕大小参数存储单元201,字符识别单元202,字幕处 理单元203和显示位置确定单元204。
其中,字幕大小参数存储单元201,用于存储预设的字幕大小参数,可以 是显示字幕的字号大小。
字符识别单元202,用于对提取到的字幕区域采用动态局部阈值法对字幕 区域二值化,同时进行候选区域增强和重采样,并通过区域垂直投影法探测准 则对孤立噪声进行滤除,对粘连字符进行自适应分裂,对断裂字符进行自适应 合并,完成单个字符的分割;
还用于对分割得到的单个字符进行分析,得到相应的文字信息,并根据单 个字符的文字信息在字符库中找到对应的字符影像信息。从单个字符获得文字 信息的方法有很多,在这里使用OCR识别技术。
字幕处理单元203,用于根据在字符库查找到的字符图像影像和字幕大小 存储单元201中存储的字幕大小参数,对对识别出来的单个字符进行处理。例 如,字幕参数存储单元201中存储的字幕大小参数是表示字号为"小四,,的信 息,经字符识别出两个字符文本信息"你"、"好,,,在字符库中找到这两个字符 的图像信息,将"你"、"好,'这两个字的字号转换为"小四"大小的字符。
显示位置确定单元204,用于确定字幕在显示器中显示的位置,包括水平 方向4立置和垂直方向4立置。
其中水平方向位置的确定,需要保证最长的那行字幕的左端至少不超过显 示器的左边缘,垂直方向位置的确定,需要保证最接近显示器最底端的那行字 幕的最低点至少不超出显示器的最底端。
进一步地,由于字幕被放大,可能会出现,原本能够在一行里显示的字幕, 在放大后却显示不了 ,这样就需要根据放大后的字幕大小参数统计在预定的显
示尺寸下一行最多能显示的字符个数,即显示器的宽度大于等于N ( N为大于等 于1的自然数一 )个字符的宽度之和,小于N+l个字符的宽度之和。
视频图像处理模块包括视频图像修复单元205和视频图像缩小单元206, 在本实施例中,由于视频图像处理中,不管先对图像进行修复还是先对图像进 行缩小,都不会影响视频图像的显示效果,所以来自视频解码模块的视频数据 既可以先在视频图像修复单元205中进行处理,也可以先在视频图像缩小单元 206中进行处理。
其中,视频图像在视频图像修复单元205中进行的处理,具体为首先, 读取字幕检测提取模块所检测到的字幕区域的位置信息,比如,字幕区域的最 小外接区域,将检测到的字幕区域的位置信息映射到视频图像中,并将所映射 到的区域用一种颜色表示,然后,使用紋理修复算法对所映射到的区域进行修 复处理。本领域内的普通技术人员可以采用公知的最小外接区域的计算方法和 紋理修复算法实现本实施方案,此处不再赘述。
在视频图像处理模块中,对视频图像还要进行另一步处理,那就是在视频 图像缩小单元206中进行图像的缩小处理。其缩小的倍数等于原视频图像大小 与所需显示的视频图像的大小的商。 一般的,所需显示的视频图像的大小为视 频图像全屏时的大小,即为当前显示屏幕的大小。
经视频图像处理模块处理后的视频图像数据和视频图像参数,被发送到字 幕叠加模块中,其中视频图像参数包括视频图像长度和宽度。 字幕叠加模块,用于将处理后的字幕区域与处理后的视频图像进行叠加。
图3是本发明提供的另一种视频字幕处理装置的结构实施例示意图。在本 实施例中,该装置包括字幕检测提取模块、字幕处理模块、视频图像处理模 块、字幕叠加模块。
其中,除字幕处理模块的结构有所变化,其他各模块的结构及功能相同, 在这里就不赘述了。
字幕处理模块包括放大尺寸确定单元301、字幕参数存储单元302、显示位 置确定单元303、字幕处理单元3Q4和背景去除单元305。
放大尺寸确定单元301,用于确定允许字幕放大的最大放大倍数参数。获 取第 一帧视频图像中长度最长的字幕区域长度信息,最大的放大倍数为显示器 宽度与该最长字幕区域长度之商。
字幕参数存储单元302,用于存储字幕的参数,包括字幕的行距参数。
显示位置确定单元303,用于根据每帧视频图像中字幕的行数,确定第一 行字幕的显示位置参数。比如,如果一帧视频图像的字幕为1行,那么可以确 定第一行字幕的显示位置与显示器最底端的距离为显示器高度的1/9;如果一 帧视频图像的字幕为3行,那么可以确定第一行字幕的显示位置与显示器最底 端的距离为显示器高度的1/3。对于第一行字幕的显示位置的确定,可以根据 用户的需要进行设定。第二行字幕的显示位置与显示器最底端的距离为第 一行 字幕的显示位置、字幕显示的行距和放大后字符高度之和,以此类推。
字幕处理单元304,根据放大尺寸确定单元301的所确定的放大倍数对所 提取的每一行字幕区域进行放大处理。
背景去除单元305,用于将放大后的字幕区域中除字幕的区域灰度值设为 0。首先找出背景区域。在本实施例中,釆用八叉树颜色量化算法对字幕区域二 值化后,运用形态处理的方法找到已得到字幕以及包含字幕所有边缘像素的区 域,剩下来的区域便是字幕区域的背景部分。将这一部分区域的灰度值设为0。
由于背景去除与字幕处理这两个步骤并没有先后要求,因此,这两个单元 的连接关系可以与本实施例示意图中所示的关系不同。
进一步地,由于这样并不能避免出现一行字幕的宽度大于显示器的宽度, 所以在这里增设字幕拆分单元。首先判断一行字幕的宽度是否大于显示器的宽 度,如果大于,则对该行字幕进行拆分。可以将显示器的右边缘作为预测的拆 分位置。
更进一步地,为了避免这个预测位置不在两个字之间,即在某个字符上, 则在这个预测位置附近采用局部二值化及垂直投影分割的方法,判断其是否在 两个字符之间,如果则,则将这个预测位置作为拆分位置,如果不是,则将预 测位置向左平移,并重复上述判断过程,直到找到两个字符的中间位置,将其 作为拆分位置。
根据上述装置,本发明还提供一种视频字幕装置的方法。图4是本发明提 供的 一种^^频字幕处理的方法的实施例示意图。该方法有以下步骤
步骤401,检测当前帧视频图像中是否含有字幕区域,如果含有,则提取字 幕区域执行步骤403;如果不含有,执行步骤402;
步骤402,对当前帧视频图像进行缩小处理,并获取下一帧图像,返回步骤 401;
步骤4 0 3 ,对才是取的字幕区域进行处理;
本步骤具体为将提取的字幕区域进行单个字符切分,并对字符进行分析, 得到字符的文字信息,根据字符的文字信息在字符库中找到每个字符的字符影 像;
然后,根据预设的字幕大小参数和在字符库中查找到的字符影像和对视频图 像的字幕进行处理。。
这个步骤还可以为将显示器宽度与第一帧图像最长字幕区域的长度之商作 为字幕区域的最大放大倍数,根据用户的需要对视频图像中的字幕进行放大处 理。
由于字幕区域的长度不一,有可能出现字幕放大后的长度超过显示器的宽 度,因此本步骤进一步包括字幕拆分过程。可以将显示器的右边缘位置作为预 测位置,为了避免这个预测位置不在两个字之间,即在某个字符上,则在这个 预测位置附近采用局部二值化及垂直投影分割的方法,判断其是否在两个字符 之间,如果则,则将这个预测位置作为拆分位置,如果不是,则将预测位置向 左平移,并重复上述判断过程,直到找到两个字符的中间位置,将其作为拆分 位置。
步骤404,确定字幕的显示位置。 本步骤包括确定水平方向位置和垂直方向位置。
其中水平方向位置的确定,需要保证最长的那行字幕的左端至少不超过显 示器的左边缘,垂直方向位置的确定,需要保证最接近显示器最底端的那行字 幕的最低点至少不超出显示器的最底端。
步骤405,对提取字幕后的视频图像进行缩小和修复处理。 本步骤中对提取字幕后的视频图像进行的两个处理过程的先后关系不固定, 其中对视频图像进行修复处理,主要是对字幕区域的修复。 步骤406,将处理后的字幕与处理后的视频图像进行叠加。 由上述的实施例可见,本发明提供的视频字幕处理装置及方法,通过对从 视频图像中提取出的字幕区域进行处理,解决了现有技术无法对未带有字幕文 件的视频文件进行字幕编辑的问题,满足了用户在视频图像在缩小后调整字幕 大小的需求。
而且本发明对原始视频图像进行了修复处理,避免了由于放大字幕而导致 的视频图像出现斑痕的问题。
通过上述的说明,上述本发明的实施例是以示例的目的而展开,本技术领 域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非 用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例 的变化、变型都将落在本发明权利要求书的范围内。
权利要求
1、一种视频字幕处理装置,其特征在于,该装置包括字幕检测提取模块,检测并提取出视频图像中的字幕区域;字幕处理模块,用于根据确定的字幕显示参数对所述提取出的字幕区域进行处理。
2、 如权利要求l所述的装置,其特征在于,该装置还包括 视频图像处理模块,用于对提取出字幕区域的视频图像进行处理; 字幕叠加模块,用于将处理后的字幕区域与处理后的视频图像进行叠加。
3、 如权利要求2所述的装置,其特征在于,所述视频图像处理模块,包括 视频图像缩小单元,用于将所述提取出字幕区域的视频图像缩小到预设的显示尺寸;视频图像修复单元,用于对缩小后的视频图像中的字幕区域进行修复。
4、 如权利要求2所述的装置,其特征在于,所述视频图像处理模块,包括 视频图像修复单元,用于对所述提取出字幕区域的视频图像中的字幕区域进行修复;视频图像缩小单元,用于将修复后的视频图像缩小到预设的显示尺寸。
5、 如权利要求l所述的装置,其特征在于所述字幕显示参数包括字幕大 小参凄t禾口显示4立置参凄丈;所述字幕处理模块包括,字幕大小参数存储单元,用于存储预设的字幕大小参数; 显示位置确定单元,用于确定字幕在预设尺寸大小的视频图像中的显示位 置参数;字符识别单元,用于对所述提取出的字幕区域完成单个字符的分割,还用 于对分割得到的单个字符进行分析,得到相应的文字信息,并纟艮据文字信息在字符库中找到单个字符所对应的字符影像信息;字幕处理单元,用于才艮据在字符库查找到的单个字符的影^象信息和所述字 幕大小存储单元中存储的字幕大小参数,对视频图像的字幕进行处理。
6、 如权利要求5所述的装置,其特征在于所述字幕大小参数为字幕的字 号大小。
7、 如权利要求1所述的装置,其特征在于所述字幕显示参数包括放大倍 数参数、字幕间的行距参数和显示位置参数;所述字幕处理模块包括,放大尺寸确定单元,用于确定允许字幕放大的最大倍数参数; 字幕参数存储单元,用于存储字幕的参数,包括字幕间的行距参数; 显示位置确定单元,用于根据每帧视频图像中字幕的行数,确定第一行字幕的显示位置参数。字幕处理单元,根据放大尺寸确定单元的所确定的放大倍数对所提取的每一行字幕区域进行放大处理。背景去除单元,用于将放大后的字幕区域中除字幕的区域灰度值设为0。
8、 如权利要求7所述的装置,其特征在于所述允许字幕放大的最大倍数 为预设尺寸大小的视频图像宽度与第一帧视频图像中最长字幕区域长度之商。
9、 如权利要求7所述的装置,其特征在于,所述字幕处理模块还包括字 幕拆分单元,用于当一行字幕的长度大于视频图像宽度时,对一行字幕进行拆 分。
10、 一种视频字幕处理方法,其特征在于,该方法包括1) 检测当前帧视频图像中是否含有字幕区域,如果含有则提取字幕区域, 执行步骤3),否则,执行步骤2);2) 对当前帧视频图像进行缩小处理,并获取下一帧图像,返回步骤l);3) 对提取的字幕区域进行处理,并确定其在预设尺寸大小的视频图像中的 显示位置,执行步骤4);4 )对提取出字幕区域的视频图像进行缩小和修复处理,执行步骤5 );5 )将处理后的字幕区域和处理后的视频图像进行叠加。
11、 如权利要求IO所述的方法,其特征在于所述对提取的字幕进行处理为将提取的字幕区域进行单个字符切分,并对字符进行分析,得到字幕的文字 信息;才艮据单个字符的文字信息在字符库中找到其所对应的字符影j象信息;根据在字符库查找到的单个字符的影像信息和所预设的字幕大小参数,对视 频图像的字幕进行处理。
12、 如权利要求1Q所述的方法,其特征在于,所述对提取的字幕进行处理为将预设尺寸大小的视频图像宽度与第 一帧碎见频图像中最长字幕区域长度之 商作为允许视频字幕放大的最大倍数;根据用户需要对所提取的每一行字幕区域在所确定的允许视频字幕放大的 最大倍数的范围内进行放大处理。将放大后的字幕区域中除字幕的区域灰度值设为o。
全文摘要
本发明提供的视频字幕处理装置及方法,通过对从视频图像中提取出的字幕区域进行处理,解决了现有技术无法对未带有字幕文件的视频文件进行字幕编辑的问题,满足了用户在视频图像在缩小后调整字幕大小的需求。而且本发明对原始视频图像进行了修复处理,避免了由于放大字幕而导致的视频图像出现斑痕的问题。
文档编号H04N5/278GK101360193SQ200810119340
公开日2009年2月4日 申请日期2008年9月4日 优先权日2008年9月4日
发明者党宁娜, 律 谢 申请人:北京中星微电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1