一种视频字幕文本提取和识别的方法

文档序号：6435686阅读：612来源：国知局

专利名称：一种视频字幕文本提取和识别的方法
技术领域：
本发明属于模式识别与计算机视觉领域，特别是涉及视频图像中的文本检测与识别的处理方法。
背景技术：
视频作为一种最为流行的媒体形式，通过网络和电视广泛传播。为了使用户更方便、快捷地寻找到感兴趣的视频内容，视频检索与分类逐渐成为模式识别与计算机视觉领域研究的热点。在这其中，视频中的文本信息，特别是字幕信息对于视频的检索以及分类效果最为显著。这是因为(1)视频中的文本信息与视频的当前内容密切相关；(2)视频中的字符有非常明显的视觉特征，便于提取；C3)字符识别(OCR)技术相对目前的语音识别和图像分类技术更为准确和成熟。因此，视频中的文本检测与识别引起了广泛的兴趣。视频中的文本检测与识别过程主要包括以下三个步骤(1)文本检测与定位；(2) 文本提取；C3)字符识别。其中针对步骤(1)的研究较多，涌现出了许多适用的方法和技术，如中国知识产权局2005年8月M日公开的公开号为1658227的专利(“检测视频文本的方法和装置”)主要根据帧间图像变化检测文本区域。针对步骤的技术相对较少，如2008年1月30日公开的公开号为101115151的专利(“一种视频字幕提取的方法”)根据颜色判断文字极性并通过局部二值化提取文字，然后用OCR软件进行识别。总的来说，现有的视频字幕文字提取和识别的技术还不够完善，主要体现在对于复杂多变的背景，特别是与前景颜色相似甚至相同的背景无法处理；对于多变的字体，如宋体、黑体、楷体等的适应性不强；字符识别采用常规的OCR方法，对字符切分和字符图像噪声、低分辨率考虑不足。针对上述未解决的技术问题，本发明提出了一种有效的用于视频中字幕区域文本提取与识别的方法。

发明内容
本发明的目的是为了克服视频中文本的背景颜色复杂、前景颜色的不确定性、字体多变性和字符切分的不确定性，从而提出了一种对字体、背景颜色具有鲁棒性、并且可以自动判断前景颜色的文本提取和识别方法，对视频字幕文本能够实现快速、准确的提取、切分与识别。本发明提出的一种视频字幕文本提取和识别的方法采用的技术方案为步骤Sl 输入视频中字幕区域的图像；步骤S2 将输入图像转化为灰度图；步骤S3 判断字幕区域中字符排列的方向；步骤S4 如果字幕区域中字符排列的方向为竖直排列，则将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域；步骤S5 对字幕区域进行分行得到单行字幕图像；
步骤S6 对单行字幕图像自动判断前景颜色，并得到真实的单行字幕二值图像；步骤S7 对单行字幕二值图像进行过切分得到字符片段序列；步骤S8 对过切分后的单行字幕二值图像进行文本行识别。本发明提出的视频字幕文本提取与识别方法的有益效果为(1)本发明提出的方法能同时处理水平和竖直的视频字幕文本行；(2)本发明提出的方法能够对字幕图像区域进行自动分行，对多文本行的字幕图像进行处理与识别；(3)本发明提出的方法通过对单行字幕图像的连通部件进行分析，自动确定字符前景颜色并滤除噪声连通部件，从而得到清晰的字符前景二值化图像；(4)本发明提出的方法对文本行图像进行字符过切分得到候选切分方式，并结合候选字符的识别分数和语言上下文模型对候选切分方式进行评价，同时得到字符切分和识别结果，避免了字符宽度变化和间隔不均勻以及字符间笔画粘连造成的切分错误。综合说来，本发明的视频字幕文字提取和识别方法能有效分割字幕文本行，准确判断字符前景颜色并滤除噪声，并得到准确的字符切分与识别结果，可以适用于视频和图像内容编辑、索引与检索等多种用途。

图1是本发明提出的视频字幕文字提取和识别方法流程图。图2是对字幕图像进行分行的流程图。图3是对单行字幕图像进行自动判断前景并二值化的流程图。图4是对二值单行字幕图像进行过切分的流程图。图5是本发明方法的实现结构图。图6是对单行字图像进行二值化和去噪后的图像示例。图7是对二值单行字幕图像进行过切分的图像示例。图8是对过切分后单行二值图像进行识别中候选切分网格生成的图像示例。图9是一幅水平字幕区域图像的识别结果示例。图10是一幅竖直字幕区域图像的识别结果示例。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。本发明可在个人电脑、服务器等计算设备上实现。本发明采用的技术方案为将视频中的字幕区域进行分行，对每一行自动判断前景颜色并生成二值图像，对二值图像中的字符进行切分与识别，得到最终的文本识别结果。其中对于视频中字幕的定位不是本发明的内容，假设已经用别的方法定位得到了字幕区域。参照图1，本发明提出的视频字幕文字提取和识别方法具体包括以下几个主要步骤步骤Sl 输入视频中字幕区域的图像；
步骤S2 将输入的图像转化为灰度图；将输入图像转化为灰度图的过程是设输入图像中的每一个像素点的R、G、B值分别为r、g、b，则变换后的灰度图中该像素点的灰度值为gray = 0. 299Xr+0. 587Xg+0. 114Xb。步骤S3 判断字幕区域中字符排列的方向；对字幕区域中字符排列方向进行判断的过程是比较输入图像的长和宽，当输入图像的长大于等于宽时，认为字幕是水平排列；当宽大于长时，认为字幕是竖直排列。步骤S4 如果字幕区域中字符排列的方向为竖直排列，则将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域；设原图像的宽、高分别为Wp H1, P1 (x, y)为原图像横坐标为χ、纵坐标y的点所对应的灰度值；则旋转后的图像的宽、高分别为W2 = HpH2 = W1，经过逆时针旋转90°，P2(X， y) = P1 (y，χ)为旋转后图像横坐标为χ、纵坐标y的点所对应的灰度值。步骤S5 对字幕区域进行分行得到单行字幕图像；参照图2，对字幕区域进行分行的具体过程包括如下步骤步骤S51 利用Sobel算子求取字幕区域中每个像素点的边缘强度，得到字幕区域边缘图像；步骤S52 利用大津法(Otsu)对字幕区域边缘图像进行二值化得到二值图像，边缘图像中边缘强度超过阈值的像素点记为有效边缘点，置为1，否则置为0 ；步骤S53 统计二值图像中每一行(指像素行，以下同)的有效边缘点数；设二值
图像的高为H，有效边缘点总数为T，设有效边缘点数阈值为
权利要求
1.一种视频字幕文本提取和识别的方法，其特征在于，该方法包括步骤Sl 输入视频中字幕区域的图像；步骤S2 将输入图像转化为灰度图；步骤S3 判断字幕区域中字符排列的方向；步骤S4:如果字幕区域中字符排列的方向为竖直排列，则将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域；步骤S5 对字幕区域进行分行得到单行字幕图像；步骤S6 对单行字幕图像自动判断前景颜色，并得到真实的单行字幕二值图像；步骤S7 对单行字幕二值图像进行过切分得到字符片段序列；步骤S8 对过切分后的单行字幕二值图像进行文本行识别。
2.如权利要求1所述的视频字幕文本提取和识别方法，其特征在于，步骤S5中对字幕区域进行分行具体包括如下步骤步骤S51 利用Sobel算子求取字幕区域中每个像素点的边缘强度，得到字幕区域边缘图像；步骤S52 利用大津法Otsu对字幕区域边缘图像进行二值化得到二值图像；步骤S53 统计二值图像中每一像素行的有效边缘点数；从所述二值图像的起始行开始，按某一扫描方向逐行进行扫描，当某行中有效边缘点数超过阈值时，以该行为基准，按扫描方向的反方向倒退三行作为一个文本行的开始，然后按扫描方向跳跃20行，继续按扫描方向进行扫描；当某一行中所含有效边缘点数低于阈值时，以该行为基础，按扫描方向前进三行作为一个文本行的结束；重复以上过程，直至扫描完最后一行停止；最后得到了所有的文本行区域。
3.如权利要求1所述的视频字幕文本提取和识别方法，其特征在于，步骤S6对单行的字幕区域自动判断字符前景颜色，并得到真实的单行字幕二值图像的具体过程包括如下步骤步骤S61 对单行字幕图像进行局部二值化；步骤S62 计算两个全局阈值高亮度阈值ThH和低亮度阈值ThL ；步骤S63 对于单行字幕图像中的每一个像素点，如果其局部二值化的输出为1，并且本身灰度值高于高亮度阈值ThH，则记为前景候选1 ；如果其局部二值化的输出为0，并且本身灰度值低于低亮度阈值IliL，记为前景候选2 ；其他不符合以上条件的像素点不作为前景候选；步骤S64 基于前景候选1和前景候选2分别生成二值图像，对每个二值图像分别进行去噪和是否为真实前景进行打分；分低的二值图像为最终的单行字幕二值图像。
4.如权利要求3所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S64中对两种前景候选的二值图像分别进行去噪和是否为真实前景进行打分的具体过程包括如下步骤步骤S641 将所有对应前景候选1或前景候选2、且距离单行字幕图像边缘距离大于2 的像素点记为1，其他像素点记为0，生成二值图像；步骤S642 利用每个连通部件与背景的颜色对比度、几何形状、位置关系以及与字符的相似程度等信息，对步骤S641所得的二值图像进行去噪；步骤S643 对去噪后得到的二值图像进行形态打分，得到分值M ；步骤S644 对去噪后得到的二值图像进行笔画宽度一致性打分，得到分值T ；步骤S645 最终该二值图像的前景真实度分值为TM = 0.6XT+0. 4XM。
5.如权利要求4所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S642中利用每个连通部件与背景，即标记为0的像素点，的颜色对比度、几何形状、位置关系以及与字符的相似程度，对S641所得的二值图像进行去噪包括如下步骤步骤S6421 从步骤S641得到的的二值图像中提取连通部件，顺序分析和处理每一个连通部件；步骤S6422 设第i个连通部件的toPi为所含像素点纵坐标的最小值，bottonii为所含像素点纵坐标的最大值，Iefti为所含像素点横坐标的最小值，Hghti为所含像素点横坐标的最大值，单行字幕图像的行高为h ；步骤S6423 对第i个连通部件的每个边缘点，计算其与相邻背景点的灰度值差δ，如果δ >ν，其中，ν为整行图像像素点灰度值的方差，则将该边缘点记为合理边缘点；步骤S6424 设第i个连通部件所含边缘点数为ENi,合理边缘点数为RENi,若满足条件 REN1 Λ c-^r<0·5，则删除该连通部件； EN1步骤S6425 设第i个连通部件的宽、高分别为Wi、hi，若满足如下条件之一 (Dmax Ov Iii) < 0. 2 Xh Π min^，< 0. IXh, (2) Wi > 2 Xh Π Iii < 0· 4 X h，则删除该连通部件；步骤S6426 设第i个连通部件的垂直中心位置为OZi = tOP‘ + Τ，，若满足CHi<0. 2Xh U CHi > 0. 8Xh，则删除该连通部件；步骤S6427 设第i个连通部件的平均笔画宽度为SWi,所有连通部件笔画宽度的平均值为SW，若第i个连通部件满足SWi > 1. 5 X SW Π Wi < h，则删除该连通部件。
6.如权利要求4所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S643中对去噪后得到的二值图像进行形态打分，得到分值M的具体过程包括如下步骤步骤S6431 对M进行初始化，M = 0；步骤S6432 统计步骤S642去噪处理后所有剩余连通部件的平均高度averageh、平均宽度averagew、最大高度maxh、最大宽度maxw、所有剩余连通部件的总跨度length，如果满足如下条件之一 (1)剩余连通部件的数目为0，(2)averagew < 0. 3Xh, (3)averageh<0. 3Xh, (4)maxh < 0· 5Xh，(5)maxw < 0. 5Xh，其中，h为单行字幕图像的行高，则该二值图像的形态打分M为1000 ；步骤S6433 若M兴1000,估计二值图像中整行字的上边缘ET，下边缘EB，有效连通部件的数目usefulNum，有效连通部件所含像素点数目的均值averageNum，平均字符宽度 averageWid ；length步骤S6434 如果该二值图像满足如下条件之一 (1) usefulNum <0.5x⑵usefulNum > 2x ^^ ，则该二值图像的形态打分M为100 ； average Wια步骤S6435 若M乒1000且M乒100，该二值图像的形态打分M为averageWid，
7.如权利要求4所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S644中分值T的计算方法为
8.如权利要求1所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S7中对单行字幕二值图像进行过切分的具体过程包括如下步骤步骤S71 计算单行字幕二值图像的行高averageWid，当作平均字符高度和平均字符宽度。步骤S72 计算单行字幕二值图像在X轴上的投影，将每一个投影为0的区间所在X位置作为候选切分点；步骤S73 对于每个投影不为0的区间，如果其宽度超过平均字符宽度的0. 8倍，则对其进行过切分，在区间中寻找新的候选切分点，在新的候选切分点处再将该区间分成多个投影不为0的区间；步骤S74 每个投影不为0的区间的二值图像看作一个字符片段，将所有字符片段按从左到右的顺序排序。
9.如权利要求8所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S73中对于投影不为0的区间进行过切分具体包括如下步骤步骤S731 计算该区间中每一像素列的切分置信度
10.如权利要求1所述的视频字幕文本提取和识别方法，其特征在于，所述步骤S8中对过切分后的单行字幕二值图像进行文本识别的具体过程包括如下步骤步骤S81 从左至右顺序考虑每一个字符片段，将字符片段分别与右边相邻的0个、1个、2个、3个片段合并，合并后构成的图像前景像素左、右、上、下边界分别表示为 left, right, top, bottom，若该图像前景像素满足如下条件，则构成一个候选字符(1) (right-left) < 1. 5Xaverageffid,(2)max(right-lef,bottom-top) > 0. 6Xaverageffid, 其中，averageWid为单行字幕二值图像的平均字符宽度；将所有候选字符存储在一个候选切分网格中，其中每个节点对应一个候选切分位置，从起始节点到终止节点的每一条路径，即候选切分路径，表示文本行的一种切分方式，路径上的每一条边表示一个候选字符；步骤S82 用一个字符分类器对每个候选字符进行识别，得到几个分数最大的候选类别以及对应的分数；步骤S83 对每一条候选切分路径，组合不同候选字符的多个候选类别，得到多条候选切分识别路径；对每一条候选切分识别路径进行评价，得到该路径的评价分数。步骤S84 用动态规划算法搜索所有的候选切分识别路径，分数最高的路径给出了最终的文本行字符切分和识别结果。
全文摘要
本发明公开了一种视频字幕文本提取和识别的方法，其步骤包括输入视频中字幕区域的图像；将输入图像转化为灰度图；判断字幕区域中字符排列的方向；将竖直排列的字幕区域逆时针旋转90°得到水平字幕区域；对字幕区域进行分行得到单行字幕图像；对单行字幕区域图像自动判断前景颜色，得到单行字幕二值图像；对单行字幕二值图像进行过切分得到字符片段序列；对过切分后的单行字幕二值图像进行文本行识别。本方法能有效分割水平和竖直的视频字幕文本行，准确判断字符前景颜色并滤除噪声，并得到准确的字符切分与识别结果，可以适用于视频和图像内容编辑、索引与检索等多种用途。
文档编号G06K9/32GK102332096SQ20111031505
公开日2012年1月25日申请日期2011年10月17日优先权日2011年10月17日
发明者刘成林, 殷飞, 白博申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘成林;白博;殷飞
技术所有人：中国科学院自动化研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。