用于视频中文本区域检测与定位的方法

文档序号：6444201阅读：290来源：国知局

专利名称：用于视频中文本区域检测与定位的方法
技术领域：
本发明属于模式识别与计算机视觉领域，特别是涉及一种用于视频中文本区域检测与定位方法。
背景技术：
如今，视频作为一种最为流行的媒体形式，通过电视台、网络广泛地传播。为了使用户更方便、快捷的寻找到感兴趣的视频内容，视频检索与分类逐渐成为模式识别与计算机视觉领域研究的焦点。在这其中，视频中的文本信息，特别是字幕信息对于视频的检索以及分类效果最为显著。这是因为(1)视频中的文本信息与视频的当前内容紧密相关；(2) 视频中的字符有非常明显的视觉特征，便于提取；C3)字符识别(OCR)技术较目前的语音识别技术和图像分类技术更为准确、成熟。视频中的文本识别过程包括三个主要步骤(1)文本检测与定位，( 文本提取，字符识别。其中，步骤(1)文本检测与定位所得结果的优劣，直接影响到后面文本提取与字符识别的精度。针对步骤(1)涌现出了很多方法如中国知识产权局2005年8月M 日公开的公开号为1658227的专利(“检测视频文本的方法和装置”)主要根据帧间图像变化检测文本区域。然而，在现有的方法中，文字多变的字体、颜色、大小，复杂的背景与光照，中英文混合等，仍然是没有解决的难题。传统的方法很多都是针对单一语言、通过假设文本区域特定背景来部分地解决问题。然而在视频内容快速发展的今天，这些方法已经不能满足人们的需要。针对上述未解决的技术问题，本发明提出了一种鲁棒高效的用于视频中文本区域检测与定位的方法。

发明内容
本发明的目的是为了克服视频中文本区域中字符的字体、颜色、大小的多变性，语言的多样性，以及背景区域的高度复杂性，从而提出一种鲁棒的对视频中的文本进行快速检测和定位的方法。本发明提出的一种用于视频中文本区域检测与定位方法采用的技术方案为步骤 Sl 输入视频，按等时间间隔对输入视频进行采样；步骤S2 对采样得到的图像进行边缘检测；步骤S3 生成文本置信度图；步骤S4 根据得到的文本置信度图提取文本候选区域；步骤S5 对文本候选区域近似相同的多帧图像的文本候选区域进行融合；步骤S6 对融合后的文本区域图像进行分行。本发明还提出一种用于视频中文本区域检测与定位的系统，该系统包括视频输入模块，用于获取视频图像；文本置信度生成模块，对采样得到的图像进行边缘检测，利用检测后得到的图像生成文本置信度图；文本候选区域生成模块，根据生成的文本置信度图提取文本候选区域；融合分行模块，对文本候选区域近似相同的多帧图像的文本候选区域进行融合，并对融合后的文本区域图像进行分行。
6
本发明提出的视频中文本检测和定位方法的有益效果为能够对视频中出现的不同字体、颜色、大小的文本进行定位；能够同时对视频中出现的中文、英文进行定位；能够克服视频中复杂的背景；本发明通过对文本候选区域近似相同的多帧图像进行融合，得到对比度较高、背景相对单一的文本区域图像；本发明提出的方法对视频中文本的检测和定位速度快，能够做到实时处理。本发明的文本检测与定位方法能够实时地对视频中出现的多语言文本进行准确定位。可以适用于视频内容编辑、索引与检索等多种用途。

图1为本发明的视频中文本检测与定位方法流程图；图2为本发明中对边缘点进行8方向分类的示意图；图3为本发明中生成文本置信度图的流程图；图4为本发明中对得到的文本置信度图进行文本候选区域提取的流程图。图5为本发明的视频中文本检测与定位方法的实现原理图；图6为本发明中生成文本候选区域的图像示例；图7为本发明中多帧融合和文本区域分行的图像示例。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。本发明视频中文本检测与定位方法的原理主要是对输入视频进行采样，对采样所得到的视频图像进行边缘检测，利用检测后得到的图像生成文本置信度图，从生成的文本置信度图中提取到文本候选区域，对文本候选区域近似相同的多帧图像的文本候选区域进行融合，得到最终的文本区域，并根据水平和垂直投影对文本区域进行分行。图1为本发明的视频中文本检测与定位方法流程图。参照图1，在步骤Sl输入视频，按等时间间隔对输入视频进行采样，其中每隔3帧抽取一帧图像进行处理。在步骤S2对采样得到的图像进行边缘检测。步骤S2进一步包括步骤S21和S22。在步骤S21，将输入的图像转化为灰度图，具体过程是设输入图像中的每一个像素点的R、G、B值分别为r、g、b，则变换后的灰度图中该像素点的灰度值为gray = 0. 299Xr+0. 587Xg+0. 114Xb。在步骤S22，计算灰度图像每个像素点的边缘强度和方向，具体为利用Sobel梯度算子计算每个像素点水平和竖直方向的边缘强度dx、dy，则每个像素点的边缘强度为
0, 如果 J
权利要求
1.一种用于视频中文本区域检测与定位的方法，其特征在于，该方法包含步骤步骤Si，输入视频，按等时间间隔对输入视频进行采样；步骤S2，对采样得到的图像进行边缘检测；步骤S3，利用检测后得到的图像生成文本置信度图；步骤S4，根据生成的文本置信度图提取文本候选区域；步骤S5，对文本候选区域近似相同的多帧图像的文本候选区域进行融合；步骤S6，对融合后的文本区域图像进行分行。
2.根据权利要求1所述的用于视频中文本区域检测与定位的方法，其特征在于，所述步骤S2包括步骤S21，将抽取的图像转化为灰度图；步骤S22，计算灰度图像每个像素点的边缘强度和方向，根据边缘强度确定该像素点是否为边缘点。
3.根据权利要求2所述的用于视频中文本区域检测与定位的方法，其特征在于，步骤S21进一步包括将抽取的图像中的每一个像素点的R、G、B值分别设为r、g、b，则变换后的灰度图中的该像素点的灰度值为gray = 0. 299Xr+0. 587Xg+0. 114Xb ；步骤S22进一步包括利用Sobel梯度算子计算每个像素点水平和竖直方向的边缘强O, 如果 Jdx2+dy2 <50,度dx、dy，则每个像素点的边缘强度KU)= 厂7~-^^将r(x，y){^dx2+dy\其他.线性变换到O到255之间，当r > O时，记该点为边缘点。
4.根据权利要求3所述的用于视频中文本区域检测与定位的方法，其特征在于，步骤 S22进一步包括将得到的边缘点按方向分为八类，用参数θ，λ来表示，其中θ表示四个基本方向，θ e {0，45，90，13 ，O表示水平、45表示右上到左下、90表示竖直、135表示左上到右下，λ表示每个基本方向的极性，λ e {+1，-1}，+1表示一个基本方向中向上或向左的方向，-1表示一个基本方向中向下或者向右的方向。
5.根据权利要求1所述的用于视频中文本区域检测与定位的方法，其特征在于，所述步骤S3包括步骤S31，计算采样得到的图像中的每一像素点的边缘强度；步骤S32，计算该图像中每一像素点周围边缘的方向多样性；步骤S33，计算图像中每一像素点周围极性相反的边缘点对含量；步骤S34，基于步骤S31，S23，S33的结果，计算图像中每个像素点的文本置信度；步骤S35，将得到的每一点的文本置信度线性归一化到W，255]，得到最终的文本置信度图。
6.根据权利要求5所述的用于视频中文本区域检测与定位的方法，其特征在于，步骤S31包括以每个像素点的位置( ，y0)为中心取宽W、高h的矩形邻域δ，计算该邻域内的平均边缘强度DO^ytl)作为该中心点的边缘强度，计算公式为
7.根据权利要求1所述的用于视频中文本区域检测与定位的方法，其特征在于，步骤 S4包括步骤S41，利用大津法(Otsu)对得到的文本置信度图进行二值化；步骤S42，对得到的二值图像，进行连通部件提取，计算每个连通部件外接矩形的宽 text_box_width,高text_box_height，去掉满足下面条件之一的连通部件(1)min(text_box_width，text_box_height) < 15，(2)max(text_box_width，text_box_height) < 40。
8.根据权利要求1所述的用于视频中文本区域检测与定位的方法，其特征在于，步骤 S5包括步骤S50，如果两帧图像的文本候选区域的面积重叠率大于0. 9且文本内容相似度大于0. 8，即认为文本候选区域近似相同，文本候选区域面积重叠率I 。VCTlaP计算公式为
9.根据权利要求1所述的用于视频中文本区域检测与定位的方法，其特征在于，步骤 S6包括步骤S61，对融合后得到的图像用Sobel梯度算子进行边缘提取，得到二值的边缘图像，边缘点为1，非边缘点为O ；步骤S62，判断文字排列方向，如排列方向为竖直方向，需要将图像旋转；步骤S63，对旋转后的图像进行水平投影，即分别统计每一个像素行中的边缘点数Iii ；步骤S64，对每一像素行的边缘点数Iii进行平滑，得到平滑后每一像素行最终的边缘点 1 1+1数Ni,计算公式为
10.一种视频中文本区域检测与定位的系统，该系统包括视频输入模块，用于获取视频图像；文本置信度生成模块，对采样得到的图像进行边缘检测，利用检测后得到的图像生成文本置信度图；文本候选区域生成模块，根据生成的文本置信度图提取文本候选区域；融合分行模块，对文本候选区域近似相同的多帧图像的文本候选区域进行融合，并对融合后的文本区域图像进行分行。
全文摘要
一种用于视频中文本区域检测与定位的方法，其特征在于，包含如下步骤输入视频，按等时间间隔对输入视频进行采样；对采样得到的图像进行边缘检测；利用检测后得到的图像生成文本置信度图；根据生成的文本置信度图提取文本候选区域；对文本候选区域近似相同的多帧图像的文本候选区域进行融合；对融合后的文本区域图像进行分行。本发明的文本检测与定位方法能够实时地对视频中出现的多语言文本进行准确定位。可以适用于视频内容编辑、索引与检索等多种用途。
文档编号G06K9/32GK102542268SQ20111045182
公开日2012年7月4日申请日期2011年12月29日优先权日2011年12月29日
发明者刘成林, 殷飞, 白博申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘成林;白博;殷飞
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：基于机器学习的虹膜图像质量确定方法
上一篇：用于飞行控制律设计调参的无人机对象模型建模方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。