一种基于迭代的图像文本区域检测方法

文档序号：6623097阅读：250来源：国知局

一种基于迭代的图像文本区域检测方法
【专利摘要】本发明实施例公开了一种基于迭代的图像文本区域检测方法，该方法包括：S1：对图像I进行预处理；S2：提取图像的边缘的信息，得到边缘图像S3：对所有得到边缘图像的边缘像素进行垂直投影，生成水平方向像素直方图Hh；S4：根据水平方向像素直方图对图像进行分割，得到若干区域Rh；S5：对于区域Rh中的每个区域进行水平投影，生成垂直方向像素直方图并根据直方图对每个区域进行分割；S6：对于区域重新执行S2～S4，直到区域不能再分割为止，得到文本区域的像素信息与位置信息。在本发明实施例中，通过利用迭代法不断剔除非文本区域，能够准确地检测背景复杂的图像中文本区域，提高了文本区域检索的精确度；该方法计算量较小，检测所需的时间较小。
【专利说明】一种基于迭代的图像文本区域检测方法

【技术领域】
[0001] 本发明涉及数字图像处理【技术领域】，尤其涉一种基于迭代的图像文本区域检测方法。

【背景技术】
[0002] 目前，随着多媒体技术和计算机网络的飞速发展，越来越多的信息以数字图像的形式传播和存储，并且图像中的文本包含丰富、明确的信息，如果这些文本能被自动地提取出来，则对图像高层语义的自动理解、索引和检索是非常有价值的，而且文字信息提取的前提是精确定位图像的文本区域，因此文本区域提取成为计算机领域研究的热点，在信息检索、网络过滤、数字图书馆、智能交通等领域有着广泛的应用。
[0003] 纵观文本区域检测技术的研究历史，许多国内外学者提出了各种基于不同理论的文本区域检测方法，包括汽车牌照、路标的文本区域检测、自然场景中文本区域检测、视频中文本区域检测等。根据实现方法的不同，文本区域检测算法可以分为：
[0004] (1)基于连通区域的方法：利用同一行字符的颜色相似这一特性来进行定位的。这类方法通常是用颜色聚类或图像分割的技术把图像中的连通区域分割出来，再对连通区域进行大小、宽高比等启发性知识的限制以及投影分析等来获得文本区域。该方法实现简单，适用于高对比的图像，但是当文本是多彩的，或图像分辨率低噪声高时，该方法效果较差。
[0005] (2)基于文字边缘的方法：利用了图像中的文本与背景之间有较高对比度这一特性来进行定位的。此类方法通常是先检测出图像的边缘；然后用平滑滤波或形态学膨胀等方法将边缘连接成块；再利用文本的启发性知识剔除非文本块。该方法速度较快，但是要求文字的笔画边缘突出，背景的边缘较少，且不能与文字边缘有太多连接交叉。如果背景边缘比较复杂，容易出现文字区域漏检或者误检。
[0006] (3)基于纹理的方法：利用图像中的文本有明显的纹理特征来区分背景。具有较高的鲁棒性，能够检测到字符与背景对比度较小、背景复杂的文本，但检测区域不够准确，并且纹理分析的计算量大、复杂度高，因此该方法比较耗时。

【发明内容】

[0007] 本发明的目的在于克服现有技术的不足，本发明提供了一种基于迭代的图像文本区域检测方法，能够准确地检测背景复杂的图像中文本区域，所耗时间较小，图像中的文本字体、颜色及大小具有较好的鲁棒性。
[0008] 为了解决上述问题，本发明提出了一种基于迭代的图像文本区域检测方法，所述方法包括以下步骤：
[0009] S1 :对图像I进行预处理；
[0010] S2 :提取图像的边缘的信息，得到边缘图像/ ;
[0011] S3:对所有得到边缘图像/的边缘像素进行垂直投影，生成水平方向像素直方图 Hh ;
[0012] S4 :根据水平方向像素直方图对图像进行分割，得到若干区域Rh ;
[0013] S5 :对于区域Rh中的每个区域和进行水平投影，生成垂直方向像素直方图///，并根据直方图对每个区域g进行分割；
[0014] S6 :对于区域汧，重新执行S2?S4,直到区域不能再分割为止，得到文本区域的像素信息与位置信息。
[0015] 优选地，S1包括：
[0016] 对图像I进行二值化处理，并利用利用3x3的中值滤波器进行噪声处理，得到图像 BI ；
[0017] 对图像BI进行去除布局元素。
[0018] 优选地，所述对图像BI进行去除布局元素的步骤包括：
[0019] 对图像BI进行8连通区域检测，得到连通区域集CR，对于每一个连通区域CRp标识为flag。则
[0020]

【权利要求】
1. 一种基于迭代的图像文本区域检测方法，其特征在于，所述方法包括以下步骤： 51 :对图像I进行预处理； 52 :提取图像的边缘的信息，得到边缘图像J ; 53 :对所有得到边缘图像/的边缘像素进行垂直投影，生成水平方向像素直方图Hh ; 54 :根据水平方向像素直方图对图像进行分割，得到若干区域Rh ; 55 :对于区域Rh中的每个区域i?/进行水平投影，生成垂直方向像素直方图，并根据直方图对每个区域和进行分割； 56 :对于区域W，重新执行S2?S4,直到区域不能再分割为止，得到文本区域的像素信息与位置信息。
2. 如权利要求1所述的基于迭代的图像文本区域检测方法，其特征在于，S1包括：对图像I进行二值化处理，并利用利用3x3的中值滤波器进行噪声处理，得到图像BI ; 对图像BI进行去除布局元素。
3. 如权利要求2所述的基于迭代的图像文本区域检测方法，其特征在于，所述对图像 BI进行去除布局元素的步骤包括：对图像BI进行8连通区域检测，得到连通区域集CR，对于每一个连通区域CRp标识为 flag"则
其中，Wp w2, h，h2为阈值，flagi表示连接区域CRi是否为布局元素，如果flagi = 1，则该连通区域不是布局元素，否则，该连通区域是布局元素。
4. 如权利要求1所述的基于迭代的图像文本区域检测方法，其特征在于，S2包括：利用 Candy边缘检测算法进行提取图像的边缘，并记边缘图像为/。
5. 如权利要求1所述的基于迭代的图像文本区域检测方法，其特征在于，S3包括：对于分辨率为wXh的图像/，记Hh(i) (i = 1，2, ···，￥)为水平方向像素直方图的第i
则边缘图像的水平方向像素直方图Hh = [Hh(l)，Hh(2)，…，Hh(w)]为一个w维的向量。
6. 如权利要求1所述的基于迭代的图像文本区域检测方法，其特征在于，S4包括：对于给定的阈值Th，用一个w维的0-1序列= [Ph(l), @h(2),…，@h(w)]记录直方图对应的区域是否存在文本，则爲(0 =
依据序列1^中元素为1的连续情况，得到分割后的若干区域Rh。
7. 如权利要求1所述的基于迭代的图像文本区域检测方法，其特征在于，S5包括：对于给定的阈值!；，用一个h维的0-1序列β ν= [βν(1)，βν(2)，…，βν(?)]来记录直方图对应的区域是否存在文本，贝1
根据序列βν*元素为1的连续情况，对每个区域和进一步分割得到若干区域沢。
【文档编号】G06K9/20GK104298985SQ201410392050
【公开日】2015年1月21日申请日期:2014年8月11日优先权日:2014年8月11日
【发明者】罗笑南, 林格, 冯玉财, 薛凯军, 肖剑申请人:东莞中山大学研究院, 中山大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗笑南;林格;冯玉财;薛凯军;肖剑
技术所有人：东莞中山大学研究院;中山大学
我是此专利的发明人

上一篇：基于随机共振与核主元分析相结合的机械振动信号特征提取方法
上一篇：提供游戏用的服务器以及方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。