一种极大值区域检测的自然场景文字检测方法与流程

文档序号：17742381发布日期：2019-05-24 20:16阅读：296来源：国知局

本发明涉及图像目标检测领域，特别是涉及一种极大值区域检测的自然场景文字检测方法。

背景技术：

移动互联网的发展带动着各个领域的更新换代，智能设备的普及无疑是其中一例。随之，人们获取图片的方式越来越便捷，大量有关自然场景的图片俯拾即是。图片中的文字包含了更多、更精简的语义信息，在图像理解中扮演着关键角色。针对自然场景的文字检测方法对于理解图片有着重要的意义。

当下，常用的文字检测方法主要有三类：基于连通域的方法、基于纹理的方法和两者结合的方法。基于连通域的方法通过文字笔画、提取极值区域和颜色分割等提取出连通的区域，再设计规则或分类器滤除非文本区域，通过文本聚类得到最终文本候选框。虽然在自然场景文本检测中取得了较好的效果，但是其回调率较低。基于纹理的方法把文字视为一种纹理，使用滑动窗口定位文本位置。该方法要要扫描较多的尺度，计算量大、复杂度高，对于尺度变化非常敏感，而且会产生大量冗余的候选区域。两者结合的方法利用这两类方法的优势，通过连通域的方法获取候选字符，结合纹理的特征进行过滤，从而获得较好的性能，但是其仍对光强多样、文字对比度不明显的图片检测结果较不理想。

技术实现要素：

本发明所要解决的技术问题是现有的从图像中检测文字的技术不能有效地检测处于复杂自然场景图像中的文字问题。本发明包括以下步骤：

步骤一：获取自然场景文字图像i，对其进行预处理，先得到灰度图像ig；

步骤二：对灰度图像进行滤波if，并对滤波后的图像求取其像素直方图；

步骤三：计算像素直方图的极值点，生成相应的二值图ib；

步骤四：对二值图像进行文字区域检测，得到检测结果；

步骤五：对检测结果进行筛选，得到文字候选区域；

步骤六：将文字候选区域聚类生成文本行，并显示最终结果。

附图说明

图1是本发明的从自然场景图像中检测文字的方法的流程图；

图2是实施例中的输入图像i；

图3(a)是灰度图像的像素直方图，3(b)是平滑处理后的像素直方图；

图4是初步检测后的文字区域

图5是经过筛选后的文字区域

图6是最终的定位结果

具体实施方式

图1是本发明的检测自然场景图像的流程图，下面结合附图和对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

如图2所示为获取到的待测的自然场景图像(参考自icdar2013数据库)，记为i。在本实施例中按照图1所示的流程进行检测，包括：

步骤一：获取包含文本的自然场景图像i，对其进行预处理，先得到灰度图像ig；

步骤二：对灰度图像进行中值滤波，得到灰度图像if，根据其像素个数，生成相应的像素直方图如图3(a)所示；

步骤三：生成本发明新提出的极大值二值图像。方法如下：

1.对像素直方图进行平滑处理，滤除像素值个数变化较小的极大值点，保留特征明显的极大值点，生成新的像素直方图，如图3(b)所示；

2.根据像素直方图求取极大值点分别对应的像素值p1、p2......pn；

3.根据像素极值点分别生成n个二值图像ib1、ib2......ibn；

步骤四：对n个二值图像分别做文字区域检测，得到检测矩阵a1、a2......an，对n个检测矩阵利用形态学变换得到连通区域，并将所有得到的连通区域记录在一个矩阵c0中，结果如图4所示；

步骤五：对矩阵c中的连通区域进行筛选，结果如图5所示，具体步骤如下：

1.删除完全重复的连通区域，生成矩阵c1。在对二值图像做文字区域检测中，连通区域可能重复出现，故先做此步骤可简化计算量；

2.遍历矩阵c1，计算连通区域中心点间的距离，若距离小于固定阈值(可设置为8)，且两个连通区域最小外接矩形宽高比之差小于固定阈值(可设置为0.2)，则视为重复区域，删除其中一个区域；

3.区域内像素点的个数大于固定阈值(可设置为50)的视为文字区域，其他区域视为非文字区域，将其删除；

4.若连通区域最小外接矩形宽高比在一定范围内(可设置为0.1～10)可视为文字区域，其他区域视为非文字区域，将其删除。

步骤六：使用本发明新提出的文本行聚类算法，对最终的文本区域进行聚类，结果如图6所示，步骤如下：

1.根据文本区域的矩阵c，计算个文本框之间的距离，并存储在新的距离矩阵d中，其中dij表示第i个区域与第j个区域中心点间的欧氏距离，计算dij的均值d；

2.生成新的标记矩阵t，初始值为0，大小为n×n。遍历矩阵d，寻找小于特定门限(可设置为1.5d)的dij，则认为第i个区域与第j个区域可聚类为同一个区域，将tij设置为与tii相同的值，同时设置t(i+1，i+1)＝t(i，i)+1；

3.遍历矩阵t，按行或按列寻找与tii相同的tij或tji，连通对应的第i个区域与第j个区域，生成新的矩形框。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

技术特征：

技术总结
本发明公开了一种极大值区域检测的自然场景文字检测方法，将获取的自然场景文字图像转为灰度图像求取其像素直方图，根据像素直方图计算得到像素极值点，生成相应的阈值为极值的二值图像，对二值图像进行初步文字区域检测，对筛选得到的文字候选区域聚类生成文本行，并显示最终结果。通过上述方式，本发明能够有效的对复杂的自然场景图像进行文字检测，在图像目标检测的智能化领域有很高的实用价值。

技术研发人员：张哲;汪毓铎
受保护的技术使用者：北京信息科技大学
技术研发日：2019.01.11
技术公布日：2019.05.24

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张哲;汪毓铎
技术所有人：北京信息科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。