自然场景多方向文本检测方法_2

文档序号：9288578阅读：来源：国知局

型字符进行补偿，对区域最小外接矩进行一定的膨胀后，判断区域与邻域外接矩的空间关系，如果重叠则认为两个区域能够融合；该膨胀过程以某区域为起始点，通过维护一个队列实现广度优先的搜索过程，直到融合过程无法进行，再以另一个未融合区域为起点进行同样的过程，直到所有区域都计算过或被融合；
[0028] 自由生长层的算法通过遍历以根区域为起点的最大深度为4的邻域树，寻找所有可行的文本行生长核，为双射生长层提供方向更加可信的文本行生长核；
[0029] 双射生长层是从文本行生长核出发，沿着文本行方向延展其外接矩形框，遍历当前文本行生长核的所有邻域，当延展的外接矩形框与邻域交叠并且面积达到一定的阈值或邻域中心位于文本行上下边界之间，则对邻域进行融合形成新的文本行，融合后判断外接矩形的变化，如果方向和尺寸变化过大则此次融合无效，递归的进行这个过程直到无法再融合邻域；
[0030] 双射生长层对自由生长层得到的所有的文本行生长核进行生长，最终都生成了包含根区域的文本行，竞争层对每一个根区域对应的若干个文本行进行训练得到多个文本行随机森林分类器，取文本行在随机森林分类器中得分最高的一个作为每个根区域对应的最佳文本行；因为多个最佳文本行之间存在着重叠或嵌套，竞争层让包含相同区域的最佳文本行进行训练得到最佳文本行随机森林分类器，取最佳文本行在随机森林分类器中得分最高的一个，作为最终获得的最优的文本行。
[0031] 进一步的，步骤四所述文本行验证，具体步骤如下：选取随机森林作为文本行验证的分类器，选取文本行内区域个数、文本行外接矩长宽比、区域RGB标准差、灰度标准差、轴方向标准差、间隔标准差、高度标准差、笔画宽度标准差10个特征，用生成的文本行数据集在随机森林分类器中进行训练最终得到验证后的文本行。
[0032] 进一步的，步骤一中所述第一阈值为50%。
[0033] 进一步的，步骤一中边界吻合度公式在求解过程中对区域进行开窗，然后进行距离变换在〇(n)时间内完成边界吻合度的计算。
[0034] 进一步的，步骤二中所述第二阈值为0· 5。
[0035] 进一步的，步骤二中所述剪枝分类器中判定保留父亲节点还是孩子节点的依据为：根据第一随机森林分类器和第二随机森林分类器得到的字符置信度得分与该区域1/ RA值的加权和，保留两者中加权和较大者剔除较小者；其中：RA表示区域协方差椭圆长轴和短轴之比。
[0036] 进一步的，步骤二中所述第一随机森林分类器的字符置信度得分阈值为0. 28,第二随机森林分类器的字符置信度得分阈值为〇. 36。
[0037] 本发明的有益效果：原始MSER算法以极值区域面积变化达到极小值的区域作为最大稳定极值区域，然而图像边界一般较为模糊，使得图像边界附近产生多个嵌套的稳定极值区域。Canny边缘检测算子采用非极大值抑制技术，有效的抑制了虚假边界，将其产生的边界叠加到区域中，可以发现Canny边界能辅助选择出最佳区域，从而剔除"虚假"的稳定区域。且提出的边界提升MSER算法获得的区域个数相比原始算法减少35%以上。设计的字符分拣树，经过分拣，约91 %的非字符区域被剔除，同时字符区域流失率仅为2%。提出的多层融合聚合算法对组合型字符以及字符断裂、残缺有较强的适应性。最终使用随机森林分类器对文本行进行验证，在ICDAR2003和MSRA-TD500数据集上测试的综合性能分别为 0· 73 和 0· 70。
[0038] 第一随机森林分类器和第二随机森林分类器的不同之处在于第一随机森林分类器使用的训练数据集中区域的边界面积比都大于〇. 5,而第二随机森林分类器的训练数据集中区域的边界面积比都小于等于〇. 5。这样做的主要目的是对特征空间中字符所在空间做进一步的划分，这种分治策略使得划分后的空间范围缩小，空间内的可分性增强，分类器更易达到较优的分类效果。
【附图说明】
[0039] 图1 :多方向文本检测流程图；
[0040] 图2 (a) :Canny边界与区域叠加图；
[0041] 图2 (b):边界提升MSER图；
[0042] 图3 :字符分拣树结构图（分类器1为决策树分类器，分类器2和3为随机森林分类器，分类器4为基于成分树的剪枝分类器）；
[0043] 图4基于成分树线性修剪和堆修剪的示意图；(a)为原始成分树、（b)为线性修剪后的成分树、（C)为堆修剪后的成分树；
[0044] 图5 :多层融合算法示意图；(a)为膨胀融合层处理效果图、（b)为自由生长层原理图、（C)为双射生长层效果图、（d)为竞争层效果图。
【具体实施方式】
[0045] 下面结合附图表对本发明的原理作具体的说明：
[0046] 1、边界提升MSER区域提取
[0047] 原始MSER算法以极值区域面积变化达到极小值的区域作为最大稳定极值区域，然而图像边界一般较为模糊，使得图像边界附近产生多个嵌套的稳定极值区域。Canny边缘检测算子采用非极大值抑制技术，有效的抑制了虚假边界，将其产生的边界叠加到区域中，可以发现Canny边界能辅助选择出最佳区域，从而剔除"虚假"的稳定区域如图2 (a)所示。
[0048] 边界提升MSER算法，在原始MSER算法得到的稳定极值区域成分树上递归的对存在父亲-独子关系且面积变化A S不超过50 %的两个区域，依据边界吻合度公式（1)，对其中边界吻合度小的区域进行剔除。
[0049]
[0050] 其中N为区域边界点个数，R(Xl，yi)为区域某边界点，E(x，y)为在原始MSER算法上采用Canny边缘检测算子之后的Canny边界点集，M · I I表示向量的长度运算。实际的求解过程可以对区域进行开窗，然后进行距离变换在〇(n)时间内完成边界吻合度的计算。所述对区域进行开窗是因为要计算区域边界点集到canny边界点集的距离，而canny边界点集整个图像都有，若区域边界上每个点都要计算和canny边界点集之间最近的距离，就比较耗时，而实际我们只需计算与区域附近的canny边界点集的距离即可，开窗就是只取出canny变换后图像中区域附近部分的图像（也就是取出区域附近的canny边界点集）。所述距离变换是指变换前图像上每个位置都是〇或1，就是二值图像，变换后每个位置上的数值等于该位置与最近的〇的距离。所述〇(n)表示算法复杂度的上界，表示算法随输入的规模增大，最坏情况下耗时是线性增长的。
[0051] 边界提升MSER算法提取的稳定极值区域如图2 (b)所示，相比原始的MSER算法，不仅有效抑制了区域的嵌套重叠，而且在嵌套区域中保留了与人类视觉更为接近的稳定区域。与原始MSER算法相比提取区域个数约减少35%，具体性能见表1。
[0052] 表1边界提升MSER算法性能表
[0053]
[0054] 2、字符分检树区域分拣
[0055] 鉴于字符与非字符区域的复杂性，本发明设计了一棵字符分拣树对字符区域进行分拣，分检树的每个节点都表示一个区域集合。父子节点之间都包含着一个简单或复杂的分类器，其结构如图3所示。
[0056] 区域集合首先经过分类器1 (决策树分类器）将区域分为字符区域和非字符区域，非字符区域被直

完整全部详细技术资料下载

当前第2页1 2 3 4