自然场景多方向文本检测方法_3

文档序号：9288578阅读：来源：国知局

接剔除，字符区域依据边界面积比被分成两部分，其中边界面积比大于〇. 5 的区域集合被送入分类器2 (随机森林分类器），边界面积比不大于0. 5的区域集合被送入分类器3 (随机森林分类器），两个分类器识别出的非字符区域都将被剔除，而保留下来的区域将经过分类器4 (剪枝分类器）进行分类，最终得到分拣出的字符区域集合。
[0057] 1)决策树分类器
[0058] 分类器1是包含一系列启发规则的决策树，区域集合在每个规则下不断的分裂成字符区域和非字符区域。与数据驱动的决策树不同，本发明构造决策树选择属性的优先顺序是人为设定的，并且每个节点的分割阈值是由实验获取。因此该决策树完全由人类先验知识决定，为了使得启发式规则尽可能适应多语种和样式的字符，分割阈值将偏向非字符区域。规则的定义与阈值的设定如表2所示。
[0059] 表2启发规则与字符范围表
[0060]
[0061]
[0062] 其中a，b分别表示区域协方差椭圆长轴和短轴，Sr表示区域位于协方差椭圆内的面积，Se表示区域协方差椭圆面积，E表示边界数，boxS表示区域最小外接矩形面积，S表示区域面积，Es表示区域未被2*2卷积模板覆盖的面积，R表示区域距离变换最大值。
[0063] 2)随机森林分类器
[0064] 分类器2和3都是随机森林分类器，两个分类器训练所需的区域集合都经过分类器1的过滤，从而有效的剔除较为明显的非字符区域，缩小待分类区域样本的空间范围，使分类器在特征空间的某超矩内集中搜索超分类面，达到更好的分类效果。分类器2和3的不同之处在于分类器2使用的训练数据集中区域的边界面积比都大于0. 5,而分类器3的训练数据集中区域的边界面积比都小于等于〇. 5。这样做的主要目的是对特征空间中字符所在空间做进一步的划分，这种分治策略使得划分后的空间范围缩小，空间内的可分性增强，分类器更易达到较优的分类效果。
[0065] 产生区域集合后，就需要进行特征的选取，特征的有效性将直接影响分类效果，然而遗憾的是目前还不存在能够反映字符本质的特征。同时考虑到字符的多方向问题，使得特征必须具有旋转不变性，为此从区域的颜色、形状、对比度、空间分布四个方面设计了 22 个旋转不变特征。具体特征如下：
[0066] ?颜色特征：选取区域在RGB与HSI颜色空间中六个通道的标准差形成区域颜色信息的描述。
[0067] ?形状特征：选取区域的长宽比、饱和度形成区域形状信息的描述。
[0068] ?空间分布特征：选取区域边界面积比、笔宽标准差与区域最小外接矩短边之比、笔宽面积比例向量（按区域中笔宽大于最大笔宽0. 1，0. 2…0. 9倍的面积与总面积的百分比形成的向量）形成区域空间分布信息的描述。
[0069] ?对比度特征：选取区域窗内背景与区域在HSI三个通道上均值的差值形成对比度信息的描述。
[0070] 完成特征的设计后，就可以从区域集合产生特征数据集，进而使用随机森林算法进行训练，训练的过程是从数据集中有放回的抽取与数据集个数相同的训练样本集。在生成决策树的过程中随机抽取特征集合中的部分特征组成特征子空间，并依据训练数据在特征子空间中生成决策树，因此克服了单棵决策树出现的过拟合现象，且不需要复杂的剪枝过程，对噪声和异常值的也有较好的容忍性。
[0071] 表3 RF (随机森林分类器）得分阈值与分类准确度关系表
[0072]
[0073] 3)基于成分树的剪枝分类器
[0074] 分类器4是基于成分树的剪枝分类器，包含基于成分树的线性修剪策略和堆修剪策略，修剪掉的区域被视为非字符区域进行剔除，保留的区域视为最终字符区域。分类器4 对区域存在的嵌套问题进行解决，修剪过程如图4所示，具体的修剪算法流程可参考文献
[1]，不同之处在于判定保留父亲节点还是孩子节点的依据不再是区域的长宽比特征，而是由分类器2和3得到的字符置信度得分与该区域1/RA值的加权和，保留两者中加权和较大者剔除较小者。此处置信度得分就是投票得分，投票得分是由随机森林分类器产生的（分类器2和3都是随机森林分类器）。对于每个样本（也就是区域）都会产生一个投票得分，得分越大证明越可能是字符区域，那么判断大到什么时候才是字符就需要一个投票得分阈值Δ，通常取〇. 5,但是为了尽可能的保留字符区域，可以将这个阈值设置的低些，表3中每个分类器有2个得分是进行一个比较，比较不同阈值时的分类性能，从而指导阈值选取的更加合理。最终采用了分类器2阈值选取了 0. 28,分类器3阈值选取了 0. 36。
[0075] 3、字符多层融合形成文本行
[0076] 多层融合的聚合方法中，字符在不同层，依据不同的准则进行融合、生长、竞争最终生成文本行。多层融合的字符聚合算法主要由如下四层融合过程组成，如图5所示。
[0077] 1)膨胀融合层
[0078] 膨胀融合层针对区域残缺、破损和组合型字符进行补偿，对区域最小外接矩进行一定的膨胀后，判断区域与邻域外接矩的空间关系，如果重叠则认为两个区域可以融合。该膨胀过程以某区域为起始点，通过维护一个队列实现广度优先的搜索过程，直到融合过程无法进行，再以另一个未融合区域为起点进行同样的过程，直到所有区域都计算过或被融合，融合过程如图5(a)所示。其中图左侧为膨胀融合前的区域，一个单词或者文字由若干个不通区域组成；右侧为膨胀融合后的区域，相邻较近的区域融合成一个区域形成了完整的单词或汉字。
[0079] 2)自由生长层
[0080]自由生长层用于解决融合初期文本行方向容易受到干扰的问题，算法通过遍历以根区域为起点的最大深度为4的邻域树，寻找所有可行的文本行核，为双射生长层提供方向更加可信的文本行生长核。具体做法是从某区域出发递归的连接邻域，当深度达到3后使用剪枝技术对不太可能的文本行核进行修剪，递归深度达到4后返回。算法原理如图 5(b)所示。其中节点都表示膨胀融合层形成的一个区域，节点蕴含的文本行核由根节点到该节点路径上经过的所有节点区域连接组成，虚线空心节点表示该节点蕴含的文本行核被修剪，实线空心节点表示该节点蕴含的是一个包含根节点的可行文本行核。
[0081] 3)双射生长层
[0082]自由生长层得到文本行生长核后，就需要在文本行方向上进行双向的生长，最终获得完整的文本行，这样可以有效减少搜索方向的盲目性提高搜索效率。具体做法是从文本行核出发，沿着文本行方向延展其外接矩形框，遍历当前文本行核的所有邻域，当延展的外接矩形框与邻域交叠并且面积达到一定的阈值或邻域中心位于文本行上下边界之间，则对邻域进行融合形成新的文本行，融合后判断外接矩形的变化，如果方向和尺寸变化过大 (阈值分别为10度和1. 2倍）则此次融合无效。递归的进行这个过程直到无法再融合邻域，双射生长原理如图5(c)所示。其中实线框为文本核外接矩形框，虚线框为文本行方向拓展后的矩形框。
[0083] 4)竞争层
[0084] 双射生长层对自由生长层得到的生长核进行生长，最终都生成了包含根区域的文本行，而通常一个区域仅属于一个文本行，因此需要从这些文本行中选出最佳的一个，本发明通过训练得到文本行随机森林分类器，取文本行在分类器中得分最高的一个。同样在得到

完整全部详细技术资料下载

当前第3页1 2 3 4