自然场景多方向文本检测方法

文档序号：9288578阅读：735来源：国知局

自然场景多方向文本检测方法
【技术领域】
[0001] 本发明涉及模式识别、图像处理、人工智能相关技术，属于计算机视觉领域。
【背景技术】
[0002] 自然场景中文本检测因受到语种、尺度、字体、光照、对比度、视角、方向、背景、残缺、模糊、断裂等诸多因素的干扰，检测精度无法达到较高水平。时至今日自然场景中的文本检测仍然没有得到很好的解决，当前的研究主要针对水平方向英文文本的检测，多方向混合语种的检测技术相对滞后，很多检测方法将字符为水平方向作为先验知识，因此在多方向上的文本检测效果不理想（如[1]，[2]，[5])，同样一些检测方法将语种限制在英文字符上，训练的参数化分类器仅记忆了英文字符的特征，因此在多语言库上的检测结果率较低（如[3]，[5]，[6])。当前的检测方法主要分为基于窗口和基于连通域两大类。
[0003] 基于窗口的方法提取滑动窗口的纹理、变换域、边界梯度等特征设计分类器进行文字窗口和非文字窗口的识别（如[8])，也有学者直接将窗口图像作为输入设计深度神经网络进行识别。这类方法能够抓住文字图像高层特征，但计算代价过大，特征的设计非常困难。
[0004] 基于连通域的方法依据图像边界、灰度、颜色等信息获得图像中的区域，然后提取区域的笔画宽度、长宽比、占位比、灰度、颜色、边界等特征设计分类器进行字符区域与非字符区域的识别（如[1]，[3])，同样很多学者也将整个区域作为卷积神经网络的输入进行训练与识别。该类方法虽然计算速度得到很大提升，但存在误连接、干扰大、虚警高、不具鲁棒性等缺点。
[0005] 检测后期需要完成字符区域的连接与文本行生成，字符的连接方法主要分为两大类，一类是基于启发规则的生长方法（如[2])，另一类是基于学习的聚合方法（如[1])。基于启发规则的生长方法通过人为设定生长的控制参数逐渐融合最终生成文本行。而基于学习的方法通过对训练数据集的学习确定字符聚合的控制参数。基于规则的方法对组合型文字或区域断裂较为敏感，而基于学习的方法则对训练集依赖性强，训练集外表现较差。
[0006] 参考文献
[0007] [1]X. C. Yin, X. W. Yin, K. Z. Huang and H. W. Hao.自然场景鲁棒性文本检测[J] · onIEEE Trans. ΡΑΜΙ, 2013. ρρ. 970 - 983.
[0008] [2]Weilin Huang，Zhe Lin，Jianchao Yang.基于笔幽宽度与文本协方差描述的自然场景文本定位[J] · Computer Vision (ICCV)，on 2013 IEEE International Conference pp.1241-1248.
[0009] [3] Lei Sun，Qiang Huo, Wei Jia，Kai Chen.基于彩色对比度提升与神经网络的自然场景文本检测[J]· Pattern Recognition(ICPR)，2014 22nd International Conference on IEEE，2014, pp. 2715 - 2720.
[0010] [4]Le Kang，Yi Li, Doermann D.自然场景多方向文本行检测[J] · Computer Vision and Pattern Recognition, 2014 IEEE Conference on pp.4034 - 4041.
[0011] [5]Epshtein B.,Ofek E. , WexlerY. Detecting text in natural scenes with stroke width transform[J]. Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on,pp.2963-2970.
[0012] [6] Cong Yao, Xiang Bai, Wenyu Liu, Yi Ma, Zhuowen Tu.自然场景任意方向文本检测[J] · inCVPR' 12, 2012, ρρ· 1083 - 1090.
[0013] [7]Le Kang, Yi Li, Doermann D.自然场景鲁棒性多方向文本检测111^868[]1· Computer Vision and Pattern Recognition, 2014 IEEE Conference on pp. 4034 - 4041.
[0014] [8] Xiaoqing Liu, Samarabandu, J.基于多尺度边界的复杂图像文本提取 [J]. 2006IEEE International Conference on pp.1721 - 1724

【发明内容】

[0015] 本发明目的：本发明实现自然场景中多方向及混合语种的文本提取。为基于图像文字的应用如：图像检索、场景文字实时翻译、车牌检测、教学习题检索、快速笔记、文档快速数字化、产品相关信息获取、商店相关信息获取、流水线产品合格性检测等提供必要条件；首先使用提出的边界提升最大稳定极值区域（MSER)算法，获得相比原始MSER算法更少的区域。然后依据设计的含有多个分类器的字符分拣树对区域进行层层分拣，剔除绝大部分非字符区域。接着使用提出的多层融合的聚合算法逐层对候选字符进行融合生成文本行，最后使用随机森林分类器对文本行进行验证。
[0016] 本发明的技术方案是：自然场景多方向文本检测方法，具体步骤如下：
[0017] 步骤一、边界提升MSER区域提取；
[0018] 在原始MSER算法得到的稳定极值区域成分树上递归的对存在父亲-独子关系且面积变化A S不超过的第一阈值的两个区域，依据边界吻合度公式，对其中边界吻合度小的区域进行剔除；所述边界吻合度公式为：
[0019]
[0020] 其中：N为区域边界点个数，R(Xl，yi)为区域某边界点，E(x，y)为在原始MSER算法上采用Canny边缘检测算子之后得到的Canny边界点集，M · I I表示向量的长度运算；
[0021] 步骤二、字符分检树区域分拣；
[0022] 经步骤一中边界提升MSER区域提取后的区域集合，首先经过决策树分类器将区域分为字符区域和非字符区域，非字符区域被直接剔除，字符区域依据边界面积比被分成两部分，其中边界面积比大于第二阈值的区域集合被送入第一随机森林分类器，边界面积比不大于第二阈值的区域集合被送入第二随机森林分类器，两个随机森林分类器识别出的非字符区域都将被剔除，而保留下来的区域经过剪枝分类器进行分类，最终得到分拣出的字符区域集合；
[0023] 步骤三、字符多层融合形成文本行；
[0024] 对步骤二最终得到分拣出的字符区域集合进行多层融合，依次为膨胀融合层、自由生长层、双射生长层、竞争层，最终生成文本行；
[0025] 步骤四、文本行验证。
[0026] 进一步的，步骤三中所述的膨胀融合层、自由生长层、双射生长层、竞争层，具体融合过程如下：
[0027] 首先，膨胀融合层针对步骤二最终得到分拣出的字符区域中的残缺、破损和组合

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨彬;夏思宇;
技术所有人：东南大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。