一种基于鉴别性笔画库的英文场景文字识别方法

文档序号：8259530阅读：573来源：国知局

一种基于鉴别性笔画库的英文场景文字识别方法
【技术领域】
[0001] 本发明涉及模式识别与机器视觉领域中的场景文字识别领域，具体涉及一种基于鉴别性笔画库的英文场景文字识别方法。
【背景技术】
[0002] 自然场景图像中所包含的文本信息，作为一种高层次的语义信息，对于场景图像中的理解是极其重要的，一个好的文本信息提取系统可以对诸如图像检索、智能交通、机器人视觉等应用领域产生巨大的推动作用。为了有效地提取场景中的文本信息，在场景文本区域得到定位后，就要进行场景文本识别。然而由于场景类别的多样性、背景的复杂性以及字体的不可预测性，场景文字识别是一项比较困难的工作。
[0003] 近些年，场景文字识别领域正引起越来越多研宄者的重视，现有的方法大概可以分为两类：基于光学字符识别的方法和基于目标识别的方法。基于光学字符识别的方法利用的是传统的光学字符识别技术，需要先对检测到的文本块进行二值化，再使用较成熟的 OCR引擎进行识别；基于目标识别的方法则将每一类场景文字作为一类特殊的目标，跳过二值化环节，直接使用目标识别的方法进行识别，但是现有的方法基本是直接将目标识别的方法应用到场景文字识别中去，并没有充分考虑到场景文字识别的特性。

【发明内容】

[0004] 为了进一步优化英文场景文字识别效果，本发明提出了一种基于鉴别性笔画库的英文场景文字识别方法，充分利用了文字特有的全局结构，节省了计算时间。
[0005] 本发明所提出的一种基于鉴别性笔画库的英文场景文字识别方法，包括步骤：
[0006] 步骤1，基于关键点标注的笔画子检测器学习：
[0007] 首先为每一类英文场景文字设计关键点，并对所有的英文场景文字单字训练样本进行关键点标注，在每一类英文文字类别的训练图像中随机选取一幅图像，在该图像基于特定笔画构件矩形框，每一个矩形框对应一个特定的笔画，记录这些笔画对应矩形框所包围关键点的集合，定位包围这些关键点的最小矩形，计算该最小矩形和笔画矩形框的长宽比；在确定候选笔画后，根据上述关键点集合和长宽比为每一个候选笔画抽取正样本和负样本，并训练线性支持向量机作为笔画检测器；
[0008] 步骤2,笔画子检测器响应区域的界定：
[0009] 根据正样本抽取的位置，为每一个笔画检测器定义一个响应区域，所述响应区域为包含正样本位置的最小矩形，计算正样本的平均长度和宽度作为笔画检测器滑动窗口大小；
[0010] 步骤3,鉴别性笔画选取：
[0011] 计算每一个笔画检测器在所属文字类别和其他文字类别的训练图像响应区域内的最大响应值，计算文字类别内平均最大响应值和其他文字类别平均最大响应值的差作为笔画的鉴别性参数，依据笔画的鉴别性参数进行大小排序，选取最大的前N个鉴别性参数对应的笔画作为鉴别性笔画；
[0012] 步骤4,特征提取和文字分类器的训练：
[0013] 在所有的英文场景单字训练样本和测试样本上，使用笔画检测器在对应响应区域里的最大响应值作为特征，在该特征的基础上训练和测试线性支持向量机单字分类器。
[0014] 步骤1中，所述英文场景文字关键点的设计覆盖英文文字的主要结构，并归一化所有单字训练样本到相同的大小，宽度为64,高度为64。
[0015] 步骤1中，所述的矩形框R对应候选笔画其中，^为英文文字类别标号， j为候选笔画标号；矩形框R包围的关键点集合为Kq.j，将包围关键点集合Kq4的最小矩形定义为r ;矩形框R的上、下、左、右边界的坐标分别为Rp &、RtRb，r的上、下、左、右边界的坐标分别为ivrpivrb，r的长度和宽度分别为rwidth= r ^1^+1和rheight= r b-rt+l，则从r 到R的左、右、上、下四个方向的延拓因子分别是：
[0016] Efleft= (r i-Ri+D/r^^
[0017] Efright= (Rr-rr+l)/rwidth
[0018] Eftop= (rt-Rt+l)/rheight _9] Efbottom= (R b-rb+l)/rheight
[0020] 步骤1中，所述正样本的抽取方法为：定位包围关键点集合的最小矩形沪，假设r'的左、右、上、下坐标分别为r' pr' yr' t，r' b，那么r'的长度和宽度分别为 r， Width=r， r_r' r+l和^ height =沪b_r ' t + l，则对应笔画正样本的抽取左、右、上、下坐标应该确定为：
[0021] Rr 1+1-Efleft*r,width
[0022] R' r=r' r_l+Ef right*r' width
[0023] Rr=r't+l-Eftop*r rheight
[0024] Rrh=r'b-l+Efbottom*r ,height；
[0025] 每抽取一个正样本，都需要到其他不是Ci的文字类别的一幅训练图像上抽取位置相同的图像块作为负样本。
[0026] 步骤1中，在抽取正样本和负样本后，计算正样本的平均高度和宽度，将所有 Stroke^的正负样本归一化到平均高度和平均宽度，然后在归一化的正负样本上提取梯度直方图特征，训练线性支持向量机作为每一个笔画Str〇keq彳的检测器。
[0027] 本发明提出的一种基于鉴别性笔画库的英文场景文字识别方法，参考物体库的思路，通过标注的关键点为笔画子检测器收集训练样本，并将笔画子检测器的局部最大响应值作为特征，充分利用了文字特有的全局结构，增强了文字分类器的鉴别能力，减轻特征抽取的计算负担，节省了计算时间。
【附图说明】
[0028] 图1是本发明一种基于鉴别性笔画库的英文场景文本识别方法的流程图；
[0029]图2是本发明的基于关键点集合和延拓因子的笔画训练正样本收集示意图； [0030]图3是本发明的响应区域的定义示意图；
[0031] 图4是本发明基于鉴别性笔画库的特征抽取示意图。
【具体实施方式】
[0032] 为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。
[0033] 如图1所示，本实施例的一种基于鉴别性笔画库的英文场景文字识别方法具体包括以下步骤：
[0034] 步骤1，基于关键点标注的笔画子检测器学习：
[0035] 针对每一类英文场景文字类别Ci(0-9，A-Z，a-z)，都要进行关键点的设计，要求设计的关键点必须能够覆盖文字的主要结构，笔画丰富的局部尤其要求关键点的覆盖，对类另lj"4"和"B"设计的关键点如图1所示。在完成关键点的设计后，对所有文字类别的所有训练样本都要进行关键点的标注。
[0036] 在候选笔画的选择阶段，我们从每一个类别Ci中抽取一幅标注过关键点的单字训练图像，在该图像上选取大量尺寸不一的矩形框，每一个矩形框对应的即为一个候选笔画 Stroke^，Ci对应英文文字类别标号，j对应候选笔画标号。
[0037] 针对每一个候选笔画Strokeqj，将包围该笔画的矩形记为R，R包围的关键点集合记为K%1，定位包围关键点集合KCij的最小矩形记为r。假设R的上、下、左、右边界的坐标分别为H、RtRb，r的上、下、左、右边界的坐标分别为rpr^rpivr的长度和宽度分别为r 和rMght=rb_rt+l那么从r到R的左、右、上、下四个方向的延拓因子分别是：
[0038] Ef^^i-Ri+D/r.i^
[0039] Efright=(Rr-rr+l)/rwidth
[0040] Eftop= (rt-Rt+l)/rheight [0041 ]Efbottom= (Rb-rb+l)/rheight
[0042] 针对每一个候选笔画Sfr〇keqi，在类别Ci的训练样本上抽取对应的笔画块：首先需要定位包围该笔画子检测器对应关键点fqj的最小矩形r'，假设r'的左右上下坐标分别为r'pr'r，r't，r' b那么宽度为r'width=r'r_r'r

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王春恒;高嵩;肖柏华;史存召;
技术所有人：中国科学院自动化研究所;
我是此专利的发明人

上一篇：一种射击路径的3d场景重构系统及方法
上一篇：一种云判方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。