字符识别方法和设备的制造方法_3

文档序号：9751307阅读：来源：国知局

点坐标P(J'）。通过以下公式将特征f(J'）输入到训练好的回归模型n:P(J'）=f T(J'）· 11，其中0(1'）为汽1'）的转置。将？(1'）中的元素(根据上文描述，可知元素个数为8个)依次取出，则通过回归模型Π 估计的待识别字符区域的坐标可以表示为{(xl(J'），yi(J'））， ( X2(J'），y2(J'）），（X3(J'），y3(J'）），（ X4(J'），y4(J'））};应当注意，通过这种方式求得的坐标(^^旧^'仏彳二^一^均为相对坐标及个相对坐标就是待识别字符区域的汩一化的顶点坐标，其代表的是待识别字符区域的四个顶点的坐标。
[0055] 在步骤S214,基于归一化的顶点坐标P(J'）计算待识别字符区域的绝对顶点坐标P ⑴。
[0056] 可以通过以下公式计算在待识别图像J中待识别字符区域的绝对顶点坐标：
[0057] Xj(J)=xj(J，)*ff(J)
[0058] yj(J)=yj(J，)*H(J), j = 1,2,3,4
[0059] 其中，W(J)和H(J)分别为待识别图像J的宽度和高度。
[0060] 可选地，步骤S220可以包括以下步骤。对待识别字符区域进行二值化操作。基于二值化操作的结果，利用字符模板来进行字符识别。这种字符识别方式是一种光学字符识别 (Optical Character Recognition,OCR)方式，即先利用二值化操作分割出待识别字符区域内的每个字符，然后利用模板匹配的方式识别出所有的字符(对于银行卡卡号来说，字符包括阿拉伯数字）。字符模板是已知的字符模板。这种通过二值化操作和模板匹配进行字符识别的方法简单易行，节约时间。另外，也可以在二值化操作之后，利用模式分类的方式来识别出所有的字符。
[0061] 可选地，步骤S220中的字符识别可以利用多类分类器实现。可选地，上述多类分类器可以经训练而获得。多类分类器的训练可以包括以下步骤。计算第二样本图像中的字符子图像的特征。第二样本图像包括与待识别图像J相同类型的图像。每个字符子图像中包括且仅包括一个字符。之后，根据字符子图像的特征和对应的字符训练多类分类器。其中，第二样本图像可以与上文所述的第一样本图像相同，也就是说，可以直接用第一样本图像来训练多类分类器。当然，第二样本图像也可以采用与上文所述的第一样本图像不同的图像。
[0062] 训练的目的在于利用标注的字符样本训练多类分类器。首先，提供已知的第二样本图像(例如银行卡图像)的字符区域并指明字符区域中每个字符的位置以及内容，参见图 9,示出了银行卡图像的又一示例。在图9中，已标注了字符区域内的每个字符的位置和内容。
[0063] 利用标注的字符样本构建训练集T={(Gk，γι〇}，k=l，2, . . .，M，其中，G为字符子图像，γ为其类别标记，Μ为字符子图像的数目，k为下标。对于银行卡卡号识别来说，字符集至少包括十个阿拉伯数字，也即γ 6{0，1，2,3,4,5,6,7,8,9，*}。此处的*代表辅助类，用于处理十个阿拉伯数字之外的类别（如背景成分等）。辅助类*对应的字符子图像可以通过从银行卡图像中的、不包含银行卡卡号字符的图像部分随机采集获得。
[0064]计算每个字符子图像的H0G特征，其计算方法和参数设置与上文的第一样本图像和待识别图像的H0G特征的计算方法类似，在此不再赘述。字符子图像的H0G特征的参数设置为:横向（X坐标轴方向）划分为5个单元，纵向（y坐标轴方向）划分为8个单元，梯度方向取值为0-180度，且梯度方向划分为9个通道。将字符子图像的H0G特征记为h，则训练集变为:T = {(hk，丫1〇}氺=1，2，...^。之后，在1'上训练多类分类器，分类算法可以采用支持向量机 (SVM)算法，可以得到多类分类模型C。
[0065]图7示出根据本发明一个实施例的步骤S220的流程图。如图7所示，步骤S220可以包括以下步骤。
[0066] 在步骤S221，提取待识别字符区域中的相同宽度的子图像直至遍历整个待识别字符区域。两个相邻子图像之间可以具有重叠部分，并且子图像的宽度大于或等于最大字符宽度并且小于或等于最小字符宽度与字符间隔之和。
[0067] 参考图8,示出了根据本发明一个实施例的提取子图像的示意图。如图8所示，在待识别字符区域801中从左到右进行水平扫描，以提取具有固定宽度和高度的子图像。这可以视作存在一个在待识别字符区域801中从左到右移动从而遍历待识别字符区域801的滑动窗802。该滑动窗802具有固定的宽度和高度，例如其宽度可以为40像素，高度可以为64像素。该滑动窗802所包围在内的图像部分即为要提取的子图像。滑动窗802可以每次移动固定的距离，使得所提取的两个相邻子图像之间存在重叠部分。该每次移动的固定距离可以是任何合适的大小，例如为2像素。
[0068]可以理解，子图像的宽度（即滑动窗802的宽度)需要满足一定的条件，以较好地分辨出子图像内包含的内容。上述条件可以是子图像的宽度大于或等于最大字符宽度并且小于或等于最小字符宽度与字符间隔之和。字符宽度是指常规的某一类别图像(例如银行卡图像）中的字符的宽度，其可以根据经验值预先设定。如图8所示，在银行卡图像上可以按照字符分割出一个个的图像块803,图像块界定出字符与周围的背景的界限。因此，字符宽度也可以说是图像块的宽度。不同字符相对应的图像块的宽度可能相同，也可能不同。例如数字"Γ相对应的图像块的宽度可能比数字"8"相对应的图像块的宽度小。因此，在与数字 "〇"，"Γ，"2"……"9"相对应的图像块中，可能存在最大字符宽度和最小字符宽度。可以理解的是，当所有字符相对应的图像块的宽度相同时，最大字符宽度等于最小字符宽度。字符间隔是指两个图像块之间的间隔，如图8所示的字符间隔804。
[0069] 在步骤S222,计算子图像的特征。可以计算子图像的H0G特征。子图像的H0G特征的计算方法与上文所述的字符子图像的H0G特征的计算方法和参数设置一致，本领域技术人员根据上文的描述可以理解子图像的H0G特征的计算方法，在此不再赘述。
[0070]在步骤S223,利用多类分类器，基于子图像的特征进行字符识别。多类分类器可以用多类分类模型C表示。将子图像的H0G特征输入到多类分类模型C中，可以得到一系列窗口以及对应的类别标记。窗口与子图像在待识别字符区域中占据的位置相对应。类别标记属于十个阿拉伯数字之一或*。对得到的窗口进行过滤，去除标记为*以及分类得分小于阈值 Γ (典型值为0.35)的窗口。对余下的窗口执行非最大抑制（NMS，Non-Maximum Suppression)操作，去除重叠率超过50%的窗口。
[0071 ]重叠率的计算方法如下：
[0072] 对于窗口 R1和R2,二者的重叠率定义为：
其中A(R1 f!R2)代表R1和 R2重叠部分的面积，A(R1 U R2)代表所有同时包含R1和R2的窗口中面积最小的窗口的面积。
[0073] 将余下窗口对应的类别标记按照从左到右的顺序串联起来，得到一个字符串Z。将Z作为字符识别的结果输出，即可获得需要的字符，例如银行卡卡号。
[0074] 利用子图像的特征和多类分类器进行字符识别的方法可以直接从子图像中定位和识别字符，不依赖于二值化分割的结果。因此，该方法可以避免由于模糊、噪声以及阴影等因素的干扰而造成的识别出的字符断裂或粘连等问题，避免字符识别结果出现错误，从而可以进一步提高字符识别精度。
[0075]可选地，在计算第二样本图像中的字符子图像的特征之前，多类分类器的训练还可以包括:将字符子图像缩放为具有标准高度，并保持字符子图像的宽高比不变。在提取待识别字符区域中的相同宽度的子图像之前，在待识别字符区域中进行字符识别还可以包括:将待识别字符区域缩放为具有标准高度，并保持待识别字符区域的宽高比不变。
[0076] 在多类分类器的训练过程中，可以将训练集T中的所有字符子图像缩放到标准高度。标准高度的字符可以根据需要而定。例如，标准高度可以为64像素。字符子图像的宽度也可以缩放为标准宽度，例如40像素。可以理解，字符子图像的缩放后的高度和宽度的示例仅是示意性的而非限制性的。
[0077] 相应地，可以将待识别字符区域Q缩放到标准高度(例如，64像素），并保持其宽高比不变，得到具有标准高度的待识别字符区域V。随后从待识别字符区域V中提取相同宽度的

完整全部详细技术资料下载

当前第3页1 2 3 4 5