一种文字识别方法及装置的制造方法

文档序号：9226006阅读：507来源：国知局

一种文字识别方法及装置的制造方法
【技术领域】
[0001]本申请涉及计算机技术领域，尤其涉及一种文字识别方法及装置。
【背景技术】
[0002]随着计算机技术的发展，文字识别技术应运而生，通过这种技术，设备可以将图像中的文字识别出来，将文字识别技术应用于非数字化信息的录入就可以显著提高非数字化信息的录入效率。一般方法是，采集非数字化信息的图像(例如，对纸质单据拍照)，再利用文字识别技术识别图像中的文字，以获得信息并录入。显然，采用文字识别技术对非数字化信息进行录入时，文字识别的精度是决定录入信息的准确性的一个重要因素。
[0003]在现有技术中，文字识别的方法主要有以下两种。
[0004]第一种，如图1所示，具体包括以下步骤:
[0005]SlOl:提取图像中的文字行，将提取的文字行进行二值化处理。
[0006]图2A为以纸质单据为例说明的现有技术中的第一种文字识别方法示意图，在图2中，该纸质单据中包括很多个文字行，例如，第一个文字行是“单据”这两个字所在的文字行，第二个文字行为“卖家信息”这四个字所在的文字行，第三个文字行为“电话”这两个字所在的文字行。
[0007]则在图2A所示的图像中，可分别将每个文字行提取出来，再对每个提取出的文字行进行二值化处理。其中，二值化处理的目的是:以文字行中的文字为前景，以文字行中的其他信息为背景，对文字行中的文字和其他信息进行区分。
[0008]例如，假设提取出的文字行为图2A中“电话”所在的文字行，则可将该文字行中的文字笔画所在的每个像素点的像素值置为255 (像素值为255的像素点的颜色为纯白),其他信息所在像素点的像素值置为O (像素值为O的像素点的颜色为纯黑),如图2B所示。
[0009]图2B为将文字行进行二值化处理的示意图。在图2B中，“电话”所在的文字行中的所有文字(包括汉字、数字、标点符号)的文字笔画都是纯白色，而其他地方都是纯黑色。
[0010]S102:针对提取的每个二值化处理后的文字行，确定该文字行中每一列像素点的垂直投影。
[0011]其中，一列像素点的垂直投影为该列像素点的像素值之和。
[0012]S103:根据每一列像素点的垂直投影，确定该文字行中每个文字所在的文字区块。
[0013]在确定一个文字所在的文字区块的高度时，对于二值化处理后的文字行来说，确定一个文字的所有笔画中最上方像素值为255的像素点和最下方像素值为255的像素点，将这两个像素点所在的水平线确定为该文字区块的上边界和下边界，如图2B所示。
[0014]在图2B所示的文字行中，对于“电”字，确定该“电”字所在的文字区块的高度时，可确定该“电”字的笔画中最上方像素值为255的像素点所在的水平线，作为该“电”字所在的文字区块的上边界，将该“电”字的笔画中最下方像素值为255的像素点所在的水平线，作为该“电”字所在的文字区块的下边界。
[0015]在确定一个文字所在的文字区块的宽度时，由于字与字之间通常都会有一定的间隙，因此，理想情况下间隙上的像素点都是像素值为O的像素点，也就是说间隙上每列像素点的垂直投影均为O，因此，可将垂直投影为O的区域的左边界和右边界作为相邻两个文字区块的右边界和左边界，如图2B所示。
[0016]在图2B所示的文字行中，对于“电”字和“话”字，由于这两个字之间的间隙上每个列像素点的垂直投影均为0，因此，将该垂直投影为O的区域的左边界确定为“电”字所在的文字区块的右边界，将该垂直投影为O的区域的右边界确定为“话”字所在的文字区块的左边界。
[0017]这样，通过文字区块的上下边界和左右边界，即可确定出各文字区块。
[0018]S104:将每个矩形区块中的图像识别为一个文字。
[0019]可见，现有技术中的上述第一种方法主要是通过垂直投影的方法来确定文字区块，进而识别确定出的文字区块中的文字。
[0020]但是，由于汉字的结构复杂，汉字中存在较多左右、左中右结构的文字，对于这种结构的汉字，偏旁部首之间往往也存在一些间隙，而图1所示的文字识别方法往往会将一个文字的某个偏旁部首所在的区块确定为一个文字区块，从而将一个文字的某个偏旁部首识别为一个文字，因此，图1所示的方法文字识别的精度较低。例如，对于“树”字，采用如图1所示的方法很可能会识别成“木”、“又”、“寸”，或者“权”、“寸”，或者“木”、“对”。
[0021]第二种，由于汉字是一种宽度和高度的比值相对固定的文字，因此，对于提取出的文字行，可估算该文字行中各文字的高度，并针对该文字行中的每个文字，确定该文字所在的区块的左边界，根据预设的宽度和高度的比值，确定该文字所在区块的最大估计右边界(其中，该最大估计右边界到左边界的距离大于该文字的高度乘上述比值的乘积)，再从该最大估计右边界向左寻找该文字所在的文字区块的实际右边界，寻找到后，即可确定该文字所在的文字区块，将该文字区块中的图像识别为一个文字，如图3所示。
[0022]图3为现有技术中第二种文字识别方法的示意图，在图3中，阴影所示的区域为可能的文字所在的文字区块，以第三个阴影区域为例进行说明。在确定文字区块时，先确定文字区块的左边界，假设确定出的左边界的坐标为(Xtl, 0)，在根据预设的宽度和高度的比值，确定该文字所在的区块的最大估计右边界。假设最大估计右边界的坐标为(Xp 0)，则XfXtl的值(也即，左边界到最大估计右边界的距离)大于该文字区块的高度乘预设的比值的乘积。再从最大估计右边界开始向左寻找该文字区块的实际右边界(X1,0)，寻找到实际右边界后，即可确定该文字区块。
[0023]可见，现有技术中的第二种方法是基于汉字的宽高比(即宽度和高度的比值)相对固定的这一假设进行文字识别的，但是，即使汉字的宽高比相对固定，实际应用场景中也存在大量汉字与英文字母、阿拉伯数字等其他文字混排的情况，而除汉字以外的其他文字的宽高比可能并不固定，因此，第二种方法在识别汉字与其他文字混排时，识别精度也较低。
[0024]例如，假设文字行中包括文字“ I日”，是阿拉伯数字与汉字混排的情况，在这种情况下，采用第二种方法识别文字时，很可能会错误的将“ I日”识别为“旧”。

【发明内容】

[0025]本申请实施例提供一种文字识别方法及装置，用以解决现有技术中文字识别的精度较低的问题。
[0026]本申请实施例提供的一种文字识别方法，包括:
[0027]确定文字行中由各笔画构成的连通域，确定各连通域的外接矩形；
[0028]针对每个外接矩形，根据该外接矩形中各像素点的像素值对该外接矩形进行切分，得到待合并区块；
[0029]根据各待合并区块的重叠区域以及预设的文字区块的宽高比范围，对满足指定条件的待合并区块进行合并，得到待识别区块；
[0030]按照各待识别区块从前到后的顺序，依次选择待识别区块作为起点区块；
[0031]针对位于所述起点区块之后的每个待识别区块，确定从所述起点区块开始，到该待识别区块为止的所有区块，将确定的所有区块合并为一个待定文字区块，并识别该待定文字区块中的文字，确定识别的置信度；
[0032]将识别的置信度最高的文字确定为所述起点区块所在的实际文字区块中的文字。
[0033]本申请实施例提供的一种文字识别装置，包括:
[0034]外接矩形确定模块，确定文字行中由各笔画构成的连通域，确定各连通域的外接矩形；
[0035]切分模块，针对每个外接矩形，根据该外接矩形中各像素点的像素值对该外接矩形进行切分，得到待合并区块；
[0036]合并模块，根据各待合并区块的重叠区域以及预设的文字区块的宽高比范围，对满足指定条件的待合并区块进行合并，得到待识别区块；
[0037]置信度确定模块，按照各待识别区块从前到后的顺序，依次选择待识别区块作为起点区块；针对位于所述起点区块之后的每个待识别区块，确定从所述起点区块开始，到该待识别区块为止的所有区块，将确定的所有区块合并为一个待定文字区块，并识别该待定文字区块中的文字，确定识别的置信度；
[0038]识别确定模块，将识别的置信度最高的文字确定为所述起点区块所在的实际文字区块中的文字。
[0039]本申请实施例提供一种文字识别方法及装置，该方法确定文字行中由各笔画构成的连通域的外接矩形，根据各外接矩形中像素点的像素值，对各外接矩形进行切分得到待合并区块，再根据各待合并区块的重叠区域和预设的宽高比范围，对各待合并区块进行合并，得到待识别区块，从中选择起点区块，针对位于起点区块后的每个待识别区块，将从起点区块到该待识别区块的所有区块合并为一个待定文字区块，并识别该待定文字区块中的文字，确定识别的置信度，最后将置信度最高的文字确定为该起点区块所在的实际文字区块中的文字。通过上述方法，可避免将左右、左中右结构的汉字误识别成多个不同汉字的情况，在汉字与其他文字混排的场景中，也可有效提高文字识别的精度。
【附图说明】
[0040]此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中:
[0041]图1为现有技术中第一种文字识别的过程；
[0042]图2A为以纸质单据为例说明的现有技术中的第一种文字识别方法示意图；
[0043]图2B为将文字行进行二值化处理的示意图；
[0044]图3为现有技术中第二种文字识别方法的示意图；
[0045]图4为本申请实施例提供的文字识别过程；
[0046]图5为本申请实施例提供的以“对”字为例说明的外接矩形重叠的情况；
[0047]图6A为本申请实施例提供的局部二值化的应用场景示意图；
[0048]图6B为仅对图6A所示的文字行采用全局二值化的示意图；
[0049]图6C为本申请实施例提供的结合全局二值化和局部二值化对图6A所示的文字行进行处理后的示意图；
[0050]图7为本申请实施例提供的文字识别装置结构示意图。
【具体实施方式】
[0051 ] 为了避免将左右、左中右结构的汉字错误的识别成多个不同的汉字，本申请实施例中采用先切分区块，再根据切分的区块的重叠区域以及预设的文字区块的宽高比，对切分的区块进行合并的方法，可有效提高对左右、左中右结构的汉字的识别精度。而为了在汉字与其他文字混排的场景中提高文字识别精度，本申请实施例采用试探的方式，将可能合并的区块暂时合并为一个待定文字区块，并识别待定文字区块中的文字，确定识别的置信度，将识别的置信度最高的文字确定为实际文字区块中的文字。
[0052]为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张宇;杜志军;
技术所有人：阿里巴巴集团控股有限公司;
我是此专利的发明人

上一篇：敏感视频的检测方法和系统的制作方法
上一篇：体感侦测方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。