字符识别方法和装置的制造方法

文档序号：9579577阅读：269来源：国知局

字符识别方法和装置的制造方法
【技术领域】
[0001] 本申请涉及文字识别技术领域，尤其涉及一种字符识别方法和装置。
【背景技术】
[0002] OCR(OpticalCharacterRecognition,光学字符识别）是指电子设备（例如：扫描仪）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成文字的过程。
[0003] 目前的字符识别系统大多基于二值化的图片提取特征进行识别。其中，对汉字进行识别的方法可包括结构模式识别方法、统计模式识别方法以及两者结合的方法。
[0004] 结构模式识别是早期汉字识别研究的主要方法，直接从字符的轮廓或骨架上提取的字符像素分布特征，如笔画、圈、端点、节点、弧、突起、凹陷等多个基元组合，再用结构方法描述基元组合所代表的结构和关系，通常提取笔段或基本笔画作为基元，由基元组合及其相互关系描述汉字，最后利用形式语言及自动机理论进行识别。
[0005] 统计模式识别方法是用概率统计模型提取待识别汉字的特征向量，然后根据决策函数进行分类，判断待识别汉字的特征向量属于的类别。具体地，统计模式识别的主流特征可包括汉字外围及网格特征、方向线素特征、梯度直方图特征等。
[0006] 但是，在实现本申请的过程中发明人发现现有技术至少存在以下问题：结构模式识别方法抗干扰能力差，受噪点、断裂、扭曲的干扰影响严重，导致识别准确率低。统计模式识别方法对于相似字的区分能力差，需要结合多种特征进行识别，且无法保证字符切割的准确度，导致识别准确率低。

【发明内容】

[0007] 本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请的第一个目的在于提出一种字符识别方法，该方法可以显著提升字符识别的准确率。
[0008] 本申请的第二个目的在于提出一种字符识别装置。
[0009] 为了实现上述目的，本申请第一方面实施例的字符识别方法，包括：获得所有字符的训练样本，对每个训练样本进行滤波处理，获得每个训练样本的特征信息；以及获得待识别的字符，并将所述字符与所述特征信息进行匹配，以完成对所述字符的识别。
[0010] 本申请实施例的字符识别方法，通过对所有字符的训练样本进行滤波处理，获得每个训练样本的特征信息，然后将待识别字符与特征信息进行匹配，完成对字符的识别，可以显著提升字符识别的准确率。
[0011] 为了实现上述目的，本申请第二方面实施例的字符识别装置，包括：处理模块，用于获得所有字符的训练样本，对每个训练样本进行滤波处理，获得每个训练样本的特征信息；以及识别模块，用于获得待识别的字符，并将所述字符与所述特征信息进行匹配，以完成对所述字符的识别。
[0012] 本申请实施例的字符识别装置，通过对所有字符的训练样本进行滤波处理，获得每个训练样本的特征信息，然后将待识别字符与特征信息进行匹配，完成对字符的识别，可以显著提升字符识别的准确率。
【附图说明】
[0013] 图1是根据本申请一个实施例的字符识别方法的流程图。
[0014]图2是根据本申请一个实施例的获得训练样本的特征信息的流程示意图。
[0015] 图3是根据本申请一个实施例的字符识别装置的结构示意图。
【具体实施方式】
[0016]下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。
[0017]下面参考附图描述本申请实施例的字符识别方法和装置。
[0018] 图1是根据本申请一个实施例的字符识别方法的流程图。
[0019] 如图1所示，字符识别方法包括：
[0020]S101，获得所有字符的训练样本，对每个训练样本进行滤波处理，获得每个训练样本的特征信息。
[0021] 在本申请的实施例中，首先可获得所有字符的训练样本。其中，字符可包括文字、字母、数字和各种符号等。由于字符的数量巨大，尤其是汉字（6000多个），且汉字还有不同的字体如：宋体、楷体等，对每个字符需要生成至少几百个训练样本，工作量大，人工成本高。因此，可通过模拟的方式生成训练样本，可有效地减少工作量，降低人工成本。具体地，可生成每个文字每种字体的二值化模板，对二值化模板进行变换（如：旋转变换等），并将变换后的文字和获得的背景图片进行融合，以模拟出所有字符的训练样本。
[0022] 在获得所有字符的训练样本后，可对每个训练样本进行滤波处理。具体地，如图2 所示，可针对每个训练样本，使用至少一个滤波器对当前训练样本进行滤波，并对滤波结果进行正负区分。例如，图2中使用四个滤波器，且具有不同的滤波器参数。其中，滤波器可包括Gabor滤波器或其他滤波器。Gabor变换属于加窗傅立叶变换，Gabor滤波器可以在频域不同尺度、不同方向上提取相关的特征。
[0023]Gabor滤波器的冲激响应函数可采用如下公式所示：
[0024]
[0025]其中，R! =Xcos<i)+ysin<i),R2=-Xsin<i)+ycos<i),λ为波长，妒为滤波器的方向，σ为高斯函数的标准差，〇5!和别表示X和y方向的标准差，X和y为横纵坐标。滤波器的另一个参数为滤波器的尺寸也就是确定X和y范围，根据这些参数可以确定出一个特定的滤波器系数矩阵h。
[0026] 对于每个训练样本与每一组滤波器系数进行Gabor滤波，滤波结果只需要选取实数部分，然后对于实数部分的滤波结果进行正负区分，即每个滤波结果矩阵最终得到两个矩阵，一个只包含正数部分，相应的负数位置用零填充，另一个则只包含负数部分，其余位置用零填充。应当理解的是，矩阵即区分后的数据。如果不采用正负区分的方法，则可能导致正数部分与负数部分相互抵消，导致识别的准确率降低。因此，采用正负区分的方法可有效地提高识别的准确率。
[0027] 在对滤波结果进行正负区分之后，还可分别对区分后的数据进行模糊滤波、采样、归一化处理等。此处可以只进行模糊滤波，也可以只进行采样，同样可以只进行归一化处理，当然也可以结合上述多种方式对区分后的数据进行处理。具体地，可分别对正负两个矩阵进行模糊滤波，此处可看作一个低通滤波器，由于滤波后的每个像素位置结果是综合原始矩阵相应位置及其周边位置的信息，因此可有效地减少偏移、噪声等干扰。模糊滤波后，可获得两个与原始图片大小一样的矩阵。然后通过采样的方式，去掉模糊滤波产生的冗余的相邻位置信息，降低维数。其中，采样的间隔可通过实验获得。采样后，可对每个采样结果进行归一化处理。归一化处理可使正负信息以及不同参数的滤波器滤波结果融合保持尺度统一。
[0028] 在对区分后的数据进行模糊滤波、采样和归一化处理之后，可获得正矩阵对应的第一结果和负矩阵对应的第二结果，并将获得的与滤波器对应的第一结果和第二结果进行拼接，生成当前训练样本的特征信息。例如，假设使用一个滤波器时，获得的滤波结果可为 l*2k的数组；则使用四个滤波器滤波后，可将获得的滤波结果拼接为l*8k的数组。通过上述方法，可有效地降低计算量和计算复杂度。如果生成的特征信息的维数依然很高，信息存在冗余，则可进一步进行降维。例如采用无监督的PCA(PrincipalComponentAnalysis, 主成分分析）或有监督的LDA(LinearDiscriminantAnalysis,线性判别式分析），降低维度，可有效地降低计算量。
[0029] 目前，现有的基于训练样本的特征信息的字符识别方法，其重点通常在于对特征信息的参数进行优化，却忽略了获取训练样本的特征信息的过程。因此，在实际应用中，对字符进行切割的准确度低，需要对训练样本进行滤波、正负区分、归一化处理等，增强鲁棒性，提升实际应用中识别的准确率。
[0030] S102,获得待识别的字符，并将字符与特征信息进行匹配，以完成对字符的识别。
[0031] 在获得每个训练样本的特征信息之后，可获得待识别的字符。具体地，可获得待识别的图片，对识别的图片进行分割

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张宇;
技术所有人：阿里巴巴集团控股有限公司;
我是此专利的发明人

上一篇：基于车辆的手势识别方法
上一篇：一种基于视觉图像的飞机机型识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。