文字识别方法和装置的制造方法_3

文档序号：9766202阅读：来源：国知局

块110用于分别采用每种特征算子，对所述待识别的图像进行运算，得到与所述特征算子数量相同的至少一组的特征向量。
[0079] 其中，运算单元111用于分别采用每种特征算子，对所述待识别的图像进行运算，得到第一图像和第二图像。
[0080] 具体地，W算子a为例，参见图4,对于输入的待识别的图像Img,其经过算子a进行局部运算后会得到两张同样大小的图像ImgO和Imgl。对图中的每个非边缘像素点PO, 运算单元111可W采用如下方式确定所述像素点对应的第一图像和第二图像中的像素点的值：
[0081] 获取所述每种特征算子描述的方向上与所述像素点相邻的第一组像素点的灰度值和第二组像素点的灰度值，并获取所述第一组像素点的灰度值之和与所述第二组像素点的灰度值之和之间的差值。更具体地，在利用算子a进行计算时，则为计算PO上下相邻行局部像素点的灰度值之和的差值V=V= (pl+p2+p3)-(p4+p5+p6);其中，局部像素点是指左右和/或上下相邻的像素点。送与现有的边缘计算算子的方法相近，但在本方案中，为了去除因光照或打印不均匀造成的局部差值波动较大、便于向量归一化，还需要根据预先设置的阔值和比较方向，对所述差值V进行二值化处理，得到第一图像中的像素点的值，W及第二图像中的像素点的值： ,\ l,v>B " f U'<-6
[0082] pQ =< r f V空S 1化v>-揉
[0083] 其中，PO'是第一图像中的像素点的值，PO"是第二图像中的像素点的值，V是差值，5是预先设置的阔值。
[0084] 经过二值化处理后，PO'和PO"的输出值变得比较稳定，受光照打印质量的影响很小。5的取值，在具体实施例中可W取3*10,即默认像素间最小有10个灰度级的差别。
[0085] 上式中第一图像与第二图像中的差值V的比较方向不同，是由于图像中的字，局部存在从黑到白、从白到黑的跳变，通过送两种不同的比较可W判断跳变的方式，或者是平坦的区域，从而达到对局部像素纹理较准确的表示。
[0086] 生成单元112用于根据所述第一图像得到第一组一维向量，根据所述第二图像得到第二组一维向量。通常在文字识别中，图像大小为64*64或40*40,如果利用算子a计算后直接将图像ImgOJmgl中的像素点的值排成一维向量，则特征向量的维数将很大（2*64*64 或 2*40*40)。
[0087] 为解决送一问题，参见图5,生成单元112还可W用于对所述第一图像进行下采样，得到下采样后的第一图像SubImgO, W及，对所述第二图像进行下采样，得到下采样后的第二图像SubImgl ; W及将下采样后的第一图像转换为第一组一维向量[feaO]，将下采样后的第二图像转换为第二组一维向量[feal]，从而降低特征向量的维数。
[008引在下采样后，点pO'、pO"的值分别为图像SublmgO、SubImgl中对应点的局部高斯加权和。其中，高斯加权的方式可W减少因下采样导致的信息损失，同时可W较好地处理文字的局部变形和平移变换。
[0089] 组合单元113用于将所述第一组一维向量和所述第二组一维向量组合后，得到与所述特征算子对应的一组特征向量。最终算子a对应的特征向量为第一组一维向量[feaO] 与第二组一维向量[feal]排成一维向量后的结果[feaO, feal]。在本实施例中，SubImgO 和SubImgl大小为7*7,因此算子a得到的特征向量长度为2*7*7。
[0090] 类似的，可W通过图3中的方法计算其他H种算子对应的特征向量。
[0091] 需要理解的是，由于上述的四种算子的设计思想在于描述文字的四种方向，因此在采用不同的算子进行运算时，局部计算方式可能存在一定程度的区别。
[0092] 然户，组合子模块120对所述至少一组的特征向量进行组合，获取待识别的图像的特征向量。例如，若使用四种算子，则图像的特征向量由上述四种算子对应的四组特征向量的组合构成；或者使用a、b两种算子，则图像的特征向量由算子a和算子b对应的两组特征向量的组合构成，具体的组合方式可W有多种，在此不再一一列举。
[0093] 在本申请的一个实施例中，进行识别之前，需要预先获取大量文字样本的特征向量。
[0094] 收集模块300用于收集每个文字的大于预设数量的样本，并根据所述特征算子得到每个样本的特征向量。具体地，每个文字都存在多种样本，例如同一个字在不同的字体、不同的语种中或不同的角度下都可能对应不同的形状，因此，收集模块300可W收集每个文字的大量样本，并根据特征算子通过图3中的方法计算每个样本对应的特征向量。
[0095] 聚类模块400用于对所述每个样本的特征向量进行聚类处理，得到预设个数的聚类中必。具体地，聚类模块400可W对每个样本的特征向量进行聚类处理，从大量样本中找出预设个数的具有代表性的聚类中必。其中，聚类方法可W有多种，例如kmeans聚类方法等，在此不再一一列举。预设个数可W根据每个文字对应的样本的具体情况进行设定。
[0096] 关联模块500用于将所述预设个数的聚类中必对应的特征向量作为所述文字的文字样本的特征向量。从而每个文字都可W由预设个数的文字样本的特征向量来表示。
[0097] 之后，在需要进行文字识别时，计算子模块210用于计算所述待识别的图像的特征向量与每个所述文字样本的特征向量之间的相似度数值。具体的，计算子模块210可通过数学方法，依次计算所述待识别的图像的特征向量与每个所述文字样本的特征向量之间的相似度数值，也可W在已知的文字样本的特征向量中查找与所述待识别的图像的特征向量相同的特征向量。然后确定子模块220将相似度数值最大的文字样本确定为所述待识别的图像的文字识别结果。
[0098] 本实施例通过根据预设的特征算子，获取待识别的图像的特征向量并与预先获取的文字样本的特征向量进行比对，获取待识别的图像的文字识别结果，由于特征向量是根据预设的特征算子对当前处理的像素点的不同方向上的相邻的局部像素点进行运算得到的，对文字的特征表述更加准确，且提高了识别的准确率，且计算简单，提高了识别速度。另夕F，预先获取的每个文字都对应预设个数的文字样本的特征向量，可识别不同形态的文字，提高了识别率。
[0099] 需要说明的是，在本申请的描述中，术语"第一"、"第二"等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，"多个"的含义是两个或两个W上。
[0100] 流程图中或在此W其他方式描述的任何过程或方法描述可W被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可W不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，送应被本申请的实施例所属技术领域的技术人员所理解。
[0101] 应当理解，本申请的各部分可W用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可W用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑口电路的离散逻辑电路，具有合适的组合逻辑口电路的专用集成电路，可编程口阵列（PGA)，现场可编程口阵列（FPGA)等。
[0102] 本技术领域的普通技术人员可W理解实现上述实施例方法携带的全部或部分步骤是可W通过程序来指令相关的硬件完成，所述的程序可W存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
[0103] 此外，在本申请各个实施例中的各功能单元可W集成在一个处理模块中，也可W 是各个单元单独物理存在，也可W两个或两个W上单元集成在一个模块中。上述集成的模块既可W采用硬件的形式实现，也可W采用软件功能模块的形式实现。所述集成的模块如果W软件功能模块的形式实现并作为独立的产品销售或使用时，也可W存储在一个计算机可读取存储介质中。
[0104] 上述提到的存储介质可W是只读存储器，磁盘或光盘等。
[0105] 在本说明书的描述中，参考术语"一个实施例"、"一些实施例"、"示例"、"具体示例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不

完整全部详细技术资料下载

当前第3页1 2 3 4