中英文混排文字图像的切割方法及装置的制作方法

文档序号：6385449阅读：199来源：国知局

专利名称：中英文混排文字图像的切割方法及装置的制作方法
技术领域：
本发明涉及图像处理领域，特别是涉及一种中英文混排文字图像的切割方法及装置。
背景技术：
文本行图像即图像内容为文本行内容的矩形图像，例如，名片识别软件采集的名片图像中的包含文本信息的图像区域。传统技术中，在对具有中英文混杂字符的文本图像的进行识别时，通常会因为中文字符的偏旁部首部分而造成中文字符的误读。例如，中文字符“引”，若直接由OCR识别软件进行识别，有很大几率被错误识别为中文字符“弓”和英文字符“I”。因此，传统技术中，文本行图像中的中文字符的识别准确率较低。

发明内容
基于此，有必要提供一种能提高识别准确率的中英文混排文字图像的切割方法。一种中英文混排文字图像的切割方法，包括获取文本行图像区域，获取所述文本行图像区域的行高；通过投影法对所述文本行图像区域进行切分获取字符块；获取字符块的块高及块宽；根据所述行高、块高及块宽在所述切分得到的字符块中定位中文字符块。在其中一个实施例中，所述根据所述行高、块高及块宽在所述切分得到的字符块中定位中文字符块的步骤包括获取所述块高与块宽的长度最接近的基准字符块；判断所述基准字符块是否为中文字符，若是，则获取所述块高的长度等于所述行高的字符块的个数比例，根据所述个数比例在所述切分得到的字符块中定位中文字符块。在其中一个实施例中，所述根据所述个数比例在所述切分得到的字符块中定位中文字符块的步骤为若所述个数比例大于第一阈值，则通过将所述字符块合并定位中文字符块。在其中一个实施例中，所述通过将所述字符块合并定位中文字符块的步骤为获取所述块宽的长度小于所述基准字符块的块宽的偏旁字符块；获取所述偏旁字符块的邻接字符块；判断所述偏旁字符块与其邻接字符块对应的的块高是否均与所述行高相同，且所述偏旁字符块与其邻接字符块的块宽之和与所述基准字符块的宽度之差是否小于第二阈值，若是，则将所述偏旁字符块与其邻接字符块合并；获取合并后的字符块的位置信息。在其中一个实施例中，所述获取所述块高与块宽的长度最接近的基准字符块的步骤之后还包括
获取所述块宽的长度大于所述基准字符块的块宽且块高等于所述行高的粘接字符块；通过图像腐蚀拆分所述粘接字符块。此外，还有必要提供一种能提高识别准确率的中英文混排文字图像的切割装置。一种中英文混排文字图像的切割装置，包括文本行获取模块，用于获取文本行图像区域，获取所述文本行图像区域的行高；字符块切分模块，用于通过投影法对所述文本行图像区域进行切分获取字符块；长度获取模块，获取字符块的块高及块宽；中文字符定位模块，用于根据所述行高、块高及块宽在所述切分得到的字符块中定位中文字符块。在其中一个实施例中，所述中文字符定位模块用于获取所述块高与块宽的长度最接近的基准字符块，判断所述基准字符块是否为中文字符，若是，则获取所述块高的长度等于所述行高的字符块的个数比例，根据所述个数比例在所述切分得到的字符块中定位中文字符块。在其中一个实施例中，所述中文字符定位模块还用于在所述个数比例大于第一阈值时，通过将所述字符块合并定位中文字符块。在其中一个实施例中，所述中文字符定位模块还用于获取所述块宽的长度小于所述基准字符块的块宽的偏旁字符块，获取所述偏旁字符块的邻接字符块，判断所述偏旁字符块与其邻接字符块对应的的块高是否均与所述行高相同，且所述偏旁字符块与其邻接字符块的块宽之和与所述基准字符块的宽度之差是否小于第二阈值，若是，则将所述偏旁字符块与其邻接字符块合并，获取合并后的字符块的位置信息。在其中一个实施例中，所述装置还包括腐蚀拆分模块，用于获取所述块宽的长度大于所述基准字符块的块宽且块高等于行高的粘接字符块，通过图像腐蚀拆分所述粘接字符块。上述中英文混排文字图像的切割方法及装置，预先对文本行图像区域进行了切分，并根据切分后得到的字符块的块高、块宽亦即文本行图像区域的行高将文本行图像区域中的包含中文字符的字符块区分出来，使得后期在进行图像文字识别时，可减少对左右结构偏旁部首中文字符的误读，从而提高识别准确率。

图1为一个实施例中中英文混排文字图像的切割方法的流程图；图2为一个实施例中文本行图像区域的效果图；图3为一个实施例中切分得到的字符块的效果图；图4为一个实施例中中英文混排文字图像的切割装置的结构示意图；图5为另一个实施例中中英文混排文字图像的切割装置的结构示意图。
具体实施例方式在一个实施例中，如图1所示，一种中英文混排文字图像的切割方法，包括步骤S102，获取文本行图像区域，获取文本行图像区域的行高。
文本行图像区域即二值图像中单行文本的连通域。在对名片照片、文本扫描图等图像进行OCR (Optical character recognition,光字符识别)之前,通常会先将二值化后的图像中的文本行图像区域提取出来，然后对每个文本行图像区域进行进一步的识别。提取出来的文本行图像区域的行高为该文本行图像区域的连通域的高度，亦即该文本行图像区域中高度最高的字符的高度。例如，文本行图像区域“Access”的行高即为字符“A”的高度。步骤S104，通过投影法对文本行图像区域进行切分获取字符块。文本行图像区域为矩形框，其文字书写方向的边即为该矩形框的长边。可将文本行图像区域中的像素点投影到该长边上，并根据长边上的投影结果将文本行图像区域切分，生成字符块。也就是说，若经过长边上某点且垂直于长边的直线对应的文本行图像区域中的像素点均为O (即与二值化后的字符的像素点的灰度值相反)，则以该直线将文本行图像区域切分成字符块。如图2和图3所示，图2中的文本行图像区域为名片上的文本行。图3即为该文本行图像区域被切分成多个字符块的效果示意图。步骤S106，获取字符块的块高及块宽。在本实施例中，可获取切分得到的每个字符块的块高和块宽。块高的方向垂直于前述的文字书写方向，块宽的方向平行于前述的文字书写方向。在本实施例中，还可对获取得到的块高及块宽进行筛选，去除包含标点符号等字符的字符块。可遍历获取到的字符块，将块高与行高进行比较，若块高与行高之差小于预设值，且块宽与块高之差小于预设值，则移除该字符块。例如，字符块均可移除。步骤S108，根据行高、块高及块宽在切分得到的字符块中定位中文字符块。在本实施例中，根据行高、块高及块宽在切分得到的字符块中定位中文字符块的步骤可包括获取块高与块宽的长度最接近的基准字符块，判断基准字符块是否为中文字符，若是，则获取块高的长度等于行高的字符块的个数比例，根据个数比例在切分得到的字符块中定位中文字符块。本实施例中，判断基准字符块是否为中文字符的方法可通过OCR工具进行识别。且中文字符与英文大写字符混杂时，中文字符的字符块的块高与块宽更加接近，因此，若基准字符块为英文或阿拉伯数字，则该文本行图像区域必然不包含中文字符。进一步地，在本实施例中，根据个数比例在切分得到的字符块中定位中文字符块的步骤可具体为若个数比例大于第一阈值，则通过将字符块合并定位中文字符块。若个数比例为100%，则该文字行图像区域中的字符全为中文字符。若个数比例小于100%但大于第一阈值，则该文字行图像区域中的字符为中英文混杂字符。进一步地，在本实施例中，通过将字符块合并定位中文字符块的步骤可具体为获取块宽的长度小于基准字符块的块宽的偏旁字符块，获取偏旁字符块的邻接字符块，判断偏旁字符块与其邻接字符块对应的的块高是否均与行高相同，且偏旁字符块与其邻接字符块的块宽之和与基准字符块的宽度之差是否小于第二阈值，若是，则将偏旁字符块与其邻接字符块合并，否则标记偏旁字符块为英文字符块，获取合并后的字符块的位置信息。
例如，对于中文字符“引”，在经过步骤S102进行切分时，会被切分成邻接的字符块“弓”和“ I ”(作为偏旁部首的字符块“弓”宽度较小)。由于字符块“弓”和“ I ”的块高均与行高相同，且字符块“弓”和“ I ”的块宽之和与字符块“引”的块宽较接近，因此可通过上述方法将字符块“弓”和“ I ”合并。若切分后得到字符块“A”及其邻接字符块“弓”，则由于字符块“弓”和“A”的块宽较大，因此不合并字符块“A”和“弓”，并将字符块“A”移除。若切分后得到字符块“C”，则由于字符块“c”的块高小于行高，因此将字符块“c”移除。在一个实施例中，获取块高与块宽的长度最接近的基准字符块的步骤之后还可获取块宽的长度大于基准字符块的块宽且块高等于行高的粘接字符块，通过图像腐蚀拆分粘接字符块。由扫描图像中提取的文本行图像区域中由于扫描质量差或扫描件本身印刷质量的因素，可能会在文本行图像区域中产生连笔效果，从而使得在采用投影法进行切分时，会将2个或2个以上的字符切分到同一个字符块中。块宽的长度大于基准字符块的块宽且块高等于行高的粘接字符块必然由两个或两个以上的中文字符之间或中文字符与英文字符之间粘接而成。通过图像腐蚀，可将粘接的位置断开。例如，粘接字符块“个作”，经过图像腐蚀之后字符“个”和字符“作”的笔画长度变短，然后可通过投影法将其切分。在本实施例中，还可获取块宽的长度大于基准字符块的块宽且块高小于行高的粘接字符块，通过轮廓线的极点对该粘接字符块进行拆分。块宽的长度大于基准字符块的块宽且块高小于行高的粘接字符块必然由两个或两个以上的英文字符块粘接而成。例如，粘接字符块“DC”中的轮廓线由字符“D”的上边沿沿笔画向下方延伸然至极点处，然后由该极点处沿笔画向右上方延伸至字符“C”的最高点，轮廓线在极点位置方向发生突变，则极点位置即为粘接处，由此处腐蚀即可拆分得到邻接的字符块“D”和字符块“C”。在一个实施例中，如图4所示，一种中英文混排文字图像的切割装置，包括文本行获取模块102、字符块切分模块104、字符块切分模块106以及中文字符定位模块108。其中文本行获取模块102，用于获取文本行图像区域，获取文本行图像区域的行高。文本行图像区域即二值图像中单行文本的连通域。在对名片照片、文本扫描图等图像进行OCR (Optical character recognition,光字符识别)之前,通常会先将二值化后的图像中的文本行图像区域提取出来，然后对每个文本行图像区域进行进一步的识别。提取出来的文本行图像区域的行高为该文本行图像区域的连通域的高度，亦即该文本行图像区域中高度最高的字符的高度。例如，文本行图像区域“Access”的行高即为字符“A”的高度。字符块切分模块104，用于通过投影法对文本行图像区域进行切分获取字符块。文本行图像区域为矩形框，其文字书写方向的边即为该矩形框的长边。字符块切分模块104可用于将文本行图像区域中的像素点投影到该长边上，并根据长边上的投影结果将文本行图像区域切分，生成字符块。
也就是说，若经过长边上某点且垂直于长边的直线对应的文本行图像区域中的像素点均为O (即与二值化后的字符的像素点的灰度值相反)，则字符块切分模块104以该直线将文本行图像区域切分成字符块。如图2和图3所示，图2中的文本行图像区域为名片上的文本行。图3即为该文本行图像区域被切分成多个字符块的效果示意图。长度获取模块106，用于获取字符块的块高及块宽。在本实施例中，可获取切分得到的每个字符块的块高和块宽。块高的方向垂直于前述的文字书写方向，块宽的方向平行于前述的文字书写方向。中文字符定位模块108，用于根据行高、块高及块宽在切分得到的字符块中定位中文字符块。在本实施例中，中文字符定位模块108可用于获取块高与块宽的长度最接近的基准字符块，判断基准字符块是否为中文字符，若是，则获取块高的长度等于行高的字符块的个数比例，根据个数比例在切分得到的字符块中定位中文字符块。本实施例中，中文字符定位模块108可用于通过OCR工具判断基准字符块是否为中文字符。且中文字符与英文大写字符混杂时，中文字符的字符块的块高与块宽更加接近，因此，若基准字符块为英文或阿拉伯数字，则该文本行图像区域必然不包含中文字符。进一步地，在本实施例中，中文字符定位模块108可用于在个数比例大于第一阈值时，通过将字符块合并定位中文字符块。若个数比例为100%，则该文字行图像区域中的字符全为中文字符。若个数比例小于100%但大于第一阈值，则该文字行图像区域中的字符为中英文混杂字符。进一步地，在本实施例中，中文字符定位模块108可用于获取块宽的长度小于基准字符块的块宽的偏旁字符块，获取偏旁字符块的邻接字符块，判断偏旁字符块与其邻接字符块对应的的块高是否均与行高相同，且偏旁字符块与其邻接字符块的块宽之和与基准字符块的宽度之差是否小于第二阈值，若是，则将偏旁字符块与其邻接字符块合并，否则标记偏旁字符块为英文字符块，获取合并后的字符块的位置信息。例如，对于中文字符“引”，在经过步骤S102进行切分时，会被切分成邻接的字符块“弓”和“ I ”(作为偏旁部首的字符块“弓”宽度较小)。由于字符块“弓”和“ I ”的块高均与行高相同，且字符块“弓”和“ I ”的块宽之和与字符块“引”的块宽较接近，因此可通过上述方法将字符块“弓”和“ I ”合并。若切分后得到字符块“A”及其邻接字符块“弓”，则由于字符块“弓”和“A”的块宽较大，因此不合并字符块“A”和“弓”，并将字符块“A”移除。若切分后得到字符块“C”，则由于字符块“c”的块高小于行高，因此将字符块“c”移除。在一个实施例中，如图5所示，中英文混排文字图像的切割装置还包括腐蚀拆分模块110，用于获取块宽的长度大于基准字符块的块宽且块高等于行高的粘接字符块，通过图像腐蚀拆分粘接字符块。由扫描图像中提取的文本行图像区域中由于扫描质量差或扫描件本身印刷质量的因素，可能会在文本行图像区域中产生连笔效果，从而使得在采用投影法进行切分时，会将2个或2个以上的字符切分到同一个字符块中。
块宽的长度大于基准字符块的块宽且块高等于行高的粘接字符块必然由两个或两个以上的中文字符之间或中文字符与英文字符之间粘接而成。通过图像腐蚀，可将粘接的位置断开。例如，粘接字符块“个作”，经过图像腐蚀之后字符“个”和字符“作”的笔画长度变短，然后可通过投影法将其切分。在本实施例中，还可获取块宽的长度大于基准字符块的块宽且块高小于行高的粘接字符块，通过轮廓线的极点对该粘接字符块进行拆分。块宽的长度大于基准字符块的块宽且块高小于行高的粘接字符块必然由两个或两个以上的英文字符块粘接而成。例如，粘接字符块“DC”中的轮廓线由字符“D”的上边沿沿笔画向下方延伸然至极点处，然后由该极点处沿笔画向右上方延伸至字符“C”的最高点，轮廓线在极点位置方向发生突变，则极点位置即为粘接处，由此处腐蚀即可拆分得到邻接的字符块“D”和字符块“C”。上述中英文混排文字图像的切割方法及装置，预先对文本行图像区域进行了切分，并根据切分后得到的字符块的块高、块宽亦即文本行图像区域的行高将文本行图像区域中的包含中文字符的字符块提取出来，使得后期在进行图像文字识别时，可减少对左右结构偏旁部首中文字符的误读，从而提高识别准确率。以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。
权利要求
1.一种中英文混排文字图像的切割方法，包括获取文本行图像区域，获取所述文本行图像区域的行高；通过投影法对所述文本行图像区域进行切分获取字符块；获取所述字符块的块高及块宽；根据所述行高、块高及块宽在所述切分得到的字符块中定位中文字符块。
2.根据权利要求1所述的中英文混排文字图像的切割方法，其特征在于，所述根据所述行高、块高及块宽在所述切分得到的字符块中定位中文字符块的步骤包括获取所述块高与块宽的长度最接近的基准字符块；判断所述基准字符块是否为中文字符，若是，则获取所述块高的长度等于所述行高的字符块的个数比例，根据所述个数比例在所述切分得到的字符块中定位中文字符块。
3.根据权利要求2所述的中英文混排文字图像的切割方法，其特征在于，所述根据所述个数比例在所述切分得到的字符块中定位中文字符块的步骤为若所述个数比例大于第一阈值，则通过将所述字符块合并定位中文字符块。
4.根据权利要求3所述的中英文混排文字图像的切割方法，其特征在于，所述通过将所述字符块合并定位中文字符块的步骤为获取所述块宽的长度小于所述基准字符块的块宽的偏旁字符块；获取所述偏旁字符块的邻接字符块；判断所述偏旁字符块与其邻接字符块对应的的块高是否均与所述行高相同，且所述偏旁字符块与其邻接字符块的块宽之和与所述基准字符块的宽度之差是否小于第二阈值，若是，则将所述偏旁字符块与其邻接字符块合并；获取合并后的字符块的位置信息。
5.根据权利要求2至4所述的中英文混排文字图像的切割方法，其特征在于，所述获取所述块高与块宽的长度最接近的基准字符块的步骤之后还包括获取所述块宽的长度大于所述基准字符块的块宽且块高等于所述行高的粘接字符块；通过图像腐蚀拆分所述粘接字符块。
6.一种中英文混排文字图像的切割装置，其特征在于，包括文本行获取模块，用于获取文本行图像区域，获取所述文本行图像区域的行高；字符块切分模块，用于通过投影法对所述文本行图像区域进行切分获取字符块；长度获取模块，获取所述字符块的块高及块宽；中文字符定位模块，用于根据所述行高、块高及块宽在所述切分得到的字符块中定位中文字符块。
7.根据权利要求6所述的中英文混排文字图像的切割装置，其特征在于，所述中文字符定位模块用于获取所述块高与块宽的长度最接近的基准字符块，判断所述基准字符块是否为中文字符，若是，则获取所述块高的长度等于所述行高的字符块的个数比例，根据所述个数比例在所述切分得到的字符块中定位中文字符块。
8.根据权利要求7所述的中英文混排文字图像的切割装置，其特征在于，所述中文字符定位模块还用于在所述个数比例大于第一阈值时，通过将所述字符块合并定位中文字符块。
9.根据权利要求8所述的中英文混排文字图像的切割装置，其特征在于，所述中文字符定位模块还用于获取所述块宽的长度小于所述基准字符块的块宽的偏旁字符块，获取所述偏旁字符块的邻接字符块，判断所述偏旁字符块与其邻接字符块对应的的块高是否均与所述行高相同，且所述偏旁字符块与其邻接字符块的块宽之和与所述基准字符块的宽度之差是否小于第二阈值，若是，则将所述偏旁字符块与其邻接字符块合并，并获取合并后的字符块的位置信息。
10.根据权利要求7至9所述的中英文混排文字图像的切割装置，其特征在于，所述装置还包括腐蚀拆分模块，用于获取所述块宽的长度大于所述基准字符块的块宽且块高等于所述行高的粘接字符块，通过图像腐蚀拆分所述粘接字符块。
全文摘要
本发明涉及一种中英文混排文字图像的切割方法，包括获取文本行图像区域，获取所述文本行图像区域的行高；通过投影法对所述文本行图像区域进行切分获取字符块；获取所述字符块的块高及块宽；根据所述行高、块高及块宽提取中文字符区域。此外，还包括一种中英文混排文字图像的切割装置。上述中英文混排文字图像的切割方法及装置可以提高识别的准确率。
文档编号G06K9/34GK103020621SQ20121057270
公开日2013年4月3日申请日期2012年12月25日优先权日2012年12月25日
发明者李冰, 陈小平, 肖方明, 汪利申请人:深圳深讯和科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李冰;陈小平;肖方明;汪利
技术所有人：深圳深讯和科技有限公司
我是此专利的发明人

上一篇：云计算的利润最大化调度方法和系统的制作方法
上一篇：基于界面生命周期回收图片的方法和装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。