文本图像识别方法和装置的制作方法

文档序号：6423724阅读：177来源：国知局

专利名称：文本图像识别方法和装置的制作方法
技术领域：
本发明涉及文本处理领域，尤其是涉及一种文本图像识别方法和装置。
背景技术：
在图像识别系统中，往往需要对图像进行一次二值化处理，二值化的关键在于阈值的选择。一般情况下，阈值的选择不仅与像素点的位置有关，而且还与该点的灰度值和它周围点的灰度值有关。所以阈值选取不确定性过强，如果阈值的选取过大会引起文本的粘连，反之阈值过小，文本会出现断裂现象。单一的二值化阈值也并非能够对文本图像中的所有字符都达到较好的识别效果。也就是说，这种方法难以保证针对每个字符都获得较好的识别结果，并且单一依靠阈值对待识别文本进行处理，使待识别文本图像的识别效果难以令人满意。
此外，常见的基于多识别信息融合的系统，通常采用多个识别核心或多种识别方法来识别文本图像以获取多组识别信息，将多组识别信息融合。然而，由于这种系统通过不同的识别核心并且采用不同的识别方法来得到多组识别信息，因此其操作过程复杂并且成本高。而对于采用单识别核心或一种识别方法来识别文本图像而言，目前尚没有基于多识别信息融合的文本图像识别方法。

发明内容
本发明所要解决的技术问题是提供一种文本图像识别方法和装置，综合不同的图像预处理方法对待识别的文本图像进行处理后融合，避免了单一依靠阈值对待识别文本进行处理，使待识别文本图像的识别效果大大改进。根据本发明的一个实施例，提供了一种文本图像识别方法，包括获取文本图像；使用多种图像预处理方法处理所述文本图像以获得多组二值图像；采用单个识别核心识别所述多组二值图像以获得所述多组二值图像对应的多组文本识别结果；以及将所述多组文本识别结果进行融合，获得文本图像的最终识别结果。此外，根据本发明的另一个实施例，提供了一种文本图像识别装置，包括图像获取模块，获取文本图像；图像处理模块，使用多种图像预处理方法处理所述文本图像以获得多组二值图像；识别模块，采用单个识别核心识别所述多组二值图像以获得所述多组二值图像对应的多组文本识别结果；以及融合模块，将所述多组文本识别结果进行融合，获得文本图像的最终识别结果。此外，本发明还提供了相应的计算机程序代码、计算机可读存储介质和计算机程
序广品。通过根据本发明的方案，由于采用了多种图像预处理方法，因此可以保证针对每个字符都获得较好的识别结果，从而达到满意的识别效果。另外，在本发明的方案中采用了单个识别核心，因此相对于采用多个识别核心的方案操作过程比较简单，并且降低了成本。

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中
图I是根据本发明的一个实施例的文本图像识别方法的流程图2示出了英文字符的字符基线信息图3(a)示出了本发明的一个实施例中的待识别的英文文本行灰度图像；
图3(b)是灰度图像图3(a)在阈值为T时得到的二值图像；
图3(c)是灰度图3(a)在阈值为O. 95*T且经插值放大得到的二值图像；图3(d)是二值图像3(b)和二值图像3(c)通过识别核心得到的识别结果；
图3(e)是二值图像3(b)和二值图像3(c)通过识别核心得到的识别距离；
图3 Cf)是阈值为T的二值图像3(b)的识别结果和字符高度；
图3 (g)是阈值为O. 95*T的二值图像3(c)的识别结果和字符高度；
图4(a)示出了本发明的一个实施例中的待识别的中文文本行灰度图像；
图4(b)是灰度图4(a)在阈值为T时得到的二值图像；
图4(c)是灰度图4(a)在阈值为O. 95*Τ且经插值放大得到的二值图像；
图4(d)是二值图像4(b)和二值图像4(c)通过识别核心得到的识别结果；
图4(e)是二值图像4(b)和二值图像4(c)通过识别核心得到的识别距离；
图5示出了根据本发明的一个实施例的文本图像识别装置的示意性结构图6示出了可用于实施根据本发明的实施例的计算机的示意性框图。
具体实施例方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构，而省略了与本发明关系不大的其他细节。在图像处理应用中经常出现的一种情形是要对文本图像进行识别。如何识别文本图像以准确地获取其中的字符是本领域技术人员经常遇到的问题。现有的识别方法多数都是采用单识别核心，同时仅仅执行一次图像预处理，然而这样的识别难以保证针对每个字符都获得较好的识别结果。为提高识别正确率需要进行多识别信息的融合，即得到多组识别结果。目前多识别信息融合的方法中，多组识别结果是通过不同的识别核心、采用不同的识别方法得到，其过程复杂，不利于单识别核心系统采用。所以本发明提出了一种方法，其中通过不同的预处理方法，将不同的图像预处理结果通过同一种识别核心，即采用一种识别方法进行处理，得到多组识别结果，然后将多组识别结果进行融合以获取最佳的识别结果。因此，本发明的方案相比于现有的基于多识别信息融合的系统操作简单快捷，成本较低，而相比于单识别核心没有多识别信息融合的系统，进一步提高了识别率。第一实施例
图I是根据本发明的一个实施例的文本图像识别方法的流程图。如图I所示，本发明包括如下步骤
步骤Si，获取文本图像。在实践中常用的是获取待识别文本的灰度图，其中图像中用灰度表示的图像称作灰度图，然而本领域技术人员容易理解的是，本发明并不局限于使用灰度图。步骤S2，使用多种图像预处理方法来处理文本图像，以获得多组二值图像，例如可以获得两组或两组以上的二值图像。在一般的文本图像识别系统中，对图像仅进行一次二值化处理。即使该二值化处理中所使用的阈值对文本图像中的文本整体识别率是最优的，但是对于个别字符，该阈值可能不是最适合的，结果可能表现为个别字符的识别效果较差。因此，在本发明的一个实施例中，通过采用步骤S2，使用不同的图像预处理方法来处理文本图像，获得不同的两组或两组以上的二值图像，以保证待识别的文本图像中的每个字符都能有较佳的识别结果。举例来说，在处理文本图像时，可以通过采用不同的二值化阈值和图像缩放比例的组合来实施不同的图像预处理方法。例如可以针对原始图像采用阈值T来进行二值化，以及针对将原始图像放大2倍之后采用阈值O. 95T来进行预处理，等等，由此得到多组二值图像。步骤S3，采用同一个识别核心来识别所述多组二值图像，得到多组文本识别结果。在本发明的一个实施例中，使用同一个光学字符识别(OCR)核心来进行识别，得到多组文本识别结果。同样地，本发明并不局限于此。本领域技术人员可以采用任何合适的手段进行识别。这里，文本识别结果包括对文本图像中的各个字符的识别结果和与各个字符相对应的识别距离。这里，识别距离指的是系统对输入的字符图像所提取的属性参数与识别字符模板中的与该字符相对应的属性参数之间的差距。这里，识别字符模板是系统中预设的字符模板，其中记录了各种字符的相关属性参数，例如，字符的字形、字符的字体、字符的结构等信息。例如，字符图像“a”被输入到识别系统中，系统提取字符图像“a”的属性参数，例如它的字形、字体等，将提取的属性参数与预设的字符模板中的字符“a”的属性参数进行比较，得出它们之间的差距，然后系统输出比较结果，即与字符图像“a”相对应的识别距离。因此，识别距离可以反映识别出的字符与原本输入的字符图像之间的差距，识别距离是表征识别可信度的参量，它的值越小，相应字符图像的识别结果就越可信。该识别距离可以在识别核心中计算得出。关于识别距离的具体确定方法和手段属于本领域技术人员所熟知的技术，这里不再进一步阐述。步骤S4，将所述多组文本识别结果进行融合，获得文本图像的最终识别结果。例如可以根据文本识别结果中各个字符的字符特征和识别距离，来对文本识别结果进行融合，获得最终识别结果。具体而言，在所述多组文本识别结果中逐个字符块地比较识别得到的内容，保留内容相同的第一字符块对应的识别结果作为所述第一字符块对应的最终识别结果；如果所述多组文本识别结果中存在多种内容的第二字符块，则根据所述第二字符块中各个字符的字符特征和识别距离，将所述多种内容的第二字符块对应的识别结果进行融合，获得所述第二字符块的最终识别结果。如此，获得文本图像的最终识别结果。在此需要说明的是，上述字符块指的是字符图像切分之后用来识别的最小单元，其有可能是单独完整的一个字符，有可能是被切碎的一个字符的一部分，也有可能是没被切开的多个字符。一个字符块在某种识别结果中可能被识别为多个字符，而在另一种识别结果中可能被识别为一个字符。关于这种情况的处理，可以参见下面的实施例中的具体例子。这里，步骤S4中所提及的字符特征是指字符的外形特征。这里，每个字符都有两个相对应的字符特征，一个是系统从文本识别结果中提取字符的特征或计算字符的特征而得到的；而另一个是系统中所预设的预定特征。后面将具体描述基于所述字符特征可以判断识别结果的合理性。例如，对于英文字符而言，其字符特征可以是任何可用的特征，然而优选的是使用字符基线属性，字符基线属性指的是字符与基线的位置关系。根据英文字符的书写，英文文本行可以分为上区域、中区域、下区域三个区域，它们分别由顶基线、上基线、下基线、底基线所限定。基线的位置、距离关系详见图2。参见图2，根据英文字符的上下边界位于哪两条基线来对字符的基线属性进行分类。表I是系统中预设的所有英文字符的基线属性表，它记录了各种英文字符的基线属性分类。表I中根据英文字符的上下边界位于哪两条基线，将字符的基线属性分为BL13，BL23，BL24和BL14四类。其中，上下边界分别位于顶基线和下基线上的字符具有BL13基线属性；上下边界分别位于上基线和下基线上的字符具有BL23基线属性；上下边界分别位于上基线和底基线上的字符具有基线属性BL24 ;上下边界分别位于顶基线和底基线上的字符具有基线属性BL14。其中，顶基线、上基线、下基线、底基线分别与通常英文书写中的四线格的四条线相对应。
表I英文字符基线属性表
权利要求
1.一种文本图像识别方法，包括获取文本图像；使用多种图像预处理方法处理所述文本图像以获得多组二值图像；采用同一个识别核心识别所述多组二值图像以获得所述多组二值图像对应的多组文本识别结果；以及将所述多组文本识别结果进行融合，获得文本图像的最终识别结果。
2.根据权利要求I所述的方法，其特征在于，所述多种图像预处理方法包括采用多种图像二值化阈值和图像缩放比例对所述文本图像进行处理。
3.根据权利要求I所述的方法，其特征在于，所述文本识别结果包括所述文本图像中的所有字符的识别结果和识别距离；其中，所述识别距离为对输入的文本图像中的字符图像所提取的属性参数与预设的识别字符模板中的相应字符的属性参数之间的差距。
4.根据权利要求3所述的方法，其特征在于，所述将所述多组文本识别结果进行融合，获得文本图像的最终识别结果，包括在所述多组文本识别结果中逐个字符块地比较识别得到的对应字符的识别结果，保留识别结果相同的第一字符块对应的识别结果作为所述第一字符块对应的最终识别结果；如果所述多组文本识别结果中存在多种内容的第二字符块，则根据所述第二字符块中各个字符的字符特征和识别距离，将所述多种内容的第二字符块对应的识别结果进行融合，获得所述第二字符块对应的最终识别结果。
5.根据权利要求4所述的方法，其特征在于，将所述多种内容的第二字符块对应的识别结果进行融合，包括根据所述多种内容的第二字符块中的字符特征，从所述多组文本识别结果中筛选所述第二字符块对应的合理识别结果；以及根据所述字符特征和所述识别距离对所述第二字符块对应的合理识别结果进行融合，以获得所述第二字符块的最终识别结果，其中，所述第二字符块对应的合理识别结果为所述第二字符块的字符特征与预设的识别字符模板中预定字符特征相符的识别结果。
6.根据权利要求5所述的方法，其特征在于，所述字符是英文文本，所述字符特征包括字符基线属性，所述预定字符特征为预定字符基线属性，根据所述多种内容的第二字符块中的字符特征，从所述多组文本识别结果中筛选所述第二字符块对应的合理识别结果，包括根据所述多组文本识别结果中的每个字符的高度和与其前后字符相对位置关系来确定每个字符的字符基线属性；根据所述第二字符块中每个字符的确定的字符基线属性与对应的所述预定字符基线属性进行比较，如果两者相同，则判定相应字符的识别结果为合理识别结果。
7.根据权利要求5所述的方法，其特征在于，所述文本是中文文本，所述字符特征包括字符的宽高比，所述预定字符特征为预定宽高比，根据所述多种内容的第二字符块中的字符特征，从所述多组文本识别结果中筛选所述第二字符块对应的合理识别结果，包括将所述多种内容的第二字符块中每个字符的宽高比与对应的所述预定宽高比进行比较，如果宽高比大于或等于所述预定宽高比，则判定相应字符的识别结果为合理识别结果。
8.根据权利要求7所述的方法，其特征在于，所述预定宽高比为2/3。
9.根据权利要求5、6、7或8所述的方法，其特征在于，所述将所述多种内容的第二字符块对应的合理识别结果进行融合，获得所述第二字符块对应的最终识别结果，包括将所述多种内容的第二字符块对应的识别距离进行比较，将所述第二字符块对应的合理识别结果中识别距离最小的作为所述第二字符块对应的最终识别结果。
10.一种文本图像识别装置，包括图像获取模块，获取文本图像；图像处理模块，使用多种图像预处理方法处理所述文本图像以获得多组二值图像；识别模块，采用同一个识别核心识别所述多组二值图像以获得所述多组二值图像对应的多组文本识别结果；以及融合模块，将所述多组文本识别结果进行融合，获得文本图像的最终识别结果。
全文摘要
本发明公开了一种文本图像识别方法和装置，属于文本处理领域。所述方法包括获取文本图像；使用多种图像预处理方法处理所述文本图像以获得多组二值图像；采用同一个识别核心识别所述多组二值图像以获得所述多组二值图像对应的多组文本识别结果；以及将所述多组文本识别结果进行融合，获得文本图像的最终识别结果。本发明采用了多种图像预处理方法，保证了针对每个字符都获得较好的识别结果，从而达到满意的识别效果；采用了单个识别核心，因此相对于采用多个识别核心的方案操作过程比较简单，并且降低了成本。
文档编号G06K9/54GK102779276SQ20111011797
公开日2012年11月14日申请日期2011年5月9日优先权日2011年5月9日
发明者万鑫, 刘正珍, 李玉梅申请人:汉王科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘正珍;万鑫;李玉梅
技术所有人：汉王科技股份有限公司
我是此专利的发明人

上一篇：电子装置的制作方法
上一篇：一种通过索引方式调用素材字幕的方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。