基于ocr识别反馈的文档图像倾斜校正方法

文档序号：6426189阅读：923来源：国知局

专利名称：基于ocr识别反馈的文档图像倾斜校正方法
技术领域：
本发明属于图像识别技术领域，尤其涉及一种基于OCR识别反馈的文档图像倾斜校正方法。
背景技术：
目前，大多数图像识别技术中使用的倾斜校正算法的计算精度在很大程度上受图像纹理(如文本的字体、字型、脚本以及是否含有图片)的影响，不具有良好的通用性，有些算法只对某种或某几种语言的处理取得较好的结果，有些算法对文本中的大幅图片敏感。另外，目前还没有一种算法能够在处理多语言文本时，产生有效的结果。针对上述图像识别技术中使用的倾斜校正算法存在的缺陷，本发明提供了一种基于OCR识别反馈的文档图像倾斜校正方法，利用既有的图像识别技术，具体是利用文本线跟踪算法和非边界行的文本线跟踪算法，对文档的一个小矩形区域进行倾角检测并校正得到结果，再利用OCR识别技术，根据该小矩形区域识别后得到的参数确定对该文档识别效果最好的算法，最后用这种反馈得到算法对整个文档进行校正。

发明内容
本发明的目的在于，提供一种基于OCR识别反馈的文档图像倾斜校正方法，用于解决现有图像处理方法的倾斜校正算法不具有良好通用性的问题。技术方案是，一种基于OCR识别反馈的文档图像倾斜校正方法，其特征是所述方法包括步骤1:输入文档图像；步骤2 选择文档图像中的一个矩形区域；步骤3 分别利用文本线跟踪算法和非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别，并分别得到文档图像的倾斜角度ka和kb以及识别效果参数Ia和Ib ；步骤4 判断Ia和Ib的大小，当Ia彡Ib时，则使用倾斜角度ka对整个文档图像进行校正处理；当Ia < Ib时，则使用倾斜角度kb对整个文档图像进行校正处理。所述利用文本线跟踪算法对文档图像的选定区域进行OCR识别具体包括步骤101 利用文本线跟踪算法对文档图像的选定区域进行处理，得到文档图像的倾斜角度ka ；步骤102 利用倾斜角度ka对文档图像的选定区域进行校正处理；步骤103 对步骤102的校正处理结果进行OCR识别；步骤104 得到文档图像的选定区域的识别结果，该识别结果包括可疑字符数和识别字符数；步骤105 利用公式识别效果参数=可疑字符数/识别字符数，计算识别效果参数所述利用非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别具体包括步骤步骤201 利用非边界行的文本线跟踪算法对文档图像的选定区域进行处理，得到文档图像的倾斜角度kb;步骤202 利用倾斜角度kb对文档图像的选定区域进行校正处理；步骤203 对步骤202的校正处理结果进行OCR识别；步骤204 得到文档图像的选定区域的识别结果，该识别结果包括可疑字符数和识别字符数；步骤205 利用公式识别效果参数=可疑字符数/识别字符数，计算识别效果参数
Ib0本发明对文本图像中的一个小矩形区域分别利用文本线跟踪算法和非边界行的文本线跟踪算法进行OCR，使用识别效率高的算法计算出的倾斜角度对整个文档图像进行校正处理，使得校正结果更加准确有效，解决了现有图像处理方法的倾斜校正算法不具有良好通用性的问题。

图1是基于OCR识别反馈的文档图像倾斜校正方法流程图；图2是利用文本线跟踪算法对文档图像的选定区域进行OCR识别流程图；图3是文本线跟踪算法示意图；图4是利用非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别流程图。
具体实施例方式下面结合附图，对优选实施例作详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。图1是基于OCR识别反馈的文档图像倾斜校正方法流程图。图1中，基于OCR识别反馈的文档图像倾斜校正方法包括步骤1:输入文档图像。步骤2 选择文档图像中的一个矩形区域。步骤3 分别利用文本线跟踪算法和非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别，并分别得到文档图像的倾斜角度ka和kb以及识别效果参数Ia和Ib。图2是利用文本线跟踪算法对文档图像的选定区域进行OCR识别流程图。图2中，利用文本线跟踪算法对文档图像的选定区域进行OCR识别具体包括步骤101 利用文本线跟踪算法对文档图像的选定区域进行处理，得到文档图像的倾斜角度ka。图3是文本线跟踪算法示意图。图3中，利用文本线跟踪算法得到文档图像的倾斜角度的过程是，在对图像进行二值化、膨胀、提取中心线之后，首先定义三个点变量，即起始点、当前测试点和结束点。从最后一行文本线的1/2处开始找到第一个黑点，记录下其坐标，将当前测试点设置为起始点相邻的右上方的点，然后测试当前点相邻的右上方、右侧、右下方三个点是否为黑像素点，如果其中一个点为黑色点，就将该点设置为当前测试点，继续进行测试，直到当前点的右侧三个点(右上方、右侧、右下方)均不是黑点，就将这点设置为结束点。这样，由起始点和结束点这两点就可以确定一条直线，而这条直线的斜率就是倾斜角度ka。步骤102 利用倾斜角度ka对文档图像的选定区域进行校正处理。步骤103 对步骤102的校正处理结果进行OCR识别。步骤104 得到文档图像的选定区域的识别结果，该识别结果包括可疑字符数和识别字符数。步骤105 利用公式识别效果参数=可疑字符数/识别字符数，计算识别效果参数Ia。图4是利用非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别流程图。图4中，利用非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别具体包括步骤步骤201 利用非边界行的文本线跟踪算法对文档图像的选定区域进行处理，得到文档图像的倾斜角度kb。利用非边界行的文本线跟踪算法对文档图像的选定区域进行处理，得到倾斜角度的过程与步骤101利用文本线跟踪算法得到倾斜角度大致相同，唯一不同之处在于，不选择最下边一条文本线(即边界线)作为起始点，而是选择一条非边界的行，比如我们可以选择倒数第三行，如果更精确可以选择倒数三，五，七，九等行，求出多个倾斜角度后做平均，用这个平均值来作为最终的倾斜角度kb。步骤202 利用倾斜角度kb对文档图像的选定区域进行校正处理。步骤203 对步骤202的校正处理结果进行OCR识别。步骤204 得到文档图像的选定区域的识别结果，该识别结果包括可疑字符数和识别字符数。步骤205 利用公式识别效果参数=可疑字符数/识别字符数，计算识别效果参数
Ib0步骤4 判断Ia和Ib的大小，当Ia彡Ib时，则使用倾斜角度ka对整个文档图像进行校正处理；当Ia < Ib时，则使用倾斜角度kb对整个文档图像进行校正处理。最后，使用选定的倾斜角度对整个文档图像进行校正处理，然后对校正后的结果进行OCR识别，从而得到整个文档图像的识别结果。以上所述，仅为本发明较佳的具体实施方式
，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。
权利要求
1.一种基于OCR识别反馈的文档图像倾斜校正方法，其特征是所述方法包括步骤1:输入文档图像；步骤2 选择文档图像中的一个矩形区域；步骤3 分别利用文本线跟踪算法和非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别，并分别得到文档图像的倾斜角度ka和kb以及识别效果参数Ia和Ib ；步骤4 判断Ia和Ib的大小，当Ia > Ib时，则使用倾斜角度kji整个文档图像进行校正处理；当Ia < Ib时，则使用倾斜角度kb对整个文档图像进行校正处理。
2.根据权利要求1所述的一种基于OCR识别反馈的文档图像倾斜校正方法，其特征是所述利用文本线跟踪算法对文档图像的选定区域进行OCR识别具体包括步骤101 利用文本线跟踪算法对文档图像的选定区域进行处理，得到文档图像的倾斜角度ka ；步骤102 利用倾斜角度1^对文档图像的选定区域进行校正处理；步骤103 对步骤102的校正处理结果进行OCR识别；步骤104 得到文档图像的选定区域的识别结果，该识别结果包括可疑字符数和识别字符数；步骤105 利用公式识别效果参数=可疑字符数/识别字符数，计算识别效果参数Ia。
3.根据权利要求1所述的一种基于OCR识别反馈的文档图像倾斜校正方法，其特征是所述利用非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别具体包括步骤步骤201 利用非边界行的文本线跟踪算法对文档图像的选定区域进行处理，得到文档图像的倾斜角度kb;步骤202 利用倾斜角度kb对文档图像的选定区域进行校正处理；步骤203 对步骤202的校正处理结果进行OCR识别；步骤204:得到文档图像的选定区域的识别结果，该识别结果包括可疑字符数和识别字符数；步骤205 利用公式识别效果参数=可疑字符数/识别字符数，计算识别效果参数Ib。
全文摘要
本发明公开了图像识别技术领域中的一种基于OCR识别反馈的文档图像倾斜校正方法。包括输入文档图像；选择文档图像中的一个矩形区域；分别利用文本线跟踪算法和非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别，并分别得到文档图像的倾斜角度ka和kb以及识别效果参数Ia和Ib；判断Ia和Ib的大小，当Ia≥Ib时，则使用倾斜角度ka对整个文档图像进行校正处理；当Ia＜Ib时，则使用倾斜角度kb对整个文档图像进行校正处理。本发明使得校正结果更加准确有效，解决了现有图像处理方法的倾斜校正算法不具有良好通用性的问题。
文档编号G06K9/20GK102184396SQ201110158059
公开日2011年9月14日申请日期2011年6月13日优先权日2011年6月13日
发明者付晓玲, 宋丽华, 曾凡锋, 王景中, 童立靖申请人:北方工业大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：童立靖;宋丽华;曾凡锋;付晓玲;王景中
技术所有人：北方工业大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。