一种扫描识别模板制作和使用方法及系统的制作方法

文档序号:6341329阅读:482来源:国知局
专利名称:一种扫描识别模板制作和使用方法及系统的制作方法
技术领域
本发明涉及扫描识别技术领域,具体涉及一种扫描识别模板制作和使用方法及系统。
背景技术
随着社会的不断进步,数字化技术的迅猛发展,人们越来越青睐电子化的资料索取,所以越来越多对纸质资料需要进行数字化处理,进行扫描识别。数字化生产过程中,OCR技术非常关键,OCR技术的优劣直接影响资料识别质量的好坏。而纸质资料中的各种图表、公式等极大增加计算机自动识别的难度。还有一些资料中的图片,识别起来会浪费大量时间,而且效果不好,同时大大降低识别的效率。识别之后的内容整理的工作量也是十分庞大的,非常容易造成内容混乱,还需要人工进行整理,增加了人工成本。

发明内容
本发明的目的在于针对目前OCR技术的缺陷,提供一种扫描识别模板制作和使用方法及系统,以提高图文识别的效率和质量。本发明提供一种扫描识别模板制作和使用方法,包括如下步骤(SO)制作识别模板,在所述模板中划出定位块,并设置定位块的属性;(Si)对扫描图像进行区域分析,查找出与图像区域重合率达到设定阀值的模板;(S2)将所述模板中的定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息;(S3)对已识别的定位块内容信息进行归类。进一步,如上所述的一种扫描识别模板制作和使用方法,该方法还包括,对扫描图像进行归一化处理,所述归一化处理是指,将扫描中造成的图像变形进行矫正。进一步,如上所述的一种扫描识别模板制作和使用方法,步骤(so)中,所述模板是指包含边界的封闭图形区域,所述模板中包含一个或多个定位块,其中,定位块指模板内部的封闭矩形框,用于对其匹配区域内的内容进行识别并进行标记。更进一步,如上所述的一种扫描识别模板制作和使用方法,模板和定位块均有附加属性,包含匹配度量属性,用于衡量模板与图像的重合率、定位块与图像区域的重合率, 以及作为人工干预的指标。更进一步,如上所述的一种扫描识别模板制作和使用方法,所述定位块的附加属性还包含1)识别内容类型包括文字、图形、图像;2)识别内容聚类标签用于系统根据该标签对识别内容进行分类处理;3)内容校验规则用于对识别内容进行检查的规则;4)自动变形属性用于定位块与图像区域重合对比时,对定位块在设定阀值范围内进行大小、位置的微调。进一步,如上所述的一种扫描识别模板制作和使用方法,步骤(S》中,模板中定位块与与扫描图像中的区域进行匹配,即两个区域矩形重合率达到定位块的匹配度量属性设定的阈值即认为该区域与该定位块匹配。更进一步,如上所述的一种扫描识别模板制作和使用方法,步骤(S》中,定位块允许嵌套,定位块对其区域内内容进行识别时,按照如下次序进行识别被嵌套层数、匹配度、优先权重。更进一步,如上所述的一种扫描识别模板制作和使用方法,步骤(S》中,定位块根据其匹配区域的图像内容,对定位块在设定阀值范围内进行大小、位置的微调。更进一步,如上所述的一种扫描识别模板制作和使用方法,步骤(S》中,定位块根据识别内容类型标记,对其区域内的图像进行不同类型的处理如针对文字进行OCR识别、针对图像进行抠图,针对图形可能进行曲线拟合。一种扫描识别模板制作和使用系统,包括模板制作装置,用于制作模板以及划出模板中定位块,并设置定位块的属性;模板管理装置,用于管理所有的模板,并查找出与图像区域重合率达到设定阀值的模板;识别执行装置,用于将定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息;分类装置,用于对完成识别的内容信息进行分类。本发明的有益效果如下本发明对于基于模板出版的文件,有助于提升识别效率, 并进行识别信息校验与分类。对于图像区域特征明显的,通过切分区域,并通过不同识别难度区域的分离和标记,不仅能够相互验证以提升识别的准确性,而且还同时进行识别内容的分类整理。采用本发明所述的方法和系统,解决了抠取的图片的相对定位问题,大幅度降低了人工整理的工作量。


图1是本发明实施例中一种扫描识别模板制作和使用系统结构图;图2是本发明实施例中一种扫描识别模板制作和使用方法流程图;图3是实施例中一个原始扫描图像;图4是实施例中的最适合图3的模板图样;图5是实施例中定位块与图像区域进行匹配的示意图。
具体实施例方式下面结合说明书附图对本发明的具体实施方式
进行详细说明。如图1所示,本发明提供了一种扫描识别模板制作系统,包括模板制作装置11,用于制作模板以及模板中定位块,并设置定位块的属性;模板管理装置12,用于管理所有的模板,并查找出与图像区域重合率达到设定阀值的模板;识别执行装置13,用于将定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息;分类装置14,用于对完成识别的内容信息进行分类。上述系统所实现的一种扫描识别模板制作方法如图2所示,该方法包括如下步骤SO:制作识别模板,在所述模板中划出定位块,并设置定位块的属性。本发明实施例中,所述模板是指包含边界的封闭图形区域,所述模板中包含一个或多个定位块,其中,定位块指模板内部的封闭矩形框,用于对其匹配区域内的内容进行识别并进行标记。模板和定位块均有附加属性,包含匹配度量属性,用于衡量模板与图像的重合率、定位块与图像区域的重合率,以及作为人工干预的指标。所述定位块的附加属性还包含1)识别内容类型如文字、图形、图像;2)识别内容聚类标签用于系统根据该标签对识别内容进行分类处理。3)内容校验规则,用于对识别内容进行检查的规则;4)自动变形属性用于定位块与图像区域重合对比时,对定位块在设定阀值范围内进行大小、位置的微调。Sl 对扫描图像进行区域分析,查找出与图像区域重合率达到设定阀值的模板。本发明实施例中,对扫描图像进行连通域分析,根据连通域的特性进行图像的区域分割,将区域分割后的图像与模板管理装置中的模板进行匹配,计算区域重合率,由此找出对应的模板。这种连通域分析及匹配方法为本领域的公知技术。本发明实施例中,还包括对扫描图像进行归一化处理,所述归一化处理是指,将扫描中造成的图像变形进行矫正,典型如页面弯曲,大小有轻微变化。归一化处理有助于提高模板与扫描图像匹配的效率和准确度。扫描页面的归一化处理所采用的都是一些公知的图像处理技术。S2:将所述模板中的定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息。本发明实施例中,模板中定位块与扫描图像中的区域进行匹配,即两个区域矩形重合率达到定位块的匹配度量属性设定的阀值即认为该区域与该定位块匹配。更进一步,定位块允许嵌套,定位块对其区域内的内容进行识别时,按照如下次序进行识别被嵌套层数、匹配度、优先权重。更进一步,定位块根据其匹配区域的图像内容,对定位块在设定阀值范围内进行大小、位置的微调。更进一步,定位块根据识别内容类型标记,对其区域内的图像进行不同类型的处理如针对文字进行OCR识别、针对图像进行抠图,针对图形可能进行曲线拟合。S3 对已识别的定位块内容信息进行归类。如某些定位块对应的识别信息为图像,某些定位块对应的识别信息为文字,对这些不同类型的内容信息进行相应的归类。下面为本发明具体的实施例描述,以详细说明扫描识别模板制作方法的具体技术细节。
图3是实施例中一个原始扫描图像,由图中可以看出,该原始扫描是一个菜谱的内容,包括一幅完成品的图样,整个菜谱的材料,制作方法及注意事项。图4是实施例中的最适合图3的模板图样。在模板管理装置中,根据图3进行区域分析,查找出与图像区域重合率达到设定阀值的模板,本实施例中,如图4所示的版式模板。由图中可以看出,该模板由2个部分组成,模板外框41、和定位块42。其中,模板外框41设定了整个扫描图像的大小,定位块42则标记出扫描图像中内容的分布情况。本实施例中,定位块都包含有以下属性1)识别内容类型如文字、图形、图像;2)识别内容聚类标签用于系统根据该标签对识别内容进行分类处理。3)内容校验规则,用于对识别内容进行检查的规则;4)自动变形属性用于定位块与图像区域重合对比时,对定位块在设定阀值范围内进行大小、位置的微调。图5是实施例中定位块与图像区域进行匹配。在识别执行装置中,首先将模板中定位块与图像区域按照位置匹配,即两个区域矩形重合率达到设定阀值即认为该区域与该定位块匹配。这种位置匹配技术为本领域的公知技术,此处就不再过多的进行介绍,本实施例中,阀值设定为85%,即模板中定位块与图像区域的重合率达到85%以上,就认为该区域与该定位块匹配。本实施例中,如图5所示。在区域与定位块进行初级匹配后,根据设置在定位块中的属性,对定位块在设定阀值范围内进行大小、位置的微调。例如对定位块c,当定位块c与图像中的注意事项匹配之后,定位块C自动缩小到文字范围,而忽略了文字的外框。接下来,识别已匹配定位块的内容,将识别的内容记录在定位块内。同时将识别的内容进行分类,例如定位块a识别出的内容类型为图像,定位块b识别出的内容类型为文字。将已识别的定位块内容信息进行归类。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1.一种扫描识别模板制作和使用方法,包括如下步骤(50)制作识别模板,在所述模板中划出定位块,并设置定位块的属性;(51)对扫描图像进行区域分析,查找出与图像区域重合率达到设定阀值的模板;(52)将所述模板中的定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息;(53)对已识别的定位块内容信息进行归类。
2.如权利要求1所述的一种扫描识别模板制作和使用方法,其特征在于,该方法还包括,对扫描图像进行归一化处理,所述归一化处理是指,将扫描中造成的图像变形进行矫正。
3.如权利要求1所述的一种扫描识别模板制作和使用方法,其特征在于,步骤(SO)中, 所述模板是指包含边界的封闭图形区域,所述模板中包含一个或多个定位块,其中,定位块指模板内部的封闭矩形框,用于对其匹配区域内的内容进行识别并进行标记。
4.如权利要求3所述的一种扫描识别模板制作和使用方法,其特征在于,所述的模板和定位块均有附加属性,包含匹配度量属性,用于衡量模板与图像的重合率、定位块与图像区域的重合率,以及作为人工干预的指标。
5.如权利要求4所述的一种扫描识别模板制作和使用方法,其特征在于,所述定位块的附加属性还包含1)识别内容类型包括文字、图形、图像;2)识别内容聚类标签用于系统根据该标签对识别内容进行分类处理;3)内容校验规则用于对识别内容进行检查的规则;4)自动变形属性用于定位块与图像区域重合对比时,对定位块在设定阀值范围内进行大小、位置的微调。
6.如权利要求4所述的一种扫描识别模板制作和使用方法,其特征在于,步骤(S2)中, 模板中定位块与扫描图像中的区域进行匹配,如果两个区域矩形重合率达到定位块的匹配度量属性设定的阀值即认为该区域与该定位块匹配。
7.如权利要求6所述的一种扫描识别模板制作和使用方法,其特征在于,步骤(S2)中, 定位块允许嵌套,定位块对其区域内内容进行识别时,按照如下次序进行识别被嵌套层数、匹配度、优先权重。
8.如权利要求6所述的一种扫描识别模板制作和使用方法,其特征在于,步骤(S2)中, 定位块根据其匹配区域的图像内容,对定位块在设定阀值范围内进行大小、位置的微调。
9.如权利要求6所述的一种扫描识别模板制作和使用方法,其特征在于,步骤(S2)中, 定位块根据识别内容类型标记,对其区域内的图像进行不同类型的处理。
10.一种扫描识别模板制作和使用系统,包括模板制作装置,用于制作模板以及划出模板中定位块,并设置定位块的属性;模板管理装置,用于管理所有的模板,并查找出与图像区域重合率达到设定阀值的模板;识别执行装置,用于将定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息;分类装置,用于对完成识别的内容信息进行分类。
全文摘要
本发明涉及一种扫描识别模板制作和使用方法及系统。包括制作识别模板,在所述模板中划出定位块,并设置定位块的属性;对扫描图像进行区域分析,查找出与图像区域重合率达到设定阀值的模板;将所述模板中的定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息;对已识别的定位块内容信息进行归类。采用本发明方法及系统,大大提升对规则复杂版面的识别效率,并且自动完成对识别信息校验与分类。
文档编号G06K9/00GK102567711SQ20101062280
公开日2012年7月11日 申请日期2010年12月29日 优先权日2010年12月29日
发明者周长岭, 龚健 申请人:方正国际软件(北京)有限公司, 方正国际软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1