一种字符识别方法及系统的制作方法

文档序号:6604781阅读:118来源:国知局
专利名称:一种字符识别方法及系统的制作方法
技术领域
本发明涉及文字识别技术领域,尤其涉及一种字符识别方法及系统。
背景技术
在当前数字化处理行业,印刷体汉字识别技术已经被广泛的应用。目前使用识别系统进行印刷体数字化工作,主要采用以下两种技术一种是采用单一的识别系统,经过识别后的文本直接交给人工进行后期修改工作。这种方法的不足是单一识别系统由于识别算法的唯一性,对图像与识别字典的匹配度计算就有局限性,从而使得某些字符在此种算法下的相似度很高,造成误识率高,后期必须做逐字校对才能满足质量要求。另一种是将两个识别系统识别后的文本文件通过校对软件进行对比,找出不同的地方标记出来。相同的部分则视为识别准确。此方法的不足是由于各个识别系统的切分算法不一致,使得识别出来的文字并不是一一对应的,增加了校对算法的难度,有的情况甚至是不能对比的,另外是并没有利用识别系统自身的识别相似度的数据,只是机械的把各个识别系统的结果分为一致和不一致两种。现有技术不足之处在于几乎所有的识别系统都以文字识别正确率作为主要参数, 而很少提供误识率和错字定位相关信息。而后者正是海量数据加工过程中的重要信息。对于识别后的修改工作,查找一个错字的位置所用的时间远比修改它要多得多。现有处理方法中并不能大幅地削减人工后期修改的工作量,而人工修改环节是整个数字化工艺中成本最高的一个环节。同时由于没有挖掘多种识别系统的过程数据来自动判断文字的置信度, 文字质量还要过多的依靠人工判别,使得质量的稳定性和准确性难以保证。

发明内容
针对现有技术中所存在的问题,本发明的目的是提供一种字符识别方法及系统。 该方法及系统能够应用多个识别核心,通过加权计算不但可以提供每个字符的综合识别结果,同时提供字符识别结果的准确度,准确度达到一定标准的字符则不需要进行人工检验修改,从而提高识别结果后期编改的工作效率。为了实现上述发明目的,本发明采用的技术方案是一种字符识别方法,包括以下步骤(1)对待识别文档进行版面分析,将分析得到的字符区域进行字符切割以获得字符图像数据;(2)利用不同的识别核心分别对字符图像数据依次进行字符识别,得到每个字符识别结果和各个字符识别结果相似度;(3)根据识别核心加权参考值以及字符识别结果相似度对所述字符识别结果进行加权计算,得到最终字符识别结果及其准确度。进一步,步骤O)中,所述的每个字符识别结果包括首选识别结果和第一备选识别结果。进一步,步骤O)中,所述各个字符识别结果的相似度包括每个识别核心的首选识别结果相似度和首选识别结果与第一备选识别结果相似度差值,其中所述识别结果相似度表示识别核心所返回的识别结果与原字符的相似度。进一步,步骤O)中,若每个识别核心的相似度度量单位不同,则按比例转化为相同的度量单位。进一步,所述根据识别核心加权参考值以及字符识别结果相似度对所述字符识别结果进行加权计算,具体步骤包括a.判断字符识别结果的字符类型;b.获取识别核心所述字符类型的加权参考值;c.利用所述字符识别结果相似度和所述加权参考值,计算得到该字符识别结果的
综合直{曰度。进一步,所述该识别结果的综合置信度是指首选识别结果相似度、首选识别结果与第一备选识别结果相似度差值以及识别核心字符类型的加权参考值的乘积。进一步,所述得到最终字符识别结果及其准确度,具体包括i.对于同一字符图像数据,依据每个识别核心字符识别结果的综合置信度,选择综合置信度高的作为最终字符识别结果;ii.依据每个识别核心字符识别结果的差异性,确定字符识别结果的准确度;若各个识别核心结果相同,则字符识别结果的准确度最高,若各个识别核心结果均不相同,则字符识别结果的准确度最低。进一步,所述的首选识别结果与第一备选识别结果相似度的差值与字符识别结果的准确度成反比,其差值越大,识别核心对字符识别结果的准确度越高;其差值越小,识别核心对字符识别结果的准确度越低。进一步,若不同识别核心的的字符识别结果存在相同情况,则计算相同结果对应的综合置信度的平均值并将其作为调整后的该字符识别结果的综合置信度。进一步,在字符识别过程中,根据待识别文档中已得到的最终字符识别结果调整各个识别核心的加权参考值。更进一步,所述的方法进一步包括将每个字符图像数据的最终字符识别结果、准确度以及文字坐标数据合成为输出文件,供后期文字修改环节使用。为实现上述方法,本发明提供了一种字符识别系统,包括字符切割装置,用于对待识别文档进行版面分析,并将分析得到的字符区域进行字符切割以获得字符图像数据;识别装置,用于利用不同的识别核心分别对字符图像数据依次进行字符识别,得到每个字符识别结果和各个字符识别结果的相似度;计算装置,用于根据识别核心加权参考值以及字符识别结果相似度对所述字符识别结果进行加权计算,得到最终字符识别结果及其准确度。进一步,所述的计算装置包括字符类型判断模块,用于判断字符识别结果的字符类型;加权参考值获取模块,用于获取识别核心所述字符类型的加权参考值;
综合置信度计算模块,用于利用字符识别结果相似度和加权参考值,计算得到识别结果的综合置信度。更进一步,所述系统还包括输出装置用于将每个字符图像数据的最终字符识别结果、准确度以及文字坐标数据合成为输出文件,供后期文字修改环节使用。本发明的效果在于本发明通过识别过程结果的计算和对比,辅以海量测试数据的分析结果,利用不同识别核心的优势,对识别文字结果可以定量得计算出每个字符不同的准确度,使后期识别结果的修改工作可以集中在准确度较低的部分,对于准确度较高的部分则可以不用修改。所以不需要对结果逐字进行也能达到质量要求,大大的节省了人工的劳动强度和成本,同时质量更加可靠。


图1为具体实施方式
中所述一种字符识别系统的结构框图;图2为具体实施方式
中所述一种字符识别方法的流程图;图3为具体实施方式
中待识别文档;图4为具体实施方式
中待识别文档经过版面分析后的字符区域;图5为具体实施方式
中经字符切割后的字符图像数据;图6为具体实施方式
中经识别核心识别后的字符识别结果。
具体实施例方式下面结合说明书附图和具体实施方式
,对本发明进行详细说明。图1示出了具体实施方式
中所述一种字符识别系统的结构框图,该系统包括字符切割装置11,用于对待识别文档进行版面分析,并将分析得到的字符区域进行字符切割以获得字符图像数据;识别装置12,用于利用不同的的识别核心分别对字符图像数据依次进行字符识别,得到每个字符识别结果和各个字符识别结果的相似度;计算装置13,用于根据识别核心加权参考值以及字符识别结果相似度对所述字符识别结果进行加权计算,得到最终字符识别结果及其准确度。其中,计算装置13还包括用于判断字符识别结果的字符类型的字符类型判断模块31、用于获取识别核心所述字符类型的加权参考值的加权参考值获取模块32和用于利用字符识别结果相似度和加权参考值,计算得到识别结果的综合置信度的综合置信度计算模块33。输出装置14,用于将每个字符图像数据的最终字符识别结果、准确度以及文字坐标数据合成为输出文件,供后期文字修改环节使用。图2示出了具体实施方式
中采用图1所示系统进行字符识别的一种字符识别方法,该方法包括以下步骤Sll 对待识别文档进行版面分析,将分析得到的字符区域进行字符切割以获得字符图像数据;首先对原始图像按照常规的方法进行二值化、纠斜和版面分析。本实施例中采用大津法进行二值化,纠斜采用投影图的方式查找连续线段最高峰,使用Hough变换搜索倾斜角度。版面分析则利用游程图采用自底向上的分析方法,将图像数据划分为具有不同符号的区域,如字符区域、图形区域、表格区域等。然后,对字符区域的水平方向和垂直方向进行投影,然后根据投影,根据投影图进行字符切割以获得每个字符图像数据。显然,也可以采用连通域法等其它字符切割方法。本实施例中,如图3中所示为待识别文档,经版面分析后得到识别区域即字符区域,如图4所示,再经过字符切割获每个字符图像数据,如图5所示。S12:利用不同的识别核心分别对字符图像数据依次进行字符识别,得到每个字符识别结果和各个字符识别结果的相似度;其中,所得到的每个字符识别结果包括首选识别结果和第一备选识别结果。本实施例中,选用的不同的识别核心为三个,分别为ABBYY公司的识别核心、汉王公司的识别核心、文通公司的识别核心,当然也可以选择其它识别核心,识别核心的数量也可以是四个或者四个以上不同的识别核心。本实施例中,选用ABBYY公司的识别核心、汉王公司的识别核心、文通公司的识别核心(分别用识别核心A、识别核心B和识别核心C表示)分别对字符图像数据进行字符识别。所述各个字符识别结果的相似度包括每个识别核心的首选识别结果相似度和首选识别结果与第一备选识别结果相似度差值,其中所述识别结果相似度表示识别核心所返回的识别结果与原字符的相似度。本实施例中引入此参数的原因为在实际数据中识别结果的准确度越高,此相似度差值越大。相反地,如果识别核心对识别结果准确度越低,此相似度差值越小。引入此参数可以放大首选识别结果相似度。本实施例中,若每个识别核心的相似度度量单位不同(比如有的识别核心用0-10 之间的数值来表示相似度,有的识别核心用0-100之间的数值来表示相似度),则按比例转化为相同的度量单位。如将相似度统一转化为0-10之间的数值。S13:根据识别核心加权参考值以及字符识别结果相似度对所述字符识别结果进行加权计算,得到最终字符识别结果及其准确度。根据识别核心加权参考值以及字符识别结果相似度对所述字符识别结果进行加权计算,具体步骤包括a.判断字符识别结果的字符类型;b.获取识别核心所述字符类型的加权参考值,所述的加权参考值是根据预先大量的测试和统计得到的;如表1所示,表1中的数值为识别核心A、识别核心B和识别核心C的各字符类型加权值如对于识别核心A、识别核心B与识别核心C,当代简体汉字的加权参考值均为1. 2 ; 对于当代繁体汉字,识别核心A的加权参考值为0. 9,识别核心B的为1. 1,识别核心C的为 1 ;可见,利用不同识别核心进行字符识别对识别文字结果可以定量计算出每个字符不同的准确度。
权利要求
1.一种字符识别方法,包括以下步骤(1)对待识别文档进行版面分析,将分析得到的字符区域进行字符切割以获得字符图像数据;(2)利用不同的识别核心分别对字符图像数据依次进行字符识别,得到每个字符识别结果和各个字符识别结果相似度;(3)根据识别核心加权参考值以及字符识别结果相似度对所述字符识别结果进行加权计算,得到最终字符识别结果及其准确度。
2.如权利要求1所述的一种字符识别方法,其特征在于,步骤(2)中,所述的每个字符识别结果包括首选识别结果和第一备选识别结果。
3.如权利要求2所述的一种字符识别方法,其特征在于,步骤O)中,所述各个字符识别结果的相似度包括每个识别核心的首选识别结果相似度和首选识别结果与第一备选识别结果相似度差值,其中所述识别结果相似度表示识别核心所返回的识别结果与原字符的相似度。
4.如权利要求1所述的一种字符识别方法,其特征在于,步骤O)中,不同的识别核心为三个;若不同识别核心的相似度度量单位不同,则按比例转化为相同的度量单位。
5.如权利要求1所述的一种字符识别方法,其特征在于,步骤(3)中,所述根据识别核心加权参考值以及字符识别结果相似度对所述字符识别结果进行加权计算,具体步骤包括a.判断字符识别结果的字符类型;b.获取识别核心所述字符类型的加权参考值;c.利用所述字符识别结果相似度和所述加权参考值,计算得到该字符识别结果的综合置信度。
6.如权利要求5所述的一种字符识别方法,其特征在于,所述该识别结果的综合置信度是指首选识别结果相似度、首选识别结果与第一备选识别结果相似度差值以及识别核心字符类型的加权参考值的乘积。
7.如权利要求1所述的一种字符识别方法,其特征在于,步骤(3)中,所述得到最终字符识别结果及其准确度,具体包括i.对于同一字符图像数据,依据每个识别核心字符识别结果的综合置信度,选择综合置信度高的作为最终字符识别结果; .依据每个识别核心字符识别结果的差异性,确定字符识别结果的准确度;若各个识别核心结果相同,则字符识别结果的准确度最高,若各个识别核心结果均不相同,则字符识别结果的准确度最低。
8.如权利要求3所述的一种字符识别方法,其特征在于,所述的首选识别结果与第一备选识别结果相似度的差值与字符识别结果的准确度成正比,其差值越大,识别核心对字符识别结果的准确度越高;其差值越小,识别核心对字符识别结果的准确度越低。
9.如权利要求7所述的一种字符识别方法,其特征在于,若不同识别核心得到的字符识别结果存在相同情况,则计算相同结果对应的综合置信度的平均值并将其作为调整后的该字符识别结果的综合置信度。
10.如权利要求7所述的一种字符识别方法,其特征在于,在字符识别过程中,根据待识别文档中已得到的最终字符识别结果调整各个识别核心的加权参考值。
11.如权利要求1至10之一所述的一种字符识别方法,其特征在于,所述方法进一步包括(4)将每个字符图像数据的最终字符识别结果、准确度以及文字坐标数据合成为输出文件,供后期文字修改环节使用。
12.—种字符识别系统,包括字符切割装置,用于对待识别文档进行版面分析,并将分析得到的字符区域进行字符切割以获得字符图像数据;识别装置,用于利用不同的识别核心分别对字符图像数据依次进行字符识别,得到每个字符识别结果和各个字符识别结果的相似度;计算装置,用于根据识别核心加权参考值以及字符识别结果相似度对所述字符识别结果进行加权计算,得到最终字符识别结果及其准确度。
13.如权利要求12所述的一种字符识别系统,其特征在于,所述计算装置包括 字符类型判断模块,用于判断字符识别结果的字符类型;加权参考值获取模块,用于获取识别核心所述字符类型的加权参考值; 综合置信度模块,用于利用字符识别结果相似度和加权参考值,计算得到字符识别结果的综合置信度。
14.如权利要求12或13所述的一种字符识别系统,其特征在于,该系统还包括输出装置用于将每个字符图像数据的最终字符识别结果、准确度以及文字坐标数据合成为输出文件,供后期文字修改环节使用。
全文摘要
本发明公开了一种字符识别方法及系统,属于文字识别技术领域。现有的文字识别方法人工的劳动强度和成本大、且质量的稳定性和准确性难以保证。本发明所述的方法首先对待识别文档进行版面分析,将分析得到的字符区域进行字符切割以获得字符图像数据;其次,利用不同的识别核心分别对字符图像数据依次进行字符识别,得到各个字符识别结果的相似度;最后,根据识别核心加权参考值以及字符识别结果相似度对所述字符识别结果进行加权计算,得到最终字符识别结果及其准确度。本发明所述方法及系统可以利用不同识别核心的优势,对识别文字结果可以定量得计算出每个字符不同的准确度,减少后期人工修改的工作量,同时质量更加可靠。
文档编号G06K9/20GK102298696SQ20101021136
公开日2011年12月28日 申请日期2010年6月28日 优先权日2010年6月28日
发明者周长岭, 赵海涛 申请人:方正国际软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1