字符识别装置及方法、字符识别程序的制作方法

文档序号:6522916阅读:203来源:国知局
字符识别装置及方法、字符识别程序的制作方法
【专利摘要】一种字符识别装置、方法及程序,能在抑制正读率的降低幅度的同时进行降低了误读率的高效的舍弃,并能减少舍弃判定所需的计算量。使基于各种指标的舍弃判定(109、113)在舍弃值彼此的独立性高的情况下串行组合,在舍弃值彼此的独立性低的情况下并行组合。舍弃率高的舍弃指标、计算成本低的舍弃指标配置在处理的前期。字符识别部(106)识别字符切取部(105)切取出的各字符单位的图像中的字符。多个舍弃值计算(107、108、110~112)将舍弃能力越高的舍弃值计算(107、108)越在先配置。舍弃判定在基于在先的舍弃值计算所计算出的舍弃值而判定为舍弃时,省略在后的舍弃值计算处理,由此判定是否舍弃识别结果。
【专利说明】字符识别装置及方法、字符识别程序
【技术领域】
[0001]本发明涉及字符识别装置及方法、字符识别程序,尤其涉及具有组合了多个舍弃值的舍弃判定方式的光学式字符识别装置及方法、字符识别程序。另外,本实施例在字符识别的技术中尤其还涉及舍弃的技术。
【背景技术】
[0002]本【技术领域】涉及光学式字符识别(OCR:0ptical Character Recognition ;光学字符识别)装置。OCR装置通过扫描仪等读取纸类文件,并识别图像中的文字和/或符号,由此,通过代码化成Unicode (统一码)等来进行电子化。OCR装置在一般企业、自治机构、金融机构、医疗机构、教育机构等中,用于会计票据、缴纳完成通知书、工资报告单、订单、成批转账单、医疗费用明细、答题纸等的电子化。另外,面向一般用户时,在基于移动电话进行的字符识别、便签等一般文件中的字符识别中使用。
[0003]简略地说明基于OCR装置的文件电子化的处理流程。
[0004]图6是用于说明基于字符识别装置的文件电子化的流程图。首先,进行基于扫描仪等的文件图像化、二值化和噪声处理等的前处理。由此,例如能够得到图6的附图标记601那样的二值的文件图像。接下来,通过基于OCR装置进行的、图表位置和/或文件段落构造等的布局分析和字符串提取,而得到例如图6的附图标记602那样的字符串图像。之后,OCR装置通过字符切取而从字符串图像中切取字符单位的图像,然后,识别各个图像中的字符。从文件的图像化到字符串提取为止的处理例如在专利文件1、专利文献2中有所记载。另外,到从字符串图像中识别各个字符为止的处理例如在专利文献3、非专利文献1、非专利文献2中有所记载。
[0005]本技术涉及各个字符图像的识别技术。以下,简单说明对各个字符图像中描绘的字符进行识别的技术。
[0006]首先,进行将字符图像转换为矢量值的特征提取处理。当将矢量值的维数设为N时,通过特征提取处理而将一个字符图像表现为N维矢量。从相同字符种类的字符图像中提取的N维矢量分布在N维空间中的较近位置上。
[0007]图9通过示意图而示出上述情况。圆形、三角形、四边形分别表示从与字符种类A、字符种类B、字符种类C对应的各字符图像提取出的矢量值。
[0008]接下来,参照预先生成的字符识别用辞典,基于从字符图像提取出的矢量值,来识别字符图像中描绘的字符。
[0009]在此,首先说明字符识别辞典。在字符识别用辞典中,例如对于各识别对象字符种类k而保存有将N维矢量取为自变量、将实数值取为值的识别函数fk U)。识别函数fk(X)是以针对从描绘有字符种类k的字符图像所生成的N维矢量X而取较大值,针对从描绘有其他字符种类的字符图像所生成的N维矢量X而取较小值的方式,预先通过学习而生成的。识别函数fk (X)的值称为相对于矢量X的字符种类k的相似度、似然度(likelihood)等。例如,在将数字作为对象来识别的情况下,与O?9这十个数字种类对应地存在有10个识别函数 fO (x)、fl (x)、...、f9 (x)。
[0010]在字符的识别中,使用从字符图像提取出的N维矢量X,来计算各字符种类的识别函数fk (x)的值。识别函数fk (x)的值是相对于字符种类k的相似度,由此,fk (x)的值最大的字符种类k成为识别结果的第一候选。同样地,值第二大的识别函数对应的字符种类k成为识别结果的第二候选。这样,能够得到直到第η候补的识别结果。
[0011]图7是用于说明字符识别结果的图。例如,通过图6的字符切取(附图标记603)所切取的字符图像的识别如图7所示。通过以上内容,得到图6的附图标记604那样的识别结果,并转换为计算机能处理的字符代码等的代码。
[0012]上述所说明的字符识别是计算字符图像和各识别对象字符种类的相似度,并基于此而得到候选字符的处理。为了提高OCR装置的有用性,该字符识别的精度是重要的。但是,在识别结果可疑的情况下,使通知该情况的识别结果的舍弃处理也是重要的。
[0013]图12是用于表示非字符和不明确字符的示例的图。在成为舍弃对象的字符中,具有例如图12的字符例1201所示的非字符、和字符串1202所示的不明确字符。非字符例如是基于字符切取错误所导致的字符的一部分和/或多个字符合在一起的图像、混入了污溃等干扰因素的图像等。不明确字符例如是如字符例1202的左端图像所示地无法区别7和9的情况等。
[0014]若舍弃处理是细致的,则具有几个优点。一个优点是,如果将错误地识别了字符的结果直接保存的话,则不是该错误的状态被保持,就是为了修正该错误而必须通过人工对所有识别结果进行再核查。与之相对,在识别结果可疑的情况下,只要能够将该情况通知给用户,用户就可以仅修正该部分。另外,若能够高精度地进行舍弃,则判定为作为舍弃的因素是可能在前处理、字符行提取、字符切取等在前的处理中发生了失误,从而能够从在前的任一个处理开始改变处理方法和/或处理条件等,再次尝试进行处理。由此,能够提高识别精度。
[0015]以下,将正确地识别字符图像中的字符的比率称为正读率,将错误地识别的比率称为误读率,将舍弃识别结果的比率称为舍弃率。正读率、误读率、舍弃率的和为I。通常,若舍弃过多,则不仅将误读的内容舍弃,还会将正确读取的一些内容舍弃,由此,正读率、误读率均下降。由此,希望以尽量不降低正读率且使误读率减少的方式进行舍弃。
[0016]说明舍弃的方法。将从输入图像提取出的N维矢量设为X。另外,将与第一候选字符kl对应的识别函数设为fkl。此时,fkl (X)是相对于字符种类kl的相似度。若使rl(X) = - fkl (X),则rl (X)能够视为相对于字符种类kl的非相似度。由此,预先确定阈值hl,在rl (x)> hi时,作为非相似度较高(相似度较低)而作出舍弃的判定。可以设想在输入图像为非字符时相对于第一候选字符的相似度也会较低,因此该方法考虑到了舍弃非字符的情况。
[0017]而且,将与第二候选字符k2对应的识别函数设为fk2。此时,fk2 (X)是相对于字符种类k2的相似度。另外,fkl (X)≥fk2 (X)0若使r2 (x) = fk2 (x) — fkl (x),贝丨J该r2 (X)的值越大,fkl (X)与fk2 (x)的值越接近。此时,表示在第一候选字符与第二候选字符之间识别是不明确的。由此,预先确定阈值h2,在r2 (x)>h2时,作为识别结果是不明确的而进行舍弃。
[0018]图13是用于表不成为舍弃对象的图像不例的图。[0019]除此之外,在专利文献4中记载了如下进行舍弃判定的方法:
[0020]计算图13的字符例1301那样的字符的断线程度r3(x)、和字符例1302那样的字符的团块程度r4 (X),并基于这些进行舍弃判定。预先确定阈值h3,在r3 (x) > h3时断线程度较大,所以舍弃。另外,预先确定阈值h4,在r4 (x)>h4时团块程度较大,所以舍弃。
[0021]现有技术文献
[0022]专利文献
[0023]专利文献1:日本特开2010-244372号公报
[0024]专利文献2:日本特开平11-53466号公报
[0025]专利文献3:日本特开2004-171316号公报
[0026]专利文献4:日本特愿2011-212308号
[0027]非专利文献
[0028]非专利文献1:Mohammed Cheriet, Nawwaf Kharma, Cheng Iin Liu, and ChingSuen.Character Recognition Systems:A Guide for Students and Practitioners.Wiley-1ntersciencej2007.[0029]非专利文献2:石井健一郎、上田修功、前田英作、村濑洋。图案识别。日本欧姆(OHM)社出版社。
[0030]关于用于舍弃字符的指标,如上述的非字符度(非相似度)rl、不明确度r2、断线度r3、团块度r4那样能考虑各种指标。但是,使这些指标组合的方法并不明确。在现有技术中,采用了将基于任意一个基准而舍弃了的内容进行舍弃等简单方法,或者采用了 一边通过人工来进行试验调整一边组合多个指标等的方法。
[0031]在前者的简单方法中,需要计算全部的舍弃指标,由此,花费计算成本。在此基础上,由于基于任意一个舍弃指标在超过阈值的情况下就进行舍弃,所以能够想到通常舍弃过于严重而导致正读率下降的情况,从实现高正读率和低误读率这一舍弃目的来考虑,并不一定合适。另外,关于后者的通过人工的试验调整,若该指标数增多,则会是相当耗费成本的方法,且能够想到存在难以实现的情况。

【发明内容】

[0032]本发明鉴于上述问题,以通过较低的人工成本来提供一种高正读率、低误读率、快速的舍弃方法为目的。
[0033]根据本发明的第一解决方式,提供一种字符识别装置,其特征在于,具有:
[0034]多个舍弃值计算部,其基于预先设定的舍弃函数对从输入图像而识别的字符的识别结果计算舍弃值;和
[0035]一个或多个舍弃判定部,基于由多个所述舍弃值计算部的某一个或某些个计算出的一个或多个舍弃值,分别判定是否将所述识别结果舍弃,
[0036]使用基于多个所述舍弃值计算部的相关性而组合的多个所述舍弃值计算部,所述舍弃判定部基于多个舍弃值来进行所述识别结果的舍弃判定,并将判定为舍弃的所述识别结果舍弃,由此,将没有判定为舍弃的所述识别结果保存在存储部中或显示在显示部中。
[0037]根据本发明的第二解决方式,提供一种字符识别方法,其特征在于,[0038]使用多个舍弃值计算部,该多个舍弃值计算部基于预先设定的舍弃函数对从输入图像而识别的字符的识别结果计算舍弃值,
[0039]并使用一个或多个舍弃判定部,该一个或多个舍弃判定部基于由多个所述舍弃值计算部的某一个或某些个计算出的一个或多个舍弃值,分别判定是否将所述识别结果舍弃,
[0040]还使用基于多个所述舍弃值计算部的相关性而组合的多个所述舍弃值计算部,所述舍弃判定部基于多个舍弃值来进行所述识别结果的舍弃判定,并将判定为舍弃的所述识别结果舍弃,由此,将没有判定为舍弃的所述识别结果保存在存储部中或显示在显示部中。
[0041]根据本发明的第三解决方式,提供一种字符识别程序,其特征在于,用于使计算机执行如下功能:
[0042]处理部使用多个舍弃值计算部,基于预先设定的舍弃函数对从输入图像而识别的字符的识别结果计算舍弃值的功能;
[0043]处理部使用一个或多个舍弃判定部,基于由多个所述舍弃值计算部的某一个或某些个计算出的一个或多个舍弃值,分别判定是否将所述识别结果舍弃的功能;和
[0044]处理部使用基于多个所述舍弃值计算部的相关性而组合的多个所述舍弃值计算部,所述舍弃判定部基于多个舍弃值来进行所述识别结果的舍弃判定,并将判定为舍弃的所述识别结果舍弃,由此,将没有判定为舍弃的所述识别结果保存在存储部中或显示在显示部中的功能。
[0045]发明的效果
[0046]根据本实施例,能够以较低的人工成本而提供一种高正读率、低误读率、快速的舍弃方法。
【专利附图】

【附图说明】
[0047]图1是说明本发明的实施例4的字符识别装置的处理的流程图的示例。
[0048]图2是字符识别装置的构成图的示例。
[0049]图3是用于说明独立性较高的两个舍弃值的图。
[0050]图4是用于说明独立性较低的两个舍弃值的图。
[0051]图5是说明本发明的相关技术的字符识别装置的处理流程图的示例。
[0052]图6是用于说明基于字符识别装置的文件电子化的流程图。
[0053]图7是用于说明字符识别的结果的图。
[0054]图8是表不舍弃值的不例的图。
[0055]图9是用于说明字符识别用的方式的图。
[0056]图10是用于说明字符切取处理的图。
[0057]图11是用于说明字符识别和识别结果选定处理的图。
[0058]图12是用于表示非字符和不明确字符的示例的图。
[0059]图13是用于表不成为舍弃对象的图像的不例的图。
[0060]图14是用于表示特征提取的处理的示例的图。
[0061]图15是用于表示学习用字符图像数据库的示例的图。
[0062]图16是表示串行构成的情况下的舍弃区域的图。[0063]图17是说明本发明的实施例1和实施例2的字符识别装置的处理流程图的示例。
[0064]图18是说明本发明的实施例3的字符识别装置的处理流程图的示例。
[0065]图19是关于梯度特征提取方法的说明图(I)。
[0066]图20是关于梯度特征提取方法的说明图(2)。
[0067]图21是舍弃函数的说明图。
[0068]图22是舍弃值的构成处理的流程图。
[0069]附图标记说明
[0070]201字符识别装置
[0071]202输入装置
[0072]203显示装置
[0073]204图像获取装置
[0074]205通信装置
[0075]206 运算装置(CPU )
[0076]207外部存储装置(HDD,存储器)
【具体实施方式】
[0077]以下,使用附图来说明实施例。
[0078]1.概要
[0079]在本实施方式中,若列举字符识别装置的一个示例,则字符识别装置具有:
[0080]文件图像化部,通过对文件进行光学扫描来获取文件图像;
[0081]前处理部,具有从所述文件图像中去除噪声和背景,并进行二值化而生成二值图像的单元;
[0082]布局分析部,具有分析所述二值图像的文件构造和图表构造的单元;
[0083]字符串提取部,具有从所述二值图像提取字符串单位的图像的单元;
[0084]字符切取部,具有从提取出的所述字符串图像的各个字符串图像切取字符单位的图像的单元;
[0085]字符识别部,具有识别由字符切取部所切取出的各字符单位的图像中的字符的单元;
[0086]舍弃判定部,具有多个舍弃值计算单元,还具有如下单元:使越是舍弃能力高的舍弃值计算单元越在先配置,在基于由在先的舍弃值计算单元所计算出的舍弃值而判定为舍弃的情况下,省略在后的舍弃值计算处理,由此判定是否舍弃上述识别结果;
[0087]识别结果选定部,具有基于所述识别结果和舍弃判定结果来选定所述各字符串图像的识别结果的单元;
[0088]重试判定部,具有基于所述识别结果来判定是否进行识别的再处理的单元;和
[0089]识别后处理部,具有进行将识别结果保存、或者向显示装置输出等处理的单元。
[0090]本实施方式的字符识别装置的特征也可以为,在舍弃判定部中,基于舍弃能力的强度和舍弃值计算成本而得到的舍弃效率越高的舍弃值计算部,越在先配置,在基于在先的舍弃值计算单元所计算出的舍弃值而判定为舍弃的情况下,省略在后的舍弃值计算处理,由此判定是否舍弃上述识别结果。[0091]本实施方式的字符识别装置的特征也可以为,在上述的舍弃判定部中,基于并行配置的多个舍弃值计算单元的各个舍弃值来生成新的舍弃值,并基于该舍弃值来进行舍弃判定。
[0092]本实施方式的字符识别装置的特征也可以为,在上述舍弃判定部中,具有判定多个舍弃值的独立性的单元,将独立性较高的舍弃值计算单元串行处理。
[0093]本实施方式的字符识别装置的特征也可以为,在上述舍弃判定部中,具有判定多个舍弃值的独立性的单元,将独立性较低的舍弃值计算单元并行处理。
[0094]本实施方式的字符识别装置的特征也可以为,在上述舍弃判定部中,具有判定多个舍弃值的独立性的单元,作为判定上述独立性的单元,而通过基于识别误差的函数来学习如下函数,该函数是基于所述舍弃值而对舍弃图像数据库和正读图像数据库进行识别的函数,比较基于所述函数的识别误差、与将舍弃值串行构成的情况下的识别误差,在两者误差之差为预先决定的阈值以上的情况,判定为独立性较低,在除了该情况以外的情况下,判定为独立性较高。
[0095]2.实施方式
[0096]实施例1
[0097]参照图表说明具有舍弃方法的字符识别装置的实施例。本实施例的字符识别装置是通过检测识别输入文件图像中的字符并将字符代码化来将输入文件电子化的装置。输入文件除了通常文件以外,还具有帐票、明细等。
[0098]图2是表示本实施例的字符识别装置的一例的构成图。
[0099]本实施例的字符识别装置201例如进行印章识别及帐票识别,具有输入装置202、显示装置203、图像获取装置204、通信装置205、运算装置(CPU) 206、和外部存储装置207。外部存储装置207包括正读图像数据库211及舍弃图像数据库212。
[0100]输入装置202是用于输入指令等的键盘和鼠标等。输入装置202是输入用于对运算装置(CPU) 206所执行的程序进行控制和除此以外对连接设备进行控制而执行的指令等的装置。
[0101]显示装置203是适当显示处理内容的显示器等的装置。
[0102]图像获取装置204是扫描仪等的图像获取用的装置。获取的图像可以存储在外部存储装置等中。
[0103]通信装置205用于进行来自PC、服务器等外部设备的数据的交换。通信装置205用于从外部设备获取基于用户的执行指令、从外部设备获取图像和文本等信息的等等目的。另外,通信装置205还用于向外部设备发送通过印章识别及帐票识别装置201的处理内容等的目的。
[0104]运算装置(CPU) 206是执行如下处理的运算装置:生成用于文件图像中的字符识别的识别用辞典等。
[0105]外部存储装置207是HDD、存储器等外部存储装置。在外部存储装置207中保存有帐票图像、印章图像、印章识别用辞典等各种数据。另外,外部存储装置也用于临时存储在由运算装置(CPU) 206执行的处理过程中生成的数据等。
[0106]也可以不具有输入装置202、显示装置203、图像获取装置204、和通信装置205。在没有输入装置202的情况下,处理的开始利用通信装置205从外部设备进行指示,或者通过时间指定等而自动进行。在没有显示装置203的情况下,处理结果使用通信装置205发送到外部设备,或者存储在外部存储装置207中。
[0107]执行处理的模块的输出和输入也可以经由外部存储装置207来进行。也就是说,也可以为,处理部I向处理部2输出处理结果,处理部2将该处理结果作为输入接收,在该情况下,实际上处理部I事先将处理结果输出并存储到外部存储装置207,在处理部2中,将存储在外部存储装置207中的处理部I的输出结果作为输入而获取。
[0108]接下来,说明由本实施例的字符识别装置201实施的处理。
[0109]下面,首先使用图5说明本发明的相关技术的字符识别装置的处理。此外,然后使用图1说明本实施例的处理。
[0110]首先说明本发明的相关技术的字符识别装置的处理。
[0111]图5表示基于字符识别装置的文件电子化的流程的典型示例。
[0112]在文件的图像化(扫描)101中,字符识别装置201的CPU206通过扫描仪等读取文件并将其图像化。此时,在背景印刷为彩色印字的情况下等,还具有CPU206进行将特定色的印字光学除去的脱色(color dropout)等处理的情况。输入文件是一般文件、帐票类、以及原本就在通过字符识别装置进行处理的目的下生成的标记纸等。
[0113]在前处理102中,CPU206进行文件图像的彩色图像的二值化(黑白化)、噪声去除、背景印刷等不必要部分的去除等的处理。前处理后的二值图像例如如图6的帐票图像601所示。
[0114]在布局分析103中,CPU206进行二值图像的布局分析,识别图表的位置、段落构造、项目和数据的位置等。关于项目和数据的位置,例如在图6的附图标记602的情况下,CPU206根据表构造的关系而分析出位于附图标记602的栏之上的支付金额为项目名称,其下的记载有7,890,123的框为数据框等。在论文和技术报告书的情况下等,还具有根据文件的构造和位置关系进行对写有标题、作者、主要内容、页码等的位置进行识别等的元数据提取的情况。
[0115]在字符串提取104中,CPU206从文件图像中提取字符串单位的图像。CPU206对字符串单位的图像进行提取,该字符串单位的图像在一般文件的情况下为一行量的图像、在表格的情况下为框内的图像等。例如,如图6的附图标记602那样,提取表格的框内的图像。
[0116]通过字符切取105、字符识别503、识别结果选定114这一系列的处理,来识别提取出的各字符串图像中的字符。关于此处的处理,如图6的附图标记603那样,将字符串图像分割成字符单位,识别各个字符图像中的字符,由此最终如附图标记604那样转换为字符代码等计算机能处理的代码。
[0117]举例来说明从上述字符串提取104起以后的、从字符切取105到识别结果选定114为止的处理。
[0118]图10是用于说明字符切取处理的图。
[0119]首先,说明字符切取105。例如假设通过字符串提取而得到图10的图像1001那样的字符串图像。首先,在字符切取105的处理中,CPU206基于字符线彼此交叉的点、字符线中断的点等,生成截断候选点。图10的图像1002表示基于截断候选点所进行的分割。在该例中,分割成四个图像。该各分割图像与相邻的多个图像的合成成为字符图像候选。在图10的图像1003的例子中,从左开始的第一个和第二个图像、从左开始的第二个和第三个图像也分别作为字符图像候选,从而得到六个字符图像候选。从左端的点从左向右而到达右端的点的各路径成为字符串1001的切取候选。
[0120]图7是用于说明字符识别的结果的图。
[0121]接下来,在字符识别503中,CPU206对成为候选的各个字符图像中的字符进行识另|J。在此,例如图7那样得到针对各字符图像的正确候选字符(第一位候选字符种类)、和相对于该正确候选字符的相似度(似然度、可靠度)。
[0122]接下来,CPU206基于在字符识别503得到的正确候补字符和相似度,如图11的附图标记1101那样生成成为识别结果的候选的网状物。附图标记1102是去除了图像的网状物。从左端的点从左向右而到达右端的点的各路径成为识别结果候选。另外,在此,CPU206在判定为字符图像的识别结果的可靠性较低的情况下,进行舍弃处理。对识别结果设置舍弃标志等,向在后的处理或者用户通知识别结果的可靠性较低的情况。
[0123]说明该字符识别503的内部处理。在此,CPU206识别在各个字符图像中描绘的字符。另外,还进行识别结果的舍弃处理。
[0124]首先,说明字符识别106。在此,首先,CPU206进行将字符图像转换为矢量值的特征提取处理。若将矢量值的维数设为N,则一个字符图像通过特征提取处理而表现为N维矢量。通过将字符图像表现为矢量值,能够统计性地处理字符图像的分布。
[0125]图14是用于表示特征提取的处理的示例的图。
[0126]使用图14说明特征提取。首先,CPU206进行字符图像的正规化。通常,输入字符图像的大小不同。由此,通过正规化来使字符图像的大小一致,由此,能够通过在后的处理统一处理。另外,输入字符图像还具有因笔记工具、笔记人员、字体等的差异,而导致即使是相同字符种类的字符但其字形差异较大的情况。该情况成为识别精度降低的原因。因此,在正规化处理中,通过输入字符图像的大小的变形和字形的变形,来进行大小的统一,并降低相同字符种类之间的字形的偏差。在图14的图像1401为输入字符图像的示例中,图像1402是变形为64X64大小的图像。关于正规化处理具有多种方法,例如在非专利文献I中有详细记载。
[0127]接下来,进行将通过正规化而生成的正规化图像转换为矢量值的特征提取。在特征提取中也具有多种方法,例如,在非专利文献I中有详细记载。在此使用最简单的像素特征提取的示例来进行说明。在像素特征提取中,将正规化图像分割为小区域。在图14的示例中,将正规化图像1402分割为64个小区域。分割的情况在图像1403示出。接下来,转换为以各小区域的黑像素的个数为要素的矢量值。由于小区域有64个,所以如图像1404那样生成了 64维的矢量值。
[0128]作为广泛使用的特征提取方法的另一个示例,对梯度特征提取方法进行说明。
[0129]图19以及图20是关于梯度特征提取方法的说明书图(I)以及(2)。
[0130]在此,假设在通过正规化而生成的正规化图像中标注了一个像素量的白缘。另外,使像素点(i,j)的正规化图像的像素值为f (i,j)。此时,CPU206在正规化图像的各像素点(i,j)中,如下所示地计算梯度矢量g = (gx,gy)。这相当于实施了图19所示的滤波。
[0131]gx (i, j) = {f (i + l,j + l) + 2f (i,j + l) + f (i — I, j + I) — f (i +1,j -1) - 2f (i,j -1) - f (1-1, j - 1))/8[0132]gy (i, j) ={f (i + I, j + I) + 2f (i + I, j) + f (i + I, j -1) - f (i —1,j + I) — 2f (i — 1,j) - f (1-1, j - 1))/8
[0133]其中,在上述算式中,在像素点(i,j)位于图像边缘的情况下,具有其周围的像素点处于图像区域外的情况。此时,将图像外区域中的f的值考虑为0,计算上述算式。由此,在各像素点(i,j)中,能够得到像素值的梯度矢量g = (gx,gy)。
[0134]接下来,CPU206将矢量g (i,j)分解为图20的附图标记2001所示的45度间隔的八个方向g0 (i,j)、gl (i,j)、…、g7 (i, j)ο分解是分解到与g (i,j)的方向接近的两个方向上。但是,在g (i,j)的方向在与八个方向的任意一个完全一致的情况下,没有分解的必要,假设在与方向O—致的情况下,取为g0 (i, j)=矢量g (i, j)的长度,关于其他的方向,gl (i,j)=…=g7 (i, j) = Oo通过图20的附图标记2002的图来说明分解的方法。CPU206在g (i,j)如附图标记2002所示那样存在于方向O与方向I之间的情况下,将矢量g (i,j)分解为方向O和方向I的成分。此时,将方向O的成分的长度设为p0,将方向I的成分的长度设为pl,则成为g0 (i,j) = p0、gl (i,j) = pl、p2 (丨,」)=…=p7 (i,j) = O。
[0135]如以上所示,生成了八个方向图像g0 (i,j)、…、g7 (i,j)。为了提高对字符的变形的强健性,还具有对该图像实施基于高斯滤波(Gauss filter)的模糊的情况。在该情况下,将实施了模糊的方向图像重新设为g0 (i,j)、…、g7 (i,j)。接下来,CPU206将各方向图像gi (x、y)分割为小区域,生成以各小区域的像素值的合计值为要素的矢量。现在,当将各方向图像分割为64个小区域时,能够从各方向图像得到64个值。由于这些值是针对各方向得到的,所以在八个方向合计得到64X8 = 512个值。将这些值作为矢量的成分而生成512维的矢量。
[0136]以上是梯度 特征提取方法的说明。
[0137]CPU206如以上所述地将字符图像转换为矢量值。以下,将通过特征提取而生成的矢量值的维数设为N。由此,一个个的字符图像表现为N维空间上的点,相同字符种类分布在较近的区域。在接下来的图9中示意地示出该情况。
[0138]图9是用于说明字符识别用的方式的图。圆形、三角形、四边形分别表示从与字符种类A、字符种类B、字符种类C对应的各字符图像中提取的N维矢量点。例如,一个个的O表示从与字符种类A不同的图像提取出的矢量。
[0139]接下来,CPU206参照预先生成的字符识别用辞典,基于从字符图像提取出的矢量值,来识别在字符图像中描绘的字符。
[0140]在此,首先,说明字符识别辞典。在字符识别用辞典中,例如对于各识别对象字符种类k而保存有将N维矢量取为自变量并将实数值取为值的识别函数fk U)。识别函数fk (x)是以相对于根据描绘有字符种类k的字符图像所生成的N维矢量X而取较大值、相对于从描绘有其他字符种类的字符图像所生成的N维矢量X而取较小值的方式,预先通过学习而生成的。识别函数fk (X)的值称为相对于矢量X的字符种类k的相似度、似然度(likelihood)等。例如,在将数字作为对象进行识别的情况下,与O~9这十个数字种类对应地存在有10个识别函数f0 (x)、fl (X)、...、f9 (x)。
[0141]CPU206例如能够使用由字符图像和字符标签构成的学习用字符图像数据库来生成该识别函数。[0142]图15是用于表示学习用字符图像数据库的示例的图。如图所示,字符标签是表示在字符图像中描绘的字符的被代码化的正确标签。学习用字符图像数据库例如能够通过让人在指定的框内写入指定的字符等来收集字符图像而生成。CPU206通过与上述同样的方法而将包含在学习用字符图像数据库中的各图像转换为N维矢量。在此,CPU206基于这些N维矢量和正确标签,以相对于与字符种类k对应的N维矢量而取较大值、相对于与其他字符种类对应的N维矢量而取较小值的方式,通过学习而生成识别函数fk (x)0在识别函数的学习方法中,例如能够使用SVM(Support Vector Machine ;支持向量机)、神经网络(neuralnetwork)、高斯模型(gauss model)、LVQ (Learning Vector Quantization ;学习矢量化)等各种方法。
[0143]在字符的识别中,CPU206使用从字符图像提取的N维矢量x来计算各字符种类的识别函数fk (X)的值。识别函数fk (X)的值是相对于字符种类k的相似度,由此,fk (x)的值最大的字符种类k成为识别结果的第一候选。同样地,值第二大的识别函数对应的字符种类k成为识别结果的第二候选。这样,能够得到直到第η候选的识别结果。例如,通过图6的字符切取603所切取的字符图像的识别如图7所示。通过以上内容,如图6的附图标记604那样得到识别结果,并转换为计算机能处理的字符代码等的代码。
[0144]以上是字符识别106的说明。
[0145]上述所说明的字符识别是计算字符图像和各识别对象字符种类的相似度,并基于此而得到候选字符的处理。对于提高OCR装置的有用性,该字符识别的精度是重要的。但是,在识别结果可疑的情况下,通知该情况的识别结果的舍弃处理也是重要的。
[0146]图12是用于表示非字符和不明确字符的示例的图。在成为舍弃对象的字符中,具有例如图12的附图标记1201所不的非字符、和附图标记1202所不的不明确字符。非字符例如是基于字符切取错误而导致的字符的一部分和/或多个字符合在一起的图像、混入了污溃等的干扰因素的图像等。不明确字符例如是附图标记1202的左端图像那样无法区别7和9的情况等。
[0147]若舍弃处理是细致的,则具有几个优点。一个优点是,如果将错误地识别了字符的结果直接保存的话,则不是该错误的状态被保持,就是为了修正该错误而必须通过人工对所有识别结果进行再核查。与之相对,在识别结果可疑的情况下,只要能够将该情况通知给用户,用户就可以仅修正该部分。另外,若能够高精度地进行舍弃,则判定为作为舍弃的因素是可能在前处理、字符行提取、字符切取等在前的处理中发生了失误,从而能够从在前的任一个处理开始改变处理方法和/或处理条件等,再次尝试进行处理。由此,能够提高识别精度。
[0148]以下,将正确地识别字符图像中的字符的比率称为正读率,将错误地识别的比率称为误读率,将舍弃识别结果的比率称为舍弃率。通常,若舍弃过多,则不仅将误读的内容舍弃,还会将正确读取的一些内容舍弃,由此,正读率、误读率均下降。由此,希望以尽量不降低正读率且使误读率减少的方式进行舍弃。
[0149]以下,说明舍弃判定部的处理即非字符舍弃501、不明确字符舍弃502。
[0150]说明非字符舍弃501。将从输入字符图像提取的N维矢量设为X。另外,将与第一候选字符kl对应的识别函数设为fkl。此时,fkl (X)是相对于字符种类kl的相似度。若表示为rl (x) = - fkl (x),则rl (x)能够视为相对于字符种类kl的非相似度。由此,CPU206预先确定阈值hl,在rl (x) > hi时,作为非相似度较高(相似度较低)而进行舍弃的判定。可以设想在输入图像为非字符时相对于第一候选字符的相似度也会较低,因此该方法考虑到了舍弃非字符的情况。
[0151]接下来,说明不明确字符舍弃502。将与第二候选字符k2对应的识别函数设为fk2。此时,fk2 (X)是相对于字符种类k2的相似度。另外,fkl (X)≥fk2 (X)。若r2(X) = fk2 (X) — fkl (X),则该r2 (x)的值越大,则fkl (x)与fk2 (x)的值越接近。此时,表示在第一候选字符与第二候选字符之间识别是不明确的。由此,CPU206预先确定阈值h2,在r2 (x)> h2时,作为识别结果不明确而进行舍弃。该处理在非字符舍弃501中已作出舍弃判定的情况下可以略过。
[0152]以上,说明了通过字符识别503的处理。该处理对各字符图像进行。
[0153]在识别结果选定114中,CPU206 —边参照单词辞典等来综合判断相对于各字符的相似度(可靠度),一边从识别结果候选中选定最终的识别结果。例如在进行住所识别的情况下,单词辞典能够采用预先保存有住所清单的辞典等。在一般文件的识别的情况下,采用单词等。
[0154]以上,是从字符切取105到识别结果选定114为止的处理。该处理对各字符串图像进行。
[0155]接下来,在重试判定115中,CPU206判断是否改变处理来进行识别的再处理。再处理例如具有将文件图像整体作为对象的情况,还具有字符串图像单位、字符图像单位的情况。例如,在字符串识别结果中存在相似度(似然度、可靠度)较低的字符的情况下、无法得到与单词辞典相符的结果的情况下、存在无法读取的字符的情况下等,CPU206进行再处理。进行再处理的情况 下,CPU206从之前的任意一个处理起进行处理方式的改变、处理条件的改变等,来尝试再次识别。例如,将前处理102的二值化或噪声去除的方式改变等。最后,在识别后处理116中,CPU206进行将识别结果保存在存储装置等中、或显示在显示器上等的处理。
[0156]以上是本发明的相关技术的字符识别装置的处理流程。
[0157]图13是表示成为舍弃对象的图像的示例的图。在舍弃指标中,除上述rl、r2以外,还具有CPU206计算图13的附图标记1301那样的字符的断线程度r3 (x)、和附图标记1302那样的字符的团块程度r4 (X),并基于这些进行舍弃判定的方法。预先确定阈值h3,在r3 (X) > h3时断线程度较大,所以进行舍弃。另外,预先确定阈值h4,在r4 (x) > h4时团块程度较大,所以进行舍弃。此外,还能够使用字符图像的重心位置、字符线的线宽的平均值等。例如,在重心位置的情况下,字符识别结果为8,但重心位置大幅偏离中心,在该情况下,进行舍弃等的判定。
[0158]在此,列举了断线程度r3 (X)、团块程度r4 (x)的示例。但是,在上述中x作为通过特征提取而提取出的矢量,而在此X为正规化图像。对各字符种类的每一种,从学习DB预先计算正规化图像的平均合计像素值m。相对于输入图像,r3 (X)设为从m减去输入图像的正规化图像的合计像素值而得到的值,r4 (x)设为从输入图像的正规化图像的合计像素值减去m而得到的值。由此,在输入图像的正规化图像的合计像素值比m小的情况下r3大,在相反地大的情况下r4小。
[0159]但是,以往使这些指标组合的方法并不明确。在现有技术中,采用了将通过任意一个基准而舍弃了的内容进行舍弃等的简单方法,或者采用了一边通过人工来进行试验调整一边使多个指标组合等的方法。
[0160]在前者的简单方法中,需要计算全部的舍弃指标,由此,花费计算成本。在此基础上,由于基于任意一个舍弃指标在超过阈值的情况下就进行舍弃,所以能够想到通常舍弃过于严重而导致正读率下降的情况,从实现高正读率和低误读率这一舍弃目的来考虑,并不一定合适。另外,关于后者的通过人工的试验调整,若该指标数增多,则会是相当耗费成本的方法,且能够想到存在难以实现的情况。
[0161]3.字符识别
[0162]在本实施例中,能够自动地构成使多个舍弃指标有效组合的舍弃方式。由此,能够削减用于使多个舍弃指标组合的人工成本。另外,能够在将正读率维持在高水准的状态下削减误读率,能够构成细致且快速的舍弃方式。
[0163]使用【专利附图】
附图
【附图说明】本实施例的字符识别装置的处理。
[0164]图17是说明本发明实施例的字符识别装置的处理流程图的示例。
[0165]文件的图像化101、前处理102、布局分析103、字符串提取104、字符切取105、字符识别106、识别结果选定114、重试判定115、识别后处理116如图5以及其说明内容所记载那样,与本发明的相关技术字符识别装置的处理相同的。
[0166]以下,说明字符识别1707的内部的舍弃判定部的从处理1701到处理1706为止的处理。在舍弃处理中,CPU206使用字符识别106的结果和舍弃值来进行舍弃判断。CPU206在判定为舍弃的情况下,对该字符识别结果设置舍弃标志等,对在后的处理和/或用户进行通知,使其能够利用该结果。
[0167]在本实施例的舍弃组合的构成中,预先准备有集合了希望舍弃的图像样本的舍弃图像数据库、和集合了希望正确读取的图像样本的正读图像数据库。舍弃图像数据库是集合了由字符识别106误读的样本、非字符图像、不明确字符图像、断线图像、团块图像等希望舍弃的图像样本的数据库。正读图像数据库是集合了能够通过字符识别106的处理来正确地进行字符识别的样本等希望正确读取的字符图像样本的数据库。以下,将正读图像数据库的样本中被进行了舍弃判定的样本的比例称为误舍弃率,将舍弃图像数据库的样本中没有被判定为舍弃的样本的比例称为误受理率。误舍弃率和误受理率均是越小则舍弃判定的精度越高。
[0168]以下,具有η个舍弃值计算部,对舍弃值以舍弃值1、舍弃值2、…、舍弃值η的方式标注编号。另外,将以图像X为输入、输出舍弃值的函数(舍弃函数)写为rl (X)、r2
(X)、…、rn (X)等。
[0169]简单说明舍弃值的性质。舍弃函数ri (X)以具有如下性质的方式构成:相对于希望舍弃的样本而取较高值,相对于不希望舍弃的样本而取较低值。例如,如已说明那样,具有断线度、团块度、使用识别函数的值而计算的非字符度、不明确度等。以预先设置阈值hl,在ri (x?hl时进行舍弃的方式等使用。此时,若hi过大,则无法充分地舍弃,误读率变高。另一方面,若hi 过低,则误读率变小,但正读率也变小。由此,根据用户的要求,以尽量不降低正读率且使误读率减小的方式调整hi。
[0170]图16中,相对于两个舍弃值,在任意一个舍弃值超过阈值时判断为舍弃的情况下,通过斜线来表示判断为舍弃的值的区域。在舍弃值I超过阈值I的情况、或者舍弃值2超过阈值2的情况下被舍弃,因此,舍弃区域如图16的斜线部所示。
[0171]在本实施例中,将这些η个舍弃值按舍弃强度从强到弱的顺序配置。舍弃强度强意味着基于该舍弃值的舍弃判定的舍弃率较高的情况。列举几个舍弃强度的确定方式的例。
[0172]列举第一例。首先,指定误舍弃率与误受理率之和e。针对各舍弃函数ri,以使在通过ri (x)> hi来进行舍弃判定的情况下的误舍弃率和误受理率之和e最小的方式设定hi。此时,按照在基于ri (x)> hi时舍弃的方式进行舍弃判定的情况下的学习用字符图像数据库的样本的舍弃率从高到低的顺序来选定舍弃值。
[0173]列举第二例。针对各舍弃函数ri,预先通过用户指定阈值hi。此时,按照在基于ri (x) > hi时舍弃的方式进行舍弃判定的情况下的学习用字符图像数据库的舍弃率高的顺序来选定舍弃值。
[0174]现在,存在有三个舍弃值,按照rl、r2、r3的顺序,舍弃率高,即舍弃强度高。此时,以从图17的处理1701开始到处理1706所示的顺序进行处理。S卩,在舍弃值I计算1701中,计算相对于输入图像X的舍弃值rl (X),在舍弃判定I (1702)中,若rl (x)> hi则判定为舍弃,只要不是rl (x)>hl就不舍弃。在判定为舍弃的情况下,跳过在后的舍弃处理的从处理1703到处理1706为止的处理。在没有判定为舍弃的情况下,移至接下来的处理1703。以下,同样地,继续舍弃判定2的处理、或者舍弃判定2和舍弃判定3的处理。在示例中,说明了舍弃值为三个的情况,但是,在具有两个以上的任意个数的舍弃值的情况下也是同样的。
[0175]在本实施例中,能够在判定为舍弃的时间点结束处理。而且,由于按照舍弃率高的顺序事先配置,所以在计算成本方面,是高效的。
[0176]实施例2
[0177]图2是表示本实施例的字符识别装置的一例的构成图,与实施例1相同。在图17中表示本实施例的字符识别装置的处理流程。文件的图像化101、前处理102、布局分析103、字符串提取104、字符切取105、字符识别106、识别结果选定114、重试判定115、识别后处理116的字符识别装置的处理也与实施例1相同。另外,字符识别106也与实施例1相同。
[0178]在本实施例中,舍弃判定部的各1701?1706的处理流程不同。
[0179]在实施例1中,按舍弃强度强的顺序配置舍弃值计算处理和舍弃判定处理。在对于舍弃值计算的计算成本几乎没有差异的情况下,通过该方法是足够的,但是不在这种情况下,存在效率低的情况。例如,若使舍弃率较高且舍弃值计算的计算成本也较高的舍弃值计算处理配置较前,则始终对计算成本较高的舍弃值进行计算。在此,计算成本例如作为平均处理时间等而求出,该平均处理时间是在对学习用字符图像数据库所包含的图像进行处理的情况下的舍弃函数的计算所花费的平均处理时间。
[0180]由此,在本实施例中,也考虑各舍弃值计算的计算成本(处理时间)来决定处理的顺序。即,也可以构成为,以基于舍弃值的舍弃率和计算成本(处理时间)而制定的舍弃效率为基准,舍弃效率越高越在先配置。舍弃效率例如能够通过舍弃率X计算成本(平均处理时间)而算出。
[0181]图21是舍弃函数的说明图。[0182]若通过表格来表不本实施例的舍弃的构成,贝U成为如图21的表2101所不那样。表的各行(横向)表示并行的排列,表示待合成的舍弃函数和其合成函数,列方向(纵向)表示串行的排列。在本实施例的情况下,由于任意一个舍弃函数均串行地连接,所以各列是一个舍弃函数。舍弃值I计算1701、舍弃值2计算1703、舍弃值3计算1705分别计算Π (rl(x))、f2 (r2 (x))、f3 (r3 (x))而设为舍弃值,但如本实施例那样,在沿并行方向只有一个舍弃函数的情况下,fl、f2、f3是恒等函数,例如可以为fl (rl (x)> = rl (x)。
[0183]实施例3
[0184]图2是表示本实施例的字符识别装置的一例的构成图,与实施例1相同。在图18中表示本实施例的字符识别装置的处理流程。文件的图像化101、前处理102、布局分析103、字符串提取104、字符切取105、字符识别106、识别结果选定114、重试判定115、识别后处理116的字符识别装置的处理也与实施例1相同。另外,字符识别106也与实施例1相同。
[0185]在本实施例中,字符识别1805中的进行舍弃判定的处理1801?1804不同。在本实施例中,如处理1801?1803所示,平行地计算多个舍弃值,并基于这些值在处理1804中进行舍弃判定处理。
[0186]首先,说明这样地将舍弃值计算并行地连接的理由。
[0187]图16中,相对于两个舍弃值,在任意一个舍弃值超过阈值时判断为舍弃的情况下,通过斜线来表示判定为舍弃的值的区域。在舍弃值I超过阈值I的情况下、或者舍弃值2超过阈值2的情况下进行舍弃,因此,舍弃区域如图16的斜线部所示。这相当于如实施例1和实施例2那样按顺序进行舍弃值计算和舍弃判定,将处理串行连接的情况。
[0188]图4示意地表示两个舍弃值的值、希望舍弃的样本、希望正确读取的样本的分布。三角形表示舍弃图像数据库的样本,圆形表示正读图像数据库的样本。在这种分布的情况下,正读图像数据库的样本的分布和舍弃图像数据库的样本的分布之间的边界成为图4的边界线那样,应该舍弃的样本位于与该边界线相比的右上侧。另一方面,在串行地进行舍弃的情况下,成为图16所示的舍弃区域,在该例中,多个应该舍弃的样本无法被舍弃。若缩小阈值I和阈值2的值以使这些应该舍弃的样本能够舍弃的话,这会导致希望正确读取的圆形的样本被大量舍弃。
[0189]因为具有这种情况,所以在本实施例中,基于舍弃值I和舍弃值2双方的值来进行舍弃判定。S卩,在将舍弃值I的值设为XI,将舍弃值2的值设为X2时,通过将它们取为自变量的函数f (xl,x2)来决定新的舍弃值,并在f (xl,x2)的值处于固定的阈值以上的情况下舍弃。作为f (xl,x2)例如能够使用f (xl, x2) = xl + x2。再列举一个函数f (xl,x2)的决定方式。
[0190]函数f (xl,x2)定义为作为参数而具有all、a22、al2、al、a2、aO的关于xl, x2的二次函数 f (xl,x2) = allxlxl + a22x2x2 + al2xlx2 + alxl + a2x2 + aO。以相对于正读图像数据库的样本而取负值、相对于舍弃图像数据库的样本而取正值的方式设定该参数all、a22、al2、al、a2、aO。但是,可以预想到设定相对于全部样本均满足该条件那样的参数通常是不可能的,因此,定义将参数取为自变量、表示不满足条件的程度的成本函数(损失函数)(或者,基于正读图像数据库的样本和舍弃图像数据库的样本的识别误差的成本函数)c (f),通过机器学习来进行学习以使该值变小。例如,作为向相对于舍弃图像数据库的样本使f取1、相对于正读图像数据库的样本使f取-1的方向进行的学习,将C Cf)设为从这些值的相对于全部样本的误差的平方之和。C (f)例如使从舍弃图像数据库的样本所计算出的f的值与I的误差的平方之和为Vl =Σ I f — I I ~2,使从正读图像数据库的样本所计算出的f的值与-1的误差的平方之和为ν2 =Σ I f + I I ~2,成为c(f)=vl + v2 (误差的平方之和)等。例如,能够使用神经网络和/或SVM等。这样所生成的f的成为f = O的等高线如图4的边界线那样成为正读图像数据库的分布与舍弃图像数据库的样本的边界线。此外,在此,以二次函数为例说明了 f,但也能够使用更通常的函数,例如更高次的函数、以及神经网络、径向基函数的线性结合等。
[0191]以上,为了使说明变得简单,说明了具有两个舍弃值的情况,但是三个以上舍弃值的情况也是相同的。在图18中表示存在三个舍弃值的情况下的处理流程。在处理1801、处理1802、处理1803中,分别计算舍弃值1、舍弃值2、和舍弃值3。将各个舍弃值设为xl、x2、x3。在舍弃判定3 (1804)中,基于如上述说明那样生成的新的舍弃值f (xl, x2, x3),在f (xl, x2, x3)比预先决定的阈值大的情况下舍弃,在其他情况下不舍弃。
[0192]本实施例的方法能够进行比串行连接更高精度的舍弃。但是,不得不计算出全部的舍弃值,在此基础上,还需要基于这些舍弃值来计算f的值。由此,可以预想到舍弃所消耗的计算成本变大的情况。
[0193]若用表格来表不本实施例的舍弃的构成,贝1J如图21的表2102所不。表的各行(横向)表示并行的排列,表示待合成的舍弃函数和其合成函数,列方向(纵向)表示串行的排列。在本实施例的情况下,由于任意一个舍弃函数均并行地连接,所以是一行。合成函数为f,通过舍弃判定1804所计算出的值成为f (rl (x),r2 (x), r3 (x))。f例如是通过上述说明的方法而生成的函数。
[0194]实施例4
[0195]图2是表示本实施·例的字符识别装置的一例的构成图,与实施例1相同。在图1中表示本实施例的字符识别装置的处理流程。文件的图像化101、前处理102、布局分析103、字符串提取104、字符切取105、字符识别106、识别结果选定114、重试判定115、识别后处理116的文字识别装置的处理也与实施例1相同。另外,字符识别106也与实施例1相同。
[0196]在本实施例中,字符识别117中的进行舍弃判定的处理的组合(相当于107~113部分)不同。
[0197]在本实施例的舍弃组合的构成中,预先准备有集合了希望舍弃的图像样本的舍弃图像数据库、和集合了希望正确读取的图像样本的正读图像数据库。舍弃图像数据库是集合了由字符识别106误读的样本、非字符图像、不明确字符图像、断线图像、团块图像等希望舍弃的图像样本的数据库。正读图像数据库是集合了能够通过字符识别106的处理来正确地进行字符识别的样本等、希望正确读取的字符图像样本的数据库。以下,将正读图像数据库的样本中被判定为舍弃的样本的比例称为误舍弃率,将舍弃图像数据库的样本中没有被判定为舍弃的样本的比例称为误受理率。误舍弃率和误受理率均是越小则舍弃判定的精度越高。
[0198]以下,作为具有η个舍弃值计算部,对舍弃值以舍弃值1、舍弃值2、…、舍弃值η的方式标注编号。另外,将以图像X为输入、输出舍弃值的函数写为rl (X)、r2 U)、…、rn (X)等。[0199]在本实施例中,一边考虑舍弃值彼此的独立性高、独立性低(相关性高)、舍弃效率一边组合这些η个舍弃值。本实施例的舍弃值计算器的组合方针为,将舍弃值计算器串行或者并行地连接。其组合方式为,使独立性较高的舍弃值计算其彼此串行组合,使独立性较低(相关性较高)的舍弃值计算器彼此并行组合,且越是舍弃强度强的舍弃值计算器越在先配置。另外,在并行组合的情况下,基于所组合的多个舍弃值,决定新的舍弃值,并基于该新的舍弃值来进行舍弃判定。而且,舍弃效率越高的处理越在先配置。
[0200]图16中,相对于两个舍弃值,在任意一个舍弃值超过阈值时判断为舍弃的情况下,通过斜线来表示判断为舍弃的值的区域。在舍弃值I超过阈值I的情况下、或者舍弃值2超过阈值2的情况下进行舍弃,因此,舍弃区域如图16的斜线部所示。
[0201]首先,使用图3来说明舍弃值彼此的独立性。图3示意地表示两个舍弃值的值、希望舍弃的样本、希望正确读取的样本的分布。三角形表示舍弃图像数据库的样本,圆形表示正读图像数据库的样本。在这种分布下,正读图像数据库的样本的分布和舍弃图像数据库的样本的分布之间的边界线如图3所示,成为向右上方大幅鼓出的凸状。在这种情况下,称为两个舍弃值的独立性较高。这种状况能够在以两个舍弃值的独立性较高的现象为基础来计算舍弃值的情况下发生。例如是舍弃值I计算字符的断线度、舍弃值2计算字符重心位置从标准重心位置偏离的大小的情况等。
[0202]在本实施例中,在舍弃值的独立性较高的情况下,舍弃值I计算和舍弃值2计算串行地处理。即,首先,计算舍弃值1,在此基础上,在值比阈值I高的情况下进行舍弃的判定。若判定为舍弃,则舍弃处理结束。在没有判定为舍弃的情况下,计算舍弃值2,在此基础上,在值比阈值2高的情况下,判定为舍弃。若判定为舍弃,则舍弃处理结束。在没有判定为舍弃的情况下,移至接下来的舍弃处理。在如图3所示地决定阈值1、阈值2,在舍弃值I超过阈值I的情况下,或者舍弃值2超过阈值2的情况下,判定为舍弃,由此,能够高效地进行舍弃。这种舍弃值串行地处理即可。
[0203]接下来,使用图4说明舍弃值彼此的独立性较低(相关性较高)的情况。图4示意地表示两个舍弃值的值、希望舍弃的样本、希望正确读取的样本的分布。三角形表示舍弃图像数据库的样本,圆形表示正读图像数据库的样本。在这种分布中,关于正读图像数据库的样本的分布和舍弃图像数据库的样本的分布之间的边界线,在如图4那样凸出程度没有图3的情况大的情况下、接近于直线的情况下、或者相反地成为向左下方凸出的情况下,称为两个舍弃值的独立性较低。这种状况能够在以两个舍弃值的相关性较高的现象为基础来计算舍弃值的情况下发生。例如是舍弃值I基于已经说明的识别函数来计算非字符度、舍弃值2基于识别函数来计算不明确度的情况。在这种情况下,均基于识别函数来计算舍弃值,由此,相互具有关联性,成为图4那样的分布。
[0204]在本实施例中,在舍弃值的独立性较低的情况下,舍弃值I计算和舍弃值2计算并行地处理。即,在将舍弃值I设为xl,将舍弃值2设为χ2时,通过将这些值取为自变量的函数f (xl,x2)来重新决定舍弃值,在f (xl,x2)的值为固定的阈值以上的情况下进行舍弃。若判定为舍弃,则舍弃处理结束。在没有判定为舍弃的情况下,转至接下来的舍弃处理。函数f的决定方式与实施例3是相同的。在图4的分布的情况下,例如,若设为f (xl,x2) =xl + x2,则能够从左上向右下沿斜向决定阈值边界线,能够将正读图像数据库的样本和舍弃图像数据库的样本分离。在如图4所示的分布的情况下,若将舍弃值串行连接,则仅将舍弃值I比阈值I大、舍弃值2比阈值2大的区域舍弃,不能将与阈值I相比分布于左侧且与阈值2相比分布于下侧的三角形的样本舍弃。另外,若为了舍弃这些样本而降低阈值I和/或阈值2的值,则会将希望正确读取的圆形的样本大量舍弃。由此,这种舍弃值需要并行地连接。
[0205]如以上所述,在本实施例中,独立性较高的舍弃值彼此串行地处理,相关性较高的舍弃值彼此并行地处理。
[0206]在此,列举用于判断两个舍弃值是独立性较高还是独立性较低(相关性较高)的方法的示例。将两个舍弃值分别设为xl、x2。定义以该两个舍弃值为自变量的两个函数gl(xl, x2)> g2 (xl,x2)0
[0207]函数gl (xl,x2)与实施例3相同地为二次函数,基于成本函数c以相对于正读图像数据库的样本而取负值、相对于舍弃图像数据库的样本而取正值的方式,通过机器学习而设定。例如如图3、图4所示,gl成为如下的函数:gl = O的等高线成为边界线,与边界线相比位于左下的区域为负,位于右上的区域为正。
[0208]函数g2 (xl, x2)为如下的函数:作为参数而具有两个值h1、h2,在xl > hi或者x2 > h2的情况下,g2 (xl, x2) = 1,在其他情况下g2 (xl, x2) = -1。即,成为g2 (xl,x2) > 0的区域是舍弃区域。但是,因为设定相对于全部样本满足该条件的参数通常是不可能的,所以定义将参数取为自变量、表示没有满足条件的程度的成本函数c (hi, h2),以使该值变小的方式通过机器学习来进行学习。例如,将在舍弃图像数据库的样本中成为g2=-1的样本的个数取为vl,将在正读图像数据库的样本中成为g2 = I的样本的个数取为v2, c (hl,h2)成为c (hi, h2) = vl + v2 (不满足条件的样本的个数)等。例如,能够使用神经网络和/或SVM等。这样地生成的g2的g2 = I和g2 = -1的边界线与舍弃值I或者舍弃值2的轴平行,且成为将正读图像数据库的分布和舍弃图像数据库的样本分开的边界。在图3、图4的例子中,若阈值I为表示hi的虚线,阈值2为表示h2的虚线,则g2在与阈值I相比位于左侧且与阈值2相比位于下侧的区域中,成为g2= - 1,在与阈值I相比位于右侧,或者与阈值2相比位于上侧的区域中,成为g2 = I。
[0209]基于上述函数g2 (xl,x2)的g2 = I和g2 = -1的边界,相当于将舍弃处理串行连接的情况下的舍弃区域的边界。另一方面,基于函数gl (xl,x2)的gl = O的等高线,相当于通过实施例3的方法将舍弃处理并行连接的情况下的舍弃区域的边界。
[0210]在此,比较基于由函数gl所生成的舍弃区域的精度、和基于由函数g2所生成的舍弃区域的精度。将在舍弃图像数据库的样本中成为g2 = -1的样本的个数设为vl,将在正读图像数据库的样本中成为g2 = I的样本的个数设为v2,将在舍弃图像数据库的样本中成为gl < O的样本的个数设为wl,将在正读图像数据库的样本中成为gl >0的样本的个数设为w2。vl、wl相当于误受理的个数,v2、w2相当于误舍弃的个数。误受理的个数pl、误舍弃的个数P2的情况下的损失函数设为h(pl,p2)。h是pl、p2的单调增加函数。例如设为h (pl,p2) = pl +p2等。该情况是误受理数与误舍弃数之和。能够视为h值越小,舍弃的精度越好。
[0211]接下来,比较h (vl,v2)和h (wl,w2)。通常,基于函数gl进行的舍弃区域的精度较好,h (vl,v2)比h (wl,w2)大。在此,D = h (vl,v2) — h (wl, w2)表示串行连接的情况和并行连接的情况的损失之差。在该损失之差为一定以上、且较大的情况下,判定为基于g2的舍弃区域不充分,舍弃值I和舍弃值2的独立性较低。相反地,在D = h (vl,v2)-h(wl, w2)为固定值以上、但较小的情况下,判定为舍弃值I和舍弃值2的独立性较高。
[0212]以上,为了使说明变得简单,说明了两个舍弃值,但三个以上的情况也是同样的。
[0213]在本实施例中,独立性较高的处理并行配置,独立性较低的处理串行配置。对于并行配置的情况下的舍弃值与实施例3相同地,能够使用上述函数gl。另外,与实施例2相同地,舍弃效率越高的处理,越在先配置。
[0214]在具有η个舍弃值的情况下,举例说明舍弃值的构成方法。
[0215]图22表示舍弃值的构成处理的流程图。该处理可以通过字符识别装置201的CPU206、或者字符识别装置201以外的其他的处理装置来执行。首先,CPU206或者其他的处理装置从η个舍弃值中选定独立性最低(上述的D的值较大)的对(pair)。CPU206或者其他的处理装置在判定该独立性的值D比预先决定的值小的情况下,所选定的对的独立性较高,因此,将该η个舍弃值串行地配置。CPU206或者其他的处理装置在判定为所选定的对的独立性较低的情况下,将所选定的对并行连接,与实施例3的方法同样地决定基于这些舍弃值的新的舍弃值。若将该并行连接的舍弃值视为一个舍弃值,则存在η — I个舍弃值。同样地,CPU206或者其他的处理装置从η — I个舍弃值中选定独立性最低的对。在所选定的对被判定为独立性较高的情况下,CPU206或者其他的处理装置将该η -1个舍弃值串行配置。在判定为所选定的对的独立性较低的情况下,CPU206或者其他的处理装置将所选定的对并行连接,与实施例3的方法同样地决定基于这些舍弃值的新的舍弃值。此时,如果构成所选定的对的舍弃值(设为rl、r2)为由多个舍弃值的并行所构成的情况下,CPU206或者其他处理装置将该舍弃值分解为构成该舍弃值的原来的舍弃值,并将这些舍弃值并行连接,与实施例3的方法同样地决定基于这些舍弃值的新的舍弃值。例如,在rl原本通过将两个舍弃值S1、s2并行连接而构成的情况下,CPU206或者其他处理装置将rl分解为原来的舍弃值,将sl、s2、rl并行连接。如上所述,CPU206或者其他处理装置持续处理直到最终判定为独立性较低的对消失为止。
[0216]在图1中示出了如下构成:舍弃值I和舍弃值2并行连接,舍弃值3、舍弃值4、舍弃值5并行连接,前者的组与后者的组串行连接。
[0217]若通过表格来表不图1的情况下的舍弃的构成,贝1J成为图21的表2103那样。表的各行(横向)表示并行的排列,表示待合成的舍弃函数和其合成函数,列方向(纵向)表示串行的排列。在图1的情况下,首先舍弃值I和舍弃值2并行连接,舍弃值3、舍弃值4、舍弃值5并行连接,由此,在第一行中排列有舍弃函数I和舍弃函数2,在下一行中排列有舍弃函数1、舍弃函数2、舍弃函数3。合成函数fl、f2例如能够通过上述说明的生成gl的方法来生成。
[0218]实施例5
[0219]在上述实施例2、实施例3、实施例4中,也可以在能够使用并行运算装置的情况下,使并行排列的舍弃函数彼此并行地计算。另外,在串行排列的情况下,在能够计算下一个舍弃函数时也可以进行计算。在该情况下,在下一个舍弃函数的计算结果不需要的情况下,将该结果舍弃即可。
[0220]4.实施例的效果
[0221]根据本实施例,能够自动地构成使多个舍弃指标组合的舍弃方式。由此,能够削减用于使多个舍弃指标组合的人工成本。另外,根据本实施例,能够在将正读率维持于高水准的状态下,削减误读率,并能够构成精致且快速的舍弃方式。
[0222]另外,在本实施例中,关于多个舍弃指标,以舍弃指标彼此的独立性为基准,将独立性较高的舍弃指标彼此串行地构成,将独立性较低的舍弃指标彼此并行地构成,由此,能够以低人工成本提供高正读率、低误读率、且快速的舍弃方法。
[0223]5.附记
[0224]此外,本发明并不限定于上述的实施例,也包含各种变形例。例如,上述实施例为了易于理解地说明本发明而具体地进行了说明,但并不限定于必须具有所说明的全部构成。另外,能够将某一实施例的构成的一部分置换为其他的实施例的构成,还能够对某一实施例的构成追加其他实施例的构成。另外,能够对各实施例的构成的一部分进行其他构成的追加、删除、置换。
[0225]另外,上述的各构成、功能、处理部、处理单元等也可以为,通过将它们的一部分或者全部例如设计到集成电路中,从而通过硬件而实现。另外,上述各构成、功能等也可以为,处理器对实现各个功能的程序进行解释、执行,由此,通过软件而实现。实现各功能的程序、表格、文件等的信息能够存储在存储器、硬盘、SSD (Solid State Driver ;固态硬盘)等的存储装置、或者IC卡、SD卡、DVD等的存储介质中。
[0226]另外,控制线和信息线示出了认为在说明中必要的线,不一定示出了产品中全部的控制线和信息线。实际上,可以考虑为几乎全部的构成是相互连接的。
[0227]本发明的字符识别方法或者字符识别装置、系统能够通过用于使其各流程在计算机中执行的字符识别程序、记录了字符识别程序的计算机可读取的存储介质、包含字符识别程序且能够加载至计算机的内部存储器中的程序产品、包含该程序的服务器等的计算机等来提供。
【权利要求】
1.一种字符识别装置,其特征在于,具有: 多个舍弃值计算部,其基于预先设定的舍弃函数对从输入图像而识别的字符的识别结果计算舍弃值;和 一个或多个舍弃判定部,其基于由多个所述舍弃值计算部的某一个或某些个计算出的一个或多个舍弃值,分别判定是否将所述识别结果舍弃, 使用基于多个所述舍弃值计算部的相关性而组合的多个所述舍弃值计算部,所述舍弃判定部基于多个舍弃值来进行所述识别结果的舍弃判定,并将判定为舍弃的所述识别结果舍弃,由此,将没有判定为舍弃的所述识别结果保存在存储部中或显示在显示部中。
2.根据权利要求1所述的字符识别装置,其特征在于, 在基于在先的所述舍弃值计算部所计算出的舍弃值而判定为舍弃的情况下,跳过由在后的所述舍弃值计算部进行的舍弃值的计算。
3.根据权利要求1所述的字符识别装置,其特征在于, 构成为越是舍弃能力或舍弃率高的计算舍弃值的所述舍弃值计算部,越在先配置地进行计算处理。
4.根据权利要求1所述的字符识别装置,其特征在于, 构成为将对多个舍弃值中独立性较高的舍弃值进行计算的所述舍弃值计算部串行配置来进行计算处理。
5.根据权利要求1所述的字符识别装置,其特征在于, 构成为将对多个舍弃值中独立`性较低的舍弃值进行计算的所述舍弃值计算部并行配置来进行计算处理。
6.根据权利要求1所述的字符识别装置,其特征在于, 构成为将对多个舍弃值中独立性较高的舍弃值进行计算的所述舍弃值计算部串行配置,且将对多个舍弃值中独立性较低的舍弃值进行计算的所述舍弃值计算部并行配置,从而进行计算处理。
7.根据权利要求1所述的字符识别装置,其特征在于, 所述舍弃函数是以相对于希望舍弃的所述识别结果而取高值、相对于不希望舍弃的所述识别结果而取低值的方式来计算舍弃值的函数。
8.根据权利要求1所述的字符识别装置,其特征在于,具有: 预先集合了希望舍弃的图像样本的舍弃图像数据库;和 预先集合了希望正确读取的图像样本的正读图像数据库, 所述字符识别装置以使基于所述正读图像数据库的舍弃率较小、使基于所述舍弃图像数据库的舍弃率较大的方式,决定用于与舍弃值比较来进行舍弃判定的一个或多个阈值。
9.根据权利要求1所述的字符识别装置,其特征在于, 基于舍弃能力或舍弃率的闻低和舍弃值计算成本而得到的舍弃效率越闻的所述舍弃值计算部,越在先配置,在所述舍弃判定部基于在先的所述舍弃值计算部所计算出的舍弃值而判定为舍弃的情况下,省略基于在后的所述舍弃值计算部所进行的舍弃值的计算处理。
10.根据权利要求1所述的字符识别装置,其特征在于, 基于并行配置的多个所述舍弃值计算部的各个舍弃值来确定新的舍弃函数,并基于所述新的舍弃函数来进行舍弃判定。
11.根据权利要求1所述的字符识别装置,其特征在于,具有: 预先集合了希望舍弃的图像样本的舍弃图像数据库;和 预先集合了希望正确读取的图像样本的正读图像数据库, 判定多个舍弃值的独立性,作为所述独立性的判定而如下进行: 通过基于识别误差的函数来学习以所述舍弃值为自变量的函数,该以所述舍弃值为自变量的函数对存储在所述舍弃图像数据库中的图像样本和存储在所述正读图像数据库中的图像样本进行识别,对基于所述函数的识别误差和将舍弃值串行构成时的识别误差进行比较,在两者误差之差为预先决定的阈值以上的情况下,判定为独立性较低,在其以外的情况下,判定为独立性较高。
12.根据权利要求1所述的字符识别装置,其特征在于, 通过并行配置的多个所述舍弃值计算部来并行地计算舍弃值、及/或通过串行配置的多个所述舍弃值计算部来并行地计算舍弃值。
13.根据权利要求1所述的字符识别装置,其特征在于,具有: 文件图像化部,其通过对文件进行光学扫描来获取文件图像; 前处理部,其从所述文件图像中去除噪声和背景,并进行二值化而生成二值图像; 布局分析部,其分析所述二值图像的文件构造和图表构造;` 字符串提取部,其从所述二值图像提取字符串单位的图像; 字符切取部,其从提取出的所述字符串图像的各个字符串图像切取字符单位的图像;字符识别部,其识别由所述字符切取部所切取出的各字符单位的图像中的字符,并输出所述识别结果; 识别结果选定部,其基于由所述字符识别部进行的所述识别结果和由所述舍弃判定部进行的舍弃判定结果,来选定各个所述字符串图像的所述识别结果; 重试判定部,其基于所述识别结果而判定是否进行识别的再处理;和 识别后处理部,其将所述识别结果保存及/或向显示装置输出。
14.一种字符识别方法,其特征在于, 使用多个舍弃值计算部,该多个舍弃值计算部基于预先设定的舍弃函数对从输入图像而识别的字符的识别结果计算舍弃值, 并使用一个或多个舍弃判定部,该一个或多个舍弃判定部基于由多个所述舍弃值计算部的某一个或某些个计算出的一个或多个舍弃值,分别判定是否将所述识别结果舍弃,还使用基于多个所述舍弃值计算部的相关性而组合的多个所述舍弃值计算部,所述舍弃判定部基于多个舍弃值来进行所述识别结果的舍弃判定,并将判定为舍弃的所述识别结果舍弃,由此,将没有判定为舍弃的所述识别结果保存在存储部中或显示在显示部中。
15.一种字符识别程序,其特征在于,用于使计算机执行如下功能: 处理部使用多个舍弃值计算部,基于预先设定的舍弃函数对从输入图像而识别的字符的识别结果计算舍弃值的功能; 处理部使用一个或多个舍弃判定部,基于由多个所述舍弃值计算部的某一个或某些个计算出的一个或多个舍弃值,分别判定是否将所述识别结果舍弃的功能;和 处理部使用基于多个所述舍弃值计算部的相关性而组合的多个所述舍弃值计算部,所述舍弃判定部基于多个舍弃值来进行所述识别结果的舍弃判定,并将判定为舍弃的所述识别结果舍弃,由此,将没有判定为舍弃的所述识别结果保存在存储部中或显示在显示部中的 功能。
【文档编号】G06K9/20GK103870823SQ201310661200
【公开日】2014年6月18日 申请日期:2013年12月6日 优先权日:2012年12月7日
【发明者】三好利升, 新庄广, 永崎健, 堤庸昂 申请人:株式会社日立信息通信工程
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1