字符识别装置和字符识别方法

文档序号:9564893阅读:403来源:国知局
字符识别装置和字符识别方法
【技术领域】
[0001]本发明涉及一种能够高精度地识别票据(日语:帳票)等中写入的手写字符的字符识别装置和字符识别方法,特别涉及一种能够高精度且高速地识别以中国内地的简体文字、中国台湾的繁体文字写入的汉字字符的字符识别装置和字符识别方法。
【背景技术】
[0002]以光学方式读取票据等中记载的手写汉字来进行字符识别的字符识别装置构成为:提取按每个字符切取出的字符图形的特征,由于汉字构造是由位于汉字的左侧的偏(日语九)、位于汉字构造的右侧的旁(日语< <0 )、位于汉字构造的上侧的冠(日语:扣九? <0 )、位于汉字构造的下侧的脚(日语:? L )、位于包围汉字构造整体的位置的构(日语:扣圭;I )、位于从汉字的上侧下垂到下侧的位置的垂(日语:/^扎)以及位于从汉字构造的左侧沿着下侧的位置的绕(日语i 3 )这样的配置于多个区域的汉字要素的组合构成的,因此,判别用于分割各区域的分割区域,并且使用欧几里德(Euclid)距离值来提取字符图像的特征量,从而进行字符识别。
[0003]基于该以往技术的字符识别处理构成为通过由字符识别装置的计算机执行如图18所示的以下步骤来进行字符识别:步骤S1801,提取字符图像的特征;步骤S1802,基于通过该步骤S1801提取出的特征量来判定字符图像是汉字还是非汉字;步骤S1804,计算通过该步骤S1802进行了判定的字符图像的欧几里德距离值;步骤S1803,判别汉字的字符图像的部首等分割区域;步骤S1805,计算通过步骤S1803进行了区域判定的字符图像的进行η分割得到的每个区域的余弦相似度;步骤S1806,将通过该步骤S1805计算出的相似度与同形字符表进行比较来选择同形字符和相似字符候选;步骤S1807,基于通过上述步骤S1804计算出的欧几里德距离以及通过步骤S1806选择出的同形字符和相似字符候选来判定识别候选的字符;以及步骤S1808,输出通过该步骤S1807判定出的字符候选的判定结果。另夕卜,上述同形字符表按共同的部首、旁等将汉字进行分类,并且按人目视时相像的字形将汉字进行分类。
[0004]通过上述步骤S1807,候选判定使用以下条件来进行识别字符候选的判定:(1)根据通过步骤S1802得到的汉字、非汉字结果来选择候选;(2)选择通过步骤S1804得到的欧几里德距离值小的候选;(3)选择通过步骤S1805得到的余弦相似度高的候选;(4)选择在一部分分割区域中余弦相似度高的候选;以及(5)选择余弦相似度大的字符类型(日语:字種)所属的同形字符分类表,其中,通过图22所示的公式来计算上述欧几里德距离值和余弦相似度,其中,X为输入图案矢量,μ为平均图案矢量。
[0005]S卩,以往的字符识别处理构成为通过将字符图像的欧几里德距离值、余弦相似度、区域分割以及同形字符表比较这样的各种技术进行组合来决定识别字符候选。
[0006]此外,作为记载了基于以往技术的字符识别技术的文献,可以列举出下述的专利文献1,在该专利文献1中记载了如下技术:特征量提取部从由输入部输入的字符图像提取字符图像的特征量,匹配部在使用拟贝叶斯判别函数计算与辞典的相异度时,一边根据字符图像来调整拟贝叶斯判别函数要计算的主成分数(拟贝叶斯判别函数式的k) 一边计算与辞典的相异度,由此减少对字符识别精度的提高的贡献不稳定的主成分校正项的计算,从而消除字符识别所不需要的小的特征量,并补充特征不足成分。作为记载了前述的分割部首来进行字符识别的技术的文献,可以列举出下述的专利文献2,在该专利文献2中记载了如下技术:区域合并部基于所输入的手写字符的各笔画的坐标序列来判定该笔画是否跨越了字符框内的分割区域,在跨越了的情况下合并相应的分割区域,部首切取部基于合并后的分割区域以部首为单位对上述手写字符进行切取,部首识别部参照部首识别辞典对该切取出的各部首进行识别处理,字符结构部基于部首识别处理的结果和字符结构辞典来获取手写字符的识别结果,由此容易地进行部首切取来提高识别精度。作为记载了在字符识别中使用欧几里德距离的技术的文献,可以列举出下述的专利文献3,在该专利文献3中记载了设置有以下单元的技术:标准化单元,其将字符图像部分标准化成规定尺寸的矩形图像;特征量计算单元,其计算将由该标准化单元标准化后的矩形图像进行分割所得到的分割图像各自的HOG (Histograms of Oriented Gradient:梯度方向直方图)特征量;距离计算单元,其计算将HOG特征量空间中的各分割图像的HOG特征量结合起来得到的图像部分的HOG特征量与各规定字符图像的HOG特征量的欧几里德距离;比较单元,其比较由该距离计算单元计算出的距离;以及字符识别单元,其基于比较单元的比较结果来识别上述字符图像部分中有可能包含的字符。
[0007]专利文献1:日本特开2000-215272号公报
[0008]专利文献2:日本特开平11-184971号公报
[0009]专利文献3:日本特开2014-29608号公报

【发明内容】

[0010]发明要解决的问题
[0011]上述的基于以往技术的字符识别技术从作为识别对象的字符图像提取大量的特征量来估计成为正确答案的类别(例如日语的“务” “亜”等),因此,若是汉字则会成为数千个类别,从而在进行高精度识别时处理时间变得冗长,特别是近年来,存在不仅对日语的汉字进行字符识别、还对中国内地的简体文字、中国台湾的繁体文字进行字符识别的需求,识别对象的汉字类型增加,因此招致处理时间变得更冗长的问题。
[0012]另外,对于字符识别装置,存在即使精度比较低也要高速地对大量票据进行字符识别的顾客需求以及即使处理时间长也要高精度地对大量票据进行字符识别的顾客需求,但是基于以往技术的字符识别装置存在难以根据顾客需求来调整处理速度和识别精度的问题。
[0013]并且,上述的专利文献1所记载的技术是想要通过消除字符识别所不需要的小的特征量并补充特征不足成分来实现高速且高精度,但是存在高精度化根据所设定的阈值而有限度、从而导致容许一定数量的误辨别的问题,其它专利文献所记载的技术存在难以高速处理的问题。
[0014]本发明的第一目的在于解决前述的以往技术的问题,提供一种能够进行高速高精度的汉字字符的识别的字符识别装置和字符识别方法,第二目的在于提供一种能够根据顾客需求来调整速度和识别精度的字符识别装置和字符识别方法。_5] 用于解决问题的方案
[0016]为了达到上述的目的,本发明的第一发明是一种字符识别装置,该字符识别装置具备:输入部,其以光学方式将包括汉字的字符读取为字符图像,该汉字由多个区域的汉字要素构成;图像获取部,其获取使用该输入部读取的字符图像;外部存储部,其保存字符辨别用辞典和同形字符表,该字符辨别用辞典保存有多个标准字符图像,该同形字符表用于按共同的部首、旁将汉字进行分类并且将目视时相像的相似和同形的汉字进行分类;以及运算部,其参照该字符辨别用辞典和同形字符表来控制字符图像的字符识别,其中,该运算部参照字符辨别用辞典对输入的字符图像执行字符识别处理,该字符识别装置的特征在于,
[0017]上述运算部包括:
[0018]分割区域判定单元,判定按汉字要素对上述图像获取部所获取的1个字符单位的字符图像进行分割的分割区域;
[0019]余弦相似度计算单元,计算通过该分割区域判定单元进行了判定的字符图像的同一区域位置处的汉字要素的余弦相似度;
[0020]欧几里德距离值计算单元,计算通过上述分割区域判定单元进行了判定的字符图像的同一区域位置处的汉字要素的欧几里德距离值;
[0021]同形字符表制作单元,制作将以下字符图像作为相似度高的同形字符进行分组而得到的同形字符表:基于通过上述分割区域判定单元判定出的分割区域的汉字结构相同且同一区域位置的汉字要素之间的基于通过上述余弦相似度计算单元计算出的余弦相似度的相似度高于规定值的字符图像、以及汉字要素之间的通过上述欧几里德距离值计算单元计算出的欧几里德距离值小于规定值的字符图像;以及
[0022]标准字符识别单元,将以下字符图像之间的逻辑或的字符图像作为候选字符来进行字符识别:通过上述余弦相似度计算单元计算出的余弦相似度大于规定的余弦相似度的字符图像、通过上述欧几里德距离值计算单元计算出的欧几里德距离值小于规定值的字符图像、以及通过上述同形字符表制作单元将同一区域位置的相似度高的字符图像进行分组而得到的同形字符的字符图像。
[0023]本发明的第二发明的特征在于,在第一发明的字符识别装置中,上述运算部还包括高精度字符识别单元,该高精度字符识别单元基于从通过标准字符识别单元的逻辑或而得到的字符图像中排除通过上述分割区域判定单元分割出的多个分割区域的结构不同的异种候选字符以及该异种候选字符所属的组中包含的字符图像后得到的候选字符,来进行字符识别。
[0024]本发明的第三发明的特征在于,在第一发明或第二发明的字符识别装置中,上述运算部还包括高速字符识别单元,该高速字符识别单元将通过上述欧几里德距离值计算单元计算出的欧几里德距离值小于规定值的字符图像作为候选字符来进行字符识别。
[0025]本发明的第四发明的特征在于,在第一发明至第三发明中的任一发明的字符识别装置中,上述同形字符表制作单元包括分大组单元和分小组单元,该分大组单元将基于通过上述分割区域判定单元判定出的分割区域的汉字结构相同的字符图像分为大组,该分小组单元将通过该分大组单元分组得到的大组内的、特定区域位置的汉字要素的余弦相似度高于规定值且欧几里德距离值小于规定值的字符图像分为小组,上述运算部将通过该分大组单元和该分小组单元分组得到的字符图像保存在同形字符表中。
[0026]本发明的第五发明的特征在于,在第一发明至第四发明中的任一发明的字符识别装置中,上述运算部具备对上述标准字符识别单元、上述高精度字符识别单元以及上述高速字符识别单元进行切换或调整的功能。
[0027]另外,本发明的第六发明是一种识别字符的字符识别装置的字符识别方法,该字符识别装置具备:输入部,其以光学方式将包括汉字的字符读取为字符图像,该汉字由多个区域的汉字要素构成;图像获取部,其获取使用该输入部读取的字符图像;外部存储部,其保存字符辨别用辞典和同形字
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1