用于脱机手写汉字识别的汉字字符切分方法

文档序号:6348390阅读:769来源:国知局
专利名称:用于脱机手写汉字识别的汉字字符切分方法
技术领域
本发明涉及汉字识别领域,具体涉及脱机手写体汉字识别中的汉字分割问题,尤其是粘连字符串的分割。
背景技术
汉字字符分割技术作为预处理中的一个难点,一直以来都是脱机汉字识别系统应用的障碍。只有将单个汉字正确地从文档图像中分割出来,才有可能进行正确的汉字识别。 然而,由于手写体汉字书写随意性和相邻汉字之间的位置关系复杂性,造成手写体汉字要比印刷体汉字难分割得多,尤其是粘连字符的切分。目前,常用的切分技术有基于统计的切分方法、基于结构的切分方法、基于识别的切分方法和基于词的整体切分方法。
(1)基于统计的切分方法
基于统计的切分方法是根据字符的总体统计分布特征,确定字符之间的界线,判别时以字符的平均字宽作辅助判别,统计分布特征的代表性和稳定性对切分的正确性及收敛性起很重要作用,如投影法和连通域法,该方法适合汉字字符间距较宽,无粘连字符的切分,算法效率高。该方法无法用于粘连或交叉字符串的切分。
(2)基于笔划结构的切分方法
近年来,针对粘连手写汉字提出了多种切分方法。采用基于笔划结构切分是一种很有潜力的切分方法,可以从另一个角度解决笔画粘连问题。常见的笔画分割方法有笔画连接盒的动态算法和黑游程跟踪提取笔画算法两种。有学者提出采用先提取笔画再合并的方法,但该方法对汉字切分的好坏很大程度上依赖于笔画提取的好坏,如何有效地提取笔划信息仍有待进一步研究,此外笔画先提取后合并使算法过于复杂。即该方法的主要应用障碍在于准确提取笔划难度较大。
(3)基于汉字识别的切分方法
在模仿人类视觉感知机理的基础上,基于识别的汉字统计切分方法为汉字切分提供了新思路,但由于该方法与后期识别密切相关,算法复杂且汉字识别正确率有限,还有待进一步改善。
(4)基于词整体分割的方法
基于词的整体切分方法是为了绕开粘连汉字分割难度大这一难题,直接将粘连汉字做整体分割进行识别,可较好应用于有限字符集。但对大字符集汉字识别而言,汉字集本身就很大,由单字组成的词语更多,需要的模式库更大,系统效率会更低。并且词只是粘连汉字中的一部分,如何解决非词语的粘连识别问题,都需要进一步研究。
对于粘连或交叉的汉字切分,单单采用一种方法是难以获得高的准确分割率的, 于是人们开始寻找将多种方法结合起来进行汉字切分。最初,有学者提出了一种粗切分和细切分相结合的技术方案,首先通过某种方法得到粗切分结果,再对粘连字符串的背景图像作细化处理,找出特征点,利用模糊决策准则求出合理的分割路径,然而这种评价分割路径的模糊决策标准不易被确定。而且这种方法采用了直线作为分割路径。随着研究的深入,直线作为粘连字符的分割路径已逐渐不被学者采用,人们逐渐开始采用曲线或分线段作为粘连字符的分割路径。有学者提出了利用Viterbi算法将原字符串切分成互不连通的分割块,对于其中宽度较大且存在粘连字符的分割块,从候选分割点入手,用非线性分割路径将粘连部分分开;最后再应用A*算法找到全局最佳分割位置。该方法对于交错、单处笔划粘连等字符能够得到较好的分割效果,但并未从根本上解决多种粘连方式的分割问题。最近几年人们开始将遗传算法引入到字符分割技术中,遗传算法被用来寻找最优分割路径,由于遗传算法是一种典型的随机算法,其算法可适应于多种情况,具有很好的鲁棒性,此类方法较好的解决了多处粘连或交叉的情况,但正是由于算法本身的随机性,使算法的效率较低。作为实际应用的技术而言,效率是一个主要的影响因素。
总之,现有的多步切分技术都具有以下共同的特点基本都是先通过某种方法获取候选分割路径,然后采用某种判优方法选取最佳的分割路径。这种串行模式不足是,如果在两个粘连字符之间没有获得候选分割路径,则准确地进行分割则无从谈起。另外,即使获取了候选分割路径,如果候选分割路径中没有合适的分割路径,即使通过判优规则获取一个相对较好的分割路径,但最终结果仍无法获得准确的分割。再则,如果获取的多个候选路径中,存在一个合适的分割路径,但判优规则的判优准确性亦不是百分之百。因此,需要寻找新的技术思路来解决这种串行模式的不足。发明内容
本发明的发明目的是提供一种用于脱机手写汉字识别的汉字字符切分方法,以解决非粘连汉字和粘连汉字的分割问题,而且具有较高的效率。
为达到上述发明目的,本发明采用的技术方案是一种用于脱机手写汉字识别的汉字字符切分方法,用于对粘连和非粘连的汉字字符进行切分以识别汉字,包括下列步骤
(1)对待识别的汉字图像进行预处理,所述预处理包括对图像进行二值化处理;
(2)基于投影分析对汉字图像进行粗分割,将非粘连的字符分割成单个字符,将粘连的字符整体分割;
(3)获得非粘连字符的平均高度;
(4)根据步骤( 获得的非粘连字符的平均高度,对步骤( 分割后的字符进行判断,得到粘连字符串集;
(5)对于粘连字符串集中的每一粘连字符串,基于最小加权分割路径进行细切分, 实现粘连字符的切分。
上文中,步骤(1)的预处理有利于减少干扰信息,提高分割效率。通常,首先利用图像获取设备(如扫描仪、照相机或其它图像输入装置)取得彩色或灰度图像,该彩色或灰度图像中具有待识别的汉字信息,图像先进行二值化处理,将前景(汉字)和背景分开;为提高字符分割的准确性,可以对二值化后的图像进行滤波去噪处理,以降低噪音对汉字分割的影响。步骤O)中的粗分割将经过预处理的二值化图像进行初始分割,采用投影分析算法,利用波谷和波峰进行汉字字符的粗分割,即可将非粘连的字符准确地分割成单个字符,而将粘连的字符作为一个整体分割成粘连字符串。对步骤( 分割后的字符应当进行判定分类,分成非粘连字符和粘连字符两类,以便作进一步处理。最后,基于最小加权分割路径在初始分割路径的局部邻域内搜索并修正,获得最佳分割路径,实现粘连字符的切分。
上述技术方案中,步骤O)中,所述基于投影分析对汉字图像进行粗分割的方法是,通过对二值化的图像前景点的计数,获得前景点的Y轴方向的投影直方图,用不存在任何前景点投影的波谷作为字符的分割空隙,实现字符的粗分割。
步骤(3)中,非粘连字符的平均高度的获得方法是,统计分割后每个字符的高度, 获得字符高度集H= (hi;h2,h3,h4, Λ A,hn),式中hn为第η个字符的高度,对H进行归一化处理,令4=2,其中j为丄至!!的整数,0为整数且1彡σ彡Ilmil^hmin = HiinOvtvh3, σh4,Λ Λ,hn),h' i取表达式计算后的整数部分,归一化后的高度按从小到大排列的集合为 H' = (h/ , h2',h3',h4',AA,hm'),其中任何两个元素的值都不相等,C= (ci,c2, c3, c4, A A , cffl)记录H’中不同高度出现的频数,取频数最大值对应的归一化高度为
权利要求
1.一种用于脱机手写汉字识别的汉字字符切分方法,用于对粘连和非粘连的汉字字符进行切分以识别汉字,其特征在于,包括下列步骤(1)对待识别的汉字图像进行预处理,所述预处理包括对图像进行二值化处理;(2)基于投影分析对汉字图像进行粗分割,将非粘连的字符分割成单个字符,将粘连的字符整体分割;(3)获得非粘连字符的平均高度;(4)根据步骤C3)获得的非粘连字符的平均高度,对步骤( 分割后的字符进行判断, 得到粘连字符串集;(5)对于粘连字符串集中的每一粘连字符串,基于最小加权分割路径进行细切分,实现粘连字符的切分。
2.根据权利要求1所述的用于脱机手写汉字识别的汉字字符切分方法,其特征在于 步骤O)中,所述基于投影分析对汉字图像进行粗分割的方法是,通过对二值化的图像前景点的计数,获得前景点的Y轴方向的投影直方图,用不存在任何前景点投影的波谷作为字符的分割空隙,实现字符的粗分割。
3.根据权利要求1所述的用于脱机手写汉字识别的汉字字符切分方法,其特征在于 步骤(3)中,非粘连字符的平均高度的获得方法是,统计分割后每个字符的高度,获得字符高度集H= (hi;h2,h3,h4, Λ Λ,hn),式中hn为第η个字符的高度,对H进行归一化处理,令《=2,其中j为1至η的整数,σ为整数且1彡σ彡hmin,hmin = min (h” h2,h3,h4,Λ Λ, σhn),h' 1取表达式计算后的整数部分,归一化后的高度按从小到大排列的集合为H'= Qi1' , h2',h3',h4' , A A,hffl' ^其中任何两个元素的值都不相等^=^,^, A A,cffl)记录H’中不同高度出现的频数,取频数最大值对应的归一化高度为h' k,则非粘hk'+SVc χ/;‘连字符的平均高度是‘_^Xj-S7其中,(V -5,hk' +δ)表示hk'(Chk '-S + Chk '-(5+1+Λ Λ +cK'+S J的局部邻域J = ^l。 2σ
4.根据权利要求1所述的用于脱机手写汉字识别的汉字字符切分方法,其特征在于 步骤中,判断的方法为,逐一计算分割出来的字符的高度与非粘连字符的平均高度的比值E,gE< ε,则该字符为非粘连字符,若E > ε,则该字符为非粘连字符,其中,ε为预先设定的阈值,其设定范围为0< ε <2。
5.根据权利要求4所述的用于脱机手写汉字识别的汉字字符切分方法,其特征在于 1. 5 < ε <2。
6.根据权利要求1所述的用于脱机手写汉字识别的汉字字符切分方法,其特征在于 步骤(5)中,所述细切分的方法为,定义粘连字符的分割路径SPL为 式中,characterwidth是粘连字符串的宽度,i表示最优分割路径搜索范围中的第i个(5),Xi是第- 个像素Yuvver = Ycer1upper cey.,ter ~ 0ΧY - Y lower cer,1 ,H--χ "er 10X力I口俾怀,Yi 7characterheight characterheight(6) (7)characterheight是粘连字符串的高度,Ycenter是粘连字符中心点的纵坐标,定义带权值的分割路径SPLW为SPLff = ((x1 Y1, W1), (x2, j2, w2), (x3, y3, w3), A (xn, yn, wn)) (8) 其中, else将两个粘连字符的中线作为初始分割路径,获得初始化的SPLWJf SPLW中一段连续的前景区域元素集合定义为CFR,CFR为SPLW的子集,CFR中的元素权值都是1 ;其定义如下 对初始化的SPLW进行扫描,如果找到连续的前景区域CFR,则以该CFR的起点横坐标为起点,终点横坐标为终点,扫描从Y1mct到Yuppct的每一行的对应横坐标区间,获得每一行的元素权值和,以权值和最小的行对应的点代替该CFR,更新SPLW,重复上述过程,直至完成对SPLW的扫描,由此获得对应的最佳分割路径。
全文摘要
本发明公开了一种用于脱机手写汉字识别的汉字字符切分方法,其特征在于,包括下列步骤(1)对待识别的汉字图像进行预处理,所述预处理包括对图像进行二值化处理;(2)基于投影分析对汉字图像进行粗分割,将非粘连的字符分割成单个字符,将粘连的字符整体分割;(3)获得非粘连字符的平均高度;(4)根据步骤(3)获得的非粘连字符的平均高度,对步骤(2)分割后的字符进行判断,得到粘连字符串集;(5)对于粘连字符串集中的每一粘连字符串,基于最小加权分割路径进行细切分,实现粘连字符的切分。本发明可以有效地自适应分割粘连汉字字符和非粘连汉字字符,具有较高的分割准确率和分割效率。
文档编号G06K9/20GK102496013SQ20111035739
公开日2012年6月13日 申请日期2011年11月11日 优先权日2011年11月11日
发明者刘纯平, 周双飞, 季怡, 王朝晖, 蒋德茂, 龚声蓉 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1