一种寻找左右字符的字符切分位置评价方法

文档序号:6428007阅读:416来源:国知局
专利名称:一种寻找左右字符的字符切分位置评价方法
技术领域
本发明属于字符识别领域。字符识别分联机和脱机两类,联机字符识别是对采集得到的书写笔经过的轨迹点进行识别;脱机字符识别是通过扫描仪或照相的方式得到字符图像来识别。本发明对联机和脱机字符识别都适用。对于一串脱机字符图像或联机笔迹序列进行识别时需要把这串文字中的每个字符分割出来。本发明涉及一种判断每个可分割的位置是否应该分开的方法,以本发明为基础可以实现字符分割和识别系统,该系统与已有的字符分割和识别系统有很大不同。
背景技术
目前,对于整串字符进行识别系统的系统一般需要利用字符分割方法,有些系统先分割后识别,另一些系统把识别和分割结合在一起。先切分后识别的系统,由于分割时不利用识别信息,分割错误较多,目前已比较少采用。切分和识别结合的方法,其主流的做法是先进行过切分,即设法根据一些规则获得所有可能的切分位置,为了尽量减少漏掉真正的切分位置的情况,通常获取的切分位置远多于真正正确的切分位置,因此叫过切分。切分位置可以通过投影分析、连通域分析、轮廓分析等方法获得。过切分以后,认为所有可能切点的集合的任何一个子集都决定了一种切分结果,通过对每一种切分结果进行评价,选取在该评价准则下最优的切分结果作为最终结果。评价准则一般是计算每个切分出来的字符的大小分布、识别可信度和与利用语言模型计算出来的概率。参考lYi Lu, Machine printed character segmentation-An overview, Pattern Recognition Volume 28, Issue 1, January 1995, Pages 67-802C.-L.Liu, M. Koga, H. Fuj i sawa, Lexicon-driven segmentation and recognition of handwritten character strings for Japanese address reading,IEEE Trans. Pattern Analysis and Machine Intelligence, Volume 24,Issue 11, 2002, Pages 1425-1437这种基于全局最优的切分识别方法的问题主要有1.计算量大,如果过切分得到的切点数是N个,则所有可能的切分结果有2的N次方种。虽然可以采用动态规划等方法减少计算量,但有可能找不到最优解,且计算量仍然非常大。2.评价准则难以确定,现有的评价准则都还不够令人满意。3.误差扩散,某一个局部的错误会影响周围较大范围。为了解决这些问题,可以把全局评价最优的方法等价为对每一个可能的切分点进行评价的问题,通过选取评价指标比较好的切点,获得最终的识别结果。现有切分点评价方法一般在切点左右各取固定范围的图形,计算其形状和位置特征,设计分类器判断是否是正确的切分点。这些方法不能充分利用字符识别结果和字符之间的约束关系信息。

发明内容
为了解决现有切分点评价方法不能充分利用字符识别和字符之间关系信息的问题,本发明提出了一种新方法。本发明在过切分后,对某个切分位置评价时,穷举找到这个切分位置两边所有可能切分出来的字的位置,并根据这两个字组合的大小、位置、间距,以及字的识别结果对切分位置进行评价。以便找到最佳的切分位置。本发明需要利用已有字符识别器,字符识别器对输入图像块或笔划轨迹点进行识别后得到M个候选识别结果,M的数值由字符识别器决定,一般取10。为了说明方便,我们假设待识别的文字串是横方向书写的。(对于竖方向书写的情况,把左右位置关系用上下代替,本发明中的方法也可以适用。)如附图1所示,0-9是所有预先获得的过切分点,其中有些是正确的切分点,有些是非正确的切分点。我们需要对每个点进行评价,以便找到其中正确的切分点。假设A是一个待评价的切分位置,A左边的过切分位置从近到远分别是A-l、A-2、A-3. . . A-N, A右边的过切分位置从近到远分别是A+l、A+2、A+3. . . A+N。N是一个经验参数,相当于一个字符内部最多可能包含的候选切分位置数,一般不会超过5。如果A是一个正确的切分位置,则A左边必然存在一个切分位置A-x,A与A-x之间的图像或笔划组成一个字符L,且A右边必然存在另一个切分位置A+y,A与A+y之间的图像或笔划组成另一个字符R,χ与y都是1到N之间的正整数。本发明中X,y用如下方法确定任取一个χ属于从1到N,任取一个y属于从1到N,得到对应的左字符候选L和右字符候选R,并利用字符识别器分别对L、R进行识别,识别结果分别为CL和CR,CL和CR 都是有M个候选字的集合。本发明需要设计一个对(L,R,CL, CR)是一组正确切分识别结果的评价公式,公式的形式可以有不同,根据使用的分类器的特性以及识别的语言不同特点来设计,设计原则是使正确的结果评价分数高。利用该评价公式对每一个不同的X与y产生的(L,R,CL,CR) 组合进行评价,取其中最高的评价分数作为切分位置A的评价分数,该分数与左右两个切分位置A-x及A+y —起作为切点A的评价信息。评价公式通常需要利用相邻两个字符之间大小、距离和位置关系的一致性约束关系,识别器给出的可信度信息,以及左右两个字符在二元语言模型中的转移概率。字符之间大小一致性约束关系是指左右两个字的大、小、瘦长或扁平情况,在形状上能够通过与另一个字的对比体现出来,例如汉字里“一”与其它字比扁平;排列的一致性是指左右字符之间的位置排列有一定关系,如有些字或标点符号偏上排列,有些居中排列, 有些偏下排列。对于能够输出M个候选字的识别器,L的候选识别结果为CLpCLy. . . CLm, CL分别取其中的任意一个,R的候选识别结果为CRpCI^... CI M,CR分别取其中的任意一个。对每一组可选的CL与CR,分别用上文同样的公式对(L,R,CL,CR)进行评价,取分数最高的作为 X,y组合的评价。对每个切分位置的评价可以保留最优、次优、第三优等多个组合。本发明的优点有
a.形式简洁。b.具有通用性,对于印刷、手写、联机、脱机字符的切分问题都适用,对于多种语言都适用。c.有效利用了字符之间的大小、排列一致性信息。d.有效利用了字符识别器给出的信息。e.能够利用语言模型的信息。f.能够确定每个切分位置的左右切分位置,为字符切分算法提供更多信息。


图1 一组候选切分点的例子
具体实施例方式以一串印刷体字符为例,说明利用本发明实现的一个完整的字符切分识别方法。1)获取候选过切分点根据输入行图像的竖直投影值确定候选切分点的位置。候选切分点分为两类第一类是竖直投影值为零的点;第二类是竖直投影值的局部极小值点。如图1的图像,得到候选切分点0-9。2)切分结果的评价公式大小一致性评价用已知CL与CR条件下,左右两字宽度比的出现概率Pa, CE(ffL/ Wk)、左右两字高度比的出现概率Pa,oiOVU)来描述,概率分布函数可以预先统计得到。位置关系一致性评价用已知CL与CR条件下,左右字符上边高
度差出现概率屯
权利要求
1.一种寻找左右字符的字符切分位置评价方法,其输入为一串印刷体、脱机手写或联机手写字符以及字符间所有可能的切分位置,输出为每一个切分位置正确性的评价,属于字符识别领域,其特征在于为每个切分位置寻找该位置两边的另外两个切分位置,待评价的切分位置与其每边的切分位置之间的笔画分别构成了两个可能的字符,通过对每种可能的双字符组合评分,并选取最好的评分作为给切分点的评价。
2.如权利说明书1所述的位置评价方法,其特征在于评分方法是针对这两个可能的字符风格的一致程度和对这两个字符识别得到的可信程度,用来评价这3个位置构成的切分组合的好坏。
3.如权利说明书2所述的风格一致程度的评分,其特征在于两个可能字符的大小、排列位置关系出现的概率越大则评分越高。
全文摘要
一种寻找左右字符的字符切分位置评价方法属于字符识别领域。其解决整串字符识别过程中如何确定正确的字符之间切分位置的问题,可以通用于印刷体、脱机手写、联机手写字符识别领域。其主要技术特征在于对某个切分位置评价时,穷举找到这个切分位置两边所有可能切分出来的字的位置,并根据这两个字组合的大小、位置、间距关系,以及字的识别结果对切分位置进行评价,选取评价结果最优的组合作为对该切分位置的评价。
文档编号G06K9/00GK102254157SQ20111018867
公开日2011年11月23日 申请日期2011年7月7日 优先权日2011年7月7日
发明者丁晓青, 刘长松, 彭良瑞, 王琳婉, 陈彦 申请人:北京文通图像识别技术研究中心有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1