西文单词切分方法和装置的制作方法

文档序号:6341264阅读:220来源:国知局
专利名称:西文单词切分方法和装置的制作方法
技术领域
本发明涉及数字排版领域,具体而言,涉及西文单词切分方法和装置。
背景技术
字符切分是字符识别(Optical Character Recognition,简称OCR)的基础。字符切分是将包含字符序列的图像分割成单个字符的过程。字符切分处理的基元为单个字符单元。目前,大多数字符识别是基于对单个字符的逐个识别,字符识别率的高低与字符切分的正确与否关系密切。常用的字符切分方法有标准切分法、整体切分法、基于识别的切分法以及前三种方法的组合。标准切分法主要使用在中文汉字字符切分过程中,该方法通过对图像进行分析寻找到字符之间较为合理的切分点,采用静态的投影分析方法,将文档图像进行行切分和列切分。整体切分法主要使用在西文字符切分过程中,该方法是把一个单词作为一个整体来进行识别,这种方法虽然避免了单词内部切分的问题,但它依赖于现有的定义好的词典, 这大大限制其应用范围。基于识别的方法是对标准切分法及整体切分法所进行的反馈,该方法提供了多个切分假设,然后对切分结构进行选择,得到最优的切分结果,这种方法能够识别出字符切分结果的正确与否,但不能纠正字符切分的错误,而且这种方法较前两种方法复杂、计算复杂度更高,因而其在实际中的应用较少。对于西文字符的识别而言,还存在着西文单词断裂的现象,即原本是一个完整的单词,而识别后变为两个独立的单词,比如“jack”在某些情况下可能会被识别成单独的 “j”和“ack”,这给西文字符的切分结果带来了额外的人工校正成本。其原因主要有a)在基于西文文档的印刷体识别系统中,首先对目标图像进行二值化操作。由于二值化过程带来的噪声、误差以及样本的印刷质量问题,在印刷体西文文档图像中,非常容易造成字符断裂现象。b)同时,根据个人西文书写习惯的不同,西文文档编辑断句时会有一个或多个空格 (Space);或者由于特定的字体设置,使得单词之间的距离跟单词内部字符之间的距离比较接近,因此造成西文单词的错误切分。

发明内容
本发明旨在提供一种西文单词切分方法和装置,以解决现有技术错分单词的问题。在本发明的实施例中,提供了一种西文单词切分方法,包括将西文图像通过行列切分得到多个字符图像块;从字符图像块中识别有效字符图像块;设置切分阈值;通过比较连续的有效字符图像块之间的距离与切分阈值,以切分单词。在本发明的实施例中,提供了一种西文单词切分装置,包括行列模块,用于将西文图像通过行列切分得到多个字符图像块;识别模块,用于从字符图像块中识别有效字符图像块;阈值模块,用于设置切分阈值;切分模块,用于通过比较连续的有效字符图像块之间的距离与切分阈值,以切分单词。本发明上述实施例的西文单词切分方法和装置,因为引入了切分阈值来切分单词,所以解决了现有技术错分单词的问题,提高了切分西文单词的准确度。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1为本发明实施提供的一种西文单词切分方法的流程图;图2为本发明实施提供的对文本图像进行切分获得若干个字符图像块的流程图;图3为本发明实施提供的获得当前行初始阈值方法的流程图;图4为本发明实施提供的调整当前行初始阈值方法的流程图;图5为本发明实施提供的调整当前行字符间距的方法的流程图;图6为本发明实施提供的西文单词切分效果示意图;图7为OCR识别结果示意图;图8为本发明实施提供的一种西文单词切分装置的结构图。
具体实施例方式下面将参考附图并结合实施例来详细说明本发明。图1为本发明实施提供的一种西文单词切分方法的流程图,包括步骤S10,将西文图像通过行列切分得到多个字符图像块;步骤S20,从字符图像块中识别有效字符图像块;步骤S30,设置切分阈值;步骤S40,通过比较连续的有效字符图像块之间的距离与切分阈值,以切分单词。本实施例将切分阈值引入了单词切分,因此只要根据西文图像的单词间距合理地设置切分阈值,就可以很好地规避多种情况下,西文单词OCR识别后被错误分割的错误,降低了人工校正的工作量。另外该方法还可以抵抗由于打印扫描造成字符粘连、断裂以及噪音等导致的切分误差,使得西文单词切分结果不用过分依赖于打印质量,从而保证打印扫描前后的西文单词切分结果的一致性。优选地,步骤SlO包括纵向扫描西文图像;
nWidth计算每条水平扫描线上前景点i的像素值Si之和Sn= X Si,其中,nWidth是西
i=l
文图像的文本区域的像素宽度;如果&彡N1,则确定当前扫描线为组成字符的扫描线;如果& < N1,则确定当前扫描线为噪声或空白,至此可以完成行切分;横向扫描西文图像;
IiHight计算每条垂直扫描线上前景点i的像素值氏之和Rn = Σ Ri,像的文本区域的像素高度;如果& > N2,则确定当前扫描线为组成字符的扫描线;如果& < N2,则确定当前扫描线为噪声或空白,至此可以完成列切分;其中,NJPN2是预设值。本优选实施例给出了具体的数值化判断流程,有利于在计算机中编程实现。图2为本发明实施提供的对文本图像进行切分获得若干个字符图像块的流程图, 对文档图像进行行切分和列切分,获得若干个字符图像块,并计算每个字符图像块的外接矩形框。本实施例包括以下步骤S101、对二值化后的文档图像进行行切分。获得待切分的二值文本点阵图像,文本区域的像素宽度为nWidth,高度为 nHeight0设置Si = f(i,j),表示图像第i行第j列的像素值,当像素点f(i,j)为前景点时,取值为1 ;当像素点f (i,j)为背景点时,取值为0。为了切分出文本的行区域,并且去除成行状分布的噪声,从上向下扫描文本图像, 并计算每条水平扫描线上前景点的像素值之和Sn,其中Sn = S^S2+. · · +Si+. ·. (i = 0,1, 2... nWidth)。设置阈值N1,如果& SN1,则该扫描线为组成文本的扫描线;如果N1,则该扫描线为噪声或者空白,去除成行状分布的噪声,初步切分出文本的行区域。同时记录每一行的边界位置左上点和右下点的坐标位置以及两条水平线之间的中线MiddleLine的位置,并计算出每个联体文本行的高度。S102、对二值化后的文本图像进行行切分的基础上,进行列切分的操作。为了切分出文本的列区域,并且去除成列状分布的噪声,从左至右扫描文本图像, 并计算每条纵向扫描线上的前景点的像素值之和&,其中= R1+R2+. . . +Rj+...,其中j的范围为该文本行区域的上边界和下边界。设置阈值N2,如果&彡N2,则该扫描线为组成字符的扫描线,如果N2,则该扫描线为噪声或者空白,去除呈列状分布的噪声。由于对二值化后的文本图像进行了噪声去除处理,所以一般小的噪声不会影响文本列区域切分,所以可以设置N2为0。这样每个字符都会有一个外接矩形框,字符的上下边界为该行的上下边界,左右边界为该字符的列切分点。S103、获得包含每个字符所有黑色像素的最小外接矩形框。由于每个字符的外接矩形框高度不一致,尤其是中西文字符高度的差异,将每个字符的外接矩形框进行向内收敛或者向外扩展,使得矩形框为包含字符所有黑色像素的最小外接矩形,从而得到一个包含若干个字符图像块的集合序列Ω。优选地,步骤S20包括将字符图像块区分为标点图像块和有效字符图像块。西文文本主要包括标点和字母,单词是由字母构成的。本优选实施例对字符图像块进行区分,可以排除标点。优选地,将字符图像块区分为标点图像块和有效字符图像块包括判断以下条件条件1、< 大于 Ntl 倍 Hkmax;条件2、Uki的上下边完全落在中心范围以外;条件3、U1/的上下边至少有一边落在中心范围以内,且Ki大于Nt2倍Hk ;
8
条件4、U1/的上下边至少有一边落在中心范围以内,Ki不大于Nt2倍Hk,且CKi小于 Nt3;条件5、U1/的上下边均没有落在中心范围以内,且(Hi小于Nt3,Clhki小于Nt4 ;其中,U1/是第k行的集合Qk中的第i个字符图像块的外接矩形框,hk\ <分别为U1/的高度和宽度,dhj = KiMrScKi = wk7Hkmax,Hkmax为Qk中字符图像块的最大高度, Hk为当前行的行高,mk为当前行的中线位置,mk士rXHk为当前行的中心范围,r、Ntl、Nt2、Nt3 和Nt4为预设的系数;如果条件1-5中任一条成立,则确定对应的字符图像块为标点图像块,如果条件 1-5均不成立,则确定U1/对应的字符图像块为有效字符图像块。本优选实施例给出了具体的数值化判断流程,有利于在计算机中编程实现。优选地,步骤S30包括获取第k行每两个相邻标点图像块的距离,将所获取的距离按从小到大排序得到阈值序列Qk',按照距离的变化率从大到小排序,依次得到第i个候选点X1/ ;以当前的X1/为当前阈值Thk,令i = 0,迭代初始点Xk°,如果Xk°满足条件在Qk' 中,Thk左边的距离数个数小于右边个数,则放弃当前候选点,进入下一迭代点为初始点;如果均无满足条件的初始点,则设置Thk等于西文图像的宽度值; 从初始点Xki开始,计算Xki的综合方差C = CL+CE,设置迭代综合方差Ctemp = C,迭代阈值Thtemp = XkS其中,Cl和Ck分别为在Thk左边和右边的距离数值的方差值;进入下一迭代点,按照如下步骤筛选候选点第1步、分别统计Qk'中在Thk两边的距离数值的局部平均值,分别记为记为左平均值K,右平均值K,以及综合方差C ;第2步、如果C彡Ctemp,进入第4步,反之,进入第3步;第3 步、如果 C-Ctemp < Nt5,且 I AL+AK_2 X C | 彡 Nt6,且 AK/AL 彡 Nt7,则进入第 4 步, 反之,设置Thtraip作为初始阈值,结束循环;第4步、令当前迭代阈值Thtemp为当前阈值Thk与Th一中的较大者,当前迭代综合方差Ctraip为综合方差C与Ctemp中的较大者;第5步、进入下一迭代点,从第1步开始。在本优选实施例中充分考虑西文单词内部字符间距离和单字之间距离的统计分析特性,得到西文单词切分的初始阈值。可以将该初始阈值作为切分阈值来直接运用,但本发明的优选实施例还进一步调整该初始阈值,以取得更好的效果。图3为本发明实施提供的获得当前行初始阈值方法的流程图,统计分析当前行中所有字符图像块的外接矩形框之间的距离,获得当前行的西文单词切分的初始阈值。本实施例包括以下步骤S201、筛选出标点图像块和有效字符图像块。对于当前第k行的字符图像块的集合序列Qk,Hk为当前行的行高,mk为当前行的中线位置,mk士rXHk为当前行的中心范围,一般地,r = 0.1。Hkmax为Qk中字符图像块最大高度。U1/是Qk中的第i个字符图像块,!^、‘分别为U1/的高度、宽度。字符图像块U1/ 的高度比dhj为当前字符高度除以最大高度,即dhj = hk7Hkmax。同理,Uik/的宽度比dwki =wik/Hkmax
如果U1/满足以下5个条件中的任意一条,标记U1/为标点图像块,反之,标记U1/为有效字符图像块。条件1、当前字符U1/的宽度 < 大于Ntl倍Hkmax;条件2、当前字符U1/上下边完全落在中心范围以外;条件3、当前字符U1/上下边至少有一边落在中心范围以内,同时当前字符U1/的高度Ki大于Nt2倍Hk ;条件4、当前字符U1/上下边至少有一边落在中心范围以内,当前字符U1/的高度hj 不大于Nt2倍Hk,同时其宽度比(Hi小于Nt3 ;条件5、当前字符U1/上下边均没有落在中心范围以内,同时当前字符U1/的宽度比 CKi小于Nt3,其高度比Clhki小于Nt4。优选地,Ntl = 4,Nt2 = 0. 35,Nt3 = 0. 215,Nt4 = 0. 5。这些数值是发明人经过大量艰苦的试验后得到的最佳数值。当然,将系数设置在以上数值附近范围也是可行的,这仍然属于本发明的精神范围。S202、统计标点图像块间的有效字符图像块之间的距离。对于当前第k行的字符图像块的集合序列Ω k,统计顺序两标点图像块U1/与Ukj之间的有效字符图像块U,间的距离,即当前矩形框的左边界至前一个矩形框右边界之间的水平距离。将所统计的距离按从小到大排序,称为第k行的阈值序列。按照其相邻距离的变化率从大到小排序,依次为第k行的第i个候选点Xk1。以当前的Xki为当前阈值Thk, 分别统计Qk'中在阈值Thk两边的距离数值的局部平均值,分别记为记为左平均值怂,右平均值K ;在阈值Thk两边的距离数值的方差值,分别记为左方差值Q,右方差值cK。当前阈值的综合方差C = CJCK。S203、计算有效距离的统计特征,获得初始阈值。令i =0,迭代初始点Xk°。如果Xk°满足条件在Ω:中,阈值Thk左边的距离数个数小于右边个数,则放弃当前候选点,进入下一迭代点为初始点。如果均无满足条件的初始点,则将当前阈值Thk等于文档的宽度值。从初始点Xki开始,计算Xki的综合方差C。令迭代综合方差Ctemp = C ;迭代阈值Thtemp = Xk1。进入下一迭代点,按照如下步骤筛选候选点第1步、计算当前阈值Thk左平均值~和右平均值Ακ,以及综合方差C ;第2步、如果C彡Ctemp,进入第4步,反之,进入第3步;第3步、如果C-Ctemp < Nt5,且绝对值I Al+Ak_2 X C |彡Nt6,且kJkL彡Nt7,则进入第 4步,反之,令当前迭代阈值Thtemp为初始阈值,结束循环。一般地,取Nt5 = 5,Nt6 = 5,Nt7 = 2。第4步、令当前迭代阈值Thtemp为当前阈值Thk与Thtemp中的较大者,当前迭代综合方差Ctraip为综合方差C与Ctemp中的较大者。第5步、进入下一迭代点,从第1步开始。优选地,在确定初始阈值之后,设置切分阈值还包括将初始阈值所在原始序列位置为中心,以2为半径,提取5个点,对5个点的4个间距按由大到小排序;X0, X1, x2,X3 ;
如果Xci, X1差的绝对值小于等于阈值Nt8,且\的长度大于等于阈值Nt9,则设置\ 和&中间的值;如果\和\相邻,且满足1) 与\差的绝对值大于预设值^ ;2) X0小于预设值 Ntlo ;3)X1的长度大于等于预设值Nt9,则设置\和&的中间值为切分阈值;如果\和\不相邻,且满足1) , 差的绝对值大于Nt8 ;2) X0大于等于Ntltl,则设置\为切分阈值;设置不满足以上情况的初始阈值为切分阈值。原则上,西文单词内部的西文字母之间的距离应该小于西文单词之间的距离,但是不排除特殊情况下,在两者的上下临界值之间出现误判。因此,再附加分析初始阈值附近的局部特性,得到修正后的最终阈值。根据最终阈值可以合理切分出正确的西文单词区域, 将该区域图像交付OCR模块,从而得到正确的西文单词识别结果。图4为本发明实施提供的调整当前行初始阈值方法的流程图,调整当前行的西文单词初始阈值,根据该初始阈值获得当前行的所有西文单词的切分阈值。本实施例包括以下步骤S301、获得初始阈值所在原始序列位置的局部距离特征。将获得的初始阈值所在原始序列位置为中心,以2为半径,提取5个点。对5个点的4个间距按由大到小排序;\,X1, X2, &,称为局部距离特征。S302、选取第一候选点、第二候选点。取前两名X1分别为第一候选点、第二候选点。S303、如果两候选点相邻,满足候选点关系法则就选取两候选点的中间值为切分阈值。当前候选点关系法则为,如果满足1) 与&差的绝对值大于阈值Nt8 ;2)X0的长度小于阈值Ntltl JU1的长度大于等于阈值Nt9。则取\,X1的中间值,结束判断。一般地,Nt8 =4,Nt9 = 7,Ntlo = 10。这些数值是发明人经过大量艰苦的试验后得到的最佳数值。当然, 将系数设置在以上数值附近范围也是可行的,这仍然属于本发明的精神范围。S304、如果两候选点不相邻,满足候选点关系法则就选取第一候选点为切分阈值。 当前候选点关系法则为,如果两名)^ 差的绝对值大于阈值Nt8如果\的长度大于等于阈值Ntl0,取X0对应值,结束判断。一般地,Nt8 = 4,Nt9 = 7,Ntlo = 10。最后根据上述法则修正后的阈值为当前行的切分阈值。优选地,步骤S40包括如果连续的有效字符图像块之间的距离小于切分阈值,则确定它们属于一个西文单词,否则确定为分属于不同的西文单词。该判断步骤很简单,计算机可以很容易地实现,从而可以代替人工分解单词。优选地,在切分单词之前还包括确定U1/对应的字符图像块是有效字符图像块,UkH和Uki+1中至少有一个为有效字符图像块,其中,Uki是第k行的集合Qk中的第i个字符图像块的外接矩形框;确定ClL1^dlV均大于等于切分阈值Th,且IdLki-CllVI彡w,其中,ClL1^dRki分别是 U1/的左间距和右间距;如果I ClLki-Hi I ≤W1,且 ClLki ≤ ClRki,则调整 dLj 减小 Hi1 ;如果 | dl^-Ili | ≤ W1,则调整ClRki减小Hi1 ;确定dlki,drki均大于等于切分阈值,且I ClLki-CllV I > W ;如果I ClLki-Th |≤W1,则调整ClLki增加Hi1 ;如果IdRki-ThI Sw1,则调整ClRki增加HI1 ;其中,w、W1和HI1是预设值。作为一个例子,如图6(a)即为原始的待切分文本图像,6(b)为6 (a)基础上进行的初始行切分和列切分效果示意图。6(c)为本发明的方法中经过S200和S300后得到的切分结果,最终的切分结果如图6(d)所示。另外作为对比,图7也给出了 OCR识别结果,其中 Jack即被识别为“J”和“ack”,而本优选实施例通过适当地调整字符图像块之间的间距,可以进一步解决这个问题。优选地,设置w = 10,Wl = 3,ffll = min(8,maX(6,dlV-7))。这些数值是发明人经过大量艰苦的试验后得到的最佳数值。当然,将系数设置在以上数值附近范围也是可行的, 这仍然属于本发明的精神范围。图5为本发明实施提供的调整当前行字符间距的方法的流程图,包括以下步骤S401、获得当前行单词字符的左右间距。对于当前第k行的字符图像块的集合序列Qk,U1/是Qk中的第i个字符图像块, dLk\ ClRki分别是U1/的左间距、右间距。S402、根据切分阈值,判断字符左右间距的调整值。如果当前^在5201中标记为有效字符图像块,队“和队“1中至少有一个为有效字符图像块,那么按如下判断条件调整LdL1^dRki 均大于等于切分阈值 Th,且 IdLki-CllVI ^w =如果I ClLki-Th I彡W1,且ClLki彡ClRki,那么调整dLj减小叫。如果IdRki-ThI彡W1,那么调整ClRki减小ffll。2、dLk\ dRj 均大于等于切分阈值 Th,且 | (11^-(11^ | > w 如果I ClLki-Th I彡W1,那么调整ClLki增加叫。如果IdRki-ThI彡W1,那么调整ClRki增加ffll。其中,w= 10,W1 = 3,mi = min(8,max(6,(11^-7)),min(#,#)表示取括号中两数中较小数的值,max(#,#)表示取括号中两数中较大数的值。S403、调整字符间距,按照切分阈值,完成单词切分。按照切分阈值完成当前行西文单词切分,即若连续的字符图像块的外接矩形之间的距离小于该阈值时,将它们合并为一个西文单词,否则判断为分属于两个不同的西文单词。进一步,在完成上述操作后,依次处理下一行,直至完成所有西文单词的切分操作。优选地,本方法在步骤SlO之前还包括获取西文图像;对西文图像进行降噪处理,得到二值化的西文图像。该步骤是实现了对西文图像的预处理,很容易在计算机上实现。本优选实施例通过降噪处理,可以得到较好的西文二值文本图像。图8为本发明实施提供的一种西文单词切分装置的结构图,包括行列模块10,用于将西文图像通过行列切分得到多个字符图像块;识别模块20,用于从字符图像块中识别有效字符图像块;阈值模块30,用于设置切分阈值;切分模块40,用于通过比较连续的有效字符图像块之间的距离与切分阈值,以切分单词。本实施例可以很好地规避多种情况下,西文单词OCR识别后被错误分割的错误, 降低了人工校正的工作量,而且保证了打印扫描前后的西文单词切分结果的一致性。优选地,阈值模块30包括获取模块,用于获取第k行每两个相邻标点图像块的距离,将所获取的距离按从小到大排序得到阈值序列Qk',按照距离的变化率从大到小排序,依次得到第i个候选点 Xk1 ;初始点模块,用于以当前的X1/为当前阈值Thk,令i = 0,迭代初始点Xk°,如果Xk° 满足条件在中,Thk左边的距离数个数小于右边个数,则放弃当前候选点,进入下一迭代点为初始点;如果均无满足条件的初始点,则设置IX等于西文图像的宽度值;初始模块,用于从初始点Xki开始,计算Xki的综合方差C = ,设置迭代综合方差Ctemp = C,迭代阈值Thtemp = 其中,(^和Ck分别为在Thk左边和右边的距离数值的方差值;迭代模块, 用于进入下一迭代点,按照如下步骤筛选候选点第1步、分别统计Qk'中在Thk两边的距离数值的局部平均值,分别记为记为左平均值K,右平均值K,以及综合方差C ;第2步、如果C ( Ctemp,进入第4步,反之,进入第3步;第3 步、如果 C-Ctemp < Nt5,且 |Al+Ak_2XC| 彡 Nt6,且 Ak/Al 彡 Nt7,则进入第 4 步, 反之,设置Thtraip作为初始阈值,结束循环;第4步、令当前迭代阈值Thtemp为当前阈值Thk与Th一中的较大者,当前迭代综合方差Ctraip为综合方差C与Ctemp中的较大者;第5步、进入下一迭代点,从第1步开始。优选地,阈值模块30还包括选点模块,用于将初始阈值所在原始序列位置为中心,以2为半径,提取5个点,对 5个点的4个间距按由大到小排序;X0, X1, X2, X3 ;第一调整模块,用于如果&,&差的绝对值小于等于阈值Nt8,且&的长度大于等于阈值Nt9,则设置X0和X1中间的值;第二调整模块,用于如果\和&相邻,且满足1) 与&差的绝对值大于预设值 Nt8 ;2) X0小于预设值Ntltl ;3) X1的长度大于等于预设值Nt9,则设置\和&的中间值为切分阈值;第三调整模块,用于如果^和)^不相邻,且满足1) , 差的绝对值大于Nt8 ;2)X0 大于等于Ntl。,则设置\为切分阈值;保持模块,用于设置不满足上述情况的初始阈值为切分阈值。从以上的描述中可以看出,本发明上述的实施例可以解决现有技术中西文字符切分时西文单词被分割切分的错误问题,进一步降低西文单词识别后的手工校正的工作量, 最终提高西文字符识别的准确性和速度。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种西文单词切分方法,其特征在于,包括 将西文图像通过行列切分得到多个字符图像块; 从所述字符图像块中识别有效字符图像块; 设置切分阈值;通过比较连续的所述有效字符图像块之间的距离与所述切分阈值,以切分单词。
2.根据权利要求1所述的方法,其特征在于,将西文图像通过行列切分得到多个字符图像块包括纵向扫描所述西文图像;计算每条水平扫描线上前景点i的像素值Si之和
3.根据权利要求1所述的方法,其特征在于,从所述字符图像块中识别有效字符图像块包括将所述字符图像块区分为标点图像块和所述有效字符图像块。
4.根据权利要求3所述的方法,其特征在于,将所述字符图像块区分为标点图像块和所述有效字符图像块包括判断以下条件条件1、W1/大于Ntl倍Hkmax;条件2、U1/的上下边完全落在中心范围以外;条件3、U1/的上下边至少有一边落在中心范围以内,且Ki大于Nt2倍Hk ;条件4、U1/的上下边至少有一边落在中心范围以内,Ki不大于Nt2倍Hk,且CKi小于Nt3;条件5、U1/的上下边均没有落在中心范围以内,且(Hi小于Nt3,Clhki小于Nt4 ; 其中,U1/是第k行的集合Qk中的第i个所述字符图像块的外接矩形框,hk\ <分别为U1/的高度和宽度,Clhki = hk7Hkmax,CKi = wkVHkmax, Hkmax为Qk中所述字符图像块的最大高度,Hk为当前行的行高,mk为当前行的中线位置,mk士rXHk为当前行的中心范围,r、Ntl、 Nt2> Nt3和Nt4为预设的系数;如果条件1-5中任一条成立,则确定对应的所述字符图像块为所述标点图像块,如果条件1-5均不成立,则确定U1/对应的所述字符图像块为所述有效字符图像块。
5.根据权利要求1所述的方法,其特征在于,设置切分阈值包括获取第k行每两个相邻所述标点图像块的距离,将所获取的距离按从小到大排序得到阈值序列Qk',按照所述距离的变化率从大到小排序,依次得到第i个候选点X1/ ;以当前的Xki为当前阈值Thk,令i = 0,迭代初始点Xk°,如果Xk°满足条件在Qk'中, Thk左边的距离数个数小于右边个数,则放弃当前候选点,进入下一迭代点为初始点;如果均无满足条件的初始点,则设置Thk等于所述西文图像的宽度值;从初始点X1/开始,计算X1/的综合方差C = CL+CE,设置迭代综合方差Ctemp = C,迭代阈值iThtanp = 其中,Cl和Ck分别为在Thk左边和右边的距离数值的方差值; 进入下一迭代点,按照如下步骤筛选候选点第1步、分别统计Qk'中在Thk两边的距离数值的局部平均值,分别记为记为左平均值^右平均值AK,以及综合方差C ;第2步、如果C ( Ctemp,进入第4步,反之,进入第3步;第3步、如果C-Ctemp < Nt5,且|Al+Ak-2XC|彡Nt6,且Ακ/\彡Nt7,则进入第4步,反之, 设置Ilitemp作为初始阈值,结束循环;第4步、令当前迭代阈值Thtemp为当前阈值Thk与Thtemp中的较大者,当前迭代综合方差 Ctemp为综合方差C与Ctraip中的较大者;第5步、进入下一迭代点,从第1步开始。
6.根据权利要求5所述的方法,其特征在于,在确定所述初始阈值之后,设置切分阈值还包括将所述初始阈值所在原始序列位置为中心,以2为半径,提取5个点,对5个点的4个间距按由大到小排序;X0, X1, X2,X3 ;如果X1差的绝对值小于等于阈值Nt8,且&的长度大于等于阈值Nt9,则设置\和& 中间的值;如果\和\相邻,且满足1) 与\差的绝对值大于预设值Nt8 ;2) X0小于预设值Ntltl ; 3) X1的长度大于等于预设值Nt9,则设置\和&的中间值为所述切分阈值;如果\和\不相邻,且满足1) , 差的绝对值大于^ ;2) X0大于等于Ntltl,则设置\ 为所述切分阈值;设置不满足上述情况的所述初始阈值为所述切分阈值。
7.根据权利要求1所述的方法,其特征在于,通过比较连续的所述有效字符图像块之间的距离与所述切分阈值,以切分单词包括如果连续的所述有效字符图像块之间的距离小于所述切分阈值,则确定它们属于一个西文单词,否则确定为分属于不同的西文单词。
8.根据权利要求1所述的方法,其特征在于,在切分单词之前还包括确定U1/对应的所述字符图像块是所述有效字符图像块,UkH和Uki+1中至少有一个为所述有效字符图像块,其中,U1/是第k行的集合Qk中的第i个所述字符图像块的外接矩形框;确定ClL1^dRki均大于等于切分阈值Th,且IdLki-CllVI彡w,其中,ClL1^dRki分别是U1/ 的左间距和右间距;如果 I ClLki-Th I 彡 W1,且 ClLki 彡 dR,1,则调整 ClLki 减小 Hi1 ;如果I ClRki-Th I彡W1,则调整ClRki减小Hi1 ;确定dC、ClRki均大于等于所述切分阈值,且>w;如果 I ClLki-Th I ( W1,则调整 ClLki 增加 Hi1 ; 如果I dl^-Th I彡W1,则调整ClRki增加Hi1 ; 其中,W、W1和Hl1是预设值。
9.根据权利要求8所述的方法,其特征在于,设置w= 10,W1 = 3, Hi1 = min(8,max(6, 败-7))。
10.根据权利要求1所述的方法,其特征在于,在将西文图像通过行列切分得到多个字符图像块之前,还包括获取所述西文图像;对所述西文图像进行降噪处理,得到二值化的所述西文图像。
11.一种西文单词切分装置,其特征在于,包括行列模块,用于将西文图像通过行列切分得到多个字符图像块; 识别模块,用于从所述字符图像块中识别有效字符图像块; 阈值模块,用于设置切分阈值;切分模块,用于通过比较连续的所述有效字符图像块之间的距离与所述切分阈值,以切分单词。
12.根据权利要求11所述的装置,其特征在于,所述阈值模块包括获取模块,用于获取第k行每两个相邻所述标点图像块的距离,将所获取的距离按从小到大排序得到阈值序列Qk',按照所述距离的变化率从大到小排序,依次得到第i个候选点;初始点模块,用于以当前的X1/为当前阈值Thk,令i = 0,迭代初始点Xk°如果Xk°满足条件在中,Thk左边的距离数个数小于右边个数,则放弃当前候选点,进入下一迭代点为初始点;如果均无满足条件的初始点,则设置Thk等于所述西文图像的宽度值;初始模块,用于从初始点Xki开始,计算Xki的综合方差C = CL+CE,设置迭代综合方差 Ctemp = C,迭代阈值Thtemp = ΧΛ其中,(^和Ck分别为在Thk左边和右边的距离数值的方差值;迭代模块,用于进入下一迭代点,按照如下步骤筛选候选点第1步、分别统计Qk'中在Thk两边的距离数值的局部平均值,分别记为记为左平均值Ay右平均值V以及综合方差C ;第2步、如果C ( Ctemp,进入第4步,反之,进入第3步;第3步、如果C-Ctemp < Nt5,且|Al+Ak-2XC|彡Nt6,且Ακ/\彡Nt7,则进入第4步,反之, 设置Ilitemp作为初始阈值,结束循环;第4步、令当前迭代阈值Thtemp为当前阈值Thk与Thtemp中的较大者,当前迭代综合方差 Ctemp为综合方差C与Ctraip中的较大者;第5步、进入下一迭代点,从第1步开始。
13.根据权利要求12所述的装置,其特征在于,所述阈值模块还包括选点模块,用于将所述初始阈值所在原始序列位置为中心,以2为半径,提取5个点,对 5个点的4个间距按由大到小排序;X0, X1, X2, X3 ;第一调整模块,用于如果\,X1差的绝对值小于等于阈值Nt8,且&的长度大于等于阈值Nt9,则设置X0和X1中间的值;第二调整模块,用于如果\和&相邻,且满足1) X0与&差的绝对值大于预设值Nt8 ;2) \小于预设值Ntltl ;3)X1的长度大于等于预设值Nt9,则设置\和\的中间值为所述切分阈值;第三调整模块,用于如果\和\不相邻,且满足1) , X1差的绝对值大于Nt8 ;2)X0大于等于Ntl。,则设置\为所述切分阈值;保持模块,用于设置不满足上述情况的所述初始阈值为所述切分阈值。
全文摘要
本发明提供了一种西文单词切分方法,包括将西文图像通过行列切分得到多个字符图像块;从字符图像块中识别有效字符图像块;设置切分阈值;通过比较连续的有效字符图像块之间的距离与切分阈值,以切分单词。本发明还提供了一种西文单词切分装置,包括行列模块,用于将西文图像通过行列切分得到多个字符图像块;识别模块,用于从字符图像块中识别有效字符图像块;阈值模块,用于设置切分阈值;切分模块,用于通过比较连续的有效字符图像块之间的距离与切分阈值,以切分单词。本发明提高了切分西文单词的准确度。
文档编号G06K9/20GK102542269SQ20101062205
公开日2012年7月4日 申请日期2010年12月24日 优先权日2010年12月24日
发明者亓文法, 杨斌, 王立东, 王高阳 申请人:北京北大方正电子有限公司, 北京大学, 北大方正集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1