一种基于拆分匹配的汉字笔画自动提取方法

文档序号:6623668阅读:4028来源:国知局
一种基于拆分匹配的汉字笔画自动提取方法
【专利摘要】本发明公开了一种基于拆分匹配的汉字笔画自动提取方法,属于模式识别与信息处理【技术领域】,其步骤如下:一、根据汉字结构,将汉字拆分为多个笔画部件;二、提取出笔画部件的骨骼图,找到骨骼图中的交叉点,再计算二值图像中该交叉点的二维邻域中点PBOD曲线,将交叉点区域提取出来;三、对笔画部件提取特征,该特征与标准库中的笔画部件的特征进行进行匹配;四、根据匹配结果对笔画段进行组合,获得汉字的笔画。本发明对于不同字体的汉字都能达到让人满意的提取效果,有效地改善汉字笔画提取准确度不理想,提取速度慢的不足,而且在标准字库愈来愈全面后,笔画提取准确度也越来越高。
【专利说明】一种基于拆分匹配的汉字笔画自动提取方法

【技术领域】
[0001]本发明涉及一种基于拆分匹配的汉字笔画自动提取方法,用于汉字识别,属于模式识别与信息处理【技术领域】。

【背景技术】
[0002]由于汉字在我国的特殊重要性,汉字识别有着广阔的应用前景,如在文献检索,办公自动化,邮政书信分拣,试卷的自动阅读等方面有着重要的实际意义,对我国信息化发展有着不可替代的作用。同时,汉字识别也是科学理论研究的一个重要组成方面,它的研究也将促进各学科的研究与发展。随着汉字识别的应用越来越普遍,应用系统中对汉字识别的速度和正确率的要求也越来越高,一旦汉字笔画提取在正确率和速度上取得突破,汉字识别将随之取得突破。然而,由于汉字结构复杂,字符集庞大,不同字体的笔画在连接性,笔画长短、粗细方面各有不同,笔画与笔画之间、部件与部件之间的位置会发生变化,笔画的倾斜角会发生变化,这给笔画提取工作带来的大量的困难。
[0003]针对汉字笔画提取的重要性和困难性,研究者们提出了许多优秀的方案来解决。一种方法是通过细化提取汉字的骨架,再对骨架提取笔画。这种方法是应用最广泛的笔画提取方法,按细化后图形的连续性可以分为:四邻连接算法,八邻接算法和混合连接算法;按照处理方式来分有单方向、双方向和四方向细化法。细化方法时间复杂度低,但汉字点阵细化后会对笔画结构产生不良影响,可能会影响到交叉笔画畸变,转折处出现分叉笔画,失去短笔画及壁画合并等问题。
[0004]另一种方法提取笔画的对象主要针对灰度图、二值图和轮廓图。其情况分别如下:
[0005]1、从灰度图中提取笔画的方法,它将输入的灰度字符图像转换成一幅三维图像,再提取特征区域,然后建立了一个基于规则的系统;
[0006]2、从二值图中提取笔画的典型方法,充分利用了笔画的特征,但不足之处在与要对每个字符像素进行运算,时间耗费较高;
[0007]3、轮廓图分两级进行笔画提取,在第一级,通过轮廓字体的拓扑信息提取笔画段,达到去去相交和部分多余连接的部分,再对笔画段进行组合,通过构造字体进行粗分类,第二级,对不合格的笔画按照笔画段构造特征进行细提取,但该方法对笔画段的两两组合进行判断,耗时大。
[0008]高正确性和效率一直是汉字笔画提取的两个重要目标,然而现在的笔画提取技术很难同时在这两点上达到令人满意的效果。


【发明内容】

[0009]针对上述现有技术,本发明的目的在于如何提供一种基于拆分匹配的汉字笔画自动提取算法,旨在解决汉字笔画提取准确度不理想,提取速度慢的技术问题。
[0010]为了解决上述技术问题,本发明采用如下技术方案:
[0011]一种基于拆分匹配的汉字笔画自动提取方法,包括如下步骤:
[0012]步骤一:首先根据汉字结构,将汉字拆分为多个笔画部件;
[0013]步骤二:通过细化算法提取出步骤一得到的笔画部件的骨骼图,并通过计算每个字符像素的相交数找到骨骼图中的交叉点,再计算二值图像中该交叉点二维邻域中点PBOD曲线,将交叉点区域提取出来,其它的则为笔画段;
[0014]步骤三:对步骤一得到的笔画部件提取特征,并与标准库中的笔画部件的特征进行匹配;
[0015]步骤四:根据步骤三的匹配结果对笔画段进行组合,获得汉字的笔画;如果笔画部件匹配成功,则对步骤二所获得的交叉点和笔画段进行优化后,按照标准库中相匹配的笔画部件的笔画段组合方式直接进行组合并输出;如果匹配失败则根据笔画段组合规则对其进行笔画提取,并通过交互,将正确提取笔画的笔画部件及其交叉点和组合方式添加到标准库。
[0016]进一步地,对步骤一进行更详细地描述:根据汉字的二值图像中笔画是否连接或交叉把汉字拆分为数个笔画部件C = [Sl, S2,…,sk],其中C表示汉字,k表示该汉字拆分成的笔画部件数目,Si表示第i个笔画部件;将汉字图像规范化,判断每个值为I的像素点邻域是否都为1,如果不是则认为该点是边界点;相互连通的边界点标注出一个笔画部件。
[0017]进一步地,对步骤二进行更详细地描述:提取步骤一所获得的笔画部件的骨架图;对每个笔画部件所对应的骨架图计算每个像素的相交数NJp):

【权利要求】
1.一种基于拆分匹配的汉字笔画自动提取方法,包括如下步骤: 步骤一:根据汉字结构,将汉字拆分为多个笔画部件; 步骤二:通过细化算法提取出步骤一得到的笔画部件的骨骼图,并通过计算每个字符像素的相交数找到骨骼图中的交叉点,再计算二值图像中该交叉点二维邻域中点PBOD曲线,将交叉点区域提取出来,其它的则为笔画段; 步骤三:对步骤一得到的笔画部件提取特征,提取到的特征与标准库中的笔画部件的特征进行匹配; 步骤四:根据步骤三的匹配结果对笔画段进行组合,获得汉字的笔画;如果笔画部件匹配成功,则对步骤二所获得的交叉点和笔画段进行优化后,按照标准库中相匹配的笔画部件的笔画段组合方式直接进行组合并输出;如果匹配失败则根据笔画段组合规则对其进行笔画提取,并通过交互,将正确提取笔画的笔画部件及其交叉点和组合方式添加到标准库。
2.根据权利要求1所述的基于拆分匹配的汉字笔画自动提取方法,其特征在于,对步骤一进行更详细地描述为:根据汉字的二值图像中笔画是否连接或交叉把汉字拆分为数个笔画部件C = [Sl, S2,…,sk],其中C表示汉字,k表示该汉字拆分成的笔画部件数目,Si表示第i个笔画部件;将汉字图像规范化,判断每个值为I的像素点邻域是否都为1,如果不是则认为该点是边界点;相互连通的边界点标注出一个笔画部件。
3.根据权利要求1所述的基于拆分匹配的汉字笔画自动提取方法,其特征在于,对步骤二进行更详细地描述为:提取步骤一所获得的笔画部件的骨架图;对每个笔画部件所对应的骨架图计算每个像素的相交数N。(P): ΝΛp) = ^xI 其中XiQ = I,…,9)是像素点P的邻接点,且X1 = X9 ;若Nc(p) > 2,则P为交叉点;对于没有交叉点的笔画部件直接输出笔画,对于有交叉点的笔画部件在找到骨架图中的交叉点后以该点为中心,计算二值图中P的二维邻域中的点PBOD曲线,将交叉点区域提取出来。
4.根据权利要求1所述的基于拆分匹配的汉字笔画自动提取方法,其特征在于,对步骤二进行更详细地描述为:对步骤三进行更详细地描述:计算步骤一得到的笔画部件的轮廓,把轮廓点作为笔画部件的形状特征,对轮廓点进行采样,计算每个采用轮廓点与其他采样轮廓点的距离和方向并投影到极坐标系,进而计算出极坐标系下的投影直方图; 笔画部件与标准字库中的笔画部件进行匹配,每个笔画部件被表示为对应的投影直方图,通过计算两个投影直方图间的距离,判断两个笔画结构是否匹配;采用欧式距离来度量投影直方图间的距离,当这个距离小于阀值时,两个笔画结构匹配成功。
5.根据权利要求1所述的基于拆分匹配的汉字笔画自动提取方法,其特征在于,对步骤二进行更详细地描述为:对步骤三进行更详细地描述:根据步骤三的匹配结果对笔画段进行组合,提取汉字的笔画;如果笔画部件Si与标准库中的某个笔画部件Sj匹配成功,则采用Kuhn - Munkras算法将笔画部件的交叉点与匹配笔画部件的交叉点进行匹配,笔画部件Si有η交叉点表示为Pi = [A1,/7,2*-'/7,]笔画部件Sj有m个交叉点表示为
? J€ =…,Ρ—Γ];当笔画部件Si的交叉点多于标准库中笔画部件Sj时,也就是η > m,根据交叉点之间的距离,将笔画部件S」的交叉点中距离笔画部件的剔除,仅保留m个交叉点,再与笔画部件8」的交叉点进行匹配;在交叉点匹配完成后,对每个交叉点的笔画段采用和交叉点相同的方式进行匹配;笔画部件Si的笔画段和笔画部件Sj的笔画段对应起来,按照笔画部件的笔画段组合方式直接进行组合并输出; 如果笔画部件Si匹配失败,标准库中没有和其匹配的笔画部件,则将交叉区域和该交叉区域的任意两个笔画段进行组合,计算交叉点的PBOD曲线,看PBOD曲线中是否只包含两个波峰,且两个波峰相距是否接近180度,如果是采用这种组合方式提取笔画,输出结果。
【文档编号】G06K9/34GK104182748SQ201410404614
【公开日】2014年12月3日 申请日期:2014年8月15日 优先权日:2014年8月15日
【发明者】董乐, 梁燕, 封宁, 徐宗懿, 张宁 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1