基于点云模型的低质汉字初始骨架提取算法的制作方法

文档序号:6444773阅读:524来源:国知局
专利名称:基于点云模型的低质汉字初始骨架提取算法的制作方法
技术领域
本发明涉及计算机图像处理技术,尤其是涉及一种针对低质汉字的骨架提取方法。
背景技术
由于低质汉字受到多种降质因素的影响,其骨架提取较理想汉字难。低质汉字骨架提取的难点之一是现有的骨架提取方法大都针对的是理想汉字,涉及低质汉字问题比较少;难点之二是基于常规的骨架提取方法例如对称轴变化法、数学形态学方法、小波模极大值方法等对低质图像进行骨架提取效果欠佳,难以避免的出现个别笔画的骨架缺失和不符合人类视觉等情况。现有的骨架提取的方法很多,大多数方法都是假定轮廓是可以确定的且轮廓中的点是连接的。例如:基于对称轴分析的骨架提取方法、细化方法和形状分解方法。对称轴分析方法主要是通过寻找目标形状轮廓的对称轴来获得骨架。骨架被看作是中轴变换(medial axis)得到的对称中心点构成的集合。属于这类方法的骨架提取算法有对称轴变换算法、基于小波极大模的骨架提取算法和基于小波极小模的骨架提取算法等。这类方法的缺点是:在离散域里通过对称轴分析来寻找骨架是件很困难的事,而且中轴变化提取的骨架一般都是断裂的,算法的性能依赖于轮廓提取的结果。Tang Y Y对该方法做了改进,提出利用小波极大模提取汉字骨架。该方法首先利用小波极大模探测字符的边缘点,然后根据梯度方向和事先设定的固定长度找到对称点对,对称点对的中心点就是所求的骨架点。这种方法利用一种简单的方式寻找汉字笔画的对称中心,计算复杂度低。但是,由于在交叉区域不存在上述的对称点对,所以这种方法提取的骨架在交叉区域依然是断裂的(见

图1
(2))。对于低质汉字特别是间断和稀疏化较严重的情况下,小波极大模方法基本上不能提出完整的骨架。有学者对小波极大模方法进行了改进,该方法首先对小波极大模方法得到的骨架点进行了平滑操作从而得到初始骨架,然后采用插值补偿技术连接奇异区域(笔画的交叉点和联结点处属于奇异区域)。算法实验结果见图1 (3),红色线条为该方法提取的骨架。虽然该算法在符合人类视觉方面表现比较出色,能够较好的保持目标的原始形状,但是该方法对交叉区域骨架的提取还是不令人满意(见图1(3) “大”字笔画交叉区域)。Blum指出对称轴的提取可以利用点的生长获得,这种提取对称轴的方法叫做细化(thinning)算法。细化算法的基本思想是利用分层双向或单向迭代的方法更改目标形状边缘点成背景点,直到目标变成由一些单像素宽弧线和曲线所构成的集合。这些单像素的曲线和弧线很好地保持了目标形状的相连性(也叫拓扑性质),是一种原始目标的很好的替代物。这类方法有早期的草火法和基于数学形态学的骨架提取算法。细化方法的缺点是:对于规则汉字的骨架提取不可避免的会出现许多笔画断裂和笔画末端的分叉,而且对间断和稀疏严重的汉字很难提取出完整的骨架(见图2)。数学形态学方法是细化方法的一种,图2(I)和(3)分别表示圆幼和黑体的原始汉字“岢”(此汉字为理想汉字),(2)和(4)分别为其采用基于数学形态学方法提取骨架的实验结果。由图2 (2)和(4)可知,对于规则汉字而言,此方法最大问题是会出现许多笔画末端的树枝状分叉,视吻合度较差。二十世纪八十年代末,形状分解方法被一些科学家用来抑制人造小分支的产生。形状分解算法的基本思路是将一个目标分解成一些简单的部分,然后分别对这些简单的部分进行骨架提取,从而得到整个目标的骨架。J.J.Zou等人利用约束Delaunay三角形(constrained Delaunay triangulation,Q)T)对形状特征进行分解。这些方法由于采用了比较契合数据特点的三角剖分,即使在复杂交叉区域也能够获得比较好的骨架提取效果。但是由于该方法涉及到形状的三角剖分和规则性分析以及区域融合等算法,计算复杂度很高,且这些方法只适用于理想汉字,对低质汉字问题处理效果并不理想。总之,迄今为止,低质汉字骨架提取依然是一个挑战性的问题,大部分现有的骨架提取算法并不能提取出符合人类视觉的低质汉字骨架。

发明内容
·
1.发明目的
本发明的目的是建立一个适用于低质汉字骨架提取的新模型和提出一种低质汉字初始骨架提取算法,从而解决低质汉字骨架提取这一模式识别和数字图像处理中的难点和热点问题。2.技术解决方案
本发明综合特征分析、聚类理论,提出了一种新的基于点云模型的低质汉字初始骨架提取算法,这种算法即使在严重降质的情况下,依然能够获得较好的初始骨架提取结果。本发明首先建立了低质汉字的点云模型,在点云模型基础上进行初始骨架提取。具体处理技术方案如下:
首先,本发明将低质汉字看成是由像素点云构成的,并且从像素点云数据中进行骨架提取,这种提取汉字骨架的模型被称为点云模型。基于点云模型,低质汉字可以看作是二维平面点阵图像,表示为:
A表示低质汉字像素点,这里用黑点表示,B为像素点的个数。假设S是低质汉字的骨架。骨架提取的目标就是从5中找到一些满足下面目标函数的线段集合,此时将骨架提取问题转化为一个优化的问题:
权利要求
1.基于点云模型的低质汉字初始骨架提取算法,其特征在于: (1)建立适用于低质汉字骨架的模型---点云模型; (2)在点云模型的基础上,采用增量广义I均值聚类方法获取初始骨架。
2.如权利要求1所述的初始骨架提取算法,其特征在于建立点云模型: 低质汉字可以看作是二维平面点阵图像,表示为:
3.如权利要求1所述的低质汉字骨架提取算法,其特征在于提出了增量广乂JT均值聚类方法获取初始骨架的步骤如下: (1)初始化:读入低质汉字的数据点集,将Jf看作一个Voronoi区域,标准化变换后计算出第一主成份线段各;记初始线段为禺对应的VOTonoi区域为作为线段数目迭代的初值,HUfflr^er = 3表示Voronoi区域内数据点数目的阀值为3; (2)添加新区域:首先选择新的关键点,关键点满足公式(2),然后根据(3)公式确定新的Voronoi区域:
全文摘要
本发明公开了一种基于点云模型的低质汉字初始骨架提取算法,即基于点云模型的增量广义均值聚类算法,涉及到一种计算机图像处理技术。该算法综合特征分析、聚类理论,对低质汉字进行初始骨架提取首先用带长度约束的第一主成份线段作为迭代的初始值;然后逐步增加关建点以形成新的Voronoi区域,其中关键点按目标函数最大下降的准则选择;接着寻找Voronoi区域的第一主成份线段;最后调整原有Voronoi区域;通过不断的迭代,最终得到低质汉字的初始骨架。本发明提出的算法即使在严重降质情况下也能够获得满足原始汉字拓扑结构的初始骨架,提高了低质汉字中提取初始骨架的准确性,可以运用在中文信息处理、机器翻译、人工智能等技术领域。
文档编号G06K9/46GK103186787SQ201110458349
公开日2013年7月3日 申请日期2011年12月31日 优先权日2011年12月31日
发明者廖志武, 胡绍湘, 侯显玲 申请人:廖志武, 胡绍湘
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1