一种基于笔画的汉字图像修复方法

文档序号:6379839阅读:469来源:国知局
专利名称:一种基于笔画的汉字图像修复方法
技术领域
本发明属于虚拟现实技术和计算机视觉领域,特别是涉及图像修复和汉字笔画提取。
背景技术
图像修复技术是图像恢复技术一个重要分支,应用于古籍、古画等文物保护和破损修复,是一种对受损图像进行修改的技术。图像修复技术的发展方向主要有两个。一是从图像修补的含义本身出发,即对图像上细小的斑点、划痕的修补,但不能修补大面积的纹理区域。该分向的大部分图像修复模型都是基于偏微分方程或变分问题。基于变分问题的修复模型具有良好的理论基础,但是修复图像不自然,选定的目标区域轮廓明显。而用基于偏微分方程的方法来修复图片上大面积的空白区域时会产生严重的模糊现象。二是对于大 区域的修补,这类方法主要是基于样本的图像修复方法和纹理合成技术,有效的避免了模糊现象的发生。利用图像的纹理信息来引导纹理合成的过程,有效地提高了图像的修复质量,保持了图像结构纹理。而这种方法的主要问题主要是在损坏区域的结构信息恢复上。如Criminisi等人的基于样例(example-based)的图像修复方法,他们利用受损区域周围信息的isophote方向和发线方向为待修复区域块设置优先值,优先级大的部分将优先被修复,优先级小的像素将押后修复,这些优先级记录在一张表中。在修复中通过不断的更新表中的各像素优先级来引导修复的优先次序,以达到保持图像在该部分结构连续的目的。但是这种方法只能保持线性(如直线)结构,对于曲线结构(如物体的轮廓)效果难以人满意。为解决这一问题,Sun等人提出了一种基于结构传播(structure propagation)的图像修复方法。在这种方法中,首先由用户通过添加辅助线的方式指定图像中损坏区域周围结构在损坏区域延伸的方式,即根据人的经验喜好等画出损坏区域的结构线(损坏物体的部分轮廓),并且这些曲线经过外围的结构。添加完辅助线以后将损坏区域周围的结构信息沿辅助线“传播”到损坏区域内,即结构传播。在结构传播完成后再利用纹理合成的方法修复剩余的区域。这种方法在一定程度上解决了纹理方法中结构恢复的问题,缺点是需加入人工交互。为了使修复后对图像更加自然、顺畅。Hays等人采用建立图像集的办法,来寻找损害区域可能的信息。这种方法在修复图像时,要从数以百万的图像中匹配到和损坏图像可能相似的图像,然后利用该图像对应部分来填补图像损坏区域。这种方法有点是在找到匹配的图像时,能够有效恢复原图像丢失部分(填补的信息与周围信息兼容)。缺点是修复结构依赖于图像库,且匹配相似图像的过程十分的耗时间。对于汉字图像(如书法,碑文等)来说,最要的便是其结构特征(如轮廓信息等)。修复汉字的图像主要的便是恢复损坏部分结构信息,采用添加辅助线的方法需要过多的人工干预,且非专业人士难以正确的添加辅助线(恢复汉字的轮廓)。采用汉字集的办法,难点在于很多书法和碑文只有少量的可用样本(很多书法家留下的笔墨并不多),无法建立有效的样本,以至于在匹配时找不到合适的修复样本,而导致修复错误或不符合汉字构型相关知识。

发明内容
本发明技术解决问题克服现有图像技术无法有效恢复图像损坏部分结构信息的缺点,提供一种基于笔画的汉字图像修复方法,解决了图像修复难以恢复损坏区域结构信息的缺点,能够有效对汉字图像进行修复。本发明所采用的技术方案是一种基于笔画的汉字图像修复方法,其特征在于如下步骤步骤I、将图像中未损坏汉字分解为汉字基本组成元素笔画,并将原汉字中的部件和得到的笔画的轮廓放在一起,建立一个用于修复的笔画模板集合,集合中的笔画称为模板笔画,部件称为模板部件;步骤2、在修复损坏汉字时,获得损坏汉字图像中待修复区域周围的笔画轮廓段, 对这些轮廓段进行形状描述,即建立用于表示轮廓点之间关系的点与点间连线夹角的矩阵,然后采用部分轮廓匹配方法在笔画模板集合中找到轮廓段的在模板笔画或部件上的对应轮廓段,由这些对应轮廓段确定可能的相似笔画作为候选笔画;步骤3、一个候选的相似笔画包含多个对应轮廓段,采用K-相邻段,即KAS的方法描述由对应轮廓表示的候选笔画,然后与同样由KAS表示的损坏笔画,找出与损坏笔画最相似的笔画;步骤4、利用找到的最相似的笔画或部件去恢复汉字对应的损坏部分,并利用图像修复的方法恢复相应的图像纹理部分。所述步骤I中笔画提取的步骤如下(I. I)输入汉字图像,提取汉字的轮廓,利用均匀采用与关键采样相结合的方法获得轮廓的采样点表示;(I. 2)以轮廓的采样点为点集,进行受约束的Delaunay三角化,建立汉字的三角网格表示;(I. 3)根据三角网格中三角形中内边的数目将三角形分为三类末端三角形、正规三角形和连接三角形,合并相邻的连接三角形,得到汉字交联区域即模糊区域的多边形表示;(I. 4)检测完汉字的交联区域后,汉字被分为两部分笔画段和交联区域,以笔画段和交联区域为节点,以笔画段和交联区域连接关系为边建立汉字的图表示;(I. 5)提取笔画段的特征,分析与同一个交联区域相连的笔画段的连续性,如果两个笔画段Vi和 ' 在交联区域Vn连续,那么在图中两个笔画段节点Vi和 ' 通过交联区域连通Vn,即图中存在由Vi经过Vn到Vj的一条路径;(I. 6)搜索图中由一个端点到另一个端点的连通路径,图中的每一连通的路径表示一个笔画,利用B-样条方法恢复笔画连接部分,形成笔画;(I. 7)将提取的笔画和构成原汉字的连通域部件的轮廓放在一起,组成一个用于修复的笔画模板的集合,集合中的笔画称为模板笔画,部件称为模板部件。所述步骤2中部分轮廓匹配方法的实现步骤如下(2. I)获得损坏汉字中损坏区域周围的轮廓段,建立每个轮廓段进行形状描述矩阵A。,其元素为% =A(P1PpPiPB), Pi、Pj和是轮廓中的三点,a Jj是三点连线的夹角;(2.2)建立模板集合中各模板笔画和部件轮廓的形状描述矩阵Ai,其元素为 =<·{Ρ,Ρ: }Ρ \),Pi、Pj和Ρ」-δ是轮廓中的三点,a ij是三点连线的夹角;(2. 3)采用积分图的方法去计算矩阵Atl和Ai中相似的矩阵块,每个矩阵块代表相应的轮廓段;(2. 4)调节轮廓段表示点的数目,改变匹配的尺度,继续匹配,找到尺度范围[I/a, a]内的最佳匹配块,即对应轮廓段,其中a为常数,可取值a = 5。本发明与现有技术相比的有益效果在于本发明在图像修复技术的基础上,加入 对汉字结构的分析,首先从笔画的层次上通过寻找相似笔画的方法去恢复汉字损坏部分的结构信息。在恢复汉字结构后,在采用结构传播的图像修复方法,去恢复丢失部分的图像信息。避免了图像修复方法无法恢复恢复损坏部分结构的缺点,能够有效对汉字图像进行修复。


图I是本发明的整体过程示意图;图2是本发明的笔画提取中汉字三角化表示和交联区域图;图3是本发明的笔画提取中的汉字图模型表示示意图;图4是本明的汉字修复中损坏笔画匹配示意图;图5是本发明的笔画提取的部分结果图;图6是本发明的汉字修复结果示意图,其中(a)是在笔画模板集合中含有损坏笔画时的修复结果;(b)是在笔画模板集合中含有相似但不相同笔画时的修复结果;(C)是在笔画模板集合中只含有部分相似笔画的修复结果。
具体实施例方式下面结合附图与实施例对本发明作进一步详细描述本发明实施过程包括四个主要步骤笔画提取,部分轮廓破匹配,相似笔画确定和汉字图像修复。如图I所示。步骤一、笔画提取,主要分为两个阶段,七个基本步骤第一个阶段基于三角网格的交联区域检测(I)首先从图像中获取汉字或其组件的轮廓点表示集合,记为C = (P1, p2,…,pn},η是轮廓点的数目。利用关键点采样和均匀采样获得采样点。(2)汉字的三角网格表示。以采样点为顶点集,轮廓线为约束,进行受约束的Delaunay三角化(⑶Τ),可得到汉字的三角网格表示。将三角网格中的三角形,可根据构成三角形的内边(同时属于两个三角形的边,IE)的数目将三角形划分为三类末端三角形,位于笔画的两端;正规三角形,位于笔画交联区域与末端之间,图2中为浅色三角形;连接三角形,位于笔画的交联区域内,图2中为黑色填充三角形。由图2 (左图)可以看出,连续的正规三角形位于末端三角形与连接三角形之间,可形成笔画段。连接三角形位于可能位于交接区域。(3)交联区域的多边形表示。获取对于每个候选连接三角形的中心点,对每个中心点求取在角度上点到轮廓的距离(PBOD)的分布曲线,曲线中波峰的个数为三角形的特征值,如果一个三角形的特征值小于3,那么该连接三角形是伪连接三角形,应予以剔除。(若任意两个连接三角形中心距离在一定范围内,那么所在的区域同属一个笔画交叉区域,需要进行合并,然后建立以这些顶点为顶点的凸多边形,这个凸多边形所包围的区域便是笔画的交接区域。如图2 (右图)所示。第二个阶段基于图路径搜索的笔画方法(4)图模型表示。采用一个无向图G=(V,E)来对汉字进行建模,如图3,其中V和E分别是图G中的节点和连接边的集合,而汉字中的每个交接区域和子笔画唯一地对应V中的一个节点。(5)提取笔画段特征。在笔画提取的方法中有许多的特征被提取出来,用于表述笔画段局部或全局的特征,并通过比较两个笔画段的特征来判定笔画段的连接性,即如果两笔画段的特征之间满足一定条件,则两笔画段在交接区域处连续,属于同一笔画。本发明采 用的特征包括(a)连接处的笔画宽度具有连续性关系的笔画段,在连接出的宽度也应该具有连续性,即属于同一笔画的两笔画段在连接处的宽度近似。(b)笔画段的角度偏差具有连续关系的笔画段,在本身的角度上偏差很小,即笔画段位于交接处的中轴线的角度偏差很小。(C)曲率变化具有连续性关系的笔画段的轮廓线在交接处的曲率没有明显的突变。求取每个笔画段的特征后,可形成一个特征向量X= [w, α, β],w为笔画段的宽度估值,α为笔画段的角度估值,β为笔画段的曲率估值。(6)连续性判断和图路径搜索。对于任意非孤立笔画段Ri,对应图G中节点Vi,与Vi相连的交联节点为Vn,Rj是与Vn相连的另一笔画段,对应节点为Vi和 ' 对应的特征向量分别为XdP X」。那么,vjp Vj的连续性估值为fU= (Xi-Xj) *WT,其中,W= {ω1; ω2, ω3},为各项差值在连续性估值中的权重,取值与字体风格有关。如果,选择使得值最小的Vi和Vj,且minimize (fi;J)小于一定的阈值Tf,那么,就认为Vi和Vj为连续性笔画,即属于同一笔画,需要合并,记为C (Vi, vn, Vj)。如果两个笔画段Vi和 ' 在交联区域Vn连续,那么在图G中两个笔画段节点Vi和 ' 通过交联区域连通vn,即图G中存在由Vi经过Vn到 ' 的一条路径;遍历所有交接区域顶点,计算所有与该交接区域连接的笔画段的连续性关系。搜索图G中由一个端点到另一个端点的连通路径,图G中的每一连通的路径表示一个笔画,利用B-样条方法恢复笔画连接部分,形成笔画;图5给出了一些笔画提取的结果。(7)将提取的笔画和构成原汉字的连通域部件的轮廓放在一起,组成一个用于修复的笔画模板的集合,集合中的笔画称为模板笔画,部件称为模板部件。步骤二、基于部分匹配的轮廓段对应(I)轮廓描述。这种描述应满足既能一个轮廓的全部又能表示其中的任意一部分,匹配方法应能使进行轮廓中任意部分间的匹配而不受其它部分的影响。给定一个损坏的笔画轮廓或模型轮廓C,建立两矩阵去表示和描述它的几何形状信息角度矩阵A去描述它。
角度矩阵定义为:A(JJ) = a“ 二PiPi x ),其中角a Jj是点Pi与点P」间的连线和点
1与依赖点Pj位置的第三个点Pj-Λ (Δ是个常数值)间连线的夹角。寻找对应轮廓段的过程就是计算矩阵中相似块的过程,采用积分图像的方法去计算。(2)对应轮廓匹配。给定一个图像,提取笔画后,得到一个笔画模型的集合M =
,每个笔画模型的轮廓表示为Mk = (P1, p2,…,pn},其中η表示采样得到的轮廓点的个数,本发明中η为一个固定的数。同样的给定一个损坏笔画,能得到该笔画剩余的轮廓段的集合E= Ie1, e2, ,每个笔画段可表示ei = Iq1, q2,…qj,其中m表示等距采样得到的轮廓点的数目,依赖于轮廓段的长度和采样距离。根据前面描述方法,为ei建立两个mXm的描述关系矩阵,为Mk建立两个nXn的描述关系矩阵。本发明的目的是找到轮廓段ei与模型轮廓Mk间的最佳匹配段,即找到ei在Mk中的最佳对应段Mk(j,I),其中j对应段的起点,I表示对应段的长度(取决于61的采样点数)。采用文献中的积分图像算法(Integrallmage algorithm),计算描述矩阵中所有可能的子块间的相似值,取其中使相似值最大的子块所对应的轮廓段作为ei的最佳匹配段,记为Γ (i,j,k,I) = (ei,Mk(j,i)),SP轮廓段ei在模型Mk中的最佳对应段为Mk(j,I)。通过改变轮廓段ei采样点的数,控制的匹配的尺度,本发明的尺度范围设置为[1/a, a] ,a a为一常数,取值为a = 5。步骤三、相似笔画确定在得到轮廓段的对应轮廓段后,选取拥有对应轮廓段的数目等于损坏笔画剩余轮廓段的数目的模板笔画作为候选相似笔画。利用KAS方法从候选笔画中,找出最相似的模板笔画。把待修复笔画的剩余轮廓段和每个候选笔画中的对应段都看作KAS,表示为
Pi= {s^Sh.HSk}。P 被描述为
权利要求
1.一种基于笔画的汉字图像修复方法,其特征在于步骤如下 步骤I、将图像中未损坏汉字分解为汉字基本组成元素笔画,并将原汉字中的部件和得到的笔画的轮廓放在一起,建立一个用于修复的笔画模板集合,集合中的笔画称为模板笔画,部件称为模板部件; 步骤2、在修复损坏汉字时,获得损坏汉字图像中待修复区域周围的笔画轮廓段,对这些轮廓段进行形状描述,即建立用于表示轮廓点之间关系的点与点间连线夹角的矩阵,然后采用部分轮廓匹配方法在笔画模板集合中找到轮廓段的在模板笔画或部件上的对应轮廓段,由这些对应轮廓段确定可能的相似笔画作为候选笔画; 步骤3、一个候选的相似笔画包含多个对应轮廓段,采用K-相邻段,即KAS的方法描述由对应轮廓表示的候选笔画,然后与同样由KAS表示的损坏笔画,找出与损坏笔画最相似的笔画; 步骤4、利用找到的最相似的笔画或部件去恢复汉字对应的损坏部分,并利用图像修复的方法恢复相应的图像纹理部分。
2.根据权利要求I所述的基于笔画的汉字图像修复方法,其特征在于所述步骤I中笔画提取的步骤如下 (I. I)输入汉字图像,提取汉字的轮廓,利用均匀采用与关键采样相结合的方法获得轮廓的采样点表示; (1. 2 )以轮廓的采样点为点集,进行受约束的De I aunay三角化,建立汉字的三角网格表不; (I. 3)根据三角网格中三角形中内边的数目将三角形分为三类末端三角形、正规三角形和连接三角形,合并相邻的连接三角形,得到汉字交联区域即模糊区域的多边形表示; (I. 4)检测完汉字的交联区域后,汉字被分为两部分笔画段和交联区域,以笔画段和交联区域为节点,以笔画段和交联区域连接关系为边建立汉字的图表示; (I. 5)提取笔画段的特征,分析与同一个交联区域相连的笔画段的连续性,如果两个笔画段Vi和Vj在交联区域Vn连续,那么在图中两个笔画段节点Vi和Vj通过交联区域连通vn,即图中存在由Vi经过Vn到Vj的一条路径; (I. 6)搜索图中由一个端点到另一个端点的连通路径,图中的每一连通的路径表示一个笔画,利用B-样条方法恢复笔画连接部分,形成笔画; (I. 7)将提取的笔画和构成原汉字的连通域部件的轮廓放在一起,组成一个用于修复的笔画模板的集合,集合中的笔画称为模板笔画,部件称为模板部件。
3.根据权利要求I所述的基于笔画的汉字图像修复方法,其特征在于所述步骤2中部分轮廓匹配方法的实现步骤如下 (2. I)获得损坏汉字中损坏区域周围的轮廓段,建立每个轮廓段进行形状描述矩阵K其兀素为% = PP-Pi/} \) · Pi> Pj和Pj—Δ是轮廓中的二点,α ij是二点连线的夹角; (2.2)建立模板集合中各模板笔画和部件轮廓的形状描述矩阵Ai,其元素为a,jPi>Pj和是轮廓中的三点,a ij是三点连线的夹角; (2. 3)采用积分图的方法去计算矩阵Atl和Ai中相似的矩阵块,每个矩阵块代表相应的轮廓段;(2. 4)调节轮廓段表示点的数目,改变匹配的尺度,继续匹配,找到尺度范围[1/a,a] 内的最佳匹配块,即对应轮廓段,其中a为常数,取值a = 5。
全文摘要
一种基于笔画的汉字图像修复方法,属于计算机虚拟现实技术和机器视觉领域,将修复汉字所用到的信息限定在本图像或与其同源的几张图像中。在修复汉字前先将图像中为损坏的汉字分解为笔画。然后建立一个包含汉字及其笔画的模板集合。修复汉字时,提取损坏汉字的未损坏部分汉字或笔画的轮廓,利用部分轮廓匹配的方法,在笔画集合找到剩余轮廓的对应轮廓段,进而由对应轮廓段确定对应的可能笔画,然后从可能的相似笔画中选出与原笔画最可能相似的笔画,最后根据对应模板去恢复汉字损坏部分并修复相应的图像部分。本发明相比其它图像修复的方法,本发明能够较好的恢复汉字损坏部分的结构信息。
文档编号G06T7/00GK102968764SQ20121041706
公开日2013年3月13日 申请日期2012年10月26日 优先权日2012年10月26日
发明者梁晓辉, 王晓卿, 孙林嘉 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1