一种面向碑文的汉字提取方法_2

文档序号:9274921阅读:来源:国知局
alse。
[0040] (5. 5)ICk: =ECk〇
[0041] ⑶完成AreaVoronoi图的构建。
[0042] 步骤二、Voronoi区域合并。
[0043] 如图1所示,图像中的每个连通域都用一个Voronoi区域表示,但每个区域根据是 否包含汉字组件分为汉字连通域和非汉字连通域,汉字区域定位即为合并汉字连通域,去 除非汉字连通域。本发明中采用相邻连通域中组件宽度的标准差作为衡量两个Voronoi区 域是否属于汉字区域,是否相似,以后是否需要合并。
[0044] 其主要步骤为:
[0045] (1)建立欧式距离变换矩阵,求出每个连通域的骨架,然后计算同一骨架上的每 个点到连通域边界的最小距离,将这些距离的均值的2倍的均值作为连通域中组件的宽度 thickness(gk),具体为:
[0046]

[0047] 其中,sk为骨架上的一点,n为骨架上点的个数,Ck表示连通域的轮廓, min(d(Si,Ck))表示骨架上点sk到轮廓边界的最短距离。
[0048] (2)选取位于图像中心的Voronoi区域作为初始区域,计算与该连通域相邻的连 通域之间的标准差。其中,任意两个连通域^和g,_之间组件宽度的标准差定义为:
[0049]
(2)
[0050] (3)比较标准差值的大小,由于标准差出现较大的值主要集中在非汉字连通域之 间,因此设定合适的阈值,即可通过标准差的大小判断是否为汉字连通域。该阈值的定义 为:
[0051]
(3)
[0052] 步骤三、碑文图像列分割
[0053] 定位出碑文图像中的汉字区域后,需要对图像进行二值化处理,方便与进行列分 割的操作。但由于图像中本身还有一定的噪声,直接进行二值化会使得噪声影响后续的分 割结果,因此本发明中先采用TV平滑算法对图像进行预处理操作,过滤掉图像中部分噪声 再进行二值化操作。之所以选取TV平滑算法,因此该方法能够很好的保留汉字的结构信 息,不会发生其他平滑算法模糊图像的情况。
[0054] 根据碑文书法作品在列方向上排列具有一定的规整性,采用直方图投影的方法, 统计每一列中图像黑色像素的个数,由于两列汉字之间存在一定的背景区域(即白色像 素),使得直方图投影中出现局部最小值,呈现"波谷"的现象,可由此作为列切割的依据。
[0055] 同时为了避免某些汉字的突出部分对于切割的干扰,采用连通域以及轮廓跟踪二 者相结合的方法来进行处理。主要过程如下:
[0056] (1)当切割图像中某一列遇到目标像素点时,对该点附近的图像提取相应的连通 域,提取连通域中与该点横坐标相同的边界点X。
[0057] (2)进行轮廓追踪操作,以最短的距离连接目标像素点与边界点X,将该最短轮廓 记为分割点序列。
[0058] 步骤四、单字切分。
[0059] 分析汉字的构成,主要是由基本的笔画(点、横、竖、撇、捺等)组成,各个笔画相互 连接,组成汉字的偏旁部首,也可称为汉字的部件。通过分析汉字中部件之间的关系,可得 到如图3所示的九种情况,概括为上下结构(例如昌、晨等)、左右结构(例如你、说等)、包 含结构(例如图、困等)、半包围结构(例如句、巨等)。当图像质量较差时,划分连通域时 会将同一汉字的不同组件划分到不同的连通域中,同时也会将不同汉字的不同组件划分到 同一连通域中,造成"粘连"的情况。以连通域的外接矩形作为连通域的特征,可将汉字的 九种部件结构简化为连通域与外接矩阵的三种关系:上下关系、左右关系以及重叠关系。
[0060] 如图4所示,表示了两个连通域gJPg」存在着重叠关系,以(Li, %)和取,DD分 别为^的外接矩形对应左上角和右下角的坐标表示。连通域的相关定义如下:
[0061] 宽町(1也化)=氏-1^
[0062]高Height (gj=Di-Ui
[0063] 宽高丨
[0064]面积Square (gj=Width (gj X Height (gj
[0065] 相邻连通域进行合并以后的相关定义为:
[0066]宽度Uwidth(g"gj) =max(Ri;Rj)-min(LpLj)
[0067]高度Uheight (g" gj)=max (Di; Dj) -min (Up Uj)
[0068]宽高
[0069]重叠的宽度Owidth(gi,gj) =Width (gj +Width(gj)-Uwidth(gi,gj)
[0070]重叠的高度Oheight(gi,gj) =Height (gj +Height(gj)-Uheight(gi,gj)
[0071]重叠的面积Osquarek,gj) =Owidthk,gj)XOheighUgi,gj)
[0072] 上述定义的单位都是以像素点的个数进行表示的。
[0073] 对于连通域的重叠关系进行量化表示之后,就可以进行下一步的单字切分的操 作。
[0074] 获取单列的汉字区域后,并每一列图像提取其中的连通域,记为Ck(k= 1,2, ...,M),其中M为连通域的个数。这M个连通域有的表示完整的单个汉字,有的是则是 不同汉字的不同部件之间的组合,需要对其进一步的细分,合并同一汉字的不同组件。其主 要的切分算法的伪代码如图5所示。
[0075] 利用上述实施过程,对无噪声的碑文图像和有噪声的碑文图像同时进行的汉字提 取的操作,其结果如图6和7所示,结果表明本发明具有一定的有效性和抗噪性。
【主权项】
1. 一种面向碑文的汉字提取方法,其特征在于包括以下步骤: 步骤(1)、采用扩展边界的方法构建碑文图像的Area Voronoi图,每个Voronoi区域表 示一个连通域,每个连通域根据其中是否包含汉字可分为汉字连通域和非汉字连通域;由 于汉字的离散性,在构建Area Voronoi图的过程中会造成单个汉字笔画之间的分离,从而 分属于不同的连通域中,因此对于汉字连通域而言只包含部分汉字,称为汉字的组件; 步骤(2)、根据连通域组件宽度标准差之间的差异性,去除非汉字连通域,并合并所有 的汉字连通域,从而可定位出碑文图像中的整个汉字区域; 步骤(3)、对汉字区域图像进行TV平滑操作去除一定的噪声点,之后进行二值化,使得 图像只包含黑白两种像素方便后续操作;计算二值图像中的列投影直方图,根据碑文书法 列分布的间隔性规律,分割出单列的汉字区域; 步骤(4)、提取汉字图像列中的连通域,该连通域可能包含单个完整的汉字,也可能为 不同汉字的不同部分的组合,因此需要对连通域进行重组;分析常见的九种汉字结构特点, 将连通域外接矩形之间的关系总结为三种情况:上下关系、左右关系和重叠关系,根据这三 种关系进行有效的提取出汉字。2. 如权利要求1所述的面向碑文的汉字提取方法,其特征在于:所述步骤(1)中构建 Area Voronoi图的步骤如下: 步骤(11)、首先对图像进行连通域划分,每个连通域对应一个闭合的多边形,并对各个 连通域以及未被划分成连通域的背景点进行标记; 步骤(12)、采用Freeman编码链表示每个连通域的轮廓,并对轮廓上以及轮廓内部的 像素点进行初始化,初始值为所对应轮廓的标记; 步骤(13)、采用扩展Freeman编码链的方式扩展连通域的边界;同时对扩展轮廓上的 每一个点进行判断,如果该点同时也位于另外一个连通域轮廓上,那么该像素点可视为一 个Voronoi边界点,设置其值为EDGE_POINT ;否则如果该点只是一个背景点,则设置其值为 相应的轮廓的标记; 步骤(14)、迭代的扩展、判断、标记每个连通域,当平面上所有的像素点都不再包含背 景像素时,即表示所有的像素点要么归属某一个Voronoi区域,要么为区域的边界点,由此 完成了图像的Area Voronoi图的构建。
【专利摘要】本发明是一种面向碑文的汉字提取方法,主要包括基于Area Voronoi的汉字区域定位方法和基于连通域和包围盒的单字切分方法两个部分。首先针对碑文图像中汉字的分布规律和特点,获取图像中的连通域作为生成元,并利用Freeman编码链来表示每个连通域的轮廓。采用扩展轮廓边界的方法构建出图像的Area Voronoi图。然后根据连通域间的标准差,合并相邻的Area Voronoi区域,从而完成汉字区域的定位操作。在获取汉字区域图像之后,对其进行预处理,去除一定的噪声影响。通过归纳汉字的结构特点,将连通域分析法和包围盒交叠判断法二者相结合,对汉字进行单字提取。本发明针对古代碑文的排列规律,能够较好的完成单个汉字的提取工作,并具有一定的抗噪性。
【IPC分类】G06K9/46, G06K9/34
【公开号】CN104992176
【申请号】CN201510441259
【发明人】齐越, 王晨, 王晓卿, 邹玲, 韩尹波, 罗江
【申请人】北京航空航天大学
【公开日】2015年10月21日
【申请日】2015年7月24日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1