一种面向碑文的汉字提取方法

文档序号:9274921阅读:1405来源:国知局
一种面向碑文的汉字提取方法
【技术领域】
[0001] 本发明属于计算机视觉与计算机图形图像处理领域,具体地说是一种图像中文本 定位和单字提取的方法,该方法可方便对于古代汉字的研宄,对探宄古今汉字演变规律具 有十分重要的意义。
【背景技术】
[0002] 碑文,作为书法一种传统的艺术形式,记录了中国汉字从古至今的发展和演变的 历程。但由于碑文一般都经历过漫长的历史年代,同时还要遭受自然腐蚀等的影响,使其不 利于永久的保存和传播。随着计算机的普及以及相关扫描设备的发展,碑文可以被扫描成 数字图像存储在计算机中,有效的提取出碑文中的汉字对后续的汉字结构分析以及探宄古 今汉字的演变规律具有十分重要的意义。
[0003]目前对图像进行文本定位的方法主要以下三种:一是基于连通域的方法,如 Zhang等人提出了一个基于高阶马尔科夫随机场的框架,能够根据最大似然准则和结点状 态的后验概率判断是否为汉字区域。该类算法针对背景较为单一的图像具有很好的定位效 果,但是其性能依赖于初始连通域生成,对于背景纹理较为复杂的图像则面临考验;二是基 于边缘的方法,该类方法侧重于文字和背景之间的高对比度,时间效率较高,但不能去除复 杂的纹理背景,常与其他算法相结合,作为初始的粗定位;三是基于纹理的方法,Wu等人利 用三种不同尺度的高斯滤波器对图像进行滤波并进行线性变换,提出了一种多尺度纹理分 割的文本定位方法。此类方法通常具有较高的鲁棒性,但由于需要进行纹理分析的计算量 大、复杂度高,较为耗时。
[0004] 现阶段针对碑文图像进行汉字提取的研宄并不多,由于碑文中的汉字排列不统 一,汉字的结构较为复杂,使得一般的汉字提取方法无法直接适用于该领域从而取得较好 的效果。

【发明内容】

[0005] 为克服上述缺点,本发明的目的在于探宄碑文图像中的汉字区域分布规律,研宄 汉字的结构特点,同时分析现有的文本定位和单字切分技术,为碑文图像的汉字获取提出 一种简单且有效的解决方案。
[0006] 为了达到上述目的,本发明提出了一种面向碑文的汉字提取方法,其特征在于包 括以下步骤:
[0007] 步骤(1)、采用扩展边界的方法构建碑文图像的AreaVoronoi图,每个Voronoi 区域表示一个连通域,每个连通域根据其中是否包含汉字可分为汉字连通域和非汉字连通 域;由于汉字的离散性,在构建AreaVoronoi图的过程中会造成单个汉字笔画之间的分 离,从而分属于不同的连通域中,因此对于汉字连通域而言只包含部分汉字,称为汉字的组 件;
[0008] 步骤(2)、根据连通域组件宽度标准差之间的差异性,去除非汉字连通域,并合并 所有的汉字连通域,从而可定位出碑文图像中的整个汉字区域;
[0009]步骤(3)、对汉字区域图像进行TV平滑操作去除一定的噪声点,之后进行二值化, 使得图像只包含黑白两种像素方便后续操作;计算二值图像中的列投影直方图,根据碑文 书法列分布的间隔性规律,分割出单列的汉字区域;
[0010] 步骤(4)、提取汉字图像列中的连通域,该连通域可能包含单个完整的汉字,也可 能为不同汉字的不同部分的组合,因此需要对连通域进行重组;分析常见的九种汉字结构 特点,将连通域外接矩形之间的关系总结为三种情况:上下关系、左右关系和重叠关系,根 据这三种关系进行有效的提取出汉字。
[0011] 进一步的,所述步骤(1)中构建AreaVoronoi图的步骤如下:
[0012] 步骤(11)、首先对图像进行连通域划分,每个连通域对应一个闭合的多边形,并对 各个连通域以及未被划分成连通域的背景点进行标记;
[0013]步骤(12)、采用Freeman编码链表示每个连通域的轮廓,并对轮廓上以及轮廓内 部的像素点进行初始化,初始值为所对应轮廓的标记;
[0014]步骤(13)、采用扩展Freeman编码链的方式扩展连通域的边界;同时对扩展轮廓 上的每一个点进行判断,如果该点同时也位于另外一个连通域轮廓上,那么该像素点可视 为一个Voronoi边界点,设置其值为EDGE_POINT;否则如果该点只是一个背景点,则设置其 值为相应的轮廓的标记;
[0015] 步骤(14)、迭代的扩展、判断、标记每个连通域,当平面上所有的像素点都不再包 含背景像素时,即表示所有的像素点要么归属某一个Voronoi区域,要么为区域的边界点, 由此完成了图像的AreaVoronoi图的构建。
[0016] 本发明的原理在于:首先对于获取的碑文图像,根据扩展边界的方法构建图像的 AreaVoronoi图,该图中的每个Voronoi包含了一个有效的连通域,该连通域根据是否包 含汉字可分为汉字连通域和非汉字连通域,通过一定的准则,合并汉字连通域,去除非汉字 连通域,从而定位出碑文图像中的汉字区域。接下来是单个汉字的提取操作,同样首先采取 连通域分析的方法初步表征区域中每个汉字,但此时划分出的区域中所包含的汉字并不完 整,是相邻汉字组合的结果。为了进一步细分区域,基于中国汉字常见的九种结构,归纳总 结了三种连通域的外接矩形的关系,分别为:上下关系、左右关系和重叠关系,利用这三种 关系,针对具有重叠的连通域进行下一步的细分操作,从而提取出有效的汉字。
[0017]目前针对碑文图像的汉字提取研宄并不多,本发明中深入的分析了碑文图像中汉 字分布的特征规律,与现有的一般图像的文本提取技术相比的优点在于:
[0018] (1)、考虑碑文图像中汉字的离散稀疏的分布特点,通过构建AreaVoronoi图的方 式对汉字区域进行划分,同时根据汉字的骨架宽度进行区域合并,能够有效的、针对性的定 位出汉字区域。
[0019] (2)、为了避免噪声的影响,首次采用了TV平滑的方法来去除碑文图像中细小的 噪声点,然后再进行二值化操作。同时在单字切分的过程中,对常见的九种汉字结构规律进 行归纳总结,提出了基于连通域及其包围盒的切分算法,实验结果表明,该算法能够简单有 效的提取出单个汉字。
【附图说明】
[0020] 图1示出本发明中针对碑文图像所构建的AreaVoronoi图;
[0021] 图2示出本发明中原碑文图像以及进行汉字区域定位后的结果图,其中,图(a)为 原碑文图像,图(b)为进行汉字区域定位后的结果图;
[0022]图3(a)、(b)、(c)、(d)、(e)、(f)、(g)、(h)、⑴示出本发明中归纳常见的九种汉 字结构;
[0023] 图4示出本发明中对连通域包围盒重叠关系的定义;
[0024] 图5示出本发明中单字切分算法的伪代码;
[0025] 图6示出本发明中碑文图像的汉字切分结果图,其中图(a)为碑文图像,图(b)为 碑文图像的汉字切分结果图;
[0026] 图7示出本发明中有噪声的碑文图像的汉字切分结果图,其中图(a)为有噪声的 碑文图像,图(b)为有噪声的碑文图像的汉字切分结果图;
[0027] 图8示出本发明的一种面向碑文的汉字提取方法的原理图。
【具体实施方式】
[0028] 结合附图对本发明实施例进行详细的描述。
[0029] 本发明的实施过程主要分成四个步骤:AreaVoronoi图的构建、Voronoi区域合 并、碑文图像列分割、单字切分。
[0030] 步骤一、AreaVoronoi图的构建,主要分为六个基本步骤:
[0031] (1)首先对图像进行区域划分,得到n个互不重叠的连通域,记为G= {gpg2,. . .,gn},每个连通域对应一个闭合的多边形,其标记值为k(k= 1,2,…,n)。同时将 图像中未被划分到连通域中的背景像素的值设为BACKGROUND_VALUE。
[0032] (2)位于连通域内部中的各个像素点,设置其像素值为该连通域的标记值k(k= 1,2,…,n) 〇
[0033] (3)利用Freeman编码链表示每个连通域的轮廓,记为ICk。并将位于轮廓上的点 的像素值设为k+M,其中M是个常量。
[0034] (4)初始化每个连通域gk的状态变量Fk: =true,其中k= 1,2,…,n。
[0035] (5)对于每个连通域gk判断其状态变量,如果Fk==false,则输出该连通域;如 果Fk==true,进行以下步骤。
[0036] (5. 1)根据Freeman编码链ICk,获得该轮廓的扩展轮廓链ECk。
[0037] (5. 2)对于轮廓链ICk上的每个像素点,如果它的值不为EDGE_VALUE,将其值设为 k(取代原来的k+M)。
[0038] (5. 3)对于扩展轮廓链ECk的每个像素点,比较其值的大小,如果位于M和M+k之 间,那么该像素点是位于其他连通域轮廓上的一个点,记为一个Voronoiedge点,并设置该 点的值为EDGE_VALUE。否则,如果值为BACKGROUND_VALUE,说明该点为一个背景点,设置其 值为相应的轮廓值k+M。
[0039] (5. 4)如果扩展轮廓上的所有点都不是背景点,则令Fk==f
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1