一种基于形状匹配的汉字图像检索方法

文档序号:9249328阅读:662来源:国知局
一种基于形状匹配的汉字图像检索方法
【技术领域】
[0001] 本发明属于计算机视觉与计算机图形学领域,具体地说是结合不变矩和形状上下 文算法的W二维形状轮廓信息为特征的汉字图像检索的方法,该方法可用于碑文字帖中的 书法字检索,相似字查找等方面。
【背景技术】
[0002] 书法作品和碑文是汉字的相对完整和艺术的表现形式,在当今社会,多媒体技术 不断发展,同时互联网已经基本实现全面普及,图像信息已然成为了一种十分重要的信息 资源被人们广泛使用,大量的汉字作品信息也W图像的方式进行存储。伴随着越来越多的 汉字作品不断被发现,汉字的分类、作者的确认等工作变得非常复杂和繁琐,因此研究者需 要对汉字图像信息资源实现管理和检索工作显得越来越困难。在早期的图像检索中,研究 者们一般使用文本描述的方式来进行检索,并将其称为基于文本的检索技术(TBIR)。基于 文本的图像检索沿用了传统文本检索技术,回避对图像可视化元素的分析,而是从图像名 称、图像尺寸、压缩类型、作者、年代等方面标引图像,一般W关键词形式的提问查询图像, 或者是根据等级目录的形式浏览查找特定类目下的图像。该种检索方式立足于文本,对图 像进行检索。将传统的文本检索技术移植于对多媒体信息的检索上,因为基于文本的检索 技术发展已经成熟。如化ge-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、 词性标注法等,不仅技术发展较为成熟,同时分析和实现的难度略小。但是因为受控词汇本 身的局限,易歧义,更新慢,所W不太容易应对网络上日新月异的各类图像,而且效率较为 低下,通用性不好,因而往往不能满足人们的需要。

【发明内容】

[0003] 汉字图像检索的两个主要关键在于高效性和准确性,为满足该个要求,同时克服 上述方法的缺点,本发明在提供一种两层的层次化的检索框架,在第一层中使用形状的几 何特征即汉字图像的边缘信息来建立索引。而化不变矩特征描述在引二层中用W对第一 层中的检索结果进行二次检索,进行第二次过滤,实现检索的准确性。
[0004] 为了达到上述目的,本发明提出了一种基于形状匹配的汉字图像检索方法。首先 提出了一个基于形状上下文和化不就业矩两种分层特征描述方式,然后使用该两种方式 分层次进行近似匹配。检索的过程都采用某种相似性度对图像库中图像进行匹配获得查 询结果,但本发明与常规数据库检索的匹配方法不同。在对汉字图像进行特征提取和建立 索引的过程是最复杂的,在该过程中,本发明使用了离线的方式由计算机自动对各汉字图 像进行汉字图像特征提取,汉字图像分类。避免了人工描述的不客观,也减少了用户的工作 量,一定程度上提高了效率。
【附图说明】
[0005] 图1示出本发明基于形状匹配的汉字图像检索方法的主要流程图;
[0006] 图2示出本发明构建图像集中的部分归一化处理后的图像;
[0007] 图3示出本发明部分检索结果。
【具体实施方式】
[000引如图1所示,本发明的基于形状匹配的汉字图像检索方法采用如下步骤:
[0009] (1)对数据库中的所有汉字图像进行预处理。由于本发明主要针对的是古代书法 家遗留下来的碑文字贴的书法字进行检索,所W在经过首先要对获取到的书法字进行分割 等处理。首先对获得的碑贴整体图像进行单字分割,考虑到古代书法的书写习惯为从上至 下书写的,所W先对获取的书法图像纵向投影,即将碑文上所有汉字的像素点投影到横轴 上,根据投影到横轴上的坐标把整个碑文划分为若干列,由于上述的书写特点每一列的汉 字基本对齐,不存在错误分割现象对于分割成不同列的图像,在横向同样进行投影,根据各 个汉字的像素点投影到纵轴上的坐标,将已经划分为列的汉字再划分成不同的单个汉字。 但是由于碑文中汉字横向大多不对齐,因此直接分割会导致一个问题;对于写的比较分散 的上下结构单字,可能会将其判定并分割为两个单字,产生错误的结果。解决上述问题的方 法是在进行横向分割时,设定一个合适的阔值,上下两部分距离处于该个阔值内时,则认为 上下两个部分为同一个汉字图像。对提取的单字汉字图像进行归一化,归一化之后的图像 其特征易于提取且匹配准确度要更高。
[0010] (2)使用改进的化不变矩对汉字图像建立索引。经过上述处理的单字图像组成检 索数据库,对检索数据库中的图像进行边缘检测及轮廓提取、形状特征提取并转化为向量 表示,特征提取采用改进的化不变矩和改进的形状上下文描述算法。具体实现如下:
[0011] 假定描述一幅数字图像的函数f(x,y),当在连续情况下时,我们可W对该图像定 义一个几何矩,该几何矩一般也被称为标准矩,其阶数为(U+V);
[0015] 其中來和憂分别代表图像重屯、的横坐标和纵坐标,定义如下:
[0016]
[0017] 其中,muY表示(U+V)阶中屯、矩,U,V为上式中的m的下标。
[0018] 此外,定义归一化的中屯、距为:
[0019] 巧W=耗《|/(扭&>)'其中P= (U+V)/化 1 (14)
[0020] 根据W上定义,我们构造出走个不变矩Ii~I7,该走个不变矩的构造都使用二阶 和S阶的归一化中屯、距来实现。
[0021] Ii=n20+n〇2 (巧)
[002引方2 =(化0+嘴2)' + '1怖(1<3)
[002引 Is=(n30+3n)2+(3ri2i-n03)2 (17)
[0024] l4=U3〇+rii2)2+U2i+n〇3)2 (18)
[002引 Is=(n30-n。)(riso+n。)[(n30+rii2)2-3(q2i+q03)2)] + (3n2i-q〇3)川21+^3〇) 巧 U3Cl+ni2)2-U21+nci3)2] (19)
[0026] Ie= (n2〇-n02) [ (n30+n12) 2-U21+n03) 2] +4nnU30+n12)U21+n03) (2〇)
[0027] 1产(3n21+n03)U30+n12) [(n30+n12) 2-3(n21+n03) 2] +(n30-3n12)U21+n30) 巧(113。叫12)2-1121+口。3)2] 口 1)
[002引式中riuv表示(u+v)阶归一化中屯、矩。u,V为上述各式中的n的下标u,V= 0, 1,2, 3。
[0029] 该走个不变矩构成一组
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1