图像检索数据库建立方法

文档序号:6512014阅读:399来源:国知局
图像检索数据库建立方法
【专利摘要】本发明公开了一种图像检索数据库建立方法,首先对待训练的原目标图像进行预处理,形成训练图像集;然后对所述训练图像集进行特征提取时,剔除文字区域特征点,用非文字区域的特征点生成图像检索数据库中对应于原目标图像的特征数据,本发明能有效剔除文字区域干扰关键点,提高检索准确率,且大量干扰点的剔除也会进一步压缩检索数据库的大小,进而减少实时检索时的计算时间。另外,对待训练的原目标图像进行预处理,在训练图像集中加入原训练图像模拟焦外成像效果的模糊图像及仿射变换图像,当摄像头获取的图像是焦外模糊的图像,或用户在视角大于80度的情况下,仍然能够准确地找到检索数据库中的目标图像。
【专利说明】图像检索数据库建立方法

【技术领域】
[0001] 本发明涉及图像识别领域,尤其涉及一种图像检索数据库建立方法。

【背景技术】
[0002] 众所周知,在基于内容识别的图像检索技术中,首先需要在服务器端训练样本图 像,对样本图像进行特征提取,以形成图像检索特征数据库。
[0003] 在生成图像检索特征数据的过程中,以现有技术进行处理时,由于大量目标图像 中存在较多的印刷体文字,在文字区域中像素点颜色分布的相似性导致大量具有近似的关 键点描述内容的关键点被提取出来,在检索过程中会对检索结果产生极大的干扰,以致产 生错误的检索结果。
[0004] 另外,图像识别常常受到不精确的特征匹配过程的妨碍,不精确的特征匹配过程 会因仿射变换(因视角或观看点的改变而使获取图像显示形变)和其它失真(例如,当图像 获取端得到的图像比较模糊时,其特征将发生显著变化)而加剧,从而导致正确匹配的减少 和错误匹配的增加。


【发明内容】

[0005] 本发明的目的是提供一种图像检索数据库建立方法,将易造成干扰的文字区域特 征剔除出检索数据库,仅保存非文字区域图像特征,能有效消除文字相似特征对图像检索 结果的干扰。
[0006] 为了实现上述发明目的,本发明提供了一种图像检索数据库建立方法,包括:对待 训练的原目标图像进行预处理,形成训练图像集;对所述训练图像集中的每一副图像进行 特征点提取;对所述训练图像集中的每一副图像进行分割,得到文字区域和非文字区域; 将像素位置与文字区域重合的特征点剔除,用剩下的特征点生成图像检索数据库中对应于 原目标图像的特征数据。
[0007] 相应的,本发明还提供了一种图像检索数据库建立方法,包括:对待训练的目标图 像进行预处理,形成训练图像集;对所述训练图像集中的每一副图像进行分割,得到文本字 区域和非文字区域;对所述训练图像集中每一副图像的非文字区域进行特征点提取,图像 检索数据库中对应于目标图像的特征数据。
[0008] 上述两种方法的区别在于:第一种方法为先对所述训练图像集中的每一副图像进 行特征点提取,然后再将文字区域的特征点剔除;而第二种方法为直接仅对所述训练图像 集中每一副图像的非文字区域进行特征点提取,对文字区域不进行特征提取。
[0009] 上述两种方法中,对所述训练图像集中的每一副图像进行分割,得到文字区域和 非文字区域,进一步包括:将图像在垂直和水平两个方向上沿着图像中的空白区域递归地 进行切割,得到一个个无法再切割矩形框区域;将单个矩形框区域的大小小于等于训练图 像整图的6%时,判定该矩形框区域为文字区域,剩下的为非文字区域。其中,所述图像中的 空白区域包括:页边空白、分栏边缘、缩进空白、图像与文本区域交界部分空白、文字与文字 之间的空白。
[0010] 上述两种方法中,所述对待训练的原目标图像进行预处理,形成训练图像集,优选 方案为:将待训练的原目标图像通过高斯模糊的方式处理,模拟焦外成像效果,得到与检索 图像近似的模糊目标图像;在N个方向上分别对原目标图像和模糊目标图像进行仿射变 换,得到2N张新的训练图像,其中2彡N彡8 ;2N张新的训练图与原目标图像、模糊目标图 像一起组成训练图像集。
[0011] 上述两种方法中,还可以对原目标图像中的文字区域进行文字识别,将识别出的 文字信息作为图像检索数据库中对应于原目标图像的第二检索数据。
[0012] 与现有技术相比,本发明具有如下有益效果:
[0013] 1.本发明将易造成干扰的文字区域特征剔除出检索数据库,只保存非文字区域图 像特征,能有效消除文字相似特征对图像检索结果的干扰;另外对文字区域可以用OCR的 方法进行文字识别以提取出文字区域中的文字信息,这一信息也可作为图像检索的次要特 征用于某些特定种类的图像检索(如名片检索);
[0014] 2.本发明通过在训练图像集中加入原训练图像(待训练的原目标图像)的模糊图 像之后,在使用手持设备或穿戴设备的摄像头获取图像来进行检索时,如果获取到的图像 是焦外模糊的图像(即未对焦的情况下得到的图像),这时仍然能够在检索数据库中找到正 确的目标图像。同时,在训练图像集中加入仿射变换的处理,可以使用户在视角大于80度 的情况下仍然能够准确地找到检索数据库中的目标图像。

【专利附图】

【附图说明】
[0015] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图:
[0016] 图1为本发明实施例一图像检索数据库建立方法流程示意图;
[0017] 图2为本发明实施例二图像检索数据库建立方法流程示意图;
[0018] 图3为本发明实施例中待分割图像示意图;
[0019] 图4为图3分割后得到一个个无法再切割矩形框区域示意图。

【具体实施方式】
[0020] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0021] 基于内容的图像识别技术中,在生成检索数据的过程中,以现有技术进行处理时, 由于大量目标图像中存在较多的印刷体文字,在文字区域中像素点颜色分布的相似性导致 大量具有近似的关键点描述内容的关键点被提取出来,在检索过程中会对检索结果产生极 大的干扰,以致产生错误的检索结果。
[0022] 本发明提出一种图像检索数据库建立方法,能有效剔除文字区域干扰关键点。同 时,大量干扰点的剔除也会进一步压缩检索数据库的大小,进而减少实时检索时的计算时 间。
[0023] 参见图1,为本发明实施例一图像检索数据库建立方法流程示意图,所述方法包括 如下步骤:
[0024] SlOl :对待训练的原目标图像进行预处理,形成训练图像集,本步骤具体为:将待 训练的原目标图像通过高斯模糊的方式处理,模拟焦外成像效果,得到与检索图像近似的 模糊目标图像;在N个方向上分别对原目标图像和模糊目标图像进行仿射变换,得到2N张 新的训练图像,其中2 < NS 8 ;2N张新的训练图与原目标图像、模糊目标图像一起组成训 练图像集。
[0025] S102:对所述训练图像集中的每一副图像进行特征点提取,本处特征检测及提取 可采用SIFT算法或SIFT算法的改进算法,如SURF、Ferns、ORB等算法,提取图像特征的操 作针对灰度图进行。每个特征数据含有关键点位置信息(在图像平面上的二维坐标值,关键 点的尺度和方向值,)和描述内容。
[0026] S103:对所述训练图像集中的每一副图像进行分割,得到文字区域和非文字区域, 具体为:将图像在垂直和水平两个方向上沿着图像中的空白区域(tab-stops)递归地进行 切割,得到一个个无法再切割矩形框区域(参见图3、图4,图3为待分割图像,图4为分割结 果示意图);将单个矩形框区域的大小小于等于训练图像整图的6%时,判定该矩形框区域 为文字区域,剩下的为非文字区域。本发明实施例中,当单个字符和训练图像的大小比例高 于0.06时,将该字符组成的文字区域当作图像数据处理,例如:在本发明的图像检索系统 中,用于训练检索数据库的训练图像一般采用512X512的分辨率,因此,当图像中字符的 宽或高大于30个像素单位时,可将其当作一般图像数据处理。所以,本发明在进行页面布 局分析时,在得到图像分割结果后,取出其中宽和或高大于30的矩形框区域,根据这些区 域的图像平面坐标范围,将前述由训练图像提取出的图像特征中在这些区域范围以外的特 征剔除,剩余的特征用于训练检索数据库。步骤S103中所述图像中的空白区域包括:页边 空白、分栏边缘、缩进空白、图像与文本区域交界部分空白、文字与文字之间的空白。在对图 像进行切割之前,可以先对图像进行二值化处理,提高图像对比度,使图像具有明确空白区 域。本步骤中,对训练图像集中的每一副图像进行分割方法,可参考一种基于tab-stop检 测的混合页面布局分析方法,Hybrid Page Layout Analysis via Tab-Stop Detection. Raymond W. Smith. ICDAR,page241_245. IEEE Computer Society, (2009))。该方法通常中 OCR方法中的第一步处理过程,将图像分割为由许多文字区域和非文字区域组成的矩形框。 本发明采用的是一种物理的页面布局分析方法而不是基于逻辑的页面布局分析方法,也 就是说,我们不仅仅是对纯文本图像的分割,我们要能处理任意的包含文本的图像(例如, 书本、杂志、报纸、报告上的页面图像),将图像中的文字区域和非文字区域分割出来分别处 理。
[0027] S104:将像素位置与文字区域重合的特征点剔除,用剩下的特征点生成图像检索 数据库中对应于原目标图像的特征数据。基于图像中关键点描述内容的获取方式(处理关 键点及其内置小块区域的像素点),同一图片或不同图像中的大量相似的小块区域(例如, 印刷体的文字区域)将导致相同或近似的关键点描述内容。因此,在关键点检测器完成之 后,将像素位置与文字区域重合的关键点剔除即能避免相应的误匹配还能极大的节省关键 点描述器的计算时间(文字区域通常会检测出较多的关键点)。
[0028] 对于某些特殊的图像检索系统,例如名片等其它以文本信息为重要信息之一的图 像的图像检索系统,还可以对原目标图像中的文字区域采用OCR等方式进行文字识别,将 识别出的文字信息作为图像检索数据库中对应于原目标图像的第二检索数据。
[0029] 参见图2,为本发明实施例二图像检索数据库建立方法流程示意图,包括如下步 骤:
[0030] S201 :对待训练的目标图像进行预处理,形成训练图像集;
[0031] S202:对所述训练图像集中的每一副图像进行分割,得到文本字区域和非文字区 域;
[0032] S203 :对所述训练图像集中每一副图像的非文字区域进行特征点提取,图像检索 数据库中对应于目标图像的特征数据。本步骤特征检测可采用SIFT算法或SIFT算法的改 进算法,如SURF、Ferns、ORB等算法,提取图像特征的操作针对灰度图进行。
[0033] 本实施例步骤S201与第一实施例步骤SlOl相同,本实施例步骤S202与第一实施 例步骤S103相同,在此不赘述。本实施例与上一实施例的区别仅在于:第一实施例先对所 述训练图像集中的每一副图像进行特征点提取,然后再将文字区域的特征点剔除;而本实 施例直接仅对所述训练图像集中每一副图像的非文字区域进行特征点提取,对文字区域不 进行特征提取。
[0034] 对于某些特殊的图像检索系统(例如名片等其它以文本信息为重要信息之一的 图像的图像检索系统),其样本图像中存在很多具有相同或相似图像区域的图片,同时也存 在很多具有相似文本信息的图片(例如,同一公司的名片通常具有一致的背景图像和一致 的公司名称地址等),基于文字识别的准确率,单纯的进行文字信息检索并不能准确地得到 检索结果,而先进行一般图像检索再进行文本信息地匹配能很好的解决这一问题,同时,在 构建检索数据库时,由于具有一致背景的图像的存在,可以在数据库中对一个公司或单位 的名片图像只存有一份图像数据,这样能极大地节省图像检索的时间。
[0035] 以名片识别系统为例,可首先依据上述两种方法进行处理,将得到的非文字区域 特征用于训练检索数据库,然后在前述图像分割的基础上对每个由矩形框所表示的文字区 域进行文字识别(采用OCR的方法),将得出的文字信息作为该训练图像的第二检索数据。 在实际的检索系统使用中,首先对图像检索数据进行检索,然后在得出的检索结果集合中 对文本信息进行匹配,得出唯一的准确检索结果。当然这种方法在客户端需要对待检索的 目标图像进行一次OCR的处理,以得到检索图像的文本信息用于和数据库中的文本信息匹 配。
[0036] 本发明将易造成干扰的文字区域特征剔除出检索数据库,只保存非文字区域图像 特征,能有效消除文字相似特征对图像检索结果的干扰;另外对文字区域可以用OCR的方 法进行文字识别以提取出文字区域中的文字信息,这一信息也可作为图像检索的次要特征 用于某些特定种类的图像检索(如名片检索),可有效提高图像检索准确率。
[0037]另外,在使用本发明技术方案时,若针对以手持设备和穿戴设备为客户端获取检 索图像,在服务器端进行检索的实时图像检索系统,由于在基于内容的图像识别【技术领域】, 图像识别常常受到不精确的特征匹配过程的妨碍,不精确的特征匹配过程会因仿射变换 (因视角或观看点改变成的获取图像显示的形变)和其它失真(例如,当图像获取端得到的 图像比较模糊时,其特征将发生显著变化)而加剧,从而导致正确匹配的减少和错误匹配的 增加。在以手持设备和穿戴设备为客户端获取检索图像的图像检索系统中,视觉角度超60 度,或人为因素造成的检索图像模糊等问题非常常见,针对这两个问题,本发明的发明人发 现在已知图像特征数据库的产生过程中,在特征点检测之前对入库图像进行相应的预处理 可以提1?图像检索的准确率。
[0038] 因此在步骤SlOl和S201中,对待训练的原目标图像进行预处理,形成训练图像 集,首先是将待训练的原目标图像通过高斯模糊处理,模拟焦外成像效果,得到与检索图 像近似的模糊目标图像,然后在N个方向上分别对原目标图像和模糊目标图像进行仿射变 换,得到2N张新的训练图像,其中2彡N彡8 ;将得到的2N张新的训练图与原目标图像、模 糊目标图像一起组成训练图像集。
[0039] 其中,高斯模糊模拟焦外成像效果具体为:
[0040] 首先,将待训练的目标图像转换为灰度图像,然后对图像中的每个像素点做正态 分布的计算:
[0041] N维空间正态分布方程为:

【权利要求】
1. 一种图像检索数据库建立方法,其特征在于,包括: 对待训练的原目标图像进行预处理,形成训练图像集; 对所述训练图像集中的每一副图像进行特征点提取; 对所述训练图像集中的每一副图像进行分割,得到文字区域和非文字区域; 将像素位置与文字区域重合的特征点剔除,用剩下的特征点生成图像检索数据库中对 应于原目标图像的特征数据。
2. 如权利要求1所述的方法,其特征在于,对所述训练图像集中的每一副图像进行分 害!],得到文字区域和非文字区域,进一步包括: 将图像在垂直和水平两个方向上沿着图像中的空白区域递归地进行切割,得到一个个 无法再切割矩形框区域; 将单个矩形框区域的大小小于等于训练图像整图的6%时,判定该矩形框区域为文字 区域,剩下的为非文字区域。
3. 如权利要求2所述的方法,其特征在于,所述图像中的空白区域包括:页边空白、分 栏边缘、缩进空白、图像与文本区域交界部分空白、文字与文字之间的空白。
4. 如权利要求1至3中任一项所述的方法,其特征在于,所述对待训练的原目标图像进 行预处理,形成训练图像集,包括: 将待训练的原目标图像通过高斯模糊的方式处理,模拟焦外成像效果,得到与检索图 像近似的模糊目标图像; 在N个方向上分别对原目标图像和模糊目标图像进行仿射变换,得到2N张新的训练图 像,其中2《N《8; 2N张新的训练图与原目标图像、模糊目标图像一起组成训练图像集。
5. 如权利要求4所述的方法,其特征在于,对原目标图像中的文字区域进行文字识别, 将识别出的文字信息作为图像检索数据库中对应于原目标图像的第二检索数据。
6. -种图像检索数据库建立方法,其特征在于,包括: 对待训练的目标图像进行预处理,形成训练图像集; 对所述训练图像集中的每一副图像进行分割,得到文本字区域和非文字区域; 对所述训练图像集中每一副图像的非文字区域进行特征点提取,图像检索数据库中对 应于目标图像的特征数据。
7. 如权利要求6所述的方法,其特征在于,对所述训练图像集中的每一副图像进行分 害!],得到文字区域和非文字区域,进一步包括: 将图像在垂直和水平两个方向上沿着图像中的空白区域递归地进行切割,得到一个个 无法再切割矩形框区域; 将单个矩形框区域的大小小于等于训练图像整图的6%时,判定该矩形框区域为文字 区域,剩下的为非文字区域。
8. 如权利要求7所述的方法,其特征在于,所述图像中的空白区域包括:页边空白、分 栏边缘、缩进空白、图像与文本区域交界部分空白、文字与文字之间的空白。
9. 如权利要求6至8中任一项所述的方法,其特征在于,所述对待训练的原目标图像进 行预处理,形成训练图像集,包括: 将待训练的原目标图像通过高斯模糊的方式处理,模拟焦外成像效果,得到与检索图 像近似的模糊目标图像; 在N个方向上分别对原目标图像和模糊目标图像进行仿射变换,得到2N张新的训练图 像,其中2《N《8; 2N张新的训练图与原目标图像、模糊目标图像一起组成训练图像集。
10.如权利要求9所述的方法,其特征在于,对原目标图像中的文字区域进行文字识 另IJ,将识别出的文字信息作为图像检索数据库中对应于原目标图像的第二检索数据。
【文档编号】G06K9/62GK104462111SQ201310424717
【公开日】2015年3月25日 申请日期:2013年9月17日 优先权日:2013年9月17日
【发明者】陈卓, 李薪宇 申请人:成都理想境界科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1