一种基于内容的图像格式中文文档检索方法

文档序号:6605897阅读:95来源:国知局
专利名称:一种基于内容的图像格式中文文档检索方法
技术领域
本发明涉及信息处理技术领域,具体涉及一种基于内容的图像格式中文文档检索 方法。
背景技术
纸质文档的数字化存储与检索对于信息的获取和办公自动化领域有着深远的意 义。对于数据存储而言,一般采用扫描仪或数码相机先将纸质文档转换为图像格式进行保 存,即将纸质文档转换为图像格式文档,两个图像格式文档示例如图1所示。如何对大规模 图像格式文档数据集进行检索是一个非常具有挑战性的问题,也是最近几年研究领域的一对于图像格式文档的检索而言,一般都是利用目前较为成熟的OCR技术,将文档 电子化,即转换为ASCII文本。由于OCR会存在识别错误,且会丢失版面的一些原始信息, 所以一般利用OCR的文本进行检索,而检索的结果为图像格式的扫描文档的内容。由于OCR 会存在识别错误,特别是对于退化文档,识别率很低,此时检索性能会很差。尽管有一些克 服OCR识别错误的方法,如识别后处理,提供候选字等,但效果仍然很有限。鉴于目前的研 究现状,对退化字符的识别难以在短期内有很大的突破,如何解决低识别率文档的检索就 成为了一个非常有意义,也非常有挑战性的问题。

发明内容
为了解决现有的基于OCR技术的检索方法不能有效处理字符退化严重的图像格 式文档的问题,本发明提供了一种基于内容的图像格式中文文档检索方法。本发明的一种基于内容的图像格式中文文档检索方法,它包括以下步骤
步骤一获取待检索的图像格式中文文档,并对每个图像格式中文文档进行字符分割,
进而获取每个图像格式中文文档中的单个字符图像力;
步骤二 根据所获取的单个字符图像力,提取该字符图像的字符图像特征矢量; 步骤三基于局部敏感哈希变换原理,构建hash函数h,并将所提取的字符图像 的字符图像特征矢量相应变换为伪码Ο、)= 2,…,Cyl,并根据所述伪码
Cjj7J建立字符标引数据库,所述伪码Cj7J由L个16位整数Cjyf串接而成,其中,
的值由hash函数h和参数k决定; 步骤四在所述字符标引数据库中输入查询关键词,所述查询关键词的格式为文本格式或图像格式,判断所述查询关键词是否为文本格式,如果是,执行步骤五,否则执行步骤 六;
步骤五设置文本格式的查询关键词的字体和字号,并将所述查询关键词由文本格式 转换为图像格式;
步骤六对图像格式的查询关键词W进行字符分割,进而获取所述查询关键词W的所有 字符图像,即fr = Ic1,X2,...,,巧为所述查询关键词w中一个字符图像,! = IU,并
根据所述字符图像A提取其字符图像特征矢量;
步骤七基于局部敏感哈希变换原理,将字符图像A的字符图像特征矢量变换为伪码
所述伪码‘丨由!^个化位整数^串接而成; 步骤八令i=l, j=l ;
步骤九获取字符图像的伪码C(A)与字符标引数据库中字符图像力的伪码Ctu
之间的字符相似度S=M/L,其中,M为所述两个伪码之间属性相等的个数;
步骤十判断所获取的字符相似度S是否小于相似度阈值1/L,如果是,则执行步骤 十四,否则,执行步骤十一;
步骤十一判定字符图像巧与字符标引数据库中字符图像巧相似,将所述字符四像ι
及步骤九获取的字符相似度S保存;
步骤十二判断是否存在i=n,如果是,则令i=l,执行步骤十三,否则令i=i+l,执行 步骤十四;
步骤十三将步骤十一所存储的乃与々之间的η个字符组成的词作为有效查询结
果保存,并将步骤十一所存储的η个字符相似度S相乘作为所述词相似度保存,然后执行步 骤十四;
步骤十四判断是否存在j<N,如果是,则令j=j+l,返回执行步骤九,否则执行步骤 十五;
步骤十五将步骤十三所保存的有效查询结果按照其在文档中出现的先后顺序输出, 完成检索。本发明的有益效果本发明的一种基于内容的图像格式中文文档检索方法完全抛 弃OCR技术,避免了复杂的OCR算法的设计、样本训练等过程,直接利用字符图像的特征,并 基于图像间的相似性进行检索,能够有效处理字符退化严重的图像格式文档;本发明的检 索方法简单,速度快,成本低廉;本发明的检索方法具有线性的查找速度,有效的缓解了基 于内容检索方法中存在的特征维数过高而导致的维数灾难问题。


图1和图2是本发明的一种基于内容的图像格式中文文档检索方法流程图,图3是用 扫描仪扫描获得的图像格式文档,图4是用数码相机拍摄获得的图像格式文档,图5是本发 明具体实施方式
四中,查询关键词为文本格式时图像格式中文文档的检索流程示意图。
具体实施例方式
具体实施方式
一根据说明书附图1和2具体说明本实施方式,本实施方式的一种 基于内容的图像格式中文文档检索方法,它包括以下步骤
步骤一获取待检 索的图像格式中文文档,并对每个图像格式中文文档进行字符分割,
进而获取每个图像格式中文文档中的单个字符图像力;
步骤二 根据所获取的单个字符图像、,提取该字符图像的字符图像特征矢量; 步骤三基于局部敏感哈希变换原理,构建hash函数h,并将所提取的字符图 像ι的字符图像特征矢量相应变换为伪码
,并根据所述伪码
建立字符标引数据库,所述伪码由L个16位整数Cjy串接而成,其中,
的值由hash函数h和参数k决定;
步骤四在所述字符标引数据库中输入查询关键词,所述查询关键词的格式为文本格 式或图像格式,判断所述查询关键词是否为文本格式,如果是,执行步骤五,否则执行步骤 六;
步骤五设置文本格式的查询关键词的字体和字号,并将所述查询关键词由文本格式 转换为图像格式;
步骤六对图像格式的查询关键词W进行字符分割,进而获取所述查询关键词W的所有 字符图像,即
力所述查询关键词w中一个字符图像,J =,
并根据所述字符图像巧提取其字符图像特征矢量;
步骤七基于局部敏感哈希变换原理,将字符图像A的字符图像特征矢量变换为伪码
所述伪码Ci(Xi)由L个16位整数Q串接而成; 步骤八令i=l, j=l ;
步骤九获取字符图像\的伪码C(Ii)与字符标引数据库中字符图像1的伪码σ(>ν)
之间的字符相似度S=M/L,其中,M为所述两个伪码之间属性相等的个数;
步骤十判断所获取的字符相似度S是否小于相似度阈值1/L,如果是,则执行步骤 十四,否则,执行步骤十一;
步骤十一判定字符图像^与字符标引数据库中字符图像力相似,将所述字符图像力
及步骤九获取的字符相似度S保存;
步骤十二判断是否存在i=n,如果是,则令i=l,执行步骤十三,否则令i=i+l,执行 步骤十四;
步骤十三将步骤十一所存储的乃与々之间的η个字符组成的词作为有效查询结果保存,并将步骤十一所存储的η个字符相似度S相乘作为所述词相似度保存,然后执行步 骤十四;
步骤十四判断是否存在j<N,如果是,则令j=j+l,返回执行步骤九,否则执行步骤 十五;
步骤十五将步骤十三所保存的有效查询结果按照其在文档中出现的先后顺序输出, 完成检索。
具体实施方式
二本实施方式是对具体实施方式
一的进一步说明,具体实施 方式一中在步骤三中,构建hash函数h的具体过程为首先定义m维空间中规则多面
体的定点集合F = 、,...》;},其中,IhI = I,并定义旋转矩阵A,然后建立hash函数
hC^sargmaxXA〗.! ),ρ为单位矢量,所述hash函数映射的结果集为{1义..,岣。
具体实施方式
三本实施方式是对具体实施方式
一或二的进一步说明,具体实施
方式一或二中,在步骤三中,伪码Crj7J中16位整数Cj^的个数L的范围为1 50。
具体实施方式
四本实施方式与具体实施方式
三的进一步说明,具体实施方式
三 中,伪码中16位整数Cjy的个数L=20。本实施方式中的局部敏感哈希变换LSH原理如下
定义对于一个矢量集S,一个映射函数集被称为敏感,如 果对S中任意两个矢量《〃满足如下条件 如果^ ,则 [/φ) = A(V)Jiip1
如果 J(IV) >Γ2 ,则 [明=Α(ν)]<ρ2
这里d(H')表示这两个矢量间的距离,Pr ()表示概率,并且巧 >灼力<r2。这里的映射函数H就是一个hash函数,将一个多维的矢量ν€炉映射成一个整数 A(V) € N。LSH的基本思想就是通过从LSH函数集中随机选择一个hash函数将每一个矢量 映射到hash表中。在最近邻查找时,只将hash表中具有与查找内容具有相同索引值的结 果返回。为了放大特征相似性在hash表中冲突的概率,LSH采用了将多个hash函数直 接连接起来相乘的方法,即E(V) = ^(V)為(ν),...,Afc(V)),这里、就是从LSH函数集中随
机选择的一个满足^MAj2)敏感的hash函数。这样定义中的hash函数集就改写为
G =,这里gW = ·^! 為。在最近邻查找时,只需比较查询矢量€
与数据库中的矢量ν是否满足= 即可。由于这种过程 是基于概率的逼近最近邻查 找的方法,会存在真正的最近邻没有被映射到同一个值而被忽略掉,所以LSH的算法构建 了了 L个hash表来解决该问题。这样查询时,将与&(ν),& W,...,逐一进行比较,只要有一项内容相等,则认为相似,并返回该结果。假定两个矢量间的欧氏 距离为C时,在经过单个hash函数映射后冲突的概率为P(P),则经过以上的处理后冲突的
概率为。本实施方式中,对于字符特征矢量的提取如下
对于特征提取,仅考虑字符轮廓上的方向线素特征,利用了 4个方向的特征,即水平、 垂直、正负45倾斜。特征提取过程如下首先,字符图像被线性归一化到一个64X64的栅格 图像上;接着,抽取字符的轮廓图像;然后,轮廓图像被分成7X7个区域,对于 每一个区域, 具有同一个方向属性的元素被累加,这样,基于这样一种区域划分的特征维数为4X7X7 =196。相似的,我们还可将图像分成6 X 6和5 X 5个区域,则特征维数也就分别为4X6X6 =144和4X5X5 = 100。最后,将这些特征串行的连接起来就得到了一个440维的特征矢 量。中文的ASCII码由2个字节组成,即一个16位的整数。为了便于与OCR的结果进
行融合,这里我们也将。的目标值设定为一个16位的整数。考虑到检索速度,L值也不宜
太大,在50以内是比较合理的。在查询时,查询字符的伪码与数据库中字符的伪码的L个 元素中只要有一个对应元素相等,则就认为相似,相似度由相等的元素个数决定,即相等的 元素越多就说明相似度越高。在hash函数h的构建过程中,一个hash函数可定义为
为了简化计算,该函数可改写为
该hash函数映射的结果集
为,则的结果集为
由于我们期望伪码中每个元素均为一个不
超过16位的整数,所以的最大值妒的取值必须满足该条件。在高维空间中,规则多 面体有 3 种,艮Simplex, Orthoplex 禾口 Hypercube0 对于 Simplex 而言,应 薛足 F= +1 ; 对于Orthoplex而言,应满足JV= 2 ;对于Hypercube而言,应满足Ar= 2s。由于《 = 440, 所以Ffc的取值情况如下
,显然该值过大,远远超出了 16位整数的范围。由于
Hpercube难以应用,所以只考虑Simplex和Orthoplex这两种情况。对于参数L而言,如 果太小,会造成召回率降低;如果太大又会降低检索速度,并会引入一定的噪声。所以L的 值应该比较适中,这里我们设定为20,以“自动化”文本作为查询关键词,查询结果如图5所 示。本实施方式的检索时间是随着文档文字数量的增多而呈线性增长,而传统的基于欧氏 距离匹配的方法的时间是非线性增长的。所以当文字数量较多时,本方法的检索速度要远 远高于基于欧氏距离的方法,且精度不会有很明显的损失。本方法的检索速度主要取决于 参数L,即L越小,速度越快,当L=I时,其速度与纯文本精确匹配的速度相同。本实施方式中L=20可以在保证有较高的检索精度与召回率的前提下,系统有非常 出色的速度性能,在 不考虑并行计算的情况下,其平均检索速度可达到纯文本精确匹配速度的0. 1倍。
权利要求
一种基于内容的图像格式中文文档检索方法,其特征在于所述检索方法包括以下步骤步骤一获取待检索的图像格式中文文档,并对每个图像格式中文文档进行字符分割,进而获取每个图像格式中文文档中的单个字符图像;步骤二根据所获取的单个字符图像,提取该字符图像的字符图像特征矢量;步骤三基于局部敏感哈希变换原理,构建hash函数h,并将所提取的字符图像的字符图像特征矢量相应变换为伪码,并根据所述伪码建立字符标引数据库,所述伪码由L个16位整数串接而成,其中,,,的值由hash函数h和参数k决定;步骤四在所述字符标引数据库中输入查询关键词,所述查询关键词的格式为文本格式或图像格式,判断所述查询关键词是否为文本格式,如果是,执行步骤五,否则执行步骤六;步骤五设置文本格式的查询关键词的字体和字号,并将所述查询关键词由文本格式转换为图像格式;步骤六对图像格式的查询关键词W进行字符分割,进而获取所述查询关键词W的所有字符图像,即,为所述查询关键词W中一个字符图像,,并根据所述字符图像提取其字符图像特征矢量;步骤七基于局部敏感哈希变换原理,将字符图像的字符图像特征矢量变换为伪码,所述伪码由L个16位整数串接而成;步骤八令i=1,j=1;步骤九获取字符图像的伪码与字符标引数据库中字符图像的伪码之间的字符相似度S=M/L,其中,M为所述两个伪码之间属性相等的个数;步骤十判断所获取的字符相似度S是否小于相似度阈值1/L,如果是,则执行步骤十四,否则,执行步骤十一;步骤十一判定字符图像与字符标引数据库中字符图像相似,将所述字符图像及步骤九获取的字符相似度S保存;步骤十二判断是否存在i=n,如果是,则令i= 1,执行步骤十三,否则令i=i+1,执行步骤十四;步骤十三将步骤十一所存储的与之间的n个字符组成的词作为有效查询结果保存,并将步骤十一所存储的n个字符相似度S相乘作为所述词相似度保存,然后执行步骤十四;步骤十四判断是否存在j<N,如果是,则令j=j+1,返回执行步骤九,否则执行步骤十五;步骤十五将步骤十三所保存的有效查询结果按照其在文档中出现的先后顺序输出,完成检索。282292dest_path_image001.jpg,472227dest_path_image001.jpg,921663dest_path_image001.jpg,88202dest_path_image002.jpg,870476dest_path_image003.jpg,729847dest_path_image003.jpg,401000dest_path_image004.jpg,200591dest_path_image005.jpg,398223dest_path_image006.jpg,992278dest_path_image007.jpg,150727dest_path_image008.jpg,222850dest_path_image009.jpg,415934dest_path_image010.jpg,617108dest_path_image009.jpg,262853dest_path_image009.jpg,76351dest_path_image011.jpg,123941dest_path_image012.jpg,496017dest_path_image013.jpg,629058dest_path_image009.jpg,246246dest_path_image012.jpg,148343dest_path_image001.jpg,691320dest_path_image003.jpg,621578dest_path_image009.jpg,540993dest_path_image001.jpg,297596dest_path_image001.jpg,11474dest_path_image014.jpg,682889dest_path_image001.jpg
2.根据权利要求1所述的一种基于内容的图像格式中文文档检索方法,其特征 在于在步骤三中,构建hash函数h的具体过程为首先定义m维空间中规则多面体的定点集合 ,其中,|M = 1,并定义旋转矩阵A,然后建立hash函数 为单位矢量,所述hash函数A^p)映射的结果集为丨1,2,...,約。
3.根据权利要求1或2所述的一种基于内容的图像格式中文文档检索方法,其特征在于在步骤三中,伪中16位整数Cjy的个数L的范围为1 50。
4.根据权利要求3所述的一种基于内容的图像格式中文文档检索方法,其特征在于伪 码彻)中16位整数Cy/的个数L=20。
全文摘要
一种基于内容的图像格式中文文档检索方法,它涉及信息处理技术领域,它解决了现有的基于OCR技术的检索方法不能有效处理字符退化严重的图像格式文档的问题。本发明首先对图像格式文档进行字符分割,得到单个字符图像;然后提取字符图像特征矢量;接着基于局部敏感哈希变换原理LSH,构建hash函数,将每个字符图像特征矢量变换为伪码,并建立字符标引数据库;然后输入查询关键词,并获得所述查询关键词的伪码表示,再将查询关键词的伪码与字符标引数据库中伪码进行字符相似度比较,进而获取查询关键词的所有相似词,并按照其在文档中出现的先后顺序输出相似词,完成检索。本发明适用于图像格式的中文文档检索。
文档编号G06F17/30GK101866366SQ20101022678
公开日2010年10月20日 申请日期2010年7月15日 优先权日2010年7月15日
发明者夏勇, 左旺孟, 王宽全, 黎捷 申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1