一种局部文档图像的比对方法及系统的制作方法

文档序号:8319520阅读:341来源:国知局
一种局部文档图像的比对方法及系统的制作方法
【技术领域】
[0001] 本发明属于图像分析技术领域,具体涉及一种局部文档图像的比对方法及系统。
【背景技术】
[0002] 文档图像即图像格式的文档,它是通过某种方式将纸质文档等转化为图像格式的 文档,以供用户电子阅读,应用非常广泛。文档图像比对是利用文档图像的形状特征、纹理 特征等对两幅或两幅以上的文档图像进行相似度比对,并根据这些统计特征,计算出文档 图像两两之间的相似度数值或对文档图像之间的相似度做出评价的一个过程。
[0003] 现有技术中,比较两幅文档图像是否相同可以利用光学字符识别(OCR)技术,该技 术通过识别图像中的文字来达到图像比对的目的。该技术的缺陷是比对结果严重依赖OCR 的识别结果,并且OCR的识别速度较慢,大大限制了该方法的应用。
[0004] 另外一类文档图像比对的方法是提取图像中的特征点(例如Sift特征点、SUrf特 征点、角点等),并通过匹配特征点的方法给出两个图像的相似性的一个度量。这种方法的 缺点在于,文档图像的特征点不如自然图像的特征显著,匹配结果难以达到预期目标,并且 计算效率也不够高。

【发明内容】

[0005] 针对现有技术中存在的缺陷,本发明的目的是提供一种局部文档图像的比对方法 及系统,提高文档图像的比对效果和效率。
[0006] 为达到以上目的,本发明采用的技术方案是:一种局部文档图像的比对方法,包括 以下步骤:
[0007] (1)将待比对文档图像中的每个字符划分为mXη个区块,m和η均为正整数;
[0008] (2)计算每个区块的二值分布特征;所述的二值分布特征是指二值图像中黑像素 的分布特征;
[0009] (3)将每个区块的二值分布特征进行组合,得到每个字符的组合分布,并将每个字 符的组合分布进行组合,得到文档图像的组合分布;
[0010] (4)计算待比对文档图像的组合分布之间的距离,根据该距离判断待比对文档图 像之间的相似度。
[0011] 进一步,如上所述的一种局部文档图像的比对方法,步骤(1)中,将待比对文档图 像上的每个字符划分为mXn个区块的具体方式包括以下步骤:
[0012] 1)将文档图像进行二值化处理,得到二值化图像;
[0013] 2)判断该二值化图像中是否只有单行文本,若是则进入步骤3),若否则对该二值 化图像进行成行处理;
[0014] 3)将该二值化图像中的每行文本进行字符拆分;
[0015] 4)将拆分得到的每个字符都划分为mXn个区块。
[0016] 进一步,如上所述的一种局部文档图像的比对方法,步骤(2)中,计算每个区块的 二值分布特征的具体方式包括以下步骤:
[0017] a)获取每个区块的单像素边界图像;
[0018] b)计算所述单像素边界图像上每个像素点的邻域编码;
[0019] c)根据每个像素点的邻域编码,构建区块统计直方图,得到区块的二值分布特征。
[0020] 进一步,如上所述的一种局部文档图像的比对方法,步骤b)中,计算单像素边界 图像上每个像素点的邻域编码的具体步骤包括:
[0021] i)获取单像素边界图像上每个像素点的设定个数的邻域;
[0022] ii)根据设定的顺序对所述邻域按照十进制数进行排列,该十进制数为每个像素 点的邻域编码。
[0023] 进一步,如上所述的一种局部文档图像的比对方法,步骤i)中,获取每个像素点的 设定个数的邻域时,根据每个邻域对应的像素值对邻域进行标记,标记的具体方式为:判断 每个邻域对应的像素值是否为〇,若是则将该邻域标记为二进制数1,若否则将该邻域标记 为二进制数〇。
[0024] 进一步,如上所述的一种局部文档图像的比对方法,步骤(1)中,m和η的取值范围 是:1 <m<4,l <η<4。
[0025] 进一步,如上所述的一种局部文档图像的比对方法,步骤(3)中,将每个区块的二 值分布特征进行组合时,待比对文档图像按照相同的组合顺序进行组合。
[0026] 再进一步,如上所述的一种局部文档图像的比对方法,步骤(3)中,将每个区块的 二值分布特征进行组合的具体方式包括:对于每个字符,将每个区块的二值分布特征按照 从左到右、从上到下的顺序进行组合;对于每行文字,将该行的每个字符的二值分布特征按 照从左到右的顺序进行组合。
[0027] 更进一步,如上所述的一种局部文档图像的比对方法,步骤(4)中,所述的距离是 指欧氏距离或直方图距离。
[0028] -种局部文档图像的比对系统,包括:
[0029] 区块划分模块,用于将待比对文档图像上的每个字符划分为mXn个区块,其中,m 和η均为正整数;
[0030] 二值分布特征计算模块,用于计算每个区块的二值分布特征;所述的二值分布特 征是指二值图像中黑像素的分布特征;
[0031] 组合分布获取模块,用于将每个区块的二值分布特征进行组合,得到每个字符的 组合分布,并将每个字符的组合分布进行组合,得到文档图像的组合分布;
[0032] 相似度判断模块,计算待比对文档图像的组合分布之间的距离,根据该距离判断 待比对文档图像之间的相似度。
[0033] 进一步,如上所述的一种局部文档图像的比对系统,所述的区块划分模块包括:
[0034] 二值化单元,用于将文档图像进行二值化处理,得到二值化图像;
[0035] 成行单元,用于判断该二值化图像中是否只有单行文本,若是则进入字符拆分单 元,若否则对该二值化图像进行成行处理;
[0036] 字符拆分单元,用于将该二值化图像中的每行文本都按字符进行拆分;
[0037] 区块划分单元,用于将拆分得到的每个字符都划分为mXn个区块。
[0038] 再进一步,如上所述的一种局部文档图像的比对系统,所述的二值分布特征计算 模块包括:
[0039] 边界图像获取单元,用于获取每个区块的单像素边界图像;
[0040] 邻域编码计算单元,用于计算单像素边界图像上每个像素点的邻域编码;
[0041] 直方图构建单元,用于根据每个像素点的邻域编码的统计直方图,构建每个所述 区块的二值分布特征。
[0042] 本发明的效果在于:本发明所述的方法及系统,通过将待比对文档图像上的每个 字符划分区块,计算每个区块的二值分布特征后按顺序组合得到对应的组合分布,再计算 各个组合分布之间的距离,据此判断文档图像之间的相似度,这样既可以较快速地对文档 图像进行比对,且不依赖OCR识别结果,能达到较好的比对效果,提高了比对效率。
【附图说明】
[0043] 图1是【具体实施方式】中一种局部文档图像的比对系统的结构图;
[0044] 图2是【具体实施方式】中一种局部文档图像的比对方法的流程图;
[0045] 图3是实施例中待比对文档图像;
[0046] 图4是图3经过成行处理的图像;
[0047] 图5是图4经过字符拆分的图像;
[0048] 图6是图5中"现"字左上角区块的单像素边界图像;
[0049] 图7是图6中任一像素的邻域位置标记示意图;
[0050] 图8是图6的邻域编码的统计直方图;
[0051] 图9是图5中所有字符的邻域编码的组合分布图;
[0052] 图10为实施例中的待比对文档图像;
[0053] 图11为图10中所有字符的邻域编码组合分布图。
【具体实施方式】
[0054] 下面结合说明书附图和【具体实施方式】对本发明作进一步描述。
[0055] 图1示出了本发明【具体实施方式】中一种局部文档图像比对系统
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1