一种基于多特征的文本图像一致性比较方法

文档序号:9397169阅读:505来源:国知局
一种基于多特征的文本图像一致性比较方法
【技术领域】
[0001] 本发明属于图像处理领域,更为具体地讲,涉及一种基于多特征的文本图像一致 性比较方法。
【背景技术】
[0002] Pdf、Word、图像等格式的原始电子文档经常需要被打印,打印出来的纸质文档常 常需要确认是否为原始电子文档的真实副本,因为打印出来的纸质文档可能由于人为修改 或意外情况而发生改变,与原始电子文档并不完全一致。例如,商业合同一般先采用电子文 档进行协商,最终打印为纸质文档,此时就需要确保打印的纸质文档是最终电子文档的真 实副本,二者的文本内容完全一致。完全通过人工对比来检测这些可能存在的不一致是极 其耗时而低效的,而通过图像处理领域的技术来检测,可以大量减少人工检测的工作量,极 大地提高检测效率。基本思路是将打印出来后的纸质文档扫描回Pdf或图像格式的扫描电 子文档,然后将原始电子文档和扫描电子文档转换为图像,通过计算机图像处理技术检测 扫描电子文档图像与原始电子文档图像中文本内容不一致的地方,并予以标记,然后再人 工确认这些标记,从而最终确认打印出来的纸质文档是否为原始电子文档的真实副本。
[0003] 针对文本图像比较的相关技术,主要有以下几方面:
[0004] 1)俞颂阳,明伟.通过用字符的形状特征来比较字符而检测文档变化的方法 [P]·美国:CN102722729A, 2012-10-10.
[0005] 该方法根据字符的欧拉数、边框的高宽比、边框的像素密度以及两个字符之间的 豪斯多夫距离等形状特征来确定两个字符是相同的或不同的。但该方法高度依赖于如何提 取匹配字符的骨架的算法,且对图像质量有较高要求,尤其不适用于扫描版中文文档的比 较。
[0006] 2)宋永红,张元林,雍旭东,孟泉,刘跃虎,陈晓.一种文字图像特征差异的快 速计算方法[P].陕西:CN103440472A, 2013-12-11.
[0007] 该方法首先基于几何形状特征的多样性,采用前景像素个数、文字大小、长宽比和 占空比四个特征对差异较大的文字对进行初步筛选,在初步筛选之后,对剩下的配对进行 精细特征描述,并采用修正的模板匹配方法。但是模板匹配方法中用到的高度、宽度、前景 像素总数、长宽比、及占空比特征均不足以精确刻画一个中文文字的结构,也就限制了该方 法对于中文文本图像的比较精度。
[0008] 3) Baudrier E,. Nicolier F, Millon G, et al. Binary-image comparison with local-dissimilarity quantification[J]. Pattern Recogniti on, 2008,41(5) :1461-1478.
[0009] 该方法通过改进的豪斯多夫距离来度量两副二值图像的相似度,但这种单一的特 征不足以刻画中文文本的特征,容易产生错误的肯定检测。
[0010] 本发明通过采用多特征融和技术,提供一种有效的中文文本图像的一致性检测方 法。

【发明内容】

[0011] 本发明的目的是在不真正地识别文字的情况下,根据文本图像结构特征,比较打 印文档图像与原电子文档图像的文本内容是否一致。
[0012] 为实现上述发明目的,本发明提供一种基于多特征的文本图像一致性比较方法, 所述方法包括以下步骤:
[0013] (1)、先将原电子文档打印,再用打印后的文档扫描生成电子文档,并标记为扫描 版电子文档;
[0014] (2)、将原电子文档转换生成图像,记为源图像,将扫描版电子文档生成的图像,记 为目标图像;
[0015] (3)、对源图像与目标图像进行预处理;
[0016] (4)、根据文本图像的水平、垂直投影特征,分别提取预处理后的源图像与目标图 像的文本区域;
[0017] (5)、调整目标图像的文本区域大小,使得其高度与宽度等于源图像文本区域的高 度与宽度;
[0018] (6)、根据行间距提取源图像与目标图像文本区域中的文本行,以源图像中的文本 行为参考,比较目标图像中的文本行与源图像中的文本行的行数是否相等,如果行数相等, 则直接进入步骤(7);如果行数不相等,则标出目标图像中添加或缺少的行,再进入步骤 (7) ;
[0019] (7)、利用数字分别对源图像与目标图像中的文本行逐行进行编号,再根据文字间 距提取对应行编号中所有文字,每一个文字均生成一幅文字图像,其中,源图像中的文字提 取生成为源文字图像,目标图像中的文字提取生成为目标文字图像;
[0020] 以源图像中该文本行的源文字图像数目为参考,比较该行编号下的目标图像文 本行与源图像文本行的文字图像数目是否相等,如果文字图像数目相等,则直接进入步骤 (8) ;如果文字图像数目不相等,则标出目标图像中该行添加或缺少的文字图像,再进入步 骤⑶;
[0021] (8)、根据文字图像结构特征,结合步骤(7)比较该行编号下的目标图像文本行与 源图像文本行中位置相对应的文字图像,以源图像中该文本行的文字图像为参考,标出目 标图像中该文本行对应位置出现的不同文字图像;
[0022] 同理,结合步骤(7)和步骤(8)继续比较剩余的文本行,直到比较完所有的文本行 为止;
[0023] (9)、输出上述所有的比较结果。
[0024] 其中,所述的步骤(8)中,根据文字图像结构特征,比较源图像和目标图像中对应 行对应位置的文字的方法为:
[0025] (8. 1)、设阈值threshold_scale,对源文字图像与目标文字图像分别提 取高宽比特征,分别记为Sl、S2,然后用高宽比特征进行初步比较,如果|S1-S2|/ min (SI, S2) >threshold_scale,则认为本对文字图像不同,且本对文字图像比较结束,进行 下一对文字图像的比较;如果|Sl-S2|/min(Sl,S2)彡threshold_scale,则初步认为本对 文字图像相同,再进入步骤(8.2);
[0026] (8. 2)、归一化文字图像大小,使目标文字图像大小等于源文字图像大小;
[0027] (8. 3)、基于像素差异的文字图像比较
[0028] a)、计算两文字图像的像素值矩阵的绝对值图像AbsDiff = |Dst-Src|,其中,Dst 表示目标文字图像的像素值矩阵,Src表示源文字图像的像素值矩阵;
[0029] b)、统计绝对值图像AbsDiff中白色像素点个数,记为AbsDiffWhite ;
[0030] c)、计算两文字图像的像素相对差异RelaDiff = AbsDiffWhite/ min(DstBlack, SrcBlack),其中DstBlack是源文字图像中的黑色像素点的个数,SrcBlack 是目标文字图像中的黑色像素点的个数;
[0031] d)、设阈值 threshold_pixdiff,当 RelaDiff > threshold_pixdiff 时,则 认为本对文字图像不同,且本对文字图像比较结束,进行下一对文字图像的比较;当 RelaDiff < threshold_pixdiff时,则进一步认为本对文字图像相同,再进行步骤(8. 4); [0032] (8. 4)、基于投影特征的文字图像比较
[0033] 首先,对两个文字图像进行细化处理,然后,计算它们的水平投影与垂直投影,剔 除小于文字图像高度1/X的水平投影值,剔除小于文字图像宽度Vk1的垂直投影值,再 将剩下的投影值构成文字的投影特征,并比较投影值的大小,如果水平投影值的绝对差值 大于文字图像高度的l/k2
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1