一种基于多特征的文本图像一致性比较方法_3

文档序号:9397169阅读:来源:国知局
,其中DstBlack是源文字图像中的黑色像素点的个数,SrcBlack 是目标文字图像中的黑色像素点的个数;
[0071] d)、设阈值 threshold_pixdiff,当 RelaDiff > threshold_pixdiff 时,则 认为本对文字图像不同,且本对文字图像比较结束,进行下一对文字图像的比较;当 RelaDiff < threshold_pixdiff时,则进一步认为本对文字图像相同,再进行步骤(S8. 4), 在本实施例中,threshold_scale取经验值0. 5 ;
[0072] (S8. 4)、基于投影特征的文字图像比较
[0073] 首先,对两个文字图像进行细化处理,然后,计算它们的水平投影与垂直投影,剔 除小于文字图像高度1/5的水平投影值,剔除小于文字图像宽度1/5的垂直投影值,再将 剩下的投影值构成文字的投影特征,并比较投影值的大小,如果水平投影值的绝对差值大 于文字图像高度的1/10或者垂直投影值的绝对差值大于文字图像宽度的1/10,则认为 本对文字图像不同,且本对文字图像比较结束,进行下一对文字图像比较;否则进行步骤 (S8. 5);
[0074] 在本实施例中,如图4所示,图4(a)为提取的文字图像,图4(b)为"且"字的骨架 及投影特征,图4(c)为"丐"字的骨架及投影特征。
[0075] (S8. 5)、基于笔画穿越次数特征的文字图像比较
[0076] 将文字图像平均分割成四块,提取每块的水平方向的最大笔画穿越次数、垂直方 向的最大笔画穿越次数,从而构成8个特征值,如果8个特征值中有6个以上相等,则最终 认为本对文字图像相同,否则认为不同。
[0077] (S9)、输出上述所有的比较结果。
【主权项】
1. 一种基于多特征的文本图像一致性比较方法,其特征在于,包括以下步骤: (1) 、先将原电子文档打印,再用打印后的文档扫描生成电子文档,并标记为扫描版电 子文档; (2) 、将原电子文档转换生成图像,记为源图像,将扫描版电子文档生成的图像,记为目 标图像; (3) 、对源图像与目标图像进行预处理; (4) 、根据文本图像的水平、垂直投影特征,分别提取预处理后的源图像与目标图像的 文本区域; (5) 、调整目标图像的文本区域大小,使得其高度与宽度等于源图像文本区域的高度与 宽度; (6) 、根据行间距提取源图像与目标图像文本区域中的文本行,以源图像中的文本行为 参考,比较目标图像中的文本行与源图像中的文本行的行数是否相等,如果行数相等,则直 接进入步骤(7);如果行数不相等,则标出目标图像中添加或缺少的行,再进入步骤(7); (7) 、利用数字分别对源图像与目标图像中的文本行逐行进行编号,再根据文字间距提 取对应行编号中所有文字,每一个文字均生成一幅文字图像,其中,源图像中的文字提取生 成为源文字图像,目标图像中的文字提取生成为目标文字图像; 以源图像中该文本行的源文字图像数目为参考,比较该行编号下的目标图像文本行与 源图像文本行的文字图像数目是否相等,如果文字图像数目相等,则直接进入步骤(8);如 果文字图像数目不相等,则标出目标图像中该行添加或缺少的文字图像,再进入步骤(8); (8) 、根据文字图像结构特征,结合步骤(7)比较该行编号下的目标图像文本行与源图 像文本行中位置相对应的文字图像,以源源图像中该文本行的文字图像为参考,标出目标 图像中该文本行对应位置出现的不同文字图像; 同理,结合步骤(7)和步骤(8)继续比较剩余的文本行,直到比较完所有的文本行为 止; (9) 、输出上述所有的比较结果。2. 根据权利要求1所述的基于多特征的文本图像比较方法,其特征在于,所述的步骤 (2)中,对源图像与目标图像进行预处理的具体方法为: 通过局部自适应阈值处理法将源图像从灰度图像或彩色图像转换成二值图像;对目标 图像先进行滤波,去除噪声,再通过局部自适应阈值处理法将滤波后的目标图像从灰度图 像或彩色图像转换成二值图像,最后进行倾斜校正。3. 根据权利要求1所述的基于多特征的文本图像比较方法,其特征在于,所述的步骤 (8)中,根据文字图像结构特征,比较源图像和目标图像中对应行对应位置的文字图像的方 法为: (3. 1)、设阈值thresholcLscale,对源文字图像与目标文字图像分别提取高宽比特征, 分别记为Sl、S2,然后用高宽比特征进行初步比较,如果|Sl-S2|/min(Sl,S2)>threshold_ scale,则认为本对文字图像不同,且本对文字图像比较结束,进行下一对文字图像的比较; 如果|Sl_S2|/min(Sl,S2) < threshold_scale,则初步认为本对文字图像相同,再进入步 骤(3. 2); (3. 2)、归一化文字图像大小,使目标文字图像大小等于源文字图像大小; (3. 3)、基于像素差异的文字图像比较 a) 、计算两文字图像的像素值矩阵的绝对值图像AbsDiff = |Dst-Src|,其中,Dst表示 目标文字图像的像素值矩阵,Src表示源文字图像的像素值矩阵; b) 、统计绝对值图像AbsDiff中白色像素点个数,记为AbsDiffWhite ; c) 、计算两文字图像的像素相对差异RelaDiff = AbsDiffWhite/ min(DstBlack, SrcBlack),其中DstBlack是源文字图像中的黑色像素点的个数,SrcBlack 是目标文字图像中的黑色像素点的个数; d) 、设阈值 threshold_pixdiff,当 RelaDiff > threshold_pixdiff 时,则认 为本对文字图像不同,且本对文字图像比较结束,进行下一对文字图像的比较;当 RelaDiff < threshold_pixdiff时,则进一步认为本对文字图像相同,再进行步骤(3. 4); (3. 4)、基于投影特征的文字图像比较 首先,对两个文字图像进行细化处理,然后,计算它们的水平投影与垂直投影,剔除小 于文字图像高度1/X的水平投影值,剔除小于文字图像宽度Vk1的垂直投影值,再将剩下 的投影值构成文字的投影特征,并比较投影值的大小,如果水平投影值的绝对差值大于文 字图像高度的l/k 2或者垂直投影值的绝对差值大于文字图像宽度的1八2,则认为本对文文 字图像不同,且本对文字图像比较结束,进行下一对文字图像比较;否则进行步骤(3.5); 其中,Ic 1为大于1的整数; (3. 5)、基于笔画穿越次数特征的文字图像比较 将文字图像平均分割成四块,提取每块的水平方向的最大笔画穿越次数、垂直方向的 最大笔画穿越次数,从而构成8个特征值,如果8个特征值中有k3(k3G [4, 8])个以上相 等,则最终认为本对文字图像相同,否则认为不同。
【专利摘要】本发明公开了一种基于多特征的文本图像一致性比较方法,先对源图像与目标图像进行预处理;然后根据文本图像的水平、垂直投影特征,分别提取预处理后的源图像与目标图像的文本区域;在调整目标图像的文本区域大小后,根据行间距和文字间距分别提取源图像与目标图像文本区域中的文本行和文本行中的文字,进而得到源文字图像和目标文字图像;然后根据文字图像结构特征,比较对应行下的目标图像文本行与源图像文本行中位置相对应的文字图像,以源图像中该文本行的文字图像为参考,标出目标图像中该文本行对应位置出现的不同文字图像,从而实现文本图像的一致性比较。
【IPC分类】G06K9/00
【公开号】CN105117704
【申请号】CN201510526382
【发明人】郝家胜, 钟千里
【申请人】电子科技大学
【公开日】2015年12月2日
【申请日】2015年8月25日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1