一种针对英文印刷文字双面打印破碎文件复原分析方法

文档序号:8223887阅读:384来源:国知局
一种针对英文印刷文字双面打印破碎文件复原分析方法
【技术领域】
[0001] 本发明设及一种针对英文印刷文字双面打印破碎文件的复原分析方法,属于数字 图像处理与模式识别领域。
【背景技术】
[0002] 破碎文件的拼接在司法物证复原与鉴定、历史文献修复、故障分析W及军事情报 获取等领域都有着重要的应用。近年来,碎纸文件复原技术的研究引起了人们的广泛关 注。传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。特别是当碎片数量巨 大,人工拼接很难在短时间内完成任务。随着计算机技术的发展,目前关于碎片复原的问题 有多种研究策略,主流解决方案是结合类似于拼图游戏的手工复原方法和进行匹配和捜寻 的计算机算法。

【发明内容】

[0003] 本发明的目的在于通过构建一种匹配度模型来解决英文印刷文字双面打印破碎 文件的拼接与复原问题。
[0004] 为实现上述目的,本发明采用的技术方案为一种匹配度模型分析方法。该方法包 括W下步骤:
[000引 S1图片预处理;
[0006] S2二维匹配度模型的建立;
[0007] S3二维黑白对接匹配模型的建立;
[000引 S4二维匹配模型算法优化;
[0009] S5二维匹配问题的综合聚类和匹配度函数建立;
[0010] S6基于正反面特点的大碎片集合分类;
[0011] S7基于正反面特点的结果检验;
[0012] 如图1所示,该匹配度模型分析方法各个步骤的详细操作过程如下:
[0013] S1图片预处理
[0014] 为获取样本数据需对图片进行分割,W像素为单位将图片进行网格划分,像素共 有256种灰度值,当灰度值为0的时候为黑色,灰度值为255的时候为白色。将图像转化为 灰度值矩阵,完成样本数据的获取。通过灰度值矩阵可W完成黑白色的识别。在图的拼接 过程中要考虑整张碎片的每一行各网格的灰度。但由于笔画的长度、宽度未知,故只考虑整 张碎片每一行最左端和最右端两个小格的灰度匹配结果。
[0015] S2二维匹配度模型的建立
[0016] 2. 1定义Xi为两碎片拼接时位于左侧的已固定碎片,X j.为拼接时位于右侧的待拼 接碎片。自下而上遍历,并作出W下定义:
[0017] 分别为碎片Xi、Xj.从下向上扫描时,第一次全行像素由不同灰度同时变为 白色(即全体灰度值骤变为255),或者全行像素由全为白色到开始出现非白(黑色)时,此 行到碎片最下端的距离。
[001引。设11。、11,.2为第二次发生上述变化时的那一行到碎片最下端的距离。
[0019] 3)设hu、hj.3为第S次发生上述变化时的那一行到碎片最下端的距离。
[0020] 2. 2为了有统一的度量标准,根据字母和汉字的上下距离的对称性,定义一个字母 的中位线到碎片底端的距离如下:
【主权项】
1. 一种针对英文印刷文字双面打印破碎文件复原分析方法,其特征在于:该方法包括 以下步骤, Sl图片预处理; S2二维匹配度模型的建立; S3二维黑白对接匹配模型的建立; S4二维匹配模型算法优化; S5二维匹配问题的综合聚类和匹配度函数建立; S6基于正反面特点的大碎片集合分类; S7基于正反面特点的结果检验; 该匹配度模型分析方法各个步骤的详细操作过程如下, Sl图片预处理 为获取样本数据需对图片进行分割,以像素为单位将图片进行网格划分,像素共有256 种灰度值,当灰度值为〇的时候为黑色,灰度值为255的时候为白色;将图像转化为灰度值 矩阵,完成样本数据的获取;通过灰度值矩阵可以完成黑白色的识别;在图的拼接过程中 要考虑整张碎片的每一行各网格的灰度;但由于笔画的长度、宽度未知,故只考虑整张碎片 每一行最左端和最右端两个小格的灰度匹配结果; S2二维匹配度模型的建立 2. 1定义Xi为两碎片拼接时位于左侧的已固定碎片,Xj为拼接时位于右侧的待拼接碎 片;自下而上遍历,并作出以下定义, DhilAjl分别为碎片&、\从下向上扫描时,第一次全行像素由不同灰度同时变为白色 (即全体灰度值骤变为255),或者全行像素由全为白色到开始出现非白(黑色)时,此行到 碎片最下端的距离; 2) 设hi2、hj2为第二次发生上述变化时的那一行到碎片最下端的距离; 3) 设hi3、hj3为第三次发生上述变化时的那一行到碎片最下端的距离; 2. 2为了有统一的度量标准,根据字母和汉字的上下距离的对称性,定义一个字母的 中位线到碎片底端的距离如下:
其中hil2、hi34…分别为碎片XiW下数第一个字、第二个…第η个汉字或字母的中位线 到碎片底端的距离, 对碎片Xi和碎片X ,_进行匹配,设整张碎片所有字行中位线匹配差异度为
当匹配差异度在误差范围内时,符合优化聚类要求,定义:
其中,Ic1, k2为误差范围; 2. 3碎片边缘黑色小格的连续对接匹配连续度: 定义W bb: ① 两碎片Xi、Xj的第k行,X i右边缘的小格X 115和X』的左边缘小格X jk均为黑色(灰 度值为〇)的对接 ② 两碎片Xk、Xm的第k列,X m下边缘的小格X jp X j的上边缘小格X jk均为黑色(灰 度值为〇)的对接 碎片上一个字的一个笔画,一般包涵了不止一对黑色小格,由上而下发生连续的黑色 小格的成功对接(Mbb)越长,碎片匹配成功的可能性就越大,所以在对匹配小格权重上考虑 了连续匹配的,匹配度函数中若发生一次M' bb匹配的权则定为5,连续两次匹配的权定为 5 X 2+2,发生连续η次黑黑匹配的权则定为5 X 2+2 (n-1); 由上述因素分析对由上到下发生连续M' bb方式的成功匹配的权重定义可得出以下局 部连续度函数; 2. 4二维匹配过程中存在向左匹配和向上匹配两个方向: 1) 向左匹配,设\为固定端碎片,为待匹配段碎片
其中Fuk为第i号碎片和
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1