基于英文文字特征的碎纸机破碎文档复原方法

文档序号:6545602阅读:500来源:国知局
基于英文文字特征的碎纸机破碎文档复原方法
【专利摘要】本发明公开了基于英文文字特征的碎纸机破碎文档复原方法,属于图像处理的【技术领域】。文档复原方法包括图像数字化、图像预处理、图像聚类和图像拼接四个步骤。图像预处理是指运用matlab软件导入每张碎纸片,生成对应于每张碎纸片的灰度矩阵以及对灰度矩阵进行二值化处理,并生成二值序列;图像聚类步骤是指根据英文文字特征,对二值序列进行渲染,并根据渲染结果对原始图像进行聚类;图像拼接步骤是指根据聚类结果,基于最小累积边缘距离原则,对原始图像进行纵向拼接,再对纵向拼接之后的结果进行横向拼接。本发明解决了被碎纸机破碎后的英文文档的复原问题,填补了现有技术的空白,同时,通过聚类,使拼接效率得以大大提高。
【专利说明】基于英文文字特征的碎纸机破碎文档复原方法
【技术领域】
[0001]本发明涉及基于英文文字特征的碎纸机破碎文档复原方法,属于图像处理学中的文档复原【技术领域】。
【背景技术】
[0002]破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。传统上,拼接复原工作需由人工完成,准确率较高,但效率很低,特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率,一个优秀的方法应该是不需要人工干预的,并能拼接出同一类破碎纸片。它是通过扫描和图像技术获取相关信息,然后利用计算机进行相应的处理,从而实现对这些碎纸片的全自动或者半自动的拼接复原。

【发明内容】

[0003]本发明针对现有破碎纸片拼接方法中关于英文文档拼接效率低下的问题,提出了基于英文文字特征的碎纸机破碎文档复原方法。
[0004]本发明为实现上述发明目的采用如下技术方案:
[0005]基于英文文字特征的碎纸机破碎文档复原方法,扫描破碎文档图像,对每一幅图像按照步骤I至步骤3作如下处理:
[0006]步骤I,建立灰度矩阵Ak:
【权利要求】
1.基于英文文字特征的碎纸机破碎文档复原方法,其特征在于:扫描破碎文档图像,对每一幅图像按照步骤I至步骤3作如下处理: 步骤1,建立灰度矩阵,二值化灰度矩阵后得到二值矩阵,然后分别求取二值矩阵每一行元素之和,垂直方向排列二值矩阵各行元素之和得到二值序列; 步骤2,由英文字母排版空间的上部宽度Wu、中部宽度Wm和下部宽度Wd,确立英文字母占据四线三格的空间位置,所述空间位置包括上中部、中部、中下部、上中下部: 步骤3,在二值序列中查找渲染起始点,渲染二值序列后进行聚类处理: 步骤3-1,由英文字母占据四线三格的空间位置,确定第一轮渲染的起始点: 当英文字母处于四线三格的上中部时,从中部的最下点开始,通过该点位置回退Wm+Wu得到第一轮渲染的起始点, 当英文字母处于四线三格的中部时,从中部的最上点开始,通过该点位置回退Wu得到第一轮渲染的起始点, 当英文字母处于四线三格的中下部时,从中部的最上点开始,通过该点位置回退Wu得到第一轮渲染的起始点, 当英文字母处于四线三格的上中下部时,从下部的最下点开始,通过该点位置回退Wu+Wm+Wd得到第一轮渲染的起始点; 步骤3-2,从第一轮渲 染的起始点开始渲染二值序列得到新的二值序列,具体包括步骤a和步骤b: 步骤a,从第一轮渲染的起始点开始分别往上、往下扫描,当扫描到遇O后的第一个I时,记录I所在的行号fk,并以fk为基准,处于fk上方的并与fk的距离为Wb的字体空间内都用I覆盖;处于的fk下方的并与fk的距离为Wu+Wm+Wd+Wb的字体空间内同样也全部用I覆盖,Wb为字母与字母纵向间距, 步骤b,第一轮渲染完成之后,取扫描方向上第一轮渲染起始点的下一个点作为新的渲染起始点,重复步骤a,遍历二值序列的所有点作为渲染起始点生成新的二值序列; 步骤4,对每一幅图像的新二值序列进行聚类处理; 步骤5,分别在每一类中,基于最小累积边缘距离原则找到累积边缘距离最小的两个二值矩阵,对这两个二值矩阵对应的破碎文档进行横向匹配拼接,直到该类中所有的图像都拼接到一起为止,再根据最小累积边缘距离对已经完成横向匹配的各破碎文档进行纵向匹配拼接。
2.根据权利要求1所述的基于英文文字特征的碎纸机破碎文档复原方法,其特征在于,步骤2中所述的上中部、中下部根据二值序列的像素分布情况划分: 当二值序列的前三分之一像素和小于后三分之一像素和时,则属于上中部, 当二值序列的前三分之一像素和大于后三分之一像素和时,同时前三分之一像素和与后三分之一像素和之比小于3/2时,则属于上中部, 当二值序列的前三分之一像素和大于后三分之一像素和时,同时若前三分之一像素和与后三分之一像素和之比大于或等于3/2时,则属于中下部。
3.根据权利要求2所述的基于英文文字特征的碎纸机破碎文档复原方法,其特征在于步骤2的具体方法是:对二值序列从上往下扫描,在读到第一个O后的I时,记录I所在行号,从二值序列第行继续扫描,读到行之后第一个O时记录O所在行号f2,由f2-f\的值确立英文字母占据四线三格的空间位置: 当时:已经扫描过的二值序列不构成一个完整的英文字母,继续往下扫描二值序列,当1-1 (时:已经扫描过的二值序列构成一个完整的英文字母,该英文字母处于四线三格的中部, 当( ffm+ffu+2时:已经扫描过的二值序列构成一个完整的英文字母,英文字母处于四线三格的上中部或者中下部, 当Wm+Wu+Za^fi ( ffm+ffu+ffd+l时:已经扫描过的二值序列构成一个完整的英文字母,英文字母处于四线三格的上中下部。
4.根据权利要求3所述的基于英文文字特征的碎纸机破碎文档复原方法,其特征在于,步骤5中基于最小累计边缘距离原则通过表达式
【文档编号】G06T5/50GK103996180SQ201410185991
【公开日】2014年8月20日 申请日期:2014年5月5日 优先权日:2014年5月5日
【发明者】冯钧, 陈焕霖, 杨艳林, 陈丽君, 唐志贤, 许潇, 朱忠华, 盛震宇 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1