一种利用半色调信息检测文档真实性的打印文档取证方法

文档序号:7747026阅读:121来源:国知局
专利名称:一种利用半色调信息检测文档真实性的打印文档取证方法
技术领域
本发明属于信号与信息处理技术领域,涉及到检测文档真实性的打印文档取证方 法,特别涉及到一种利用半色调信息检测文档真实性的打印文档取证方法。
背景技术
伪造文档通常有两种办法通过直接二次打印方式进行添加文字的伪造;通过对 扫描文档进行添加、删除和修改文字等编辑操作后再进行打印,称为剪切合成二次打印。王跃等人在“添加打印文书检验方法新探”文中指出前者不可避免的造成肉眼可 见的伪造缺陷,如行字迹横向倾斜差异、行距差异和左右页边距差异,具体如图1所示。图 中第一段和第二段经过两次打印形成。第二种方法使用软件实现去除、添加文字,操作精度高,可有效避免上述缺陷。但 是编辑后只能以图像形式再次打印,而这会在打印文档中引入半色调效应。图2(a)为文档 形式打印的字符,其中不含半色调效应;图2(b)为图像形式打印的字符,在含有墨迹区域 存在半色调效应。崔岚在“用复印法变造复印文件的鉴别”文中指出通过数码复印机复印 图像文件也会产生半色调效应,而模拟复印机不会产生半色调现象。所以针对实际中的数 码复印机伪造文件,也可以使用本发明中的方法帮助检验文档的真实性。从上面分析中可以看出,利用字符图像是否含有半色调来判断其所在文档是由文 档编辑软件打印还是以图像形式打印。如果由文档编辑软件打印,则认为不存在剪切合成 二次打印的伪造行为;如果是以图像形式打印,则认为存在剪切合成二次打印伪造行为的 可能性很大。综上所述,有必要进行字符图像是否含有半色调技术的检测工作,以帮助确定 文档是否进行过剪切合成二次打印操作。Kaushal Solanki 等人在‘“Print and Scan'Resilient Data Hiding in Images,, 文中指出这种半色调信息可以在傅立叶变换的频域幅度谱中产生明显的4个对称的亮点, 具体如其文中473页的“Fig. 8”所示。他们利用了频域的4个亮点的相对位置信息实现对 打印文档的图像进行倾斜校正,从而帮助实现在打印文档图像中隐藏信息的正确提取。孔 月萍在“图像逆半调及其质量评价技术研究”一文中同样对图像半色调在频域中引起的这 种亮点现象进行研究,具体如第12页“图2. 4”所示。她分析这种现象的目的是设计更好的 半色调和逆半色调算法。

发明内容
本发明要解决的技术问题是如何从打印文档提取各个字符图像中是否含有半色 调信息,以帮助文件检验工作人员更准确的检验文档的真实性,这将为文件检验提供一种 新的方法。本发明利用含有半色调的字符图像在其频域中存在明显的四个对称亮点的特 点,采用预处理方法实现对文档图像进行字符分割,通过这种频域特点判断每个字符图像 中是否含有半色调信息,最后将每个字符的判决结果均标记在文档图像中。这幅标记了每 个字符图像半色调信息的文档图像将帮助文检工作人员分析文档的真实性。如果文档的字符图像整体上或局部区域中存在半色调信息,则说明该文档可能经过篡改操作。因为这 部分区域并不是以正常的文本形式打印,或者以手写签名等方式形成的。含有半色调信息 的字符一定是以图像的形式的打印的,这就很有可能是经过了剪切合成二次打印的伪造操作。本发明的技术方案如下1.利用半色调信息判别文档真实性的方法框图本方法的框图如图3所示,具体包括3个步骤。针对一幅带检测的文档图像,首先 要经过预处理实现字符分割,然后针对每个字符图像,使用频域分析的办法判断是否含有 半色调信息,最后将是否含有半色调信息的判别结果标记在文档图像中。这个判决结果就 可以很直观的帮助文件检验工作人员分析文档的真实性。2.字符分割为了从文档图像中分割出字符图像,本文通过二值去噪、倾斜校正、提取字符中心 三个步骤构成的预处理过程来获得特征点,并将其匹配构成特征点对集合。首先,对文本文档图像进行基于阈值的二值化,得到对应的二值图像。文本文档图 像包含字符墨迹和均勻背景区域,其灰度直方图呈现明显的双峰,可以选择双峰中间的谷 点作为二值化阈值。对于二值图像中面积小于某个阈值的连通区域,认为是墨点飞溅产生 的噪声斑点并将其消除。其次,对二值去噪图像使用Xiaoyi Jiang等人在“Skew Detection of Documentlmages by Focused Nearest-Neighbor Clustering,,文中 提出的 FNNC(FocusedNearest-Neighbor Clustering,聚焦近邻法)算法进行倾斜校正。FNNC 方 法为近邻法的改进方法,分为特征点提取和倾斜角度估计两个阶段。在特征点提取阶段,本 文提取字符连通区域重心作为特征点。针对单个汉字可能存在多个连通区域的特点,可以 计算各连通区域的凸壳,对于凸壳相连或之间距离小于某阈值的连通区域,认为属于同一 汉字字符,并将其标记为同一个连通区域。在倾斜角度估计阶段,选取某特征点的3个最近 邻特征点确定局部倾斜角度,再根据各特征点的局部倾斜角度统计直方图确定页面倾斜角 度。然后,对倾斜校正后的二值图像提取字符中心。与上述倾斜校正步骤中的特征点 提取阶段类似,通过凸壳来合并单个汉字内各连通区域,并取每个汉字字符连通区域外接 矩形的中心作为特征点。字符中心检测过程实例如图4所示。3.字符图像中是否含有半色调信息的判别图2中是两个字符图像,图2(a)为不含有半色调的字符图像,图2(b)为含有半色 调的字符图像。从中可以看出,图2(b)中存在明显的加网效果,相当于在图2(a)中叠加了 一个二维正弦噪声。分析表明,含有半色调的字符图像在频域的中频分量会出现4个峰值。 如图5所示。利用这种现象判断字符图像是否含有半色调。针对字符图像,执行以下步骤1)将空域图像减其平均值,以消除频域直流分量;2)对图像进行二维Fourier变换,获取幅度谱,取其对数并归一化,得到归一化的 对数幅度谱|S( X,《y)|,再减去其均值得ISjc^,《y)| ;3)设计带通滤波函数W(x,y),由余弦函数构成,其特点是在四个象限存在四个峰 值,与上述归一化对数幅度谱相乘求和得到二者相关性,设定合适的阈值T,可检测出带有半色调的字符图像。上述步骤2)中,| 上述步骤3)中,带通滤波器W(x,y)的表达式为其中Tx,Ty为余弦函数的周期,取值分别为待检测字符图像长和宽的1/2,这样就 能保证窗函数在x,y取值范围内包含四个峰值点,与带有半色调的中频幅度谱的峰值点位 置相吻合,如图6所示,计算M =XS°(X'y)'nX'力,
x 少 x,y设定阈值T = 0,将M > T的字符图像判为含有半色调。4.将半色调信息判别结果标记在文档页面在第2步中,将文档图像进行字符分割得到字符图像,然后对每个字符图像按照 第3步的方法提取是否含有半色调的信息。如果某个字符含有半色调信息,则用外接矩形 进行标记,最终得到可供文件检验人员参考的标记半色调信息的文档图像。文件检验人员 可以从该结果中直观地观察到文档图像中各字符的半色调信息,从而为判断文档的真实性 提供依据。具体的字符图像检测结果如图7所示。综上所述,本发明对打印文档的打印机来源进行检测和取证具体步骤如下首先,通过预处理过程从文档图像中分割出各个字符图像;其次,判断每个字符图 像中是否含有半色调信息;第三,将整幅文档中各个字符的是否含有半色调的判决结果标 记在图像中,以帮助判别文档是否经过伪造篡改。本发明的效果和益处是本发明主要针对实际伪造文档过程中,伪造者通常采用剪切合成办法进行伪造而 提出的。剪切合成二次打印不可避免的会在伪造文档的字符图像中产生半色调效应。本发 明解决了自动检验文档中每个字符是否含有半色调信息的判断问题,从而为司法机关和刑 侦部门检测文档的真实性提供了更有效的工具。本发明适用于信息安全领域,可以有效地 帮助文件检验人员检验文档的真实性。


图1是直接二次打印过程中产生的伪造痕迹图。图2是以文档形式打印的字符图像、以图像形式打印的字符图像。图中图2(a)是以文档形式打印的字符图像,图2(b)是以图像形式打印的字符图像。图3是利用半色调信息检测文档真实性的打印文档取证方法框图。图4是原始字符图像、初始凸壳图像、合并凸壳图像及分割出的字符图像。图中图4(a)是原始字符图像,图4(b)是初始凸壳图像,图4(c)是合并凸壳图 像,图4(d)是分割出的字符图像。图5打印文档中字符的幅度谱图像。
图中图5(a)是不含半色调字符图像对数幅度谱,图5(b)是含半色调字符图像对 数幅度谱。图6是带通滤波函数的三维效果图。图7是对字符图像的检测结果图。图中图7(a)上面三行为经过二次打印的含有半色调的字符图像,下面三行为不 含有半色调的字符图像,图7(b)表示对图7(a)中的字符图像的检测结果图像。
具体实施例方式以下结合技术方案和附图详细叙述本发明的具体实施方式
。实验中需要对打印文档的字符图像是否含有半色调信息进行检测,首先要制作出 含有半色调信息的字符文档图像,文档的上半部分为经过打印和扫描的字符“e”的图像, 下半部分为正常字符“e”,对该文档进行打印扫描得到待检测文档图像,该图像的上半部 分含有半色调,下半部分不含有半色调,以便于检测结果的对比,实验中使用扫描精度为 600dpi。图7(a)为待检测文档的一部分,上面三行含有半色调,下面三行不含半色调,检测 结果如图7(b)所示,含有半色调的字符用矩形框标记出来。半色调的产生是由于文档在二次打印时字符图像叠加了正弦噪声,这些噪声与文 档的内容无关,因此该算法对其它英文字符和汉语字符仍然适用。在字符分割时,由于存在 误差,将两个字符用一个矩形框标记出来,这使得分割的字符图像大小不一,在对每个字符 进行检测的同时,带同滤波函数可以获得分割字符图像的大小,通过调整带通滤波器参数 Tx,Ty,使之与待检测字符图像的大小相对应即可解决此问题。
权利要求
一种利用半色调信息检测文档真实性的打印文档取证方法,其特征是利用文档经过扫描并二次打印后引入了正弦噪声,使打印文档存在半色调,表现为在其频谱的四个象限中产生四个峰值,通过字符分割得到每个字符图像块,求取每个图像块的归一化对数幅度谱,通过计算中频幅度谱与带通滤波函数的相关性来判断字符图像是否含有半色调,进而判断出打印文档是否经过二次打印篡改。
2.根据权利要求1所述的一种利用半色调信息检测文档真实性的打印文档取证方法, 其特征在于对待检测文档进行字符分割,通过设定阈值将图像二值化,去除面积小的连通 区域以减少噪声斑点,使用FNNC算法进行倾斜校正,最后对倾斜校正后的二值图像提取字 符中心并得到单个字符图像。
3.根据权利要求1所述的一种利用半色调信息检测文档真实性的打印文档取证方法, 其特征在于对分割得到的字符图像进行Fourier变换,取其对数幅度谱并归一化,含有半 色调的字符频谱中在四个象限中央有明显的峰值,用于判断半色调的存在。
4.根据权利要求1所述的一种利用半色调信息检测文档真实性的打印文档取证方法, 其特征在于计算归一化的对数幅度谱与带通滤波函数的相关性,此带通滤波函数由余弦函 数构成,在四个象限存在四个峰值,将滤波函数与归一化对数幅度谱对应相乘再求和来计 算二者的相关性,设定阈值T,将相关性大于T的字符图像判定为含有半色调,并将判决结 果标记在文档图像中。
全文摘要
一种利用半色调信息检测文档真实性的打印文档取证方法,属于信号与信息处理技术领域。其特征是利用文档经过二次打印后引入了正弦噪声,使打印文档存在半色调,表现为在其频谱的四个象限中产生四个峰值。通过字符分割得到每个字符图像块,求取图像块的对数幅度谱并归一化,设计一个在四个象限存在峰值的带通滤波函数,通过计算归一化的对数幅度谱与带通滤波函数的相关性来判断半色调是否存在,进而判断出打印文档是否经过二次打印篡改。本发明的效果和益处是对打印文档的每一个字符图像是否含有半色调进行自动判决,以此鉴别该文档是否经过二次打印篡改。
文档编号H04N1/405GK101854461SQ20101015446
公开日2010年10月6日 申请日期2010年4月20日 优先权日2010年4月20日
发明者吴玉宝, 孔祥维 申请人:大连理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1