文档处理装置以及文档处理和识别系统的制作方法

文档序号:11654908阅读:180来源:国知局
文档处理装置以及文档处理和识别系统的制造方法

本发明涉及一种文档处理装置和含有该文档处理装置的处理和识别系统。

技术背景

在公司、行政机关、科研机构等单位经常需要对纸质的印刷文档,比如商业合同、法律文书、行政文件等进行来源标识,即通过在印刷文档上添加表示该文件是由谁制作、由谁保管、制作打印时间、文件系列号等标记来标识来对文件后续的分发、传递过程中出现的泄漏进行追溯和管理。

比如,在政府机关中,如果要对某一份限量分发的机密文档进行标识,通常的做法是在该文件上添加表示文档制作者、文档保管者、文档编号的字符或是编码有这些信息的图形码,如将以上字符或是图形码(条形码、二维码等)直接添加在页眉或页脚处,或者直接在文件上添加图像水印。一旦某份文件被拍照、复印或是传真而泄漏出去,就可以通过识别泄露出去的文件上的标识来进一步追踪该被泄露的文件的源头。

然而,无论是使用可以直接辨识的文字字符或是需要进行解析的图形码或是直接添加在整个印刷文档页面上的水印,都是肉眼可见的,很容易通过后续的技术操作将这些字符、图形水印或是图形码移除,从而使得上述的方法无法对泄密的印刷文档进行追根溯源,无法起到预定的文档追溯的目的。



技术实现要素:

本发明是为了解决上述问题而进行的,目的在于提供一种能够将来源信息添加到文档中,使得肉眼不可见而又能够通过反向的处理解析来得到添加的来源信息的文档处理装置,以及含有该文档处理装置的文档处理和识别系统。

本发明为了实现上述目的,采用了以下结构:

<结构一>

本发明提供一种文档处理装置,用于将文档来源信息添加到文档中,其特征在于,包括:画面存储部,至少存储有来源信息输入提示画面、扫描框设定画面;显示输入部,显示来源信息输入提示画面和扫描框设定画面,让用户输入来源信息和扫描框的属性值;来源信息转化部,将来源信息根据编码规则转化成对应的长度为n位二进制数码;扫描框设定部,接收用户输入的扫描框的各种属性值来设定用于对文档进行扫描的扫描条件;特定区域计数部,采用扫描条件对文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目m;处理侧区域分组部,将m个特定区域分成n组;以及文档处理部,将n位二进制数码与n组特定区域进行一一对应,当与该组对应的二进制数码为1时,根据预定规则对对该组中的所有的特定区域中的黑白像素点进行处理,当与该组对应的二进制数码为0时,保持该组中的所有的特定区域中的黑白像素点不变。

<结构二>

进一步地,本发明还提供一种文档处理和识别系统,其特征在于,包括:文档预处理装置,用于对文档像素进行黑白二值化转化,得到黑白像素的二值化文档;文档处理装置,用于将文档来源信息添加到二值化文档中;以及文档识别装置,用于从添加了来源信息的二值化文档中识别出来源信息,其中,文档处理装置为具有上述特征的文档处理装置,文档识别装置具有:特定区域计数部,采用扫描条件对二值化文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目s;区域分组部,将s个特定区域分成n组;图像变换部,对n组中的特定区域进行图像变换;高频分量计算部,计算经过图像变换后的每一组特定区域内的高频分量超过1.0所占的比例;判定部,当高频分量超过1.0所占的比例大于或等于判定阈值t时,判定该组特定区域所对应的二进制数码为1,否则判定为0;二进制数码输出部,依次排列判定部的判定结果,得到n位长度的二进制数码;来源信息解析输出部,对得到的n位长度的二进制数码依照编码规则进行转换后输出,得到来源信息,判定阈值t满足50%≤t≤100%。。

发明的作用与效果

根据本发明涉及的文档处理装置,因为显示输入部能够显示预先存储在画面存储部中的来源信息输入提示画面和扫描框设定画面,显示来源信息输入提示画面和扫描框设定画面,让用户输入来源信息和扫描框的属性值,来源信息转化部能够将来源信息根据编码规则转化成对应的长度为n位的二进制数码,扫描框设定部能够接收用户输入的扫描框的各种属性值来设定用于对文档进行扫描的扫描条件,处理侧特定区域计数部能够采用扫描条件对文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目m,处理侧区域分组部能够将m个特定区域分成n组,文档处理部能够将n位二进制数码与n组特定区域进行一一对应,当与该组对应的二进制数码为1时,根据预定规则对对该组中的所有的特定区域中的黑白像素点进行处理,当与该组对应的二进制数码为0时,保持该组中的所有的特定区域中的黑白像素点不变。

所以,在输出的文档中就添加了肉眼不可见的来源信息,正因为该来源信息是肉眼不可见的,输出或是打印后就无法通过图像处理将这些来源信息进行破坏和移除,保证了来源信息的稳定性,提高了破坏的难度。

又由于,本发明提供的文档识别装置,能够通过图像变换部、高频分量计算部以及识别部根据文档处理装置在处理时所采用的属性条件、图像变换方法以及判定阈值和编码规则将文档中添加的识别信息进行识别和解析,然后输出对应的来源信息。

所以,通过对添加有来源信息的文档进行识别,通过识别出的来源信息就可以对文档进行追溯和管理。

附图说明

图1为本发明的实施例中文档处理和识别系统的框图;

图2为本发明的实施例文档处理装置的框图;

图3为为本发明的实施例中的画面存储部存储的来源信息输入提示画面示意图;

图4为为本发明的实施例中的画面存储部存储的扫描框设定画面示意图;

图5为本实施例中以全部为白像素点的4×4像素点扫描框按照预定规则翻转后的示意图;

图6为本发明的实施例中文档处理装置的动作流程图;

图7为本实施例的文档处理装置在对文档中的文字处理前后的对比示意图,图7(a)为5号字在未处理时的示意图,图7(b)为5号字在处理后的示意图,图7(c)为5号字在处理后放大2倍的示意图,图7(d)为5号字在处理后放大10倍的示意图;

图8为本实施例的文档处理装置在对一页文档处理前后的对比示意图,图8(a)为5号字的一页a4文档在未处理时的示意图,图8(b)为5号字的一页a4文档在处理后的局部10倍放大示意图;

图9为本发明的实施例中文档识别装置的框图;以及

图10为本发明的实施例中文档识别装置的动作流程图。

具体实施方式

以下结合附图对本发明涉及的文档处理和识别系统的实施形态进行详细地说明。

在本发明的第一种实施形态中,提供一种文档处理装置,用于将文档来源信息添加到文档中,其特征在于,包括:画面存储部,至少存储有来源信息输入提示画面、扫描框设定画面;显示输入部,显示来源信息输入提示画面和扫描框设定画面,让用户输入来源信息和扫描框的属性值;来源信息转化部,将来源信息根据编码规则转化成对应的长度为n位二进制数码;扫描框设定部,接收用户输入的扫描框的各种属性值来设定用于对文档进行扫描的扫描条件;特定区域计数部,采用扫描条件对文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目m;处理侧区域分组部,将m个特定区域分成n组;以及文档处理部,将n位二进制数码与n组特定区域进行一一对应,当与该组对应的二进制数码为1时,根据预定规则对对该组中的所有的特定区域中的黑白像素点进行处理,当与该组对应的二进制数码为0时,保持该组中的所有的特定区域中的黑白像素点不变。

在该实施形态的文档处理装置中,还可以具有这样的特征:其中,属性值包括扫描框的像素点尺寸、扫描框中的邻接的黑像素点的数值。

另外,在该实施形态的文档处理装置中,还可以具有这样的特征:其中,扫描框为矩形,其尺寸为长x个像素点,宽为y个像素点,x≥y,扫描框中的邻接的黑像素点的个数值p满足x≤p≤xy,x、y、p均为不小于2的整数。

另外,在该实施形态的文档处理装置中,还可以具有这样的特征:其中,预定规则为对对该组中的所有的特定区域内的黑白像素点依次进行间隔的黑白像素点对调翻转。

另外,在该实施形态的文档处理装置中,还可以具有这样的特征:其中,间隔的黑白像素点对调翻转的间隔为1到y-1的整数。

另外,在该实施形态的文档处理装置中,还可以具有:提示信息生成部、判断部,当第一判断部判断特定区域的个数m小于二进制数码的位数n时,提示信息生成部就生成提示信息,显示输入部就根据提示信息显示扫描框设定画面,让用户再次输入扫描框的属性值。

另外,在该实施形态的文档处理装置中,还可以具有这样的特征:其中,编码规则为ascii、unicode、utf8、big5、gb2312、gbk、gb18030中的任意一种。

另外,在该实施形态的文档处理置中,还可以具有这样的特征:其中,来源信息包括文档的权利人的身份信息、文档的形成时间以及文档的编号。

在本发明的第二种实施形态中,提供一种文档处理和识别系统,其特征在于,包括:文档预处理装置,用于对文档像素进行黑白二值化转化,得到黑白像素的二值化文档;文档处理装置,用于将文档来源信息添加到二值化文档中;以及文档识别装置,用于从添加了来源信息的二值化文档中识别出来源信息,其中,文档处理装置为权利要求1-9中任意一项的文档处理装置,文档识别装置具有:特定区域计数部,采用扫描条件对二值化文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目s;区域分组部,将s个特定区域分成n组;图像变换部,对n组中的特定区域进行图像变换;高频分量计算部,计算经过图像变换后的每一组特定区域内的高频分量超过1.0所占的比例;判定部,当高频分量超过1.0所占的比例大于或等于判定阈值t时,判定该组特定区域所对应的二进制数码为1,否则判定为0;二进制数码输出部,依次排列判定部的判定结果,得到n位长度的二进制数码;来源信息解析输出部,对得到的n位长度的二进制数码依照编码规则进行转换后输出,得到来源信息,判定阈值t满足50%≤t≤100%。

实施例一

图1为本发明的实施例中文档处理和识别系统的框图。

如图1所示,文档处理和识别系统10包括文档处理装置20、文档识别装置30和文档预处理装置40。

在本实施例中,文档处理装置20和文档识别装置30、文档预处理装置40是通信连接的,具体来说是通过导线物理连接在一起的。文档预处理装置40用于对文档像素进行黑白二值化转化,得到黑白像素的二值化文档,所以本实施例中的文档处理装置20、文档识别装置30所进行处理的都是经过二值化转化的二值化文档。

图2为本发明的实施例中文档处理装置的框图。

如图2所示,文档处理装置20具有画面存储部201、显示输入部202、来源信息转化部203、扫描框设定部204、处理侧特定区域计数部205、判断部206、提示信息生成部207、处理侧区域分组部208、文档处理部209以及处理侧控制部210。

画面存储部201存储有来源信息输入提示画面2011、扫描框设定画面2012。

图3为为本发明的实施例中的画面存储部存储的来源信息输入提示画面示意图。

显示输入部202在处理侧控制部210的控制下显示对应的画面并让用户进行输入操作。处理侧控制部208控制显示输入部202显示来源信息输入提示画面2011。

如图3所示,来源信息输入提示画面2011具有来源信息输入区域2011a、最多字符输入数目提示区域2011b以及确定按键2011c,本实施例中最多字符输入数目为50个英文字符和标点。用户在对应的来源信息输入区域2011a输入对应的字符后,点击确定按键2011c完成输入过程。

来源信息转化部203在处理侧控制部210的控制下,将用户输入的来源信息根据编码规则在转化为长度为420位的二进制数码。编码规则为ascii、unicode、utf8、big5、gb2312、gbk、gb18030中的任意一种,可以根据来源信息的字符类别进行选择编码规则。将来源信息的a个字符串(如英文子母,标点符号)编码为连续的二进制数码,本实施例使用ascii编码规则,将a个字符串顺序编码为8a位二进制数码,n位中空白的部分用二进制数码0补齐。本实施例中二进制数码的位数为420位,最多可以编码50个英文字符和标点,剩余20个作为空白,不编码任何字符。

处理侧控制部210控制输入显示部202显示扫描框设定画面2012。扫描框的扫描条件具体为:扫描框为矩形,其长属性值为x个像素点,宽属性值为y个像素点且x≥y,扫描框中的邻接的黑像素点的个数值p满足x≤p≤xy,x、y、p均为大于2的整数。本实施例中为矩形扫描框,长x为4个像素,宽x也为4个像素,扫描框中的邻接的黑像素点的个数值p为4到12,即下限值为4,上限值为12。

图4为为本发明的实施例中的画面存储部存储的扫描框设定画面示意图。

如图所示,扫描框设定画面2012包括像素点长度输入区域2012a、像素点宽度输入区域2012b、扫描框中的邻接的黑像素点的个数下限值输入区域2012c和上限值输入区域2012d以及确定按键2012e。用户分别在对应的区域中进行输入。用户在对应的像素点长度输入区域2012a、像素点宽度输入区域2012b、扫描框中的邻接的黑像素点的个数下限值输入区域2012c和上限值输入区域2012d输入对应的属性值后,点击确确定按键2012e完成输入过程。

扫描框设定部204在处理侧控制部210的控制下,接收用户输入的扫描框的各种属性值来设定对文档进行扫描的扫描条件。

处理侧特定区域计数部205在处理侧控制部210的控制下,采用扫描条件对文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目m。

判断部206对特定区域的个数m是否小于二进制数码的位数420进行判断。

当判断部206判断特定区域的个数m小于二进制数码的位数n时,提示信息生成部207就生成提示信息,显示输入部202就根据提示信息显示扫描框设定画面2012,让用户再次输入扫描框的属性值。

当判断结果为是时,再次输入提示信息生成部207就生成提示信息,显示输入部202就根据提示信息显示扫描框设定画面2012,提示用户再次输入扫描框的属性值:长属性值、宽属性值以及邻接的黑像素点的个数的下限值和上限值。

当判断结果为否时,处理侧区域分组部208将m个特定区域分成n组。

文档处理部209在处理侧控制部210的控制下,将n位二进制数码与n组特定区域进行一一对应。当与该组对应的二进制数码为1时,对该组中的所有的特定区域内的黑白像素点依次进行间隔的黑白像素点对调翻转。当与该组对应的二进制数码为0时,保持该组中的所有的特定区域中的黑白像素点不变。本实施例中,选用的是长x为4个像素,宽x也为4个像素,扫描框中的邻接的黑像素点的个数值p为4到12,即下限值为4,上限值为12。间隔数确定为1,即从第一个开始,第一个对调翻转,第二个不翻转,第三个对调翻转,第四个不翻转……如此循环。

图5为本实施例中以全部为白像素点的4×4像素点扫描框按照预定规则翻转后的示意图。

如图5所示,对全部为白像素点的4×4像素点扫描框进行翻转后得到的处理结果,处理过程是从第一行开始,从左到右,第一个由白翻转为黑,第二个不翻转保持白像素点不变,第三个由白翻转为黑,第四个不翻转保持白像素点不变,然后从第二行开始,从右到左,第五个由白翻转为黑,第六不翻转保持白像素点不变,第七个由白翻转为黑,第八个不翻转保持白像素点不变……,如此循环操作,就得到了图4的示意图。

文档的所有特定区域按照上述的预定规则处理后就得到了添加了对应了来源信息的420位二进制数码的文档。

图6为本发明的实施例中文档处理装置的动作流程图。

如图6所示,本实施例中的文档处理装置20的动作流程包括以下步骤:

步骤s1-1:文档处理装置20中的显示输入部202显示来源信息输入提示画面让用户输入来源信息,进入步骤s1-2。

步骤s1-2:文档处理装置20中的显示输入部202显示扫描框设定画面让用户输入扫描框的属性值,进入步骤s1-3。

步骤s1-3:来源信息转化部203将用户输入的来源信息根据编码规则在转化为长度为n位的二进制数码,进入步骤s1-4。

步骤s1-4:扫描框设定部204在处理侧控制部210的控制下,接收用户输入的扫描框的各种属性值来设定对文档进行扫描的扫描条件,进入步骤s1-5。

步骤s1-5:处理侧特定区域计数部205在处理侧控制部210的控制下,采用扫描条件对文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目m,进入步骤s1-6。

步骤s1-6:判断部206对特定区域的个数m是否小于二进制数码的位数n进行判断,当判断部判断特定区域的个数m小于二进制数码的位数n时,提示信息生成部就生成提示信息,并进入步骤s1-2,否则进入步骤s1-7。

步骤s1-7:处理侧区域分组部208将m个特定区域分成n组,进入步骤s1-8。

步骤s1-8:文档处理部209在处理侧控制部210的控制下,将n位二进制数码与n组特定区域进行一一对应。

步骤s1-9:判断与该组对应的二进制数码是否为1,当结果为是时,进入步骤s1-10,否则保持不变。

步骤s1-10:当结果为是时,对该组中的所有的特定区域内的黑白像素点依次进行间隔的黑白像素点对调翻转,进入步骤s1-11。

步骤s1-11:判断n位二进制数码是否处理完毕,完毕后结束并输出处理后的文档,否则进入步骤s1-8。

图7为本实施例的文档处理装置在对文档中的文字处理前后的对比示意图,图7(a)为5号字在未处理时的示意图,图7(b)为5号字在处理后的示意图,图7(c)为5号字在处理后放大2倍的示意图,图7(d)为5号字在处理后放大10倍的示意图。

图8为本实施例的文档处理装置在对一页文档处理前后的对比示意图,图8(a)为5号字的一页a4文档在未处理时的示意图,图8(b)为5号字的一页a4文档在处理后的局部10倍放大示意图。

由以上图7、图8的对比可知,经过本实施例的文档处理装置的处理,文字在原样大小甚至是放大2倍后,肉眼依然无法分辨出处理前后的区别,只有在放大5倍甚至10倍后,文字才会出现明显的毛刺。

图9为本发明的实施例中文档识别装置的框图。

如图9所示,文档处理装置30具有识别侧特定区域计数部301、识别侧区域分组部302、图像变换部303、高频分量计算部304、判定部305、二进制数码输出部306、来源信息解析输出部307以及识别侧侧控制部308。

识别侧特定区域计数部301在识别侧控制部308的控制下,采用和文档处理装置20相同的扫描条件对由文档预处理装置40输出的二值化文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目s。由于纸质的印刷文档在流通过程中可能出现损毁以及涂抹,在扫描过程中,很有可能得到的特定区域的数目s会比当初处理时的数目m要少,本实施例直接以输出得到的新的文档进行扫描,得到的数目s是和数目m相等的。

识别侧区域分组部302在识别侧控制部308的控制下将s个特定区域分成n组。

图像变换部303在识别侧控制部308的控制下,对n组中的特定区域进行图像变换,本实施例使用离散余弦变换dct方法进行图像变换。

高频分量计算部304在识别侧控制部308的控制下,计算经过图像变换后的每一组特定区域内的高频分量超过1.0所占的比例。

判定部305,当高频分量超过1.0所占的比例大于或等于判定阈值t时,判定该组特定区域所对应的二进制数码为1,否则判定为0。判定阈值t满足50%≤t≤100%都是可行的,本实施例中使用的判定阈值t为70%。

二进制数码输出部306在识别侧控制部308的控制下,依次排列判定部305的判定结果,得到420位长度的二进制数码。

来源信息解析输出部307在识别侧控制部308的控制下,对得到的n位长度的二进制数码依和文档处理装置20相同的扫照编码规则进行转换后输出,得到来源信息。

图10为本发明的实施例中文档识别装置的动作流程图。

如图10所示,本实施例中的文档识别装置30的动作流程包括以下步骤:

步骤s2-1:文档识别装置30从文档处理装置中获取二值化文档,识别侧特定区域计数部301采用扫描条件对从文档处理装置中获取的二值化文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目s,并进入步骤s2-2。

步骤s2-2:识别侧区域分组部302,将s个特定区域分成n组,并进入步骤s2-3。

步骤s2-3:图像变换部303,对n组中的特定区域进行图像变换,并进入步骤s2-4。

步骤s2-4:高频分量计算部304,计算经过图像变换后的每一组特定区域内的高频分量超过1.0所占的比例,并进入步骤s2-5。

步骤s2-5:判定部305判断高频分量超过1.0所占的比例是否大于或等于判定阈值t。

步骤s2-6:当判断结果为是时,判定该组特定区域所对应的二进制数码为1,并进入步骤s2-8。

步骤s2-7:当判断结果为否时,判定该组特定区域所对应的二进制数码为0,并进入步骤s2-8。

步骤s2-8:判断n组特定区域是否判定完毕,完毕后进入s2-9,否则进入步骤s2-3。

步骤s2-9:当n组特定区域判定完毕后,二进制数码输出部306依次排列判定部的判定结果,得到n位长度的二进制数码,进入步骤s2-10。

步骤s2-10:来源信息解析输出部对得到的n位长度的二进制数码依照编码规则进行转换,得到来源信息后输出。

实施例的作用与效果

根据本实施例涉及的文档处理装置,因为显示输入部能够显示预先存储在画面存储部中的来源信息输入提示画面和扫描框设定画面,显示来源信息输入提示画面和扫描框设定画面,让用户输入来源信息和扫描框的属性值,来源信息转化部能够将来源信息根据编码规则转化成对应的长度为n位的二进制数码,扫描框设定部能够接收用户输入的扫描框的各种属性值来设定用于对文档进行扫描的扫描条件,处理侧特定区域计数部能够采用扫描条件对文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目m,处理侧区域分组部能够将m个特定区域分成n组,文档处理部能够将n位二进制数码与n组特定区域进行一一对应,当与该组对应的二进制数码为1时,根据预定规则对对该组中的所有的特定区域中的黑白像素点进行处理,当与该组对应的二进制数码为0时,保持该组中的所有的特定区域中的黑白像素点不变。所以,在输出的文档中就添加了肉眼不可见的来源信息,正因为该来源信息是肉眼不可见的,输出或是打印后就无法通过图像处理将这些来源信息进行破坏和移除,保证了来源信息的稳定性,提高了破坏的难度。

另外,由于来源信息包括文档的权利人的身份信息、文档的形成时间以及文档的编号,这样在识别后,就可以通过这些信息对泄漏的源头进行追溯。

另外,上述实施例中,在进行编码时,n位中空白的部分用二进制数码0补齐,补入的数码可以放置在尾部,也可以放置在头部或中间的位置。

又由于,本发明提供的文档识别装置,能够通过图像变换部、高频分量计算部以及识别部根据文档处理装置在处理时所采用的属性条件、图像变换方法以及判定阈值和编码规则将文档中添加的识别信息进行识别和解析,然后输出对应的来源信息。所以,通过对添加有来源信息的文档进行识别,通过识别出的来源信息就可以对文档进行追溯和管理。

另外,判断部能够判断特定区域的个数m是否小于二进制数码的位数n,当判断结果为是时,提示信息生成部就生成提示信息,显示输入部就根据提示信息显示扫描框设定画面,让用户再次输入扫描框的属性值,使得当特定区域的个数m不够时,可以再次输入属性值来生成新的扫描条件,这样能够使得再次扫描后得到的个数m能满足要求。

另外,由于具有文档预处理装置,能够对文档像素进行黑白二值化转化来得到黑白像素的二值化文档,这样特定区域计数部在后续的扫描和计数过程中,处理速度更快,也更准确。而识别装置,用于识别的也是黑白像素的图像,识别的也更准确,出错的可能性也更小。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1