用于检测空白页的方法以及相应的多功能机的制作方法

文档序号:7913962阅读:372来源:国知局
专利名称:用于检测空白页的方法以及相应的多功能机的制作方法
技术领域
本发明涉及用于检测在多功能机上扫描的文件的纸张中的空白页的方法,所述多功能机包括扫描仪。本发明还涉及多功能机,该多功能机包括实施根据本发明的方法的扫描仪。
背景技术
在包括扫描仪(通常是双面扫描仪)的多功能机上对包括多张纸的文件进行扫描期间,需要检测空白页,以免将空白页存储在存储器中并对空白页进行处理。目前,所提出的大部分方案都是基于将每页纸的总体白色等级(whitelevel)与阈值进行比较的简单技术。例如,W02006/104627公开了这种方案。根据W02006/104627的方案还检测一页的另一面上所存在的信息、和扫描期间因透明而观察到的信息。但是,这种方案的缺点在于,之前需要对被扫描纸张的正面和背面进行复杂地配准,这是由于扫描仪的结构,被扫描纸张的正面和背面会彼此偏移。JP2002044367也公开了一种用于检测将在多功能机上扫描的文件的纸张中的空白页的方法。JP2002044367公开的方法中,扫描仪对灰度色调强度等级进行比较,并且当两页的强度有很大的不同时,判断该纸张包括空白页,或者当两页类似(即当两页的类似度的数据特性(这里称为灰度彩色强度等级)超过类似度标准时)时判断该纸张包括两个非空白页。因此,JP 2002 044367不能检测出具有两个类似页的纸张上的空白页,从而不能检测因透明而观察到的、在页的另一面上所存在的信息。

发明内容
本发明用于解决这些缺陷。为此,根据本发明提出了根据权利要求I的方法。可以通过权利要求2至9的单独技术特征或它们的可能技术组合中的任意一个来有利地实现本发明。本发明还涉及多功能机,该多功能机包括用于实施根据本发明的方法的扫描仪。本发明具有多个优点。首先,本发明可以有效地检测文件中的空白页,而不需要配准被扫描纸张的正面和背面。这是因为本发明的方案不受纸张的正面和背面之间的偏移的影响。本发明可以自动地检测被扫描纸张表面上携带的信息是否对应于实际信息。非实际信息的一些实例为-存在于一面上、并在扫描仪上因透明性而观察到的因纸张材料的孔隙而显示在另一面(背页)上的墨迹(例如,正页上的橡皮图章),-纸张的黑白颜色,或者-由扫描仪检测到的纸张折痕,因为在扫描时折痕在纸张上产生阴影。但是,本发明能够将仅有字迹的页分类为信息携带的页,即使该页相对于背景具有较差的对比度。本发明可以以自动方式实现在具有有限存储容量和计算功能的多功能机上,而不需要用户介入。因此,本发明可以非常稳定和快速地检测信息,因为本发明主要检测包含实际信息的页。这特别是因为被检测为空白页的页不会被传送到存储器以用于存储和处理。因此, 为了优化判断速度,已经设立了若干检测步骤。仅在最困难的情况中才会执行全部步骤,在初期的检测步骤就能检测到比较简单的情况。


根据下面的描述,本发明的其他特征、目的和优点将变得显而易见,下面的描述仅是说明性的而非限制性的,并且应当参照附图进行理解,其中图I是根据本发明的方法中的主要步骤的简化框图;图2是根据本发明的多功能机的高度简化的表示;图3和图4示出了纸张的正面和背面的局部差异图⑶L的结构;图5示出了报告局部差异图CDL的具有相同值的像素数量的柱状图示例;图6示意性地示出了距离d(x,R)计算的示例。 在所有附图中,类似元件采用相同的数字标记。
具体实施例方式参照图I和图2,示出了根据本发明的方法的主要步骤,该方法在包括扫描仪2的多功能机上实施。例如,多功能机I可以包括传真机、复印机、网络服务器、打印机、和电话功能和/ 或任何其他的办公自动化功能。扫描仪2通常包括所有处理和存储装置,用于扫描将在多功能机I上扫描的文件的纸张。有利地是,扫描仪2可以对将被扫描的文件的每一张纸进行双面扫描。如图I所示,用于检测在包括扫描仪2的多功能机I上扫描的文件的纸张中的空白页的可能方法包括主要步骤,其中扫描仪2 -在步骤SO中,扫描将被扫描的文件的至少一张纸的两页;-在图I的步骤S6中,对每张被扫描纸张进行简单的空白页检测步骤;-在步骤S7中,选择不包括在前述检测中被检测为空白的至少一页的每张纸;-在步骤S9中,对所选纸张的两页进行比较,以及-在步骤S9中,当某页与纸张的其他页类似时,将该页分类为空白页。从本说明书后面更详细的描述中可以看出,当类似度的数据特性超过类似度标准时,扫描仪2认为一页与另一页“类似”。更具体地,步骤SO通常可以使扫描仪2对将被扫描的文件的纸张的两页进行扫描。在步骤SI中,扫描仪2分析所扫描的页,以及通常将所扫描的页记录到表示每一页的每个像素值的表格中。因此,这些页被转换成属于实数空间的一组像素。在步骤S2中,扫描仪2执行包括删除边缘和/或调整尺寸和/或转换成所扫描页的灰度等级的步骤。这里给出了边缘删除技术的实施例。在双面扫描仪中,所扫描的页通常包括或多或少的宽边。出于该原因,有利的是, 删除页的边缘以便不妨碍随后的页分析。所采用的技术非常简单,并且包括去除例如边缘处的页的5%。当然也可以使用除了 5%之外的值或者其他更复杂的删除技术。这里给出了用于所扫描页的尺寸再调整技术的实施例。为了提高由扫描仪2所执行的方法的速度,减小每个所扫描页的尺寸。因此,可以通过仅保留每两个像素中的一个像素来减小页的分辨率,以用于每次减小处理(reduction pass)。这可以具有更快的实现速度。执行减小处理,直到页的区域小于150000个像素。实际上,该尺寸能够使随后的步骤具有较快的实现速度,并在检测空白页时具有良好的性能。也可以使用其他技术,例如对于每个像素而言采用相邻像素的平均值。这里给出了转换成所扫描页的灰度彩色等级的实施例。应当理解,空白页的检测不需要考虑色彩。因此,有利的是,将灰度等级值分配给所扫描页的像素。这可以简化后面的处理。为了优化用于实施所述方法的扫描仪的复杂度和存储需求,边缘删除、和/或尺寸再调整、和/或转换成所扫描页的灰度等级的步骤能够同时执行。为此目的,例如能够逐一地提取期望的像素,将它们转换成灰度等级,之后逐一地将它们存储在将被处理的所扫描页中。在步骤S3中,扫描仪2用灰度等级对每张被扫描的页执行第一简单空白页或信息携带的页的检测。简单检测是基于与至少一个阈值相比较的技术。因此,检查每页所包括的信息,并作出关于其状态的判断。页确实是空白页(也就是说,其不携带任何信息)或者页是非空白页(也就是说, 其携带信息),或者扫描仪不能作出判断(尤其是页包含很少字迹的情况、或者具有因透明而从另一页接收到的信息的情况、或者页上的字迹相对于背景几乎没有差异的情况)。步骤S3中,第一简单检测的目的是确定纸张上是否写有信息(打印的或手写的), 而不管纸张和信息的色彩。这里给出用于根据S3的第一检测的技术的实施例。例如,首先可以检测所有页上被转换成灰度等级的像素变化,然后将测量值与两个阈值进行比较阈值tl用于检测空白页,阈值t2用于检测信息携带的页。例如,两个阈值tl和t2能够通过经验确定。例如上阈值t2可以设置成值125。实际上,该值对应于纸张的大部分上携带信息的页的最低变化值。下阈值tl可以设置成值2,其对应于几乎完全空白的页,即极少字迹且与背景几乎无差别的页具有非常小的变化。阈值tl很少使用。变化大于125的页被分类为信息携带的页,而变化小于2的页被分类为空白页。然后在步骤S4中,确定是否能够对纸张上的每一页进行检测(换句话说,纸张是否包括两个空白页、两个信息携带的页、或一个信息携带的页和一个空白页)。如果是这种情况,那么扫描仪转到步骤S10,步骤SlO是页的分类步骤存储和处理信息携带的页,而既不处理也不存储空白页。然而,如果在步骤S3的第一检测期间,每一页都没有被检测为空白页或信息携带的页,则扫描仪继续步骤S5。在步骤S4之后的步骤S5中,扫描仪2执行在步骤S4中所选的每张纸的页的二值化(binarisation)(即每张纸的页的像素的二值化),因此,二值化包括将有效值(active value)指定给灰度等级大于阈值τ的每个像素,以及将无效值(inactive value)指定给灰度等级低于阈值τ的像素。如下文所描述的,基于像素的邻域来动态地确定τ。在该方法中,通常选择具有有效值的比特,以表示携带信息的像素,而具有无效值的比特表示“白色”背景像素。这里给出了可能的二值化技术的实施例。在步骤S5中的二值化包括根据步骤S4生成的灰度级的页来获得二进制图像 (由0(无效值)和优选由1(有效值)构成,或者有时由O (无效值)和255 (有效值)构成)。二值化可以通过获得一面上的信息和另一面上的背景来索引存在于纸张上的所有信息。二值化还提高了方法中随后步骤的执行速度,且极大地减小了扫描仪的存储需求。实际上,页一旦被转换成二进制,每像素就仅需要一比特。一种有利的二值化技术可以采用Sauvola于1998年公开的题为“Adaptive document image binarisation (自适应文件图像的二值化)”的论文中提出的技术。该技术基于使用下述公式来自适应地选择阈值τ
权利要求
1.一种用于检测多功能机(I)扫描的文件的纸张中的空白页的方法,所述多功能机(I)包括扫描仪(2),其中所述扫描仪(2)用于-扫描所述文件的至少一张纸张的两页(so);-对每张被扫描的纸张,执行至少一个空白页的检测(S6);-选择在检测(S6)期间未检测出空白页的每张纸(S7);-其特征在于,所述扫描仪比较所选纸张的两页(S9),当所述纸张的一页与所述纸张的另一页类似时,即当所述两页的类似度数据特性大于类似度标准时,将所述一页分类为空白页(S9)。
2.根据权利要求I所述的方法,其中,所述扫描仪用于-扫描所述两页,以将每页转换成属于实数空间Sr'的一组像素(so),并且转换每个像素以使所述每个像素具有灰度等级(S2),以及-在选择未检测出空白页的每张纸张之前(S7),对每张纸的页的像素进行二值化处理(S5),所述二值化处理包括将有效值指定给灰度等级大于阈值τ的每个像素,以及将无效值指定给像素灰度等级小于阈值τ的像素,其中根据所述像素的邻域动态地确定τ。
3.根据权利要求2所述的方法,其中-在所述二值化处理(S5)之后,所述扫描仪将纸张的正页R指定(S8)为信息携带概率更高的页,所述扫描仪将背页V指定为所述纸张的另一页,以及其中,为了在所述两个页之间进行比较-所述扫描仪(2)首先构建局部不类似度图CDL,局部不类似度图CDL由位置X处的像素的CDL(X)的组成,每个像素CDL(X)的值由下述公式表示Vx G CDL(x) = ^(χ). V(x))· d(x,R)其中X表示页上的像素位置;V(x)是位置X处的背页像素的值;兩是位置X处的正页像素的值的反数;F(X))相当于逻辑“与”操作符; d(x, R)是在所述位置X与具有有效值的正页像素之间所计算的最小距离;-然后,对于所述CDL(X)的每个值,所述扫描仪(2)构建具有相同值的所有像素的 CDL(X)的柱状图,以及-在值小于预定距离值d的所述局部不类似度图CDL的像素的数量大于比例H时,所述扫描仪(2)认为正页R和背页V是类似的,因此将相应的背页V分类为空白页(S9)。
4.根据权利要求3所述的方法,其中,所述扫描仪(2)使用曼哈顿距离计算d(x,R)。
5.根据权利要求3或4所述的方法,其中,所述预定距离值d对应于三个像素的参考距离d(x,R),所述比例H是所述局部不类似度图的像素的70%。
6.根据权利要求3至5中任一项所述的方法,其中,在计算所述距离d(x,R)期间,只要所述距离d(x,R)确实超过了所述位置X处的所述参考距离,所述扫描仪就将所述值(d+1)直接分配给像素的⑶L(X),并停止相应的距离计算。
7.根据权利要求I至6中任一项所述的方法,其中,对每个所扫描的纸张进行至少一个空白页检测的步骤包括,使用扫描仪(2)执行以下处理-根据灰度等级,对每张被扫描的纸张进行空白页或信息携带页的第一检测(S3);以及-选择具有在所述第一检测(S3)中还没有被检测为空白页或信息携带页的每一页的每一张纸张(S4)。
8.根据权利要求3至7中任一项所述的方法,其中,在所述二值化处理(S5)之后,检测每张被扫描纸张的至少一个空白页的步骤包括所述扫描仪(2)对每个二值化处理后的页进行空白页或信息携带页的第二检测(S6);以及对于在所述第二检测(S6)中未检测出空白页的每张纸张,指定正页和背页(S8)。
9.根据权利要求I至8中的任一项所述的方法,其中,所述扫描仪(2)进行边缘删除、 和/或尺寸调整、和/或成为所扫描页上的灰度等级(S2)转换。
10.一种多功能机(I),其特征在于,所述多功能机包括用于执行根据权利要求I至9 中任一项所述的方法的扫描仪(2)。
全文摘要
本发明涉及一种从多功能机上所扫描的文件的纸张中检测空白页的方法,该多功能机包括扫描仪,其中所述扫描仪扫描将被扫描文件的至少一张纸中的两页(S0);对每张被扫描纸张进行基本的检测(S6);选择没有至少一页在检测(S6)期间被检测为空白页的每张纸(S7);比较所选纸张的两页(S9);当一页与另一页类似时,将该页分类为空白页(S9)。本发明还涉及一种多功能机,所述多功能机包括用于实施根据本发明的方法。
文档编号H04N1/00GK102612833SQ201080045874
公开日2012年7月25日 申请日期2010年9月10日 优先权日2009年9月10日
发明者奥利维尔·拉伯伊斯, 杰罗姆·伯杰, 皮埃尔·赛博替尔 申请人:萨热姆文献简易股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1