分段分层的图像系统的制作方法

文档序号:7896188阅读:344来源:国知局
专利名称:分段分层的图像系统的制作方法
技术领域
本发明一般涉及文档图像的处理。特别是与用于识别和压缩文档图像的系统和方法有关。
2.相关申请的引用本发明是下述申请的部分延续U.S.Utility Application Serial No.(美国实用申请序列号)10/133,842,2002年4月25日提交的题为ACTIVITYDETECTOR;U.S.Utility Application Serial No.10/133,558,2002年4月25日提交的题为CLUSTERING以及U.S.Utility Application SerialNo.10/133,9392002年4月25日提交的题为LAYOUT ANALYSIS。本申请也与共同待批的美国申请序号题为SYSTEM AND METHOD FACILITATING DOCUNMENTIMAGE COMPRESSION UTILIZING A MASK[代理人档案号MS188868.1]有关,通过引用已被完整地加入于此。本申请还与共同待批的美国申请序号题为BLOCKRETOUCHING[代理人档案号MS188870.1]有关,通过引用已被完整的加入于此。
(3)背景技术随着计算机网络,因特网和数字存储装置的迅速普及扩大,通过计算机可提供利用的信息量急剧地增加。随着这种不断增涨的信息量,十分需要快速发送和有效存储这些信息。数据压缩就是一种能有效地促进发送和存储信息的技术。
数据压缩减小了表示信息所必须的空间量且能用于许多类型的信息。对包括图像;文本、音频和视频等数字信息压缩的需求一直在增涨。典型地、数据压缩与标准计算机系统统一起使用,然而其它技术也使用数据压缩,如数字电视和卫星电视以及蜂窝/数字电话,但不只局限于这些。随着对操作、发送和处理大量信息的需求的增涨、对这类数据的压缩的需求也增加了。虽然存储器件的容量已有了显著的增加,但用于信息的需求却比容量进展更快。例如,一幅未压缩图像可要求5兆字节的空间,然而同一图像可被压缩且例如,对于无损压缩需要2.5M字节的空间或对有损压缩只需500K字节的空间。因此、数据压缩有利于传送大量的信息。即使随着传输速率的增加,例如宽带、DSL、电缆调制解调器因特网等等,对于未压缩信息很容易达到传输的极限。例如,在DSL线上传输一幅未压缩图像要花10分钟。然而,当压缩后同一幅图像可在大约1分钟内被传送,因而提供了10倍的数据吞吐量增益,一般,有两种压缩方式,无损压缩和有损压缩。无损压缩允许在压缩后精确地恢复原始数据,而有损压缩允许在压缩后恢复的数据不同于原始数据、两种压缩模式间存在着折衷,即有损压缩比无损压缩提供了更好的压缩率、因为允许有某种程度的数据完整性损失。当例如压缩关键性文本时可使用无损压缩,因为精确地重构数据的失败可极严重地影响文本的质量和可读性。当一定量的失真或噪声是可接收时或人类感官难以察觉时,可对图像或非关键文本使用有损压缩。数据压缩特别适用于文挡(数字文档)的数字表示。典型地,数字文档包括文本、图像和/或文本和图像。除了对当前的数字数据使用较少的存储空间外,对质量不引起显著下降的紧凑存储会鼓励对当前的文档硬拷贝的数字化,使办公无纸化更可行。努力实现办公无纸化是许多企业的一个目标,因为无纸化办公提供的好处有,例如允许容易地对信息访问、减少环境成本、减少存储成本等。更何况,通过压缩减少数字文档的文件大小允许更有效地使用因特网带宽,从而更快地传送更多的信息并减少了网络的阻塞。减少对信息所需的存储、朝着有效的无纸化办公方向发展、以及增加因特网带宽的效率只是与压缩技术相关的许多显著好处中的一些而已。
为了使数字文挡的使用具有吸引力,数字文挡的压缩应满足一定的目标。首先,压缩应在少量时间内压缩和解压缩大量信息。其次,压缩应该提供精确地重现数字文档。此外,数字文档的数据压缩应当利用意向的目的或文档的最终使用。某些数字文档被用于归档或提供应硬拷贝。其它文档可被修改和/或编辑。许多常规的数据压缩方法在查阅时不能对文本和/或图像进行回流(re-flow)处理,并且也不能提供有效和有用的手段来使压缩技术识别字符并将它们回流到字处理器个人数字助理(PDA)、蜂窝电话之类装置。因而,如果硬拷贝办公文档被扫描成数字形式、当前的压缩技术对数字化文档进行更新、修改或作一般性改变,即使并非不可能,但也是相当困难。
经常地,为了增加压缩率,压缩方案是针对特定类型的文档、例如二进制、非二进制、文本或图像而设计的。然而,适合于一种类型文档的压缩方案通常对其他类型的文档表现性能不佳。例如,对基于文本的文档定制的压缩方案一般对图像文档表现的性能不佳。这种问题的一种解决方案是选择一种专门为要编码的文档或图像的类型而设计的压缩方案。然而,这种解决方案对于在单个文档中具有一种以上信息类型的数字文档可能不可行。例如,数字文档可具有高色彩图像及一起的文本信息,例如通常在杂志文章中所见到的那种。克服这种困难的一种办法是分析文档并将它划分为不同的区域。对不同的区域分析以确定包含在该区域内的信息类型。基于信息的类型可以为每个区域选择一种压缩方案。然而实现这种办法可能十分困难且要求区域具有各种不同的大小和形状使压缩造成困难。另一种办法是把文档分离成背景图像和恒定色彩图像。这可能是有用的,因为对背景和恒定色彩图像可使用不同的压缩方案。但是通过强迫像素值为恒定色彩会使恒定色彩图像造成信息丢失。
另外,数字文档的数据压缩应当利用文档的目的。某些数字文档用于归档或提供硬拷贝。其它文档可被用于修订和/或编辑。当前的数据压缩方法查阅时不能对文本和/或图像进行回流处理,并且也不能提供有效和有用的手段来使压缩技术识别字符并将它们回流到字处理器、个人数字助理(PDA)、蜂窝电话之类的装置。因而,如果硬拷贝办公文档被扫描成数字形式,当前的压缩技术对数字化文档进行更新、修改或作一般性改变即使并非不可能、那也是相当困难。
(4)发明内容本发明下面的概述是为了对本发明的某些方面提供基本的了解。该概述并不想要标定本发明的关键的/重要的要素或圈定本发明的范围。其唯一目的是以简化的形式介绍本发明的一些概念作为对以后更详细的描述的序言。
本发明一般涉及对文档图像进行编码和解码的系统和方法。文档图像根据掩模被分割成多个层,其中用非二进制形式表示多个层。为了便于对文档图像总体作更好的压缩,可分别对各层作独立的处理和压缩。
按照本发明的一个方面,从文档图像生成一掩模。生成的掩模是减小对于文档图像的掩模和多层的组合大小的压缩估计量。掩模随后被用来把文档图像分割成多个层。掩模确定或分配文档图像的像素到每层中。掩模和多层被单独处理和编码以改进文档图像的总体压缩并加速压缩的速度。这多层图像是非二进制图像并能,例如,包括前景图像和背景图像。
按照本发明的另一个方面,文档图像被分割成多个层,多层图像包括一前景图像,一背景图像和一掩模。掩模是二进制图像并用于将文档图像分割成前景图像和背景图像。总的说来,生成的掩模是为了减少对掩模、前景图像和背景图像的组合大小的估计。不像某些常规系统那样要把一层限制为单一色彩,前景图像和背景图像两者都可使用任何合适的色彩范围且不局限于单一或恒定的色彩。可对掩模、前景图像和背景图像进行附加处理。掩模、前景图像和背景图像被编码并被组合成单个比特流。任何数目的合适压缩方案可被用于编码目的。为了解压缩,比特流被分离成掩模比特流、前景比特流和背景比特流。掩模比特流、前景比特流和背景比特流被解码成掩模、前景图像和背景图像。可以对掩模、前景图像和背景图像实现附加的处理。前景图像和背景图像按照掩模被组合成重组的文档图像。
按照本发明的再一个方面,掩模分离器接收文档图像并从文档图像生成掩模。掩模以二进制格式表示。前景背景分割器接收该掩模和文档图像并将文档图像分割成前景图像和背景图像。掩模编码器将掩模编码成掩模比特流。前景编码器将前景编码成前景比特流。背景编码器将背景编码成背景比特流。组合器组件将掩模比特流、前景比特流和背景比特流组合成一组合比特流。
为了完成上述和相关的目的,结合下述描述和附图这里描述了本发明的某些例证性方面。这些方面只是表明本发明可以实施的各种方式,所有的方式旨在由本发明覆盖。当结合附图从本发明的下述详细描述考虑,本发明的优点和新颖性将会变得更明显。
(5)


图1是根据本发明的一个方面的经分割的分层图像编码系统的框图。
图2是小波计算的一个示例步骤图。
图3是说明当一些像素缺失时小波计算的示例步骤图。
图4是说明掩模小波计算的示例步骤图。
图5是根据本发明的一个方面的经分割的分层图像解码系统的框图。
图6说明根据本发明的一个方面的样本文档图像。
图7是根据本发明的一个方面的经分割的分层图像编码系统的框图。
图8是根据本发明的一个方面的经分割的分层图像解码系统的框图。
图9是根据本发明的一个方面编码文档的一种方法的流程图。
图10是根据本发明的一个方面编码文档的一种方法的流程图。
图11是根据本发明配置的系统的一种典型操作环境的示意方框图。
图12是根据本发明的典型通信环境的示意方框图。
(6)具体实施方式
现在参考附图描述本发明,其中相同的标号在全文中用于指示相同的组件。在下面描述中,为了解释起见,提出了许多具体的细节以提供对本发明的透彻理解。然而很明显,没有这些具体细节也可以实行本发明。在其它实例中,为了便于描述本发明以框图形式示出了熟知的结构和装置。
正如在本申请所用的那样,术语“组件”意指与计算机相关的实体,或者是硬件、执行中的软件或硬件与软件的组合。例如,一个组件可以是但不局限于是一个在处理器上运行的进程、处理器、对象、可执行部分、执行线程、程序以及计算机。通过说明。在服务器上运行的应用程序和该服务器都可以是组件。一个或多个组件可驻留在进程中和/或一个执行的线程中,并且一个组件可以位于一计算机上和/或分布在二台或多台计算机之间。
另外,“文档图像”是意指由一个或多个色彩组成的文档的数字表示(例如,二进制(黑/白),灰度和/或彩色文档)。另外,文档图像可具有图像、文本和/或带有图像的文本,带有潜在的文本和图像的叠加。文档图像可以包括二进制、BGB、YUV和/或其它方式表示的文档。RGB文档图像由红、绿和蓝分量表示。YUV文档用标记为Y的亮度分量和记为U和V的色度分量表示。YUV的表示通常更适合于压缩,因为人眼对U和V的失真较不敏感,因而可对图像由U和V作2倍子采样,且Y捕获了R、G和B间的相关性。对于文本聚类的目的来说,Y表示特别令人兴趣,因为当亮度变化会造成读取文本要容易得多。由色度变化造成的文本,例如从红色到绿色在给定亮度下读取要困难得多。因而彩色文档可被变换为YUV文档,然后对它二进制化,不会损失太多的文本信息。文档图像由通常称之为“像素”的图片元素组成。文档图像可以任何形状或大小的单页或多页文档。
图1是根据本发明的一个方面的经分割的分层图像编码系统100的高层框图。系统100识别并压缩文本、手迹、绘画之类的文档。且系统可对任何适当形状或大小的单页或多页文档操作。系统100包括掩模分离器102、前景背景分割器104、掩模编码器106、前景编码器108、背景编码器110和组合组件112。掩模分离器102接收文档图像(例如文档的数字表示)并生成掩模。文档图像可具有一页或多页,且通常是从文档扫描所得。文档图像可具有任何分辨率,通常用每英寸的点数(dpi)表示。例如传真文档典型地使用大约150-200dpi的分辨率。此外,文档图像实质上可具有任何像素大小或文档大小,例如640×480像素和/或A4大小。
由掩模分离器102生成的掩模可被用于把文档图像分割成两层前景图像和背景图像。应当理解本发明的另外的方面可以把图像分割成多于两层。该掩模,也称之为掩模图像,是二进制图像,其中的一个像素值确定了相关的像素是否属于前景图像或背景图像。掩模分离器102生成了掩模,使得前景图像和背景图像的组合大小得以减小。应当理解,这一概念可以推广到多重掩模和多重前景,且仍然符合本发明。
有多种办法可用于生成掩模。相同像素值压缩要比不同像素值压缩更好。例如蓝天区域比彩色和强度变化的区域压缩得更好。如前所述,生成掩模是为了减小掩模、前景图像和背景图像的组合大小。
可用的一种办法是生成可能掩模的超集(superset)并选择该超集的一个最好掩模。对于具有N个像素的文档图像,有2N个可能的掩模。因而,分析每个可能的掩模并确定哪个掩模生成最小总体组合图像是可能的。然而,分析每个可能的掩模可能在计算上是昂贵的,费时的且一般是不切实际的。
另一种办法是将文档细分为区域,至少部分依据能量(例如能量方差)分析每一区域以分配像素并合并区域。能量方差(它是将被取得的压缩的估值)是种基于距离平方之和的度量。文档的小区域,例如2×2像素或4×4像素,可被用于能量方差分析。这些小区域可被分割成前景和背景区域使得小区域的能量方差被减小或最小化。每个可能掩模可被用于确定使用哪个掩模,因为被分析的区域小得足以使这种分析是可行的。例如,一个4像素区域仅有16种用于该区域的可能的掩模排列。然后可以把这些小区域合并(例成对合并)在一起以生成掩模,总体上减小了掩模、前景图像和背景图像的组合大小。
前景背景分割器104接收来自掩模分离器102的掩模和文档图像。前景背景分割器104利用掩模把掩模文档图像分割成前景图像和背景图像。对于文档图像的每个像素,参照掩模的一个对应的像素。基于掩模的对应的像素,将每个像素分配给前景图像和背景图像。例如,如果掩模对应的像素是“1”,该像素被指定给前景图像。反之,如果掩模对应的像素是“0”,该像素被指定给背景图像。然而应当理解,是用“0”还是“1”表示前景或背景图像可由用户定义(例如“1”指定给背景图像而“0”指定给背景图像)。
此外,前景图像和背景图像互不相交。然而,可对掩模执行附加的处理以产生不同的前景和背景掩模,它们有时可以重叠,以在沿着掩模的边界处减小人为的效应,或整个地忽略某些像素以增加压缩。前景掩模随后被用来从文档图像中分割出前景图像,而背景掩模用来从文档图像中分割出背景图像。在这种情况下,前景图像和背景图像不是互相不相交,而是稍有重叠一一这种重叠会降低压缩但减小了边缘效应。即使分割文档图像要用到前景掩模和背景掩模,但在分割了文档图像后就不再需要前景掩模和背景掩模。
前景图像和背景图像具有孔或空白区域,其中的像素被指定给其它图像。这些空白区域可被称为无关像素。相反,非空白区域可被称为有关像素。为了减小前景和背景图像的总体压缩大小可以任何适当的方式对空白区域处理。一种办法是用无关像素值填充这些空白区域。选择无关像素值使得能增加压缩并因而减小了图像大小。例如,一幅示例的背景图像可见是白色,但在文本所处位置处具有无关像素。在这例子中,无关像素可用白色填充以增进压缩。另一种办法是不填充空白区并使用可利用空白区域的压缩方案,譬如掩模小波压缩。也可按照本发明使用其它方法。
前景图像和背景图像还可进行附加的处理。可把前景和背景图像大小降低为低分辨率,因而减小了各自的压缩大小。例如,背景和前景图像可从300dpi降低到100dpi。还有,可识别前景和背景图像中的恒定色彩连通分量。恒定色彩连通分量是多个基本上具有相同色彩值的连通的像素。恒定色彩连通分量的识别可通过定位一个种子像素并使用一算法来确定与它连通的色彩基本相同的像素而进行。可设定一阈值或最小像素使得恒定色彩连通分量具有最小数目的像素。该识别的恒定色彩连通分量可增加对文档图像的压缩。
掩模编码器106从掩模分离器102接收掩模并对掩模编码,以从该掩模产生压缩的比特或压缩的掩模比特流。任何适当的压缩方案都可用于掩模编码器106。掩模是二进制的且通常包括文本信息。因而,应当选择压缩方法能对二进制和文本信息很好压缩。两层压缩方案可用于编码掩模。
可用于编码掩模的一种压缩方案是CCITT(国际电话和电报咨询委员会)。CCITT目前称为ITU-T(国际电信联盟一电信部(1994年改名)),这是一个标准组且是传真/调制解调通信的无损压缩技术的名称。这类压缩对二进制图像工作得很好。典型的压缩率对较早版本V.42bis是4∶1,对较新版本V.44 2000是6∶1。这是基于Lempel-Ziv-Jeff-Heath(LZJH)压缩算法。应当理解,按照本发明也可使用其它合适的压缩方法或方案对掩模编码。
前景编码器108从前景背景分割器104接收前景图像并将前景图像编码成前景比特流。背景编码器110从前景背景分割器104接收背景图像并将背景图像编码成背景比特流。任何合适的压缩方案均可用于前景编码器108和背景编码器110。例如渐进波长编码(PWC)、渐进变换编码(PTC)、JPEG、JPEG 2000,而掩模小波方案可用于对前景图像或背景区域编码。对于某些压缩方案(例如,掩模小波),前景编码器108和背景编码器110可需要该掩模以对前景图像和背景图像编码。
组合器组件112接收来自掩模编码器106、前景编码器108以及背景编码器110的经压缩的比特并将这些比特组合成输出流或输出文件。组合器组件112可在输出文件中包括标头信息以标识或提供诸如编码类型、字典以及可由解码器用于重构文档图像之类的信息。
出于说明的目的,编码系统已被描述为通过上述各种组件立即对整个图像处理。然而,应当理解为了减少存储器的使用可使用重叠扫描区域法。例如,文档图像的第一条512行可由系统处理。然后,用重叠量为例如10行的重叠第一条的第二条可被系统处理。随后各条接着被处理直到整个文档已被处理一重叠量有利于减轻各条之间的变化。
如上所述,前景图像和背景图像具有空白或无关区域。可有多种方法对空白区域处理。一种办法是在空白区域内填充数据并然后使用常规的压缩技术。一种填充图像空白区域的简化处理就是用该图像的平均像素值填充这些空白区。然而,这种处理过程可在掩模边界处产生尖锐的不连续性,对于给定的峰值信噪比(PSNR)可增加所需的比特率并在掩模或空白区域边界附近产生可察觉的环纹。另一钟处理过程是用最接近非掩模(或有关区域)的像素的色彩对每个像素着色。一种标准形态学算法允许只用两次通过所有像素就可执行该处理过程,使掩模下的Voronoi填充的空白区。然后重构前景和背景图像,对重构图像低通滤波并接着把已知的像素恢复成它们的正确值。如果低通滤波器的截止频率太低,可出现尖锐的边缘使得所需的比特率增加并在边界附近产生可察觉的环纹。
另一个处理空白区域的办法是使用在凸集上的投影。例如,考虑两个凸集在可见像素上匹配输入的图像集,以及具有某些小波系数集(例,超出某个分辨率级别的所有高频系数)设定为零的图像集。通过交替投影到这两个集上,可找到一幅图像与可见像素一致并具有很好的压缩率,因为有许多零小波系数。
还有的另一种解决空白区域的办法是使用前景编码器108和背景编码器110显式设计为不规则栅格的小波变换。例如,这种小波分解被用于有关计算机视觉和计算机图形学中的几何数据压缩。这种小波适用于不规则掩模图案。
可使用的小波变换压缩方案是掩模小波变换。掩模小波变换可用于这种前景编码器108和背景编码器110,其中小波函数作为掩模的函数随情况而改变。应理解,虽然在图1中未示出,为了使用掩模小波变换压缩方案,要向前景编码器108和背景编码器110提供掩模。例如,规则的常规小波函数会使用k个值作为预测。然而,对于掩模和空白区域,规则的小波函数不能处置没有值的像素,(例如,在无关区域或空白区域中的无关像素)。相反,可变小波函数仅使用背景图像和前景图像的可用值或可见区域。因而,掩模小波变换避免了需要用无关像素填充空白区填之举。
图2是使用“提升”法的传统小波计算的一步骤图例。该图说明用于三次小波在位置3预测步骤和在位置6处相应的更新步骤(为清晰起见在图中省略了其它位置)。每个箭头边上的系数表示为了执行每一步如何计算线性组合。例如,位置3处的“细节”值(从高通滤波器所得)可由下式计算所得d3=s3-(-s0+9s2+9s4-s6)/16 式1更新步骤由下式计算s6=d6+(-d3+9d5+9d7-d9)/32 式2图3解释当某些像素值缺失时引起的问题。图中位置1、2、5、8和9处无值可供使用。显然计算传统的三次小波不行,因为其结果将取决于缺失值。把缺失值设定为某个常数(零或对整个图像的平均值)可引入尖锐的不连续,这个将造成差的压缩和/或不希望的人为效应。相反,掩模小波压缩方案按照掩模函数按情况改变小波函数。例如,在提升的预测期间,如果有k个值可用于预测,可把k-1阶多项式用于预测。当仅有三个值可供使用时,就使用二次多项式而不是三次多项式。如只有一个值可用,则将使用常量多项式,小波就成为Haar小波。注意,如果信号是k-1阶多项式且k个像数未被掩模,则预测是完全精确的。
掩模小波变换压缩方案使用从偶数位置处的系数计算对奇数位置处所有奇数系数的预测值。奇系数和其预测值间的差就是小波系数——这可以看成为在奇数位置处具有某些零的高通滤波器。信号s中心处于某一位置并加以相应的下标。为了简单,该方案如图4所示描述为关于7抽头的滤波器。图4示出了提升步骤,其中s0预测为S-3,S-1,S1,S3的函数并计算残差d。
滤波器α按照标准矩阵的标记从0到i下标。小波系数d由下式提供d=s0+Σi=0i=|k/2|s2i-k/2ai]]>式3其中k是滤波器中的抽头数目(这时k=7)。高通滤波器的各阶矩(moment)M可写为(设定si=in)Mn=0n+Σi=0i=|k/2|(2i-k/2)nai]]>式4设正规信号可用j阶的低阶多项式逼近(使用泰勒展开式),然后选择α使得前j+1个阶矩被设为0。这时小波变换将具有许多0且压缩较好。因而,如果k=7,α有4个自由度且前4个阶矩被设为0。这些结果可用下列系统验证1111-3-1139119-27-1127a0a1a2a3=-1000]]>式5写成矩阵形式为Wα=c。这一系统的解就是熟知的三次小波中所用的系数α=[1/16,-9/16,-9/16,1/16]。
该系统可推广到掩摸存在的情况,例如来自图1的掩摸。换句话说,系数s2i-k/2中的某些缺失了,这可用引入一矩阵M来模拟。m=m00000m10000m20000m3]]>式6其中mx∈{0,1},使得wmα=c。m的作用是在式5的系统中移去列。不幸的是,在这系统中,当mi=0时的αi是欠定的,而其它情况下是过定的。其理由是因为对于与可见像素对应的αi施加了太多的消失阶矩约束。这种情况可以通过仅使前j个阶矩应当强制为0得到解决,倘若j个系数使mi≠0的话。这对应于仅保留式5中前j个方程。对于欠定系数αi(当αi被乘以mi=0时),加上任意约束αi=0;这样可以单个系统方程实现(pwm+m-I)a=pc 式7其中I是单位矩阵,且p=p00000p10000p20000p3]]>式8以及pi=(tr(m)>i)?1∶0;式9对pi的约束确保在式5系统中的行对于m中的每个0系数均从式5系统的底部各系数中移去。换言之,如果有j个系数mi不等于0,则对于i=
,pi=1,而其它情况,pi=0。可容易地验证,该系统对于mi∈{0,1}始终有唯一解。对每个可能m值α的解答式由式9提供。对于三次小波可总结为下表1,其中当系统的维数为4时是对于不同m值式9的解。
表1接着,用上面的预测对信号s更新。在更新步骤,希望在信号被乘以(-1)i后低通滤波器的一阶矩消失。换言之,如果正规信号(例,可写为低阶多项式)被乘以最高频率信号(-1)i,则低通滤波器应输出0。这一条件可容易地强制转换为0矩约束,正如前节那样,除非输入具有si=(-1)iin形式而不是si=in。使用类似用于预测步骤的记号,更新步骤对于方程s=s0+Σi=0i=|k/2|d2i-k/2bi]]>式10其中k是滤波器中的抽头数目(此时k=7)。低滤波器的各阶矩可写作为;Mn=0n+Σi=0i=|k/2|d2i-k/2bi]]>式11但是,对于每个di,上式可局部写为(设si=(-1)iin)dj=sj+Σi=0i=|k/2|sj+2i-k/2ai=-jn+Σi=0i=|k/2|(j+2i-k/2)na]]>式12由于j和k/2是奇数。因为各个αi被设定为生成0阶矩,下式正确0=jn+Σi=0i=|k/2|(j+2i-k/2)nai]]>式13这意谓着dj=-2jn,因而Mn=0n+Σi=0i=|k/2|-2(2i-k/2)nbi]]>式14对于要压缩的小波及正规信号,尽可能多的矩应该尽量等于0。因为有4个自由度,前四个矩可被设定为0。这一结果在下述系统中容易得到验证1111-3-1139119-27-1127b0b1b2b3=1/2000]]>式15写成矩阵表示为mb=c’。这一系统的解就是熟知的三次小波所用的系数b=[-1/32,9/32,9/32,-1/32]。
现在,假定某些系数si缺失。首先假定所有缺失值仅在偶数位置处。这一系统可类似以前的方式求解以验证下式(pwrn+m-I)b=pc′式16注意m和p矩阵依赖于s0的中心位置。每个位置观察到掩模的不同部分并因而具有其自己的m和p。表2提供了方程16的解,如下所述,它说明了当系统为4维时对于不同m值方程16的解。为了导出式16,假设奇数位置不受掩模。如果某些奇数位置被掩模,但掩模值小于n,则dj=-2jn且式16成立。否则,在预测步骤会有太多的掩模像素使更新步骤中的第n阶矩为0(小波系数仍将很小但不为0)。通过局部地撤消每一步骤容易计算出小波反变换,这多亏有了提升形式。
表2因而,掩模小波变换可用于编码前景和背景图像而不用填充空白区域。然而如前所述,不同的实现可使用其它编码方法或用无关值填充空白区域的压缩方案。
图5是按照本发明的一个方面的经分割的分层图像解码系统框图。该系统接收压缩后的比特流并从压缩后的比特流生成重新组合的图像。该系统包括分离组件502、前景解码器504、背景解码器506、掩模解码器508及组合器510。
分离器组件502接收压缩的比特并分离这些比特以形成前景比特流、背景比特流和掩模比特流。分离器组件502可使用标头信息来分离比特流。前景解码器502解压缩前景比特流以生成前景图像。背景解码器506解压缩背景比特流以生成背景图像。前景解码器504和背景解码器506可使用任何数目的解压缩方案。诸如渐进小波或渐进变换。
掩模解码器508解压缩掩模比特流以生成掩模或掩模图像。掩模解码器508还能检索布局和/或回流信息。此外,掩模解码器508能获得用于重构文本信息的字典。掩模解码器508典型地使用两层解压缩方案。对于某些压缩方案(例如掩模小波),前景解码器504和背景解码器506可从掩模解码器508要求经解压缩的掩模以获得前景图像和背景图像。
组合器510把前景图像、背景图像和掩模组合成重组的文档图像。重组的图像与原始文档图像一样或逼近。此外,根据所需的显示,重组图像可具有不同的形状和/或大小。例如,信件大小的文档扫描在具有较小屏幕的便携式装置上可以显示得不同。组合器510根据掩模从前景和背景图像生成重组文档图像的像素。重组图像的每个像素可通过参考掩模的对应像素而确定,从而确定重组文档的像素应当取自前景还是背景图像。例如,掩模像素值1可指示重组文档的像素应取自前景图像的对应像素。
图6说明了根据本发明的一方面的示例文挡图像。图6是示例性的且仅旨在进一步说明本发明。文挡图像601显示具有各种色彩和/或明暗。文挡图像601是一幅典型的文挡图像,它包括文本信息602和图像信息604和603以及背景605。图6所示的模式说明了不同的明暗或色彩。因而,文本信息602可具有不同于图像信息603和604或背景605的颜色。另外,信息可使用任何适当数目的色彩。根据本发明,例如使用图1的系统,文挡图像601被分割成3个组成部分一个掩模610、一个前景图像611和一个背景图像612。本发明的其它方面可将文档图像分割成多于二层或三层。
掩模610是二进制图像且因而仅用黑白区域表示。掩模610确定或分配文档图像601的像素是进入前景图像611还是背景图像612。掩模610还用于通过判断前景图像611和背景图像612的哪些像素是在重构文档中而生成重构文档图像。重构文档与文档图像601一致或逼进。
如图6中可见,前景图像611包括了如掩模610所指示的文档图像601的一部分。该掩模610的黑像素把文档图像601的像素分配给前景图像611。前景图像603的其它部分可用无关像素615填充。如前所述,无关像素615增加了压缩但不出现在重构图像中。类似地,背景图像612包括了如掩模610所指示的文档图像601的一部分。该掩模610的白像素把文档图像601的像素分配给背景图像612。背景图像604的其它部分可用无关像素606填充,如图6所示。无关像素606的存在用于压缩的目的且不包括在重构图像中。出于说明的目的,文本信息602的外形显示在背景图像612中。然而,应当理解文本信息602也可用与背景605匹配的无关像素来填充使得文本信息602在背景图像612中不可见。
如上所述,图6只是根据本发明的许多可能文档图像中的一个例子。许多不同的变换也可使用且仍符合本发明。
图7是根据本发明的一个方面的经分割的分层图像编码系统的框图。该系统可识别文档中的文本、手迹、绘画和类似内容信息并压缩文档。该系统可对具有适当形状和大小的单页或多页文档操作。
色彩空间转换器702对文档图像操作以转换文档图像的色彩空间。色彩空间是指在文档图像中如何表示色彩。色彩空间一般具有若干分量来提供基于各个像素的色彩。例如,图像可用RGB(红、绿和蓝)色彩空间表示,其中每个像素具有RGB每个分量的一个值。此外,可包括透明分量来指示像素的透明性。像素的总体颜色由对这些分量的组合得到。例如,白色可用RGB值为255,255和255得到(设每个分量为8比特),而蓝色可作用RGB值为0,0和200得到。RGB色彩空间常被用于显示图像和/或扫描文档。然而RGB色彩空间可能会妨碍压缩。
通常文档中的色彩是相关的和/或互相连系的。对于RGB色彩空间,各分量(由通道)各自压缩,这就造成同一信息被编码多次。通过把文档的色彩空间转换成更可压缩的色彩空间能改善文档图像的压缩。
一种可能的色彩空间转换是把文档图像从RGB色彩空间转换成YUV色彩空间。Y、U和V分量分别是亮度、红色度和蓝色度分量。YUV开始是为电视观看开发的。该转换是优先基于观看而不是为压缩性研制的。这样,文档图像可用下式从RGB色彩空间转换为YUV色彩空间Y=0.6G+0.3R+0.1BU=R-Y 式17V=B-Y
与RGB色彩空间相比,YUV色彩空间的确提供了较好的压缩,因为它利用了分量间的相关性使得相同的信息不用编码多次。大多数相关信息包含在Y分量中。式17说明YUV分量可用比对应的RGB分量更小的值来表示。然而,如上所述,YUV色彩空间不是为压缩性设计的,而是更适合可观看性。应理解文档文件可通过修改式17而转换回RGB色彩空间以用于任何适合的目的,例如显示。
另一种色彩空间转换是把文档文件从RGB色彩空间转换成YCoCg色彩空间。YCoCg表示利用了由Y表示的亮度,由Co表示的橙色色度和由Cg表示的绿色色度,利用变换可将RGB分量映射成YCoCg(例如,作为上述常规的YUV的替换)。YCoCg=12120-2-12-1RGB⇔RGB=11-11011-1-1YCoCg]]>式18重要的是,YCoCg色彩空间映射的优点是从RGB到YCoCg及从YCoCg到RGB的逆转换可利用整数算术来完成。更进一步,执行逆变换不用乘法。YCoCg色彩空间表示可比流行的YUV得到显著较好的压缩性能结果,因为它更好逼近于对现代数字图片数据作主分量分析所得到的统计上的最佳空间。先进的YCoCg色彩空间不是为观看目的,而是为压缩的目的设计的。更何况,由于式18的方程或变换使用整数算术,文档图像可以高效的计算方式转换成YCoCg色彩空间。
应理解,色彩空间转换器702可将文档图像从任一色彩空间转换成任一色彩空间。例如,色彩空间转换器702可将文档图像从YUV色彩空间转换成YCoCg色彩空间。另外,如果文档图像已在较佳色彩空间,就不执行转换。
掩模分离器704从色彩空间组件702接收文档图像并生成掩模。由掩模分离器704生成的掩模被用来把文档图像分割成两层前景图像和背景图像。应理解本发明的另外方面可将图像分割成多于两层。掩模,也称为掩模图像,是二进制图像,其中每个像素值确定了像素是否属于前景图像或背景图像。掩模分离器704生成掩模,减小了掩模、前景图像和背景图像的组合大小。
有几种方法可用于生成掩模。对于压缩,相似的像素值比不相似像素值压缩更好。例如,蓝天区域压缩得比可变色彩和可变强度的区域更好。如前所述,生成掩模是为了减小掩模、前景图像和背景图像的组合大小。
一种可用的办法是生成所有可能的掩模并简单地选取最好的一个。对于具有N个像素的文档图像,有2N个可能的掩模。因而,有可能全面检查每个可能的掩模并确定哪一个能产生最小的总体组合图像。然而,全面检查每个可能掩模在计算上是昂贵的、费时的且一般不是可行的。
另一种办法是将文档细分成各区域,分析每一区域以分配像素并合并区域。基于距离平方之和测量能量方差,它是对要取得的压缩的估值。可对文档的小区域,例如2×2像素或4×4像素分析能量方差。小区域可被分割成前景和背景区域使得小区域的能量方差被减小或最小化。可对每个可能掩模分析以确定使用哪个掩模,因为该区域足够小使得这个分析是可行的。例如,4像素的区域对于该区域仅有16种可能的排列。小区域然后可能被合并在一起以生成掩模,该掩模总体上减小了掩模、前景图像和背景图像的组合大小。
另一种生成掩模的办法是认为前景和背景在一个区域上是常数,而生成的掩模最小化或大大地减小了围绕这些常数的方差或能量方差。方差在这里被用于对前景和背景可能取得的压缩的一种估值,而不是实际生成掩模、分割文档图像以取得前景和背景图像并对它们压缩。能量方差,如前面所讨论的,也是一种能量度量(距离平方之和),是对压缩后的前景和背景大小的一种可接受的估计。首先完全忽略压缩掩模的代价。今后的步骤可以对掩模大小加以考虑。
对于一给定区域,假定该区域是一具有N个像素的集合S,且F和B是分区S(即F∪B=S且F∩B=φ)。若f(x)是在像素位置x(x∈S)处的图像值,前景和背景的方差分别为vF=Σx∈F(f(x)-μF)2]]>式19vB=Σx∈B(f(x)-μB)2]]>式20其中,μF=1NFΣx∈Ff(x)]]>且μB=1NBΣx∈Bf(x)]]>分别是前景和背景的均值,且NF和NB分别是前景和背景中的像素值。注意到这些方差也可表示为vF=Σx∈Ff(x)2-NFμF2]]>式21vB=Σx∈Bf(x)2-NBμB2]]>式22要找到能最小化和E=vF+vB的S的适当分区F和B。即使用了这个简化,问题仍是极其困难的,因为仍然有2N个可能的掩模。因而将图像进一步划分成2×2像素的子图像。在每个2×2子图像上,仅有24=16个可能的掩模,这意味着在每个这样的区域上,有可能确定最佳的F和B,使E=vF+vB最小化(通过试验所有16种组合并保留具有最小能量的一个)。实际证明不必对16种组合都试验。该问题等价于一个K均值问题,其中K=2,且因为f(图像)是标量函数,对f(x)值分类就得到一解答,这计算非常有效对4个像素值分类并确定3个分区中的哪一个(与分类有关)产生最低的能量。该部分和可被重复使用在每个分区中以最小化操作数目。
然而这一解答有缺陷,即每个2×2子区域有不同的前景和背景,它们能拾取甚至最小的像素噪声而产生不适当的掩模。下一步涉及组合邻接的区域。例如,假设有2个区域1和2,以及它们相应的前景和背景F1、B1和F2、B2。当组合这4个集,实际上有7种不同的可能性
表3获胜的组合是所得的具有最低能量E=vF+vB的组合。注意可尝试所有7个组合,或者可对前景和背景中的平均值进行分类并且仅与分类有关的分区被考虑。进一步,如果每个区域保留了用于前景的量ΣFf(x),ΣFf(x)2]]>和NF以及ΣBf(x),ΣBf(x)2]]>及NB,E的组合可以恒定的时间来计算。在合并后,这些量通常必须被重新计算,但幸好这可在恒定的时间内完成。还注意到该区域上的和∑f(x)2对每个分区是常数,且不必为了选择最佳化分区而被计算。正如下面所示,该区域上的和∑f(x)2也可用于确定何时不合并区域。
进行组合邻接区可通过组合水平邻接的2×2区域成2×4区域,并接着组合垂直邻接的2×4区域成4×4区域。4×4区域组合成8×8区域,依次类推直到只剩一个区域,它被分区成前景和背景。
不幸的事,这种技术可用于合并把若干灰度级放入前景或背景中,当区域中有多于2个色彩时会潜在地丢失诸如文本的重要细节。例如,如果区域1具有白色上书写的灰色文本,而区域2绝大多数是黑的,两区域的合并可导致灰色和白色被放入前景而黑色被放入所得区域的背景中,丢失了文本信息。然而,无论何时二种色彩被并入前景或背景中时,对该区域可察觉到能量(或方差)的尖锐增加,因为常量不再是这类区域的好模型。因而,希望使用一种算法,如果能量超过有实验决定的某个阈值K就不合并邻近的区域。该算法产生的掩模捕获了一页中大多数的文本和图形线条。
然而该算法有许多要改进的地方——其中之一是要使用简单区域。小区域(例4×4)的1区的能量可被测量,且如果该能量足够低(使用由实验确定的另一阈值)的话,整个区域可被放入前景或背景中。因而,如果能量低以于一阈值的话,可避免对小区域的分区,从而加速了算法的操作。替代对前景和背景使用常量的假设,可使用多项式回归来表示前景和背景。例如,多项式是方程αx+βy+μ的平面,能量被定义为vF=Σx,y∈F(f(x,y)-αFx+βFy+μF)2]]>式23vB=Σx,y∈B(f(x,y)-αBx+βBy+μB)2]]>式24其中,x,y为像素位置的下标,而αF,βF和μF是最小化vF的标量,而αB,βB和μB是最小化vB的标量。注意,αF,βF和μF可使用量∑f(x,y)2,∑f(x,y)x,∑f(x,y)y和∑f(x,y)以常数时间求得解。这是一个具有三个未知量和三个方程的线性系统,并且也同样适合用于αB,βB和μB。如前所述,该算法在每一合并阶段自底向上最小化E。前景和背景不能按平均值来分类,因而所有7种组合均要被测试以确定哪个组合使E最小化。为了保持执行每一测试并以常数时间合并,要为前景和背景的每个区域保持量∑f(x,y)2,∑f(x,y)x,∑f(x,y)y,∑f(x,y)和N。简单区域的最佳化仍然可能,但可假设在区域上是常数,多项式回归或两者兼有。
掩模处理器组件706对掩模执行任何数量的处理操作。该掩模处理器组件包括噪声移去组件708和抖动检测器710。应理解,本发明的另外替换方面可包括其它掩模处理组件。进一步应理解,本方面的替换方面可包括或多或少的处理组件。
噪声移去组件708从掩模中移去噪声。如前所讨论的,数字文档通常通过以标准文档方式扫描而创建。通常通过扫描和数字化处理几乎总要给数字文档引入一定量的噪声。例如,在扫描器托盘上的指痕或文档上的折痕可使噪声和/或错误的掩模包括在文档图像中。噪声移去组件708首先试图识别掩模中的噪声。有各种方法可用于识别掩模中的噪声。一种办法是分析掩模中的连通分量。连通分量是同一彩色例如黑色的连通像素。掩模可从左到右、从上到下、一页一页地扫描连通分量。连通分量可用位置和形状信息或位图信息存储。然后分析文档的每个像素以确定它是否是噪声。因而,对每个像素,分析其周围的区域,例如5个像素距离内的所有像素以确定在周围区域中的和/或与周围区域相交的连通分量的数目。如果连通分量的数目小于一阈值,该像素被认为是噪声并被从掩模中除去。然后根据只要能提供较好的压缩而把该像素指定给文档的前景或背景图象。其它办法也可使用并仍然符合本发明。
一般,噪声移去组件708能识别文档中随机出现的和/或与文本或图像不相关的像素。应理解噪声移去组件708不一定必须从文档中移去所有噪声。噪声移去组件708通过把这些噪声像素指定给前景或背景图像而从掩模中移去识别的噪声。此外,例如用周围像素值来代替所识别的噪声像素也可把噪声移去。
抖动检测器710检测在掩模中的抖动并从掩模中移去抖动。抖动法是用于计算机图形学中的一种技术,用于在单色显示器或打印机上建立可变灰度阴影的幻影或在彩色显示器或打印机上产生附加的颜色。抖动法依赖于将图像的各区域处理为以不同图案着色的点群。类似于称为半色调技术的打印图像,抖动法利用了人眼对不同色彩斑点的模糊倾向,通过对它们的效果平均并将它们合并成单个可感知的形状和色彩实现。根据在给定区域中的黑点和白点的比例,总体效果是具有特定灰度的阴影。抖动法用于增加计算机图形的真实性并在低分辨率时柔化了曲线和对角线上的锯齿状边缘。然而,抖动对文档图像可造成问题。抖动如果没有被适当检测出并处理,可被误解为文本、手迹或图形内容。
抖动检测器710识别掩模中的抖动区域——可对这些区域划分,使得每个区域或子区域具有类似的抖动模式。抖动检测器710移去或处理被识别的抖动区域。例如,抖动检测器710可将一抖动区域识别为淡灰色。抖动检测器710可简单地移去该抖动区,或将该区域设定为淡灰色。应理解,将一区域改变为阴影将涉及修改文档图像。通过修改掩模,抖动器710也可把识别的抖动区域重新分配给前景或背景。
许多办法可用于检测和/或处理抖动。一种办法是分析掩模中的连通分量。连通分量是同一色彩,例黑色的连通像素。掩模可从左到右、从上到下、一页一页地搜索连通分量。连通分量可用位置和形状信息或位图信息存储。对掩模的每个像素,确定在周围区域中的和/或与周围区域相交的连通分量的量或数目。周围区域可以是围绕该像素的一些像素,例如7个。如果区域中的连通分量数目大于一阈值,就移去抖动。然后把该像素分配给前景或背景图象,这样就移去了抖动。通过计算区域背景中的像素量和区域前景中的像素量可确定这一分配,然后,如果区域前景中的像素量大于区域背景中的像素量则该像素可被指定给前景。否则该像素可被指定给背景。用于识别和/或处理抖动或半色调的其它方法也可与本发明一起使用。
聚类组件712可识别掩模中的聚类。聚类组件712定位掩模中的连通分量。连通分量如上所述是多个连通的像素,且可以是例如四向连通分量或八向连通分量。在定位了掩模中的连通分量后,聚类组件712识别类似的连通分量并将它们分组成聚类。一个聚类是一组类似的连通分量。一般,聚类代表了字母数值字符,包括手迹字符,但也可包括其它信息。然后,可以用若干聚类表示单个字符,聚类可大大地增加压缩。
要增加压缩和减小文件大小的理由是,每个连通分量是按位置和按指向属于形状字典的形状的指针来汇总的。形状是位图,或连通分量或聚类的“图像”。该连通分量也称为标记。算法的聚类方面是要确定哪个形状应属于字典,哪个形状最接近于每个连通分量。典型地,形状字典是文件大小的一部分,甚至可被跨页共用。指向形状的指针用页面中的位置(X和Y)和形状号来表征。X和Y位置可用先前位置来压缩,而形状索引可用关联文本或语言模型来压缩。
聚类组件712可利用许多方法来标识聚类。一种办法是互相比较标记的形状,并识别类似的和/或一致的标记。另一种办法是利用现有聚类的特性和标记或连通分量的特性。该现有聚类是至少具有一个标记的分组,这些分组先前已被定义为聚类。从文档提取的标记特性与现有的聚类特性相比较。这种比较不要求及时的和昂贵的、逐比特的比较以识别失配。如果标记特性与任何现有聚类特性的匹配不成功,且如果标记被认为离任何现有的聚类太远,该标记被作为新的聚类而加入并避免了逐比特比较。这一办法与其它办法的区别在于计算上有效的检测失配的筛选和计算上有效的对于检测聚类正确匹配的算法。
聚类的一个可利用的特别性质是x大小和y大小。x大小和y大小提供了确定现有的聚类大小的信息。标记的x大小和y大小可与现有聚类的x大小和y大小比较以识别失配。本发明的一个方面是要把聚类组织成一个2D记录,以x大小和y大小作为下标。当找到一新标记,就提取与x大小和y大小一致的记录,并将该标记与记录中的聚类比较。可对邻接的记录搜索以获得更精确的匹配(所有其它的记录将被忽略或筛选)。如下文所述,对聚类中心的无“漂移”描述在这里是有用的,因为它保证了聚类呆在它们的记录中。
可用于将标记与现有聚类比较的一个特性是墨色大小。墨色大小通常指的是标记或聚类中黑像素与总像素之比。类似地,可把标记的墨色大小与现有聚类的墨色大小比较以识别失配。标记的另一特性是“热点”。热点是标记上的一个位置,它可以是重心,或用其它方式计算(例如周围字符的线性方程)。在比较期间,开始比较前,将标记和聚类的热点对齐,这常会引起平移。还有另一个特性是缩小的标记或图像,它是标记和/或聚类位图的像素大小缩小的形式。在本发明的一个方面,经缩小的标记的中心在热点,标记被重新定标使得缩小的标记有固定的大小。再次,聚类的无漂移假设在保证聚类的缩小形式是聚类中所有标记的好的表示方面是有用的。缩小标记可与现有聚类的缩小标记或缩小图像比较以识别失配。
当标记的所有特征测试成功时,然后它常以更直接的方式与聚类比较。计算标记和聚类间的距离,并与第一阈值比较。如果该距离处于阈值之内,该标记被加到现有聚类中。该标记可被加到第一可接受的现有聚类中或者该标记可被加到离比较的标记具有最小距离的现有聚类中。
此外,该聚类可用放入聚类中的第一个元素来表征。这种方法的优点是把一新标记加入聚类中不要求重新计算聚类的特征。这种方法的另一个的优点是避免了“聚类漂移”,当每次把新标记加入聚类中时聚类中心移动就发生了“聚类漂移”。不具有聚类漂移,也称为“无漂移”假设,产生了在相同聚类的两个元素间的最大距离的保证——这一保证提供了有效和进取的筛选。这一方法的主要缺点是在于对于相同的聚类到标记的平均距离,它将比其它聚类算法,例如k-均值算法产生更多聚类,从此意义上来说,该聚类法不是最佳的。然而,该方法的显著好处是增加了速度。在文本压缩情况下,聚类数目增加10%不用关注,因为字典的大小,它传递了每个聚类的信息,典型地只是被压缩文档大小的一个分数。
在聚类组件712具有掩模中的已标识的聚类后,该标识由OCR组件714接收,OCR组件714对该掩模进行光学字符识别(OCR)。OCR组件714识别掩模中可能的字符,并可使用来自聚类组件707的聚类帮助对聚类进行字符分析。分析每个聚类以确定该聚类是一字符。并随后确定该聚类代表什么字符。这一方法随不同的语言和/或字母而改变。通常把聚类的位图或形状与正在使用的字母的字符位图或形状相比较。如果形状足够类似,该聚类被识别为特定字符。找到的每个字符的位置信息以及它们的顺序可被保留。这些字符可被存储为标准字母字符的序列,例如ASCII。
布局组件716对掩模操作以改进压缩和提供布局信息。布局信息以后可被用于回流文档图像。布局组件716可使用好几种方法以改进压缩和/或提供布局信息。一种方法首先用色彩,垂直和/或水平位置来组织连通分量。连通分量可由系统700的其他组件提供,例如聚类组件712。布局组件716然后基于(至少部分基于)色彩、垂直位置、水平位置、联合距离(例,连通分量间的距离)、连通分量的高度和/或连通分量的宽度来联合或组合连通分量。联合的连通分量包括两个或多个连通分量。联合的连通分量也可与其它连通分量或其它联合分量相联合。布局组件716然后生成要提供的布局信息。该布局信息可包括联合分量的位置、线条的位置和文档图像的其它信息。
掩模编码器718从布局分析组件716接收掩模并对掩模编码以生成称为掩模比特流的压缩比特流。掩模编码器718可使用任何合适的压缩方案。掩模是二进制的且典型地包括文本信息。因此,应当选择压缩方案,它能很好压缩二进制和文本信息。可用两层压缩方案编码该掩模。此外,掩模编码器718编码或提供解码该掩模位图所用的编码信息,例如库、字典、符号,表大小之类。
一个可用于编码掩模的压缩方案就是CCITT(国际电话和电报咨询委员会)。CCITT当前称为ITU-T(国际电信联盟-电信部(1994年改名)),它是一个标准组和用于传真/调制解调器通信的无损压缩技术的名字。这种类型的压缩对二进制图像工作得很好。典型的压缩率对较早版本V.42bis是4∶1,而对较新版本V.44 2000是6∶1,它是基于Lempel-Ziv-Jeff-Heath(LZJH)压缩算法。其它压缩方法或方案可被用于对掩模压缩并仍符合本发明。
前景分割器719接收文档图像和掩模并将文档图像分离成前景图像和背景图像。根据本发明的这个方面,前景图像和背景图象大体上与文档图像有相同大小(例如,文档图像为640×480像素,前景图像是640×480像素,背景图象是640×480像素)。然而本发明的另外一些方面可从文档图像生成大小实质上不同的前景和背景图象。前景和背景图象是这样的,当被组合或重组时,可与文档图像一致或类似。
前景背景分割器719使用二进制格式的掩模产生前景和背景图像。例如掩模中由1表示的所有像素可进入前景图像而掩模中用0表示所有的像素可进入背景图像。反之,例如,掩模中用0表示的所有像素可进入前景图像,而掩模中所有用1表示的像素可进入背景图像。然而,背景图像和前景图像通常具有未指定值的像素。这些未指定值的像素称为孔、空白区域和/或无关区域。
另外,前景分割器719包括一扩展组件720和一润色组件721。扩展组件720根据前景图像和/或背景图像对掩模扩展。扩展操作是基于距离变换的形态变换,该变换取得一掩模并将1的区域扩展k个像素,其中k为常数(例如2)。距离可为Manhattan距离或球面距离。逆操作、腐蚀可由逆掩模扩展而完成。在典型的经扫描文挡中,作为墨水渗出的结果或在扫描中的低dpi设定,文本常被淡涂。因而从白到黑的过渡是连续的并且是逐渐的过渡,而掩模定义了前景和背景间的硬边界。前景和背景上边界附近的连续过渡可引起环纹并使编码代价高昂。为了减轻这一影响,忽略边界附近处的像素值是有利的。这可通过使前景和背景对“无关”值进行若干像素(例如2)个距离的扩展而完成。围绕文本区域,对“无关”像素的扩展增加了对比度和可读性,同时减小了文件大小。然而,当把扩展用于自然图像区域时,增加对比度效应使图像看起来带有卡通色彩。为了克服这一问题,可能对掩模执行布局分析并检测哪些区域由文本组成。然后可仅专门对文本区扩展。扩展组件720可将掩模分离成前景掩模和背景掩模。结果,就有一些像素同时是前景和背景的无关像素。这些像素仍被指定了一个合理的值,因为扩展距离较小,而前景和背景通常由于压缩而是平滑的,并且因而无关像素得到的指定值不会远离邻近的有关像素。然而在无关扩展期间必须注意不要完全擦去小的或薄的有关像素。如果这种情况发生了,像素变成非约束的且远离任何有关像素,造成远离区域的不可预见的着色。为了防止这事发生,可以观察距离变换并保护从有关切换到无关的局部极值。
应理解,前景和背景图像可最终重构成重构文档。然而,尖锐的边缘和过渡可造成压缩的降级并可造成重构图像遭受视觉缺陷,诸如边缘或线条。例如,这可发生在当掩模造成的虚假边界跨过基本相似颜色的区域时,造成基本相似的区域的一部分被放入前景图像而另一部分被放入背景图像。这些部分,当最终被重组时,沿虚假边界可以有视觉上可察觉的线条,因为这些部分被单独处理并单独编码。此外,这些部分的压缩可因虚假边界实质上被每个部分编码而降级。
润色组件721对掩模操作以“润色”文档文件,使得文档图像的整体压缩可被改变并使得在视觉上改进重组的文档图像。一般地,润色组件721识别虚假边界和/或利用掩模扩展前景和背景图像。对于一种办法,润色组件721使用掩模识别前景和背景图像中的虚假边界。可通过识别长于第一像素阈值量(例如5个像素)的合并区域边界的水平和/或垂直线条而进行检测,用于(1)边界的一边是前景而另一边是背景,以及(2)沿着该线条两边的线性回归的不同大于第二阈值量(例可对像素的前景侧计算线性回归,和对像素的背景侧计算线性回归)。润色组件721可从掩模分离器704获取这一区域信息。润色组件721然后从掩模通过生成独立的前景和背景掩模来扩展前景和背景图像。前景掩模扩展前景图像而背景掩模扩展背景图像。通常前景图像和背景图像沿虚假边界上扩展许多像素。应理解,前景和背景掩模一般不被编码或作为解码处理的一部分使用。润色组件721也可使用其它方法来改进压缩和文档图像重构时的视觉外观,且仍然符合本发明。
如上所述,前景和背景分割器719使用掩模把文挡图像分割成前景和背景图像。如果前景和背景掩模是由扩展组件720和/或润色组件生成,该前景掩模被用于把文挡图像分割成前景图像而背景掩模被用于把文挡图像分割背景图像。
前景像素滤波器722从前景背景分离器分割器719接收前景图像。通常,前景像素滤波器722识别前景图像中的无关区域或空白区域并将这些区域用无关像素填充。这些区域是从文挡图像的像素形成,这些像素被分配给背景图象而在前景图像中留下空白或无关区域。在重组的文挡图像中一般不存在无关像素,故前景像素滤波器722不考虑无关像素的视觉外观。本发明的另外方面通过使用恰当处理无关区域的压缩方案,例如掩模小波压缩方案之类而避免了填充无关像素。
如前所述,前景图像和背景图像具有空白或无关区域。空白区域可用多种方式处理。一种办法是用数据填充空白区域并随后使用常规的压缩技术。一种填充图像空白区域的简单处理是用该图像的平均像素值填充这些空白区域。然而,这一处理可在掩模边界处产生尖锐的不连续性,可在给定峰值信噪比(PSNR)下增加所要求的比特率并在掩模或空白区域边界附近产生可察觉的环纹。另一种处理是用最接近的非掩模(或有关区域)像素的色彩对每一像素着色。标准的形态算法允许仅两次通过对所有像素执行该处理,导致在掩模下Voronoi填充的空白区域。然后,当重构前景和背景图像时,重构的图像被低通滤波并随后将已知的像素恢复成它们的正确值。如果低通滤波器的截止频率太低,会出现尖锐的边缘使所需的比特率增加并在边界附近造成可察觉的环纹。
另一种处理空白区域的方法是使用在凸集上的投影。例如,考虑二个凸集在可视像素上与输入匹配的图像集,以及具有一定的小波系数(例如超过某一分辨率水平的高频系数)设定为零的图象集。用交替投影到这两个集,可找到一图像它与可视像素一致并能很好压缩,因为它具有许多零小波系数。
还有另一种处理空白区域的办法是使用为不规则栅格显式设计的小波变换。这类小波分解在计算机视觉和计算机图形学中几何数据压缩中需要。这类小波适合不规则掩模图案。
另一种办法是对编码使用掩模小波压缩方案,该方案能很好压缩前景图像而不必用无关像素来填充无关区域。
如有关图1所描述的,掩模小波压缩方案是可用的一种方案。根据本发明也可使用其它合适的办法来处置无关区域。
前景欠采样(downsample)组件724从前景像素滤波器722接收前景图像并对前景图像欠采样。前景欠采样组件724减小了前景图像大小以增加前景图像和文档图像的压缩。例如,一幅640×480像素的前景图像可欠采样为320×240像素。许多办法可用于欠采样前景图像。一种办法是通过丢掉像素来欠采样前景图像。因而,例如,640×480像素的前景图像通过丢掉每隔一个像素可欠采样为320×240像素。另一种办法是基于平均值或来自前景图像的相应像素均值生成新像素。例如,前景图像的新像素可分别生成为8个相邻像素的平均。还有另一种办法是利用三次内插欠采样。根据本发明还可使用其它的欠采样图像办法。如果在编码器中对前景和背景欠采样,则在利用掩模被组合前,它应在解码器中被过采样(upsample)。
前景编码器726对前景图像编码。前景编码器726从前景图像生成编码比特流。这一比特流可被称为前景比特流。前景编码器726可使用多种合适的压缩方案来编码前景图像。某些可用的示例压缩方案是,例如,渐进小波编码或渐进变换编码。
前景编码器726也可包括恒定色彩连通分量分析器(未示出)以进一步改进前景图像的压缩。恒定色彩连通分量可使用类似于关于聚类组件712所作的这些描述的办法和算法。恒定色彩连通分量分析器扫描前景图像以识别恒定色彩连通像素。如果一组恒定色彩连通像素大于一阈值,该组被认为是一恒定色彩连通分量或恒定色彩标记。应理解,“恒定色彩”可包括色彩方面的某些变化。恒定色彩连通分量分析器可进一步将类似的恒定色彩连通分量分组成恒定色彩聚类。有关信息,诸如恒定色彩聚类的位置信息、位图、形状、恒定色彩连通分量的位置信息等等可包括在前景比特流中。通过使用布局分析器检测哪些区域有文本构成也可将恒定色彩局限于文本。
背景像素填充器730从背景分离器719接收背景图像。背景像素填充器730识别背景图像中的无关区域并用无关像素填充这些区域。这些区域是从分配给前景图像的文档图像像素中形成,这些像素在背景图像中留下了空白或无关区域。这些无关像素一般不出现在重组文档图像中,这样背景像素填充器730可不考虑无关像素的视觉外观。本发明的另外方面通过使用可适当处理无关区域的压缩方案,例如掩模小波压缩方案而避免填充无关像素。背景像素填充器730工作基本上与前景像素填充器722相同。
如前所述,背景图像和前景图像具有空白或无关区域。空白区域可用多种方式处理。一种办法是用数据填充空白区域并随后使用常规的压缩技术。一种填充图像空白区域的简单处理是用该图像的平均像素值填充这些空白区域。然而,这一处理可在掩模边界处产生尖锐的不连续性,可在给定峰值信噪比(PSNR)下增加所要求的比特率并在掩模或空白区域边界附近产生可察觉的环纹。另一种处理是用最接近的非掩模(或有关区域)像素的色彩对每一像素着色。标准的形态算法允许仅两次通过所有像素而执行该处理,导致在掩模下Voronoi填充的空白区域。然后,当重构前景和背景图像时,重构的图像被低通滤波并随后将已知的像素恢复成它们的正确值。如果低通滤波器的截止频率太低,会出现尖锐的边缘使所需的比特率增加并在边界附近造成可察觉的环纹。
另一种处理空白区域的方法是使用在凸集上的投影。例如,考虑二个凸集在可视像素上与输入匹配的图像集,以及具有一定的小波系数(例如超过某一分辨率水平的高频系数)设定为零的图像集。用交替投影到这两个集,可找到一图像它与可视像素一致并能很好压缩,因为它具有许多零小波系数。
还有要另一种处置空白区域的方法是使用显式地为非规则栅格设计的小波变换,这类小波变换在计算机视觉和计算机图形学中的几何数据压缩方面的问题中需要。这类小波变换适合于掩模的非规则图案。
另一种办法是使用掩模小波压缩方案用于编码,该编码很好压缩背景图像而不需要用无关像素来填充无关区域。该掩模小波压缩方案,正如关于图1所述,是一种可被使用的这类压缩方案。根据本发明还可使用其它合适的方法处置无关区域的方法。
背景欠采样组件732从背景像素滤波器730接收背景图像并对背景图像欠采样。背景欠采样组件732减小了背景图像大小以增加背景图像和文档图像的压缩。例如,一幅640×480像素的背景图像可欠采样为320×240像素。许多办法可用于欠采样背景图像。一种办法是通过丢掉像素来欠采样背景图像。因而,例如,背景图像通过丢掉每隔一个像素可从640×480像素欠采样为320×240像素。另一种办法是基于平均值或来自背景图像的相应像素的均值生成新像素。例如,背景图像的新像素可分别生成为8个相邻像素的平均。根据发明仍然还有其它的欠采样图像办法可以使用。一般来说,分别由前景欠采样组件724和背景欠采样组件732欠采样化后的前景图像和背景图像的大小基本上相同。
背景编码器734对背景图像编码。背景编码器734从背景图像生成编码比特流。这一比特流可被称为背景比特流。背景编码器734可使用多种合适的压缩方案来编码背景图像。某些可用的示例压缩方案是,例如,渐进小波编码或渐进变换编码。
背景编码器734也可包括恒定色彩连通分量分析器(未示出)以进一步改进背景图像的压缩。恒定色彩连通分量可使用类似于关于聚类组成712所作的这些描述的办法和算法。恒定色彩连通分量分析器扫描背景图像以识别恒定色彩连通像素。如果一组恒定色彩连通像素大于一阈值,该组被认为是一恒定色彩连通分量或恒定色彩标记。应理解,“恒定色彩”可包括色彩方面的某些变化。恒定色彩连通分量分析器可进一步将类似的恒定色彩连通分量分组成恒定色彩聚类。有关信息,诸如恒定色彩聚类的位置信息、位图、形状、恒定色彩连通分量的位置信息等等可包括在背景比特流中。通过使用布局分析器检测哪些区域由文本构成也可将恒定色彩局限于文本。
任何合适的压缩方案都可用于掩模编码器718、前景编码器726和背景编码器734。这些方案中的一些已被描述过。这里将描述这些压缩方案及可用于掩模编码器718、前景编码器726及背景编码器734的附加压缩方案的附加细节。
可用于本发明的某些通常知道的压缩方案是JPEG(联合图像专家组),PWT(渐进小波变换)、JPEG 2000、PTC(渐进变换编码解码)、GIF(图形互换格式)、PNG(可移植网络图形)。JPEG虽然它确实有用于无损压缩的设置,但一般是基于离散余弦变换(DCT)的有损压缩,它达到的典型压缩率是2∶1。这一压缩技术通常用于图片图像。JPEG可存储每像素24位的色彩(1千6百万个颜色),对于全色彩压缩平均压缩率为20∶1。然而,一般当平均压缩率为从10∶1到20∶1变化时不会有视觉损失,对于中等质量为20∶1-60∶1,对于差质量为60∶1-100∶1。该技术的少数几个缺点是具有尖锐边缘的困难,以及缺乏对透明性的支持。另外,它比GIF要用更长的时间来观看,但对于如全色彩或灰度扫描照片的图像它优于GIF。
PWT是无损技术的一部分,且是许多其它压缩技术的基础。PWT是基于最好首先看到整个图像,然后随着时间递推地继续增加分辨率这一想法。这允许有效地传送高保真度图像。具体说,首先传送低频分量,传送整个图像的低频分辨率版本。然后随着高频分量的到来增加分辨率。
JPEG 2000设计为用基于小波压缩技术替代基于DCT的JPEG标准。JPEG2000消除了JPEG中存在的分块人工效应,而维持了24位色彩。另外,JPEG 2000支持有损和无损压缩,对于有损压缩,压缩率为201∶1、对于无损压缩,为2∶1。
PTC是一种压缩方案,它组合了各种格式特性,例如,JPEG、GIF、PNG、M-JPEG、JPEG-LS及其它的某些特点,但具有更好的压缩性能,并在许多场合下编码和解码显著加快。PTC与JPEG相比提供的人工效应量减小了。
PTC还增加了一些新特点。增加的一个重要特点是尺度可伸缩性(或逐次浮现)。从原始PTC文件,通过对文件一部分分析和解码,可获得较低分辨率或较低保真度的图片。PTC还支持每色彩直到16位,和4个色彩通道或分量(R、G、B、及α),这里α是透明性分量。PTC还在单个编码解码器中集成了无损和有损编码。此外,用于PTC的有效的基准码可供使用。该码具有低的存储器覆盖区并仅使用整数算术(无浮点)用于精确的重现性。
为了实现PTC,使用多分辨率变换达到逐次浮现。一种方法是使用小波,但更有效的一种具有较低代价的方法是使用层次重叠变换。在PTC中,一种新的层次重叠双正交变换(LBT),它在先前的PTC构造上在下述方面作了改进,即使用更小的4×4块大小,以及整数系数——使其计算能实质上不用任何乘法(先前的PTC方案中变换仍使用浮点算术)。重叠变换优于流行的离散余弦变换(DCT,用于JPEG和MPEG)的优点是重叠变换没有DCT的“分块人工效应”。而且,由于在PTC中使用的LBT的多分辨率(层次)形式,环纹人工效应与基于DCT的编码解码器相比更难察觉。
GIF是一种无损的每像素8位(256色)压缩格式,具有平均压缩为3∶1。GIF具有内建的Lempel-Ziv-Welch(LZW)编码,这就是为什么它对照片不提供大的压缩,但对较简单的线条图画提供大的压缩。GIF压缩可与所有种类的图像一起工作,但工作得最好的还是与仅具有几种色彩的计算机生成的图形,这使它在基于Web的图形中流行。更何况,对具有尖锐边缘的图解图像的压缩比JPEG更好。
PNG是一种无损压缩格式,它提供平均为10-30%的压缩,小于GIF。对真色彩图像还是比JPEG好,因为它有48位色彩,比JPEG的24位色彩更好,此外,PNG允许透明性,且其压缩是不对称的,这意味着,它的解压缩较快而压缩要花长得多的时间。PNG设计为用于因特网,故它的快速解压缩是有益的。此外,PNG设计为替代使用LZW编码的GIF格式,PNG使用免费软件Gzip的压缩方案而不是LZW编码。
图8按照本发明的一个方面的经分割的分层图像解码系统的框图。该系统接收经压缩比特、比特流或文件生成重组图像。该系统包括一分离器组件802、前景解码器804、背景解码器804、掩模解码器808、回流组件810和组合器812。
分离器组件802接收压缩的比特并分离该比特以形成前景比特流、背景比特流和掩模比特流。分离器组件802可使用标头信息来分离比特流。前景解码器804解压缩前景比特流以生成前景图像。背景解码器806解压缩背景比特流以生成背景图像。
掩模解码器808解压缩掩模比特流以生成掩模或掩模图像。掩模解码器808还能检索布局和/或回流信息。此外,掩模解码器808能获得用于重构文本信息的字典。对于某些压缩方案(例掩模小波),前景解码器804和背景解码器806可从掩模解码器808要求经解压缩的掩模以获得前景图像和背景图像。
回流组件810根据希望的显示特性对前景图像、背景图象和掩模操作。希望的显示特性可包括这些特性,诸如显示页大小、列数、字体大小等等。希望的显示特性可以与原始文档图像大不相同。例如,文档图像可有信纸页大小和10点字体大小。文档图像的这些特性对观看标准信纸很好。然而,这些特性至少可能对在便携式装置,如便携式数字助理(PDA)上观看造成困难。PDA通常具有窄的屏幕和低分辨率。没有回流,使用PDA的用户将不得不来回拖动以读取文本的每一行。因而,对于PDA,希望的显示特性可能是20列大小,14号字体大小等等。回流组件810可按需要换行文本,重新放置段落、句子、图像,重新规定图像的大小和/或根据希望的显示特性执行任何适当的修改。回流组件810使用对前景图像,背景图象和/或掩模编码的布局信息。
组合器812把前景图像、背景图像和掩模组合成重组的文档图像。重组的图像与原始文档图像一致或逼近。此外,根据所需的显示特性重组图像可具有不同的形状和/或大小。组合器812根据掩模从前景和背景图像生成重组文档图像的像素。重组图像的每个像素可通过参考掩模的对应像素而确定,从而确定重组文档的像素应当取自前景还是背景图像。例如,掩模像素值1可指示重组文档的像素应取自前景图像的对应像素。此外,组合器812执行任何合适的必要的色彩空间转换。例如重构图像可使用YCoGg色彩空间表示。因而,继续该例子,组合器812将从YCoGg色彩空间转换到RGB色彩空间(例如为了在监视器上显示)。
图9根据本发明的一个方面编码文档图像的方法的流程图。在902提供文档图像。文档图像是位像并具有色彩空间的表示,典型地是RGB。文档图像可从它的色彩空间转换到另一色彩空间,例如YUV或YCoGg,以增加压缩。
在904为文档图像生成掩模。该掩模是基于文档图像的二进制图像。生成的掩模使得文档图像可被分割或分离成前景图像和背景图像使得前景图像和背景图像可高度压缩。掩模的每个像素确定了文档图像的对应像素是放入前景图像还是背景图像。掩模可以任何适当的方式生成,使得压缩后的掩模、前景图像和背景图像的组合大小得以减小。
应理解,对掩模的附加处理,包括但不局限于,噪声检测,噪声校正,抖动检测和处理等等也可对掩模进行。例如在数字化过程中常把噪声引入到文档图像中。指印和/或灰尘,例如,也能无意地被加入文档图像中。噪声可被识别并从掩模中移去。抖动法是一种用于产生可变灰度或色彩的阴影的技术。抖动法改变区域中点的比例或百分数以模拟阴影。抖动可使图像看起来很美,但对数字文档可能造成困难。抖动可被误解为文本、手迹内容等等。掩模中的抖动可被识别并给以适当处理。
此外,还可识别掩模中的聚类,识别掩模中的连通分量。连通分量是具有一个或多个连通点,典型地为黑点的分组。类似的连通分量被分组成聚类。每个聚类可用位图和在掩模中的指向位置的指针表示。聚类的使用能大量节省空间。聚类可表示字符、手迹和类似内容。
还有,可对掩模执行光学字符识别。聚类,无论是代表手迹物或文本,都可被分析以识别文本或字符。一旦辨认出,该字符可作为,例如,ASCII码存储,并节省更多的存储空间。而且,光学字符识别在文档图像最终被重组时增加了对文档图像的回流并方便了编辑。
还可对掩模分析以识别文档图像的布局特性。可对字符、聚类和图像各部分分析以识别布局特性。布局特性包括,但不限于,句子、段落、式样、图像位置、页码等均可被识别。布局特性也可随掩模附加或编码供以后使用。
在906,根据掩模文档图像被分割成前景图像和背景图像。例如所有在掩模中用1表示的像素可进入前景图像,而所有用0表示像素可进入背景图像。应理解本发明的其它方面可将文档图像分割成另一种适当的层数,且本发明并不局限于关于图9所描述的两层。
前景图像和背景图像与文档图像大小相同。然而,前景图像和背景图像具有未被指定值的像素。这些像素被称为孔、空隙和空白区域。在对应于这些像素的值被指定给另一幅图像后就在该处出现孔。润色法可在前景和背景图像上进行以减小最终重组图像中的硬边缘。润色法涉及将前景和背景图像扩展一些像素使得避免尖锐的边缘/或过渡。典型地,润式可通过从掩模生成前景掩模和背景掩模并使用前景掩模从文档图像分割出前景图像以及使用背景掩模从文档图像分割出背景图像而完成。前景掩模便于扩展前景图像而背景掩模便于扩展背景图像。
在908,用无关像素填充前景图像中的孔或空隙。选择无关像素从而在压缩后增加对前景图像的压缩并减小前景图像的大小。可用许多适当的方法确定无关像素。一种可用的方法是用该文档图像的平均像素值填充无关区域。然而,这一处理法可在掩模边界处产生尖锐的不连续性,可在给定峰值信噪比(PSNR)下增加所要求的比特率并在掩模或空白区域边界附近产生可察觉的环纹。另一种处理是用最接近的非掩模(或有关区域)像素的色彩对无关区域中每一像素着色。标准的形态算法允许仅两次通过所有像素而执行该处理,导致在掩模下Voronoi填充的空白区域。然后,当重构前景和背景图像时,重构的图像被低通滤波并随后将已知的像素恢复成它们的正确值。如果低通滤波器的截止频率太低,会出现尖锐的边缘使所需的比特率增加并在边界附近造成可察觉的环纹。另一种处理空白区域的方法是使用在凸集上的投影。例如,考虑两个凸集在可视像素上与输入匹配的图像集,以及具有一定的小波系数(例如超过某一分辨率水平的高频系数)设定为零的图像集。用交替投影到这两个集,可找到一图像它与可视像素一致并能很好压缩,因为它具有许多零小波系数。根据本发明可使用其它合适的方法来填充无关区域。
在910,用无关像素填充背景图像中的孔或空隙。选择无关像素从而在压缩后增加对背景图像的压缩并减小背景图像的大小。可用许多适当的方法确定无关像素。如上述关于前景图像所述。
应理解,本发明的另外方面可留下空白区域不被填充。因而,压缩方案,诸如掩模小波压缩方案,可被用于编码前景和背景图像而不用填充空白区域或无关区域。
在912,对掩模编码以生成掩模比特流。使用适当的压缩方案对掩模编码,该压缩方案可利用掩模的文本信息和二进制表示以改进对掩模的压缩。此外,聚类、布局信息等等也可用来更好地压缩掩模。
应理解可在前景和背景图像上执行附加的处理技术。例如,可对前景和背景图像执行噪声移除和欠采样。噪声移除移去或处置了存在于前景和背景图像中存在的噪声。通常,该噪声在扫描或转换处理中引入。欠采样减小了前景和背景图像的大小。例如,640×480像素的前景和背景图像可欠采样为320×240大小的图像。
在914,对前景图像编码以生成前景比特流。使用适当的压缩方案对前景图像编码。可用于前景图像编码的一些示例压缩方案是PWC、PTC、JEPG、JPEG2000、PNG和GIF。也可使用其它压缩方案并仍然符合发明。
在916,对背景图象编码以生成背景比特流。使用适当的压缩方案对背景图像编码。可用于背景图象编码的一些示例压缩方案是PWC、PTC、JEPG、JPEG2000、PNG和GIF。也可使用其它压缩方案并仍然符合发明。
为了进一步改进对前景和背景图像的压缩,还可对背景和前景图像分析以识别恒定色彩的连通分量。恒定色彩的连通分量由多个具有基本上相同色彩值的连通像素组成。通过定位一种颜色的种子像素并使用算法找到所有的,或几乎所有的具有相同颜色或大体上相同色彩的连通像素,就可识别恒定色彩连通分量。
在918,组合掩模比特流,前景比特流和背景比特流以形成组合比特流。该组合比特流也可以是一文件。可在组合比特流中加入标头信息以包括诸如所使用的编码器、字典、符号、库等等。
图10是根据本发明的一个方面解码文档图像的方法的流程图。在1002,接收比特流。该比特流是组合比特流,包括掩模比特流、前景比特流、背景比特流和标头信息。在1004,该比特流被分离成掩模比特流,前景比特流和背景比特流。此外,还可提取标头信息。
在1006,分别从掩模比特流、前景比特流和背景比特流对掩模、前景图像和背景图像解码。掩模、前景图像和背景图像统称为图像分量。掩模、前景图像和背景图像的解码使用的解压缩方案兼容于对它们编码时所用的压缩方案。标头信息可包括这个压缩/解压缩信息。掩模和/或标头信息可包括布局信息或布局特性。此外,字典、符号和其它信息也可以从掩模中解码或从标头信息中获得。
在1008,提供了显示特性。显示特性可被预先确定,由用户输入和/或动态确定。显示特性包括了诸如显示区大小、字体大小、列数之类的信息。在1010,根据显示特性对掩模、前景图像和背景图像作修改。修改图像分量使得重组时,它们与显示特性匹配。例如,掩模中的文本可被回流以在窄屏幕上适当显示而不用左右翻滚。
在1012,组合掩模,前景图像和背景图像以形成重组的文档图像。前景图像和背景图像根据掩模而组合以形成新组合的文档图像。掩模是二进制的,因而重组的文档图像的每个像素是依据掩模的相应像素从前景图像和背景图像对应的像素中指定。重组的文档图像与原始文档图像一致或紧紧逼近原始文档图像。原始文档图像是原始编码成所接收的比特流的文档图像。
应理解,本发明的系统和/或方法可被用于整个系统中以利于对文本、手迹物、绘图及类似内容的识别和/或压缩。还有,本领域的技术人员将认识到本发明的系统和/或方法可被用于巨大图像阵列的应用,包括但不限于,照片复印机、文档扫描器、光学字符识别系统、PDA、传真机、数码相机和/或数字视频摄像机。
为了对本方发明各个方面提供附加的关联环境,图11和下述讨论旨在提供关于一种可能的、合适的、可以在其中实现本发明的各个方面的计算环境的简略的一般描述。应理解,该计算环境1110仅是一种可能的计算环境,并且并不想要对本发明可被使用的计算环境作出限制。虽然上面已就可在一台或多台计算机上运行的计算机可执行指令的一般背景下描述了本发明,应认识到本发明也可与其他程序模块组合实现和/或作为硬件或软件的组合来实现。一般来说,程序模块包括例程、程序、组件、数据结构等等,它们执行特定的任务或实现特定的抽象数据类型。而且,会理解,本发明方法也可用其它计算机系统配置实行,包括单处理器或多处理器计算机系统、微型计算机系统、大型计算机系统以及个人计算机、手持计算装置、基于微处理器或可编程的消费品电子装置及类似装置,它们的每一个都可在操作上耦连到一个或多个相关的装置。本发明已阐明的方面也可在分布式计算环境中实行,其中某些任务可由通过通信网络链接的远程处理装置来执行。在分布式环境中,程序模块可位于本地和远程存储器存储装置中。
图11说明了一种支持这里所述的系统和方法的可能的硬件配置。应理解,虽然说明的是独立式结构,任何符合本发明的适当的计算机环境都可被使用。例如,根据本发明可使用各种计算机结构,包括但不限于、独立式、多处理器、分布式、客户机/服务器、小型计算机、大型计算机、超级计算机、数字式和模拟式。
参照图11,用于实现本发明各个方面的示例环境1110包括计算机1112,该计算机包括处理单元1114、系统存储器1116以及把包括系统存储器在内的各个系统组件耦连到处理单元1114的系统总线1118。处理单元1114可以是各类商用处理器中的任何一种。双处理器和其它多处理器结构也可用作处理单元1114。
系统总线1118可以是几类总线结构中的任何一种,包括存储器总线或存储器控制器、外设总线,以及使用各种商用总线结构中任何一种的本地总线。计算机存储器1116包括只读存储器(ROM)1120和随机存取存储器(RAM)1122。基本输入/输出系统(BIOS)存储在ROM 1120中,BIOS包含了,例如在启动期间,帮助信息在计算机1112中的元件之间传递的基本例程。
计算机1112可进一步包括硬盘驱动器1124、磁盘驱动器1126,例如从可移动盘1128读/写,以及光盘驱动器830,例如,用于读CD-ROM盘或从其它光学媒体读/写。硬盘驱动器1124、磁盘驱动器1126和光盘驱动器1130分别通过硬盘驱动器接口1134,磁盘驱动器接口1136和光盘驱动器接口1138连到系统总线1118。计算机1112典型地至少包括计算机可读媒体的某些形式。计算机可读媒体可以是任何可由计算机1112访问的可供使用的媒体。例如,但不限于,计算机可读媒体可包括计算机存储媒体和通信媒体。计算机存储媒体包括易失性、可移动和不可移动媒体,被以任何方法和技术实现为用于存储诸如计算机可读指令、数据结构、程序模块或其它数据。计算机存储媒体包括,但不限于RAM、ROM、EEPROM、快闪存储器或其它存储技术、CD-ROM、数字通用盘(DVD)或其它磁存储装置,或任何可用于存储所需信息并可由计算机1112访问的其它各种媒体。通信媒体典型地体现为计算机可读指令、数据结构、程序模块或已调数据信号,例如载波或其它传输机制中的其它数据,并包括任何信息传递媒体。术语“已调数据信号”意思是一种信号,它已使它的一个或多个特征被按编码信号中信息的这种方式被设置或改变。举例来说,但不限于此,通信媒体包括有线媒体,诸如有线网络或直接有线连接;以及无线媒体,诸如声频、射频、红外和其它无线媒体。上述的任何组合也被包括在计算机可读媒体的范围内。
驱动器和RAM 1122中可存储许多程序模块,包括操作系统1140、一个或多个应用程序1142、其它程序模块1144、以及程序非中断数据1146。计算机1112中的操作系统1140可以是许多商用操作系统中的任何一个。
用户可通过键盘1148和指点装置,例如鼠标1150把命令和信息输入计算机1112。其它输入装置(未示出)可包括话筒、IR遥控、操纵杆、游戏手柄、卫星盘天线、扫描器或类似装置。这些或其它输入装置常通过与系统总线1118耦合的串行口接口1152连接到处理单元1114,但也可用其它接口,诸如并行口、游戏口、通用串行总线(“USB”)、IR接口等。监视器1154或其它类型的显示装置也通过接口,如视频适配器1156,被连到系统总线1118。除监视器外,计算机一般还包括其它外围输出设备(未示出),如扬声器、打印机等。
计算机1112也可使用与一个或多个远程计算机,例如远程计算机1158的逻辑和/或物理连接工作在连网环境中。远程计算机1158可以是工作站、服务器计算机、路由器、个人计算机、基于微处理器的娱乐电器设备、对等装置或其它公共网络节点,并且典型地包括了许多或所有已描述的与计算机1112有关的元件,虽然为了简要的目的,仅示出了存储器存储装置1160。所述的逻辑连接包括局域网(LAN)1162和广域网(WAN)1164。这样的组网环境在办公室、企业内计算机网、内联网和因特网中是常见的。
当用于LAN组网环境中时,计算机1112通过网络接口或适配器1166连接到局域网1162。当用于WAN组网环境中时,计算机1112典型地包括调制解调器1168。或连到LAN上的通信服务器,或有用于建立通过WAN 1164,例如因特网,通信的其它装置。调制解调器1168可以是内置的或外置的,通过串行口接口1152被连到系统总线1118。在连网环境中,所述的与计算机1112有关的程序模块、或其一部分,可被存储在远程存储器存储装置1160中。将会理解,所示的网络连接只是示例,可以使用其它的装置来建立计算机间的通信链路。
图12是本发明可与之交互动作的示例计算机环境1200的原理框图。系统1200包括一个或多个客户机1210,客户机1210可以是硬件和/或软件(例如,线程、进程、计算装置)。系统1200还包括一个或多个服务器1230。服务器1230可以是硬件和/或软件(例如,线程、进程、计算装置)。例如,通过利用本发明服务器1230可容纳线程以执行变换。在客户机1210和服务器1230间的一种可能的通信可以是以适合于在两个或多个计算机进程之间发送的数据包形式。系统1200包括通信框架1250,它可被用来方便客户机1210和服务器1230间的通信,客户机1210可操作地连接到一个或多个客户机数据存储装置1260,该存储装置可用于存储客户机1210的本地信息。类似地,服务器1230可操作地连接到一个或多个服务器数据存储装置1240,该存储装置可用于存储服务器1230的本地信息。
上面所描述的包括了要发明的示例。当然,不可能描述用于本发明目的可想像得到的所有组件或方法的组合,但是本领域的普通技术人员会认识到本发明的许多进一步的组合和排列是可能的。因而,本发明旨在涵盖所有这类替换修改和变异,它们均落在所附权要书的精神和范围之内。进一步,对于术语“包括”,使用在详细描述或权利要求中的意义上而言,此类术语旨在以类似于术语“组成”的方式是包容性的,因为“组成”当被使用在权利要求书中时被解释为是一个转移性的词汇。
权利要求
1.一种文档编码系统,其特征在于,包括掩模分离器,该掩模分离器接收文档图像并从该文档图像生成掩模,至少部分基于像素能量的最小化且通过至少部分成对合并文档图像的区域来生成掩模;以及图像分割器,该图像分割器根据所述掩模把文档图像分割成多层,该多层以非二进制格式表示。
2.如权利要求1所述的文档编码系统,其特征在于,该多层包括第一图像层和第二图像层以及用二进制格式表示的掩模。
3.如权利要求2所述的文档编码系统,其特征在于,第一图像层是前景图像而第二图像层是背景图像。
4.如权利要求3所述的文档编码系统,其特征在于,进一步包括掩模编码器,把该掩模编码成掩模比特流。
5.如权利要求4所述的文档编码系统,其特征在于,该掩模编码器使用基于传真的压缩方案。
6.如权利要求4所述的文档编码系统,其特征在于,该掩模编码器使用两层压缩方案。
7.如权利要求4所述的文档编码系统,其特征在于,进一步包括前景编码器,该前景编码器把来自图像分割器的前景图像编码成前景比特流;以及背景编码器,该背景编码器把来自图像分割器的背景图像编码成背景比特流。
8.如权利要求7所述的文档编码系统,其特征在于,所述前景编码器和背景编码器使用渐进小波变换压缩方案。
9.如权利要求7所述的文档编码系统,其特征在于,所述前景编码器和背景编码器使用渐进变换压缩方案。
10.如权利要求7所述的文档编码系统,其特征在于,所述前景编码器和背景编码器使用掩模小波变换压缩方案。
11.如权利要求7所述的文档编码系统,其特征在于,进一步包括一组合器组件,用来把掩模比特流、前景比特流和背景比特流组合成一组合比特流。
12.一种文档编码系统,其特征在于,包括掩模分离器,该掩模分离器接收文档图像并从该文档图像生成掩模;润色组件,润色组件识别虚假边界和/或利用掩模扩展前景和/或背景图像;以及图像分割器,该图像分割器根据掩模把文档图像分割成多层,该多层以非二进制格式表示。
13.如权利要求12所述的文档编码系统,其特征在于,所述润色组件可工作成基于识别的虚假边界生成前景掩模和背景掩模,而图像分割器利用前景掩模获得前景图像和利用背景掩模获得背景图像。
14.如权利要求12所述的文档编码系统,其特征在于,进一步包括掩模编码器,把掩模编码成掩模比特流;前景编码器,该前景编码器把来自图像分割器的前景图像编码成前景比特流;以及背景编码器,该背景编码器把来自图像分割器的背景图像编码成背景比特流。
15.一种文档编码系统,其特征在于,包括掩模分离器,该掩模分离器接收文档图像并从该文档图像生成掩模,该掩模以二进制格式表示并至少部分基于像素能量的最小化且通过至少部分成对合并文档图像的区域被生成;以及前景背景分割器,该分割器根据掩模把文档图像分割成前景图像和背景图像,该前景图像和背景图像以非二进制格式表示。
16.如权利要求15所述的系统,其特征在于,生成的掩模减小了掩模、前景图像和背景图像的组合尺寸。
17.如权利要求15所述的系统,其特征在于,生成的掩模是为了减小前景图像和背景图像的估计压缩,该估计压缩包括能量方差的计算。
18.如权利要求15所述的系统,其特征在于,所述前景图像包括多个色彩,以及所述背景图像包括多个色彩。
19.如权利要求15所述的系统,其特征在于,该文档图像包括文本信息。
20.如权利要求15所述的系统,其特征在于,该文档图像包括单个页面。
21.如权利要求1 5所述的系统,其特征在于,该文档图像包括手迹。
22.使用权利要求15所述系统的照相复制机。
23.使用权利要求15所述系统的文档扫描仪。
24.使用权利要求15所述系统的光学字符识别系统。
25.使用权利要求15所述系统的个人数字助理。
26.使用权利要求15所述系统的传真机。
27.使用权利要求15所述系统的数码相机。
28.使用权利要求15所述系统的数字视频摄像机。
29.使用权利要求15所述系统的经分割的分层图像系统。
30.使用权利要求15所述系统的视频游戏。
31.一种文档编码系统,其特征在于,包括色彩空间转换器,该色彩空间转换器把具有第一色彩空间的文档图像转换成具有第二色彩空间的经转换文档图像;掩模分离器,该掩模分离器从该经转换的文档图像生成掩模,该掩模以二进制格式表示并至少部分基于像素能量的最小化且通过至少部分成对合并文档图像的区域被生成;以及前景背景分割器,该分割器根据掩模把该经转换的文档图像分割成前景图像和背景图像,该前景图像和背景图像以非二进制格式表示。
32.如权利要求31所述的系统,其特征在于第一色彩空间是RGB而第二色彩空间是YUV。
33.如权利要求31所述的系统,其特征在于,第一色彩空间是RGB而第二色彩空间是YCoCg。
34.一种文档解码系统,其特征在于,包括分离器组件,该分离器组件把比特流分离成前景比特流、背景比特流和掩模比特流;前景解码器,该前景解码器把前景比特流解码成前景图像;背景解码器,该背景解码器把背景比特流解码成背景图像;掩模解码器,该掩模解码器把掩模比特流解码成掩模;以及组合器组件,该组合器组件根据掩模生成作为前景图像和背景图像的组合的文档图像。
35.如权利要求34所述的系统,其特征在于,该文档图像具有多个像素,多个像素的每一个像素是从包括前景图像和背景图像的组中之一获取。
36.如权利要求34所述的系统,其特征在于,该文档图像与原始文档图像一致。
37.如权利要求34所述的系统,其特征在于,该文档图像基本上类似于原始文档图像。
38.如权利要求37所述的系统,其特征在于,进一步包括经分割层的文档编码系统,用来生成掩模、前景图像和背景图像;用来编码掩模成掩模比特流、编码前景图像成前景比特流、编码背景图像成背景比特流以及把掩模比特流、前景比特流和背景比特流组合成所述比特流。
39.一种文档系统,其特征在于,包括色彩空间转换器,该色彩空间转换器转换文档图像的色彩空间;掩模分离器,该掩模分离器从色彩空间转换器接收文档图像,并至少部分基于像素能量的最小化且通过至少部分成对合并文档图像的区域为该文档图像生成掩模;掩模处理器组件,该掩模处理器组件从掩模分离器接收掩模并对该掩模处理;以及分割器,该分割器根据掩模把文档图像分割成前景图像和背景图像。
40.如权利要求39所述的系统,其特征在于,该掩模处理器组件包括一抖动检测组件,用于从掩模中识别和移去抖动。
41.如权利要求39所述的系统,其特征在于,该掩模处理器组件进一步包括噪声除去组件。用于从掩模中识别和移去噪声。
42.如权利要求39所述的系统,其特征在于,进一步包括聚类组件,该聚类组件从该掩模处理器组件接收掩模并确定在掩模中的连通分量并利用至少一种筛选特性把类似的连通分量一起分组为聚类。
43.如权利要求42所述的系统,其特征在于,进一步包括布局组件,该布局组件从聚类组件接收掩模并从掩模识别布局信息。
44.如权利要求43所述的系统,其特征在于,进一步包括掩模编码器,该掩模编码器从布局组件接收掩模并把该掩模编码成掩模比特流。
45.如权利要求44所述的系统,其特征在于,所述分割器进一步包括一润色组件,该润色组件分析掩模和文档文件以识别虚假边界并沿该虚假边界把前景掩模和背景掩模扩展一些像素,该前景掩模和背景掩模是基于该掩模的,前景掩模被分割器用于获取前景图像而背景掩模被分割器用于获取背景图像。
46.如权利要求45所述的系统,其特征在于,进一步包括色彩连通组件,该色彩连通组件识别前景图像和背景图像中的色彩连通分量。
47.如权利要求45所述的系统,其特征在于,进一步包括前景编码器,该前景编码器接收前景图像并把前景图像编码成前景比特流;背景编码器,该背景编码器接收背景图像并把背景图像编码成背景比特流;以及组合器组件,该组合器组件把掩模比特流、前景比特流和背景比特流组合成一组合比特流。
48.如权利要求47所述的系统,其特征在于,进一步包括一光学字符识别组件,该光学字符识别组件从聚类组件接收掩模并识别掩模中的字符。
49.如权利要求48所述的系统,其特征在于,进一步包括前景像素填充器和背景像素填充器,前景像素填充器用无关像素填充前景图像中的无关区域而背景像素填充器用无关像素填充背景图像中的无关区域。
50.一种编码文档的方法,其特征在于,包括至少部分基于像素能量的最小化且通过至少部分成对合并文档图像的区域为一文档图像生成掩模;以及把该文档图像分割成前景图像和背景图像,该前景图像和背景图像是非二进制格式。
51.如权利要求50所述的方法,其特征在于,进一步包括编码掩模以生成掩模比特流;编码前景图像以生成前景比特流;编码背景图像以生成背景比特流;以及把掩模比特流、前景比特流和背景比特流组合成一组合比特流。
52.如权利要求50所述的方法,其特征在于进一步包括产生所述掩模,从而减少前景图像、背景图像和掩模的能量方差,该能量方差是压缩的估值。
53.如权利要求50所述的方法,其特征在于,进一步包括用无关像素来填充前景图像和背景图像的无关区域。
54.如权利要求50所述的方法,其特征在于,进一步包括从所述掩模识别出布局信息。
55.如权利要求50所述的方法,其特征在于,进一步包括从所述掩模中去除噪声。
56.如权利要求50所述的方法,其特征在于,分割文档图像进一步包括把前景图像和背景图像像扩展一些像素。
57.一种解码文档方法,其特征在于,包括接收一比特流;分割该比特流成掩模比特流、前景比特流和背景比特流;解码前景比特流成前景图像;解码背景比特流成背景图像;解码掩模比特流成掩模;以及根据掩模把前景图像和背景图像组合成一重构的图像。
58.如权利要求57所述的方法,其特征在于,进一步包括提供显示特性。
59.如权利要求57所述的方法,其特征在于,所述显示特性由用户提供。
60.如权利要求57所述的方法,其特征在于,所述显示特性被动态地确定。
61.如权利要求57所述的方法,其特征在于,所述显示特性预先确定。
62.如权利要求57所述的方法,其特征在于,进一步包括根据显示特性修改前景图像、背景图像和掩模。
63.如权利要求57所述的方法,其特征在于,进一步包括转换重构成文档图像的色彩空间。
64.一种适合于在两个或多个计算机进程间传送的数据包,该数据包包括与掩模、背景图像和前景图像关联的信息,背景图像和前景图像根据掩模形成重构文档图像。
65.一种计算机可读媒体,具有用于文档编码系统的计算机可用组件,其特征在于包括转换文档图像的色彩空间的色彩空间转换器组件;掩模分离器组件,该掩模分离器组件从色彩空间转换器组件接收该文档图像并至少部分基于像素能量的最小化且通过至少部分成对合并文档图像的区域为该文档图像生成掩模;以及分割器组件,该分割器组件从色彩空间转换器接收该文档图像并根据掩模把该文档图像分割成前景图像和背景图像。
66.如权利要求65所述的计算机可读媒体,其特征在于,进一步包括掩模处理器组件,该掩模处理器组件从掩模分离器组件接收掩模并对该掩模处理;聚类组件,该聚类组件从掩模处理器组件接收掩模并识别在该掩模中的聚类;以及布局组件,该布局组件从聚类组件接收掩模并从该掩模识别布局信息。
67.如权利要求66所述的计算机可读媒体,其特征在于,进一步包括掩模编码器组件,该掩模编码器组件从布局组件接收掩模并把该掩模编码成掩模比特流;前景编码器组件,该前景编码器组件把前景图像编码成前景比特流;背景编码器组件,该背景编码器组件接收背景图像并把背景图像编码成背景比特流;组合器组件,该组合器组件把掩模比特流、前景比特流和背景比特流组合成一组合比特流。
68.一编码系统,其特征在于,包括用于至少部分基于像素能量的最小化且通过至少部分成对合并文档图像的区域为该文档图像生成掩模的装置;以及用于把文档图像分割成前景图像和背景图像的装置;用于把掩模编码成掩模比特流的装置;用于把前景图像编码成前景比特流的装置;用于把背景图像编码成背景比特流的装置;以及用于把掩模比特流、前景比特流和背景比特流组合成一组合比特流的装置。
全文摘要
揭示了用于编码和解码文档图象的系统和方法。根据掩码把文档图分割成多层。该多层是非二进制的。然后可单独对各层处理和压缩以取得对文档图象的较好的总体压缩。从文档图象生成一掩模。生成的掩模要能减小对掩模和文档图象的多层的组合大小的压缩估值。该掩模随后被用于把文档图象分割成多层。掩模确定或分配文档图象的像素到各层中。掩模和多层被单独处理和编码以能总体改进文档图象的压缩并改进这样做的速度。多层是非二进制图象并能,例如,包括前景图象和背景图象。
文档编号H04N7/30GK1458791SQ0310833
公开日2003年11月26日 申请日期2003年3月25日 优先权日2002年4月25日
发明者P·Y·希玛德, E·L·伦肖, J·R·林克, H·S·玛尔瓦 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1