增强的票据压缩的制作方法

文档序号：7671629研发日期：1901年阅读：380来源：国知局

技术简介：
本专利针对传统图像压缩在高压缩率下易引入误差的问题，提出通过动态范围缩减（裁剪、核心化）与影像数值重映射，结合双量化表（压缩用Q表1，解码恢复用Q表2）的方案，实现票据影像的高效压缩与质量保持。该方法在JPEG框架下操作，通过预处理与量化表优化，显著提升压缩率并减少解码失真。
关键词：动态范围压缩,量化表优化,票据影像

专利名称：增强的票据压缩的制作方法
技术领域：
本发明通常涉及表示图形影像之数据的压缩，用于传输和/或存储，更具体地说，涉及票据的数字影像的极度压缩。
背景技术：
图画的和图形的影像包含着极大容量的数据，如果为了能够传输和由数字数据处理器进行处理而数字化，往往需要许多兆字节才能以良好的保真度表示影像或者说图形的各个像素。影像压缩的目的就是以较小的数据来表示影像，以便节省存储的成本或传输的时间和成本。最有效的压缩是模仿原始的影像，而不是严格地再现它。在VanNostrand Reinhold 1993年出版的、Pennebaker和Mitchell所著的“JPEG Still Image Data Compression Standard”中详细讨论过的JPEG(联合图象专家组)标准——这里全文引用作为参考——使得在各种应用程序之间能够交换影像，并且开发了在多媒体应用程序中提供数字连续影调彩色影像的能力。
JPEG主要涉及具有二维空间、包含灰度或彩色信息和与时间无关的影像，与MPEG(运动图象专家组)标准不同。JPEG压缩能够降低存储需求一个数量级以上，并且能够改善系统的处理响应时间。JPEG标准的主要目标是在给定的数据容量和/或可用时间或处理时间条件下提供最高的影像保真度，以及实现任意程度的数据压缩。往往会发生这样的情况，二十或更大倍数的数据压缩(以及传输数据和存储规模减小相当倍数)将不会产生普通观察者可以察觉的失真。
当然，其它的数据压缩技术也是可能的，并且对于某些已知特征的某些类别的影像或图形，可能产生更大程度的影像压缩。JPEG标准已经全面推广到无论影像内容如何都能实质上同样地执行，以及满足多种多样的数据压缩需求。所以，采用了几种版本的JPEG标准中的一种或多种的编码器和解码器，已经投入了相对广泛的使用，能够广泛地存取多种多样目的的影像。标准化也降低了成本，尤其是对解码器，使得高质量影像能够广泛地获取。所以，使用JPEG标准通常优于其它的数据压缩技术，即使它们或许会获得某种微小的效率提高，特别是对于特定的和定义明确的类别的影像。
尽管在数据容量中可能有这样大的缩减，尤其是使用依据JPEG标准的技术时，但是某些应用需要在影像质量和数据存储的成本或传输时间之间进行艰难的折衷。例如，可能会需要存放一幅影像，其时间周期占存储介质或设备之有用寿命的相当大比例，同时需要占用其存储容量的相当大部分。所以，在一个给定的时间周期内存放一幅影像的成本，可以视为该存储介质或设备以及支持数据处理器装置之成本的一个比例，尽管影像数据可以潜在地重写任意多的次数。此类存储的成本当然是要乘以必须存放之影像的数目。
确定存储成本与影像质量之间折衷的另一种方法，是确定可接受存储的最大成本，然后确定对于一种给定的质量水平，在可用的存储中所需数目的影像能够保存多长时间。这一点与影像压缩后的长度有关，而长度通常随影像的复杂程度增加而增长，随所需重建功能之质量的提高而缩短。
这种苛刻应用的一个实例是法定票据的存储，如果不存档的话，它们也必须存放很长时间，特别是可流通票据，比如个人支票，每天都会成千上万地产生。虽然个人支票的初始清算和资金的传递目前是使用自动装备来进行，而且使用支票上印刷的机器可读的标记使这些工作更为方便，还是可能会出错，并且在使用了支票的一项具体业务发生很久之后，可能还需要证明该业务以纠正一个错误。
实际上，在这样一种应用中，所需的影像数据质量也是随时间而变的。例如，在票据之日期或者处理它的几个月之内，往往产生是否真实的问题，因而需要影像质量例如足以鉴别签字，而在其后很久的一个日期，可能仅仅需要影像质量足以确认该票据内容有关的基本信息。所以，当降低的影像质量变得可容许时，尤其是存储的成本变为更重要的因素时，为了更长期的存储，影像数据可以进一步压缩。现在，为了存档目的，把个人支票影像立即存放在一次写入的CD-ROM或其它不可修改的介质上，并且按法律规定保存七年。同样的数据于在线的快速存取存储介质中仅仅保留几个月。
个人支票尤其表现了某些影像数据压缩的复杂性。例如，为了预防欺诈交易，毫无例外地配备了复杂程度或高或低的背景图案，并且具有一个范围的影像数值。某些信息将以高反差油墨印刷，可能包括多种颜色，而其它的安全信息则是相对低反差的。还可以包括若干装饰，包括范围很宽的影像数值。此外，将以不容易预测的影像数值提供手写的或印刷的标记(如支票额和签字)。
即使简单得多的票据也可能包括多种影像数值，比如信笺抬头中的颜色和底纹、高反差印刷、纸张上的水印以及多个签字。需要准确的影像重建时，在一张票据中可能包括之影像数值的这个范围，可能会限制影像数据可以压缩的程度。所以，影像重建可能与原始票据达到高保真时，以这样一种形式存储的成本相对比较大，这种成本限制了这种存储形式经济上切实可行的时间，无论在更长的时间内如何需要维持这种存储以及如何可能实现快速的电子存取。
由于这种影像数值必须能够准确再现，以及为了实现广泛的存取和系统相互兼容性而需要使用JPEG标准，在具有良好的影像再现保真度的前提下，用于数据容量进一步压缩的实质上惟一的技术，就是降低原始影像的空间采样频率。不过，采样不可避免地会产生假频，并且降低微小标记的清晰度，尤其是在低反差时。目前，每英寸100点或者说像素的采样(从目前一般使用之打印机的分辨率300dpi或600dpi降低到大约三分之一至六分之一)被视为个人支票上低反差标记之适当清晰度的极限。美国国家标准协会(ANSI)的影像交换标准委员会推荐100dpi为最小分辨率。大多数支票应用使用或者是100dpi，或者是120dpi的灰度影像。更低的采样频率也会导致对噪音引起的影像恶化或者说退化更加敏感。

发明内容
所以，本发明的一个目标是提供一种技术，用于在改善影像保真度的前提下，对多于两种亮度的数字化票据进行极度压缩。
本发明的另一个目标是降低表示票据之压缩后影像数据的存储成本，对于能够进行电子存取和适当再现的存储形式，延长其经济上切实可行的时间。
本发明的一个进一步的目标是增强低反差的票据在重建后的反差或者说其中的特点。
本发明的又一个目标是对票据上低反差的标记提供适当的或者说增强的清晰度。
本发明的另一个进一步的目标是由快速存取的存储器延长票据的可用期，而不增加存储成本。
为了达到本发明的这些和其它目标，提供了压缩数据的一种方法和装置，包括以下功能或者说步骤选择第一量化表，缩小数据的动态范围，形成动态范围缩小后的数据，以第一量化表来压缩动态范围缩小后的数据以形成压缩后的数据，以及同第二量化表一起存放或传送压缩后的数据，第二量代表表示一个动态范围，而不是所述缩小的动态范围。
附图简要说明参考附图阅读了本发明的一个优选实施例的以下详细说明之后，将会更好地理解上述的和其它的目标、特性和优点，其中

图1是一台示范性票据扫描装置的剖视图，它适于采集个人支票的影像，图2是一台控制器和数据处理设备的示意图，它可用于图1中的影像采集装置，图2A是一组示范性表格，包括遵循JPEG标准之定义量化表(DQT)标记的两个量化表，
图2B展示了按照JPEG标准的量化，展示了本发明中操作的基本原理，图3是一幅流程图，展示了依据本发明的影像数据编码处理，图3A是一幅影像的示范性直方图，显示了影像数值的峰和谷，图3B是一幅示范性直方图，显示了将影像数值裁剪至所关注的范围，图3C是一张支票正面影像的直方图，图3D是相同影像对极端值进行裁剪之后的直方图，图3E是图3D中裁剪后影像进行了2∶1的动态范围缩减之后的直方图，图3F是除了裁剪和动态范围缩减之外，进行了背景峰值核心化后影像的直方图，图4是一幅流程图，展示了依据本发明的影像数据解码处理，图5是一幅流程图，展示了缩短压缩后影像长度的一种优选形式，利用了动态范围缩减的再编码，图6A展示了缩减输出范围的对称核心化，图6B展示了通过极端值裁剪而缩减输出范围，图6C展示了通过动态范围缩减而缩减输出范围，图6D显示了通过裁剪和核心化，以及通过裁剪、核心化和动态范围缩减而缩减输出范围，图7是一幅流程图，展示了通过缩减影像的范围，在一个数据库中延伸影像的时间，以及图8是一幅流程图，展示了检索一幅缩减了范围的影像。
具体实施例方式
现在参考附图，更确切地说是参考图1和图2，其中显示了示范形式的一台扫描仪，适于个人支票的影像采集，以及所用的一台控制器和数据处理装置，依据本发明的一个优选实施例。虽然执行类似功能的扫描仪已是业内熟知，而且本领域的技术人员将容易理解其基本原理，但是由于图1和图2所示的装置还说明了本发明的操作以及其优选的环境，所以对于本发明，这两张图中的任何部分都不能视为现有技术。
优选情况下，图1的剖视图中所示的扫描仪照相机10包括一个外壳12，它具有一个票据台14，由任何适当设计的一种票据固定和传送装置16驱动，票据在台上(或台下)通过。外壳12的基本功能是保持照明装置18和照相机20相对于票据台14的相对定位，使得票据(通常是高速地)由传送装置16送过票据台14时，能够采集到良好照明和良好聚焦的票据影像。对于本发明的实践来说，扫描仪照相机的其它细节是不重要的。
应当理解，在采集个人支票(以及可能的其它类型票据)的影像时，重要的是票据两面的影像都要采集，因为虽然金额、付款人、日期和收款人标注在支票的正面，但是收款人的背书和支票清算有关的各种往来信息将出现在其背面。通常在支票的两面也都会出现安全信息。所以，优选情况下为了票据的两面而分别提供传送装置，通常是对应于图1所示的装置，优选情况下是沿着票据行走路径分开，使得正面和背面的影像依次采集，以便获得最优的数据采集速率，并且简化影像的跟踪和识别。
这种几何结构示意性地显示在图2的10’中。优选情况下，配备了扫描仪适配卡22，在票据跟踪逻辑电路24的控制下，对来自正面和背面扫描仪的影像数据进行多路传输，其细节对于本发明的实践来说是不重要的。各个扫描仪的扫描仪数据输出在26接受标定处理，并且由于影像传感器通常是部分串行部分并行的高速电荷耦合器件，在28对像素次序进行重排，影像数据在30进行缓冲，以便传递到总线32。
图2显示了正面和背面扫描仪以及一片扫描仪适配(SA)卡。它也显示了影像采集处理器路径(ICPP)之一。有四条这样的路径，每一条都位于其自身的处理器卡(IPC)中。SA卡与正面和背面扫描仪通信，并且也与每片IPC通信。
在所有时间，SA卡都为可用的正面和背面扫描仪，对所有四条ICPP产生视频数据。在程序的控制下，在任何指定的时间，ICPP之一分流正面扫描仪的影像，而一条不同的ICPP分流背面扫描仪的影像。该程序控制也确保了一条指定的ICPP首先分流同一票据的正面，然后分流其背面。
在一条ICPP中，SI卡包含着三个原始影像缓冲区。这些缓冲区用于存放分流的视频信息，并且是依次使用。下一步，分别用于正面影像和背面影像的两个IPC从SI卡的原始影像缓冲区获取各自的影像，并且对它们进行处理。
一个控制器的中央处理单元34和一个影像采集处理路径存储器36也连接到总线32，以便分别控制扫描仪和初始影像数据处理。优选情况下，配备了在38合并指明的一片以太网卡和一片令牌环卡，以便与主机的处理器通信并且允许图2所示的可能会有的众多设备能够同时和并行地使用。
优选情况下，还配备了并行处理设备40、42，分别用于处理支票的正面影像和背面影像。来自缓冲区30的原始影像数据，经过总线32并在总线接口44中进行缓冲。在46对原始影像数据进行图象条带去除处理，以便纠正在票据台14上定位中的错误。然后，图象条带去除处理后的数据在48处理成灰度影像，并且在50进行压缩，优选情况下是按照JPEG标准，或者在49压缩成黑白影像，并且压缩，优选情况下是按照G4 Modified Modified Read(MMR)标准的ABIC，放在缓冲区中，以便传递回总线32并存储在影像采集处理路径(ICPP)存储器36中。ICPP存储器36可视为或者是用于压缩后影像数据的海量存储器，或者是在传递到这样一种海量存储器之前的一种中间存储器，可用从它选择性地检索影像数据，并重建所需的影像。
应当承认，本发明主要是针对按照JPEG标准进行的影像数据压缩和影像重建，对于这一点，将会讲解本发明的一个优选形式。不过，也应当理解，本发明也完全可以应用于任何其它数据压缩方法，并且无论该数据是否表示影像。不过，对于票据的影像特别宣告了对影像数据压缩和重建后影像质量的效果，因为利用JPEG标准，可接受的数据压缩程度受限于从压缩后数据可重建之数据质量的可接受程度。尽管如此，至少对于票据影像数据和能够粗糙地量化而不损失重要信息之清晰度的其它数据，本发明提供了实质上增加的压缩程度，同时提高了重建后/解压后数据或者说影像的质量，因此在很大程度上避免了在数据质量和数据容量缩减之间的折衷。
在进一步详细说明本发明之前，有必要回顾一下JPEG压缩标准的某些方面，本领域的技术人员据此将能够把本发明的原理应用到其它数据压缩方法中。用于JPEG的基本标准部件之一是离散余弦变换(DCT)。这种变换的一个重要表现是它会产生不相关的系数。对于压缩来说，系数的解相关非常重要的，因为每个系数就都能够独立地处理而不损失压缩效率。DCT的另一个重要表现是能够使用视觉加权的量化值来量化DCT系数。由于人类视觉系统的响应非常依赖于空间频率，通过把影像分解成一组波形，每个波形都具有特定的空间频率，就有可能把眼睛能够看见的影像结构与看不见的影像结构分离开。因此DCT提供了这种分解的一个良好近似，使得对观察者的影像保真度感觉贡献不大的数据能够截去或者说省略。
按照JPEG标准，原始的单色影像首先用大概足够高以至于不产生明显假频的任意分辨率，以8×8的采样阵列分解成64像素的方块。
(压缩彩色影像时，首先分别将每个分量分解成8×8像素的方块。在这方面，一个“分量”就是一组影像值之一，与其它分量独立或者说正交，比如从影像获得的亮度或色度，它们表示其像素的视觉数值。下面将从单分量的角度来介绍本发明，比如灰度或亮度，但是对于任何数目的分量都能够实现本发明，正如本领域的技术人员对此一目了然。JPEG基本标准适于多至四个独立的分量。)众所周知，若干技术和硬件能够非常快速地对这种量化的影像数据进行DCT，产生64个DCT系数。
对于许多方块，这些DCT系数中有许多会是零(它们对影像完全没有贡献)或者接近于零，当眼睛对它们对应的空间频率相对不敏感时，就可以忽略或者省略它们。由于人类的眼睛对非常高和非常低的空间频率不太敏感，作为JPEG标准的一部分，以一种所谓的锯齿形图案提供DCT系数，该图案近似对应于在水平和垂直方向上一种增长的空间频率的求和，趋于把不太重要的空间频率对应的DCT系数划分在DCT系数数据流的两端，使得在许多情况下能够作为一组来高效地压缩它们。
虽然以上介绍的离散余弦变换和编码可以实际上遇到的多数影像提供足够的数据压缩，但是不没有保证数据容量的实际缩减，而且压缩的程度在理论上也不可能最优(因为JPEG的目标是对于经济上可提供的数据处理量和数据容量，提供获得最小影像退化的能力)，尤其是由于以相等的精度表示每个DCT系数会需要传送相同数目的数位。不过，JPEG标准允许DCT系数值由64个独立的量化值线性量化，这些量化值在一个表格(比如图2A中所示)中随着压缩后的数据传送，其后是熵(如霍夫曼)代码和一个或多个影像分量的代码表达。
为了清楚起见，图2A是以16列的右对齐显示，使得两字节的标记延伸在16列的左侧。每个字节都由两个十六进制代码的数码表示，它们分别表示其两个半字节。
图2A中的第一个标记是“FFD8”，表示影像起点(SOI)。第二个标记是“FFDB”，表示一个量化表(DQT＝定义量化表)的说明。
从人类视觉系统的实验，或者从原始影像对应之DCT系数的详细分析，可以制成这个表，其方式对于理解本发明并不重要，而且随后在影像重建期间对DCT系数进行“反量化”时还将使用。此外，也可以使用一种标准量化表，它是由经验或者通过相对众多的影像而制成的。JPEG标准的特征在于，虽然从量化范围可以自由设置以便优化一幅影像的编码(或者过去使用的成功的表格)这一角度来说，量化范围是任意的，但是为了提高重建影像至原始影像的保真度，编码和解码都使用同一量化表。
第三个标记是“FFC0”，它是帧起点(SOF)标记，指明这是一幅基本的DCT式的压缩影像。SOF标记之后的参数指明精度(即每个分量的位数)、高度、宽度、分量数等。
第四个标记是“FFC4”，它表示一个标记区段的开始，该区段说明了熵编码影像数据的一个或多个霍夫曼表，用于第五个标记——扫描起点(SOS)标记——之后的“…”表示的真正影像数据进行解码。在以上引入的出版物(图2A即是从中复制的)中，全面地讨论了这些编码格式标准，因而对本领域的技术人员理解本发明以便能够同样地实践，本文中进一步的讨论不重要。最后的标记——“FFD9”——是影像结束(EOI)标记。
从图2A应当注意，在指明一个DQT区段的标记之后提供了两个量化表。可以定义多至四个量化表，而且同时用于反量化和重建影像，定义的量化表与量化原始影像数据时使用的表相同。
图2B从这一角度展示了本发明的基本原理。图2B中上面的四条线也是从以上引入的出版物中复制的。图2B中的第五条线展示了本发明的基本原理以及本发明与JPEG标准的完全兼容性，以便达到对压缩后影像数据进行解码和重建影像的目的。
具体地说，图2B中的第一条线是未量化前DCT系数值的标尺，为了这个实例之用，从-9延伸至+9，中心值为0。图2B中的第二条线展示了量化间隔，为了这种展示之用，间隔是相等的，间隔值为4。应当注意，按照JPEG标准，量化间隔的边界偏离中心或者说0值量化间隔的一半，使得中心量化间隔将对称于0量化值，而且避免了重建影像的影像值相对于原始影像产生偏置。这种处理使原始未量化的DCT系数进行了有效的舍入。
图2B中的第三条线显示了量化后DCT系数的标尺；前面一条线上的每个量化间隔的中心对应一个系数，它与第一条线上未量化前DCT系数的标尺相差一个等于量化间隔的因子。换句话说，这种处理按照以上介绍的量化间隔进行舍入，有效地缩小了量化后DCT系数的比例。按照JPEG标准，采用量化表中的数值代换的解码，这种比例变换(但是不是量化，它是假定从建立一个适当小的量化间隔来限制的)能够变换回来，如图2B中第四条线所示。注意，图2B中第四条线的比例与第一条线的比例一致，因此(如果没有量化)对应于原始影像。
不过，依据本发明，以及如图2B中的第五条线所示，由图2B中第三条线上的量化后DCT系数代换的数值不必局限为进行量化时使用的量化表中的数值，与JPEG标准的常规做法不同。不仅如此，本发明还利用了以下事实实现JPEG标准所用的标准硬件和/或软件这样做时，就是通过简单的查表和把传送给它的数值代换为多个量化表中的任何一个。换句话说，虽然JPEG标准说明了，编码所用的量化表也用于解码，在解码器处却没有硬件或软件的约束来确保在所采用的量化表中数据的一致性。所以，根据解码器中使用的量化表中的数据，任何其它量化比例都可以使用，而不必修改解码器的任何方面，尤其是涉及JPEG标准之处。
例如，如图2B中的第五条线所示，以及考虑到分量数值原始动态范围-8至+8，图2B中的第一条线上原始(但是量化后)的DCT数值可以恢复成如图2B中的第四条线所示，或者也可以代换成实质上任意地选择的或者按照经验、数学或理论设立的数值，这些数值可以极大地扩展动态范围，如图2B中的第五条线所示，它们与原始的或者量化后的DCT系数可能有线性关系，也可能没有；完全取决于解码器中使用的量化表中的数据值。此外，由于解码器中使用的量化表数值事实上能够自由选择以便在解码器中使用，遵从JPEG标准不改变，本发明人已经发现，当影像编码的方式遵从一种标准的、符合JPEG的解码器之不改变的操作时，实现低反差特点的分离、真实噪音量的压制以及影像特点清晰度的实质提高，与数据压缩效率的实质提高并不矛盾。
图3的流程图中显示了编码器操作的一种优选形式。再次应当记住，为了简单和清楚起见，以下说明是就单分量而言，比如表示一幅单色或者说灰度影像，但是也可以使用另外的分量，比如表示彩色线性所包括的分量。应当理解，每个分量都能够而且可能会具有其自身独立范围的缩减和扩展。如上所述，可以同时激活多至四个量化表，在扫描起点(SOS)标记之后，四个分量可以交错放置。
图3图示之方法的主要功能是对缩减了动态范围的影像进行编码。不过，也可以包括其它的和可选的影像分析和处理，作为本发明的一种改善特性。具体地说，步骤110针对建立影像数值之相对数目或者说发生频度的一个直方图，它对于任何指定的票据都是可选的，但是对于一张票据或者代表至少一类票据的多张票据，需要至少要进行一次这样的分析。由此建立的直方图可能适合也可能不适合其它类别的票据。不过，许多类别的票据事实上都具有此类直方图的很多类似性质，实质上有可能做到，根据单一类别票据的分析结果，也能够很好地——如果不是最优地——应付具有类似一般外观的不同类别的票据。
一般来说，可以期望一张票据的直方图包括一个或多个大峰值，位于或者聚集在一个给定的分量值处，该值对应于一种背景，该票据可能包括一种低反差图案。通常还会产生一个或多个较小的直方图峰值，对应于具有不同影像数值的标记(如印刷的文本、手写的标记、信笺抬头、安全标记等)。这些峰值表示的影像数值，其范围表示了可能受关注之影像数值的范围，因此可以期望影像的动态范围包含了所关注的信息。图3A展示了一幅示范性直方图，可以期望它是从处理一张已生效和已兑现个人支票的正面和/或背面影像而得到的(一般来说，该直方图在个人支票的正面和背面之间会有实质差异；背面通常表示低反差特点，因此更接近成组的峰值)。
在这幅示范性直方图中，连接着的峰值181包括子峰值182和183，通常表示背景(对于支票的正面和背面这可能是常见的)，而峰值184可能表示手写的标记，峰值185可能表示安全标记，峰值186可能表示高反差印刷和机器可读标记。作为常规方式，对于一个单色分量，横轴的指标是从0(黑)到256(白)。应当注意，该直方图在峰值之间不一定达到零，同时表示扫描期间采集数值中的噪音和变化。还应当注意，峰值并不延伸到整个动态范围，但是在整个动态范围中可能存在着非零的影像直方图数值。
图3中步骤120指示了影像数据的可选处理，比如有益于增强影像压缩、降低噪音和改善影像清晰度的滤波、边缘锐化或信噪分离技术。不过，应当理解，即使在没有此类预处理的情况下，本发明也提供了这种增强的基本程度，而当采用预处理时，对于这些有益的效果，本发明也提供了一种协同效应。从以下对本发明的讨论，这一点将会变得更加明显。
按照直方图进行预处理的一个实例(无论如何得到也假设近似代表该影像)，会是把比峰值更加过度的背景峰值的所有数值近似地重新映射回峰值的中心数值。这样做具有将峰值之间的数据(如区域187)移向峰值(如187之内)的效果，并且增大了峰值的精确度，同时压制了可能表示噪音的许多影像数值。对于任何或者全部峰值都可以进行类似的处理。此外，在这种重新映射的过程中，(对于一个相对较浅的背景)已经发现背景峰值需要放置在(或者说背景放置需要聚集在)影像数值200附近，以便提供代表较浅色特点的影像数值，同时假设所关注的所有其它特点都比该背景更深色。这种处理被称为核心化，因为实质上去除了峰值之间的数据。图6A中显示了核心化的另一种描述，在不期望存在所关注信息的区域，即使分配了动态范围也不大。
在影像的明显信息内容之名义动态范围的两端(如范围189之外)，由裁剪可以去除更多的噪音，正如欧洲专利申请书EP 188193中所讨论的，这里全文引用作为参考。此外，与裁剪和核心化相结合，可以对数据进行重新映射以便进一步缩小动态范围。图6B中显示了裁剪的另一种描述，显示出对超过所关注之动态范围(从15至240)的区域，即使分配了动态范围也不大。
这里应当承认，虽然以上的预处理降低了噪音，保存了细节，但是压缩的程度与动态范围以及使用的量化数值有关，动态范围将表示为编码数据中的数值。
不用阈值处理时也可以实现这一点，但是比较困难并且容易产生误差，可能增加起作用的作用含量。不过，如果进行了预处理，峰值的噪音就比较少，而且更加清晰明确(因此增加了数据压缩的潜力)。因此，在预处理、直方图峰值重新映射之后，图3A的直方图中表示的数据可以表现出图3B所示的重新映射结果，其动态范围189’有了显著的缩小。
步骤130描述了动态范围的设置，它将在影像的编码中使用。动态范围的缩减一般将与保持所需的影像细节条件下(如限制下)所能达到之数据压缩的程度成比例。在这些约束之内，可以自由地选择动态范围。因而断定，由于期望包含着信息之影像数值的数字很好地分离，并且映射到狭窄的范围中，对于票据或者能够粗略量化的其它数据，能够达到实质的数据压缩程度而不损失所关注的信息。在图6C中以另一种方式描述了这一点——对于影像数值和动态范围之内数据数值之间的对应关系，降低反映该关系之直线的斜率。
这个“新的”范围可以根据每幅影像的直方图，或者从多幅影像汇集，或者仅仅按照假设，利用或者不用以上讨论的预处理/重新映射。一旦建立了这个“新的”动态范围，这个动态范围就能够进一步缩小，在符合清晰度需求的条件下使压缩后的影像规模最小。
在实验中，每英寸160像素的采样和仅仅使用五个量化级别——一个51∶1(＝256/5)的范围缩减比率，尽管亮度的数目减少到目前视为可接受的最小值以下，还是实现了重建影像的良好清晰度。背景影像以强烈的轮廓(如提高的反差)着色，但是出现的最细致的印迹保持清晰，符合该实验的首要要求。其它的处理可以清楚地改善影像的整体满意度和外观。
然后，在一个第一量化表(后文中的Q表1)中表示这种改变的动态范围，根据该表能够计算出一个第二量化表(后文中的Q表2)，以便恢复或者说扩展动态范围。在这方面应当注意，动态范围189和189’都能够扩展到实质上0至256的全部动态范围。然后，使用Q表1以正常的遵从JPEG的方式，对表示原始影像的重新映射后影像数据进行编码，如在150处所示，接着在编码后的数据中以Q表2替代Q表1，如在160处所示，并且存放或者发送，如在170处所述。
图6D显示了裁剪和核心化结合的结果，以及裁剪、核心化和动态范围缩减的结合。裁剪的整体效果是通过使所关注之信号的动态范围最终扩展到一个更大的范围，使得在可用的动态范围之内的信号能够更准确地表达。在区分数值类似的数据很重要之处，核心化在峰值之间产生了更大的斜率/灵敏度。动态范围缩减使数据容量的压缩率更大，而且与裁剪和核心化相结合，减小了所关注数值的整体和最大差异，如直线500所描述，其结果进一步降低了噪音，潜在地提高了影像保真度。
图3D-图3F显示了在减小动态范围的不同预处理阶段之后，一张包含背景影像的支票正面的实际直方图。图3C是原始影像的直方图。图3D表示同一影像在裁剪至宽度为226的范围(从15到240)后的情况。图3E表示裁剪后的影像之动态范围按比例再缩小一半，到宽度为113的新范围(从72到184)，图3F显示的直方图，是裁剪和按比例缩小的影像在背景中正负十个数值的核心化之后，最后宽度为93的范围(从82到174)的情况。(为了这种展示的目的，幅度为110k的新峰值已经缩小了。)使用JPEG标准的附件K中发现的JPEG实例量化表和霍夫曼代码，原始影像(图3C)压缩到15650字节。裁剪之后，压缩后规模稍微减小到15513字节(图3D)。动态范围按比例缩小进一步将压缩后影像规模减小到10397字节(图3E)，核心化(图3F)进一步将压缩后数据规模减小到8802字节，或者说在数据规模中有大约2∶1的缩减。
现在参考图4，现在将讨论的问题是，按以上讨论之方法编码的影像如何进行解码。如在210处所示，检索或者接收编码后的影像。不过，应当记住指定如何进行解码的量化表现在是Q表2，它是为了恢复或者说增强原始动态范围而计算出并替代原表的。然后进行解码，以便由大幅压缩后的数据重建一个恢复的或者说增强的影像。本领域的技术人员将会理解，步骤210和220表示按照JPEG标准的正常解码，未进行修改，同样代表了包括量化的然后其它数据压缩方案。JPEG标准指出，在解码器中重建的数值是从0到2P-1范围内的整数，其中P为影像分量的精度。它并没有指出转换成整数是进行舍入还是截断。要是使用了解码器的Q表1，随后将范围扩展，这种量化至整数输出值就会引入不必要的额外误差，尤其是当为了获得极大的压缩率而使范围缩减很大时。
另外，JPEG标准指出，任何重建的数值，如果超出允许范围之外，将会在期望的边界处截断。由于人类观察者趋于注重票据的高反差影像，如果Q表2设计为对原始影像缩减过补偿，这种内部截断可以用于产生高反差影像。在这个过程中，某些边缘量化噪音可能被截掉。如果需要，还可以进行可选的分析230和后处理240，例如将背景峰值重新映射到不同的影像数值或者说分离。为了恢复原始的均值、平均反差或者某些均值和/或范围，比如原始的范围，可以使用可选的直方图和后处理。
如图5所示，一旦按照JPEG的标准重建，本发明也可以应用于JPEG编码的数据。换句话说，可以按照适当的Q表0(与Q表1和Q表2截然不同)，对影像数据进行压缩和编码，如在310处所示，存放和/或发送(320)，接收/检索(330)，然后使用相同的Q表0进行解码，完全符合图3中进行压缩的JPEG技术。所以，本发明完全可以应用于现有的影像数据仓库，进一步压缩，减少其存储成本。
图7是一幅流程图，显示了一个优选实施例，用于延长一幅影像可以在数据库中保存的时间。在710检索影像，如果在720判断出它利用任何压缩技术(包括无损编码)压缩过，就在730由适当的解码器解压/解码。在图7中没有展示(图3所示的)可选直方图和预处理，但是如果需要也可以包括。在方框740中，减小该影像的范围，如果在750确定减小了范围的影像要压缩(可能利用一种不同的压缩技术)，就在760进行编码。然后，在770将减小了范围的影像(压缩过或者没有压缩过)与范围扩展信息一起存放。对于JPEG的基于DCT的压缩，这种范围扩展信息的形式可以是替代的按比例缩小的Q表2。对于其它应用，它的形式可以是JPEG-LS输出重新映射表。
图8是一幅流程图，显示了如何使用这种缩减了范围的影像。在810检索带有范围扩展信息的影像。如果在820判断出它是压缩过的，就在830利用对应的解码器进行解码。(如果在830尚未进行)然后对影像的范围进行扩展，如840所示。可选的直方图850和后处理860阶段显示在范围扩展之后，但是也可以在它之前。
鉴于前面的介绍并参考图6A-图6D，本发明对票据的影像或能够粗略量化而没有显著损失的其它数据，提供了实质的附加数据容量压缩，进一步减小了要传送或存放的数据容量。预处理和/或以任何所需的方式重新映射影像数值的后处理，提供了实质上进一步的增强和性能改善。
虽然是以单一的优选实施例介绍了本发明，本领域的技术人员将会理解，本发明实施时可以具有附带的权利要求书之实质和范围之内的修改。
权利要求
1.一种压缩数据的方法，包括以下步骤选择一个第一量化表，减小数据的动态范围，形成动态范围缩减后的数据，利用所述第一量化表，压缩所述动态范围缩减后的所述数据，形成压缩后的数据，以及与表示不同于所述缩减的动态范围之动态范围的一个第二量化表一起，存放或传送所述压缩后的数据。
2.根据权利要求1所述的方法，包括以下进一步的步骤对于所关注的数据，确定一个名义动态范围。
3.根据权利要求1所述的方法，进一步包括重新映射影像数值的一个步骤。
4.根据权利要求1所述的方法，其特征在于，减小所述数据之动态范围的所述步骤包括至少裁剪和核心化二者之一。
5.根据权利要求1的方法，其特征在于，重新映射所述数据之影像数值的所述步骤包括至少裁剪、核心化和动态范围缩减三者之一。
6.根据权利要求1所述的方法，包括以下进一步的步骤使用所述第二量化表，对所述压缩后的数据进行解码。
7.根据权利要求6所述的方法，其特征在于，使用一种实施JPEG标准的解码器执行所述解码步骤。
8.一种压缩数据的设备，包括选择一个第一量化表的装置，减小数据的动态范围，形成动态范围缩减后数据的装置，利用所述第一量化表，压缩所述动态范围缩减后的所述数据，形成压缩后数据的装置，以及与表示不同于所述缩减的动态范围之动态范围的一个第二量化表一起，存放或传送所述压缩后数据的装置。
9.根据权利要求8所述的设备，进一步包括对于所关注的数据，确定一个名义动态范围的装置。
10.根据权利要求8所述的设备，进一步包括重新映射影像数值的装置。
11.根据权利要求8所述的设备，其特征在于，减小所述数据之动态范围的所述装置包括至少裁剪和核心化二者之一的装置。
12.根据权利要求8所述的设备，其特征在于，减小所述数据之动态范围的所述装置包括至少裁剪、核心化和动态范围缩减三者之一的装置。
13.根据权利要求8所述的设备，进一步包括使用所述第二量化表，对所述压缩后数据进行解码的装置。
14.根据权利要求13所述的设备，其特征在于，所述解码装置实施JPEG标准。
全文摘要
通过对票据影像的动态范围进行缩减/重新映射(140)，可能连同进一步的影像分析(110)和预处理(120)以及存放票据(170)时带有恢复票据影像之动态范围所用的适当表格，实现对票据进行增大的而且极有可能是极度的压缩。
文档编号H04N1/41GK1524246SQ01822014
公开日2004年8月25日申请日期2001年11月19日优先权日2001年1月16日
发明者乔纳·L·米切尔, 乔纳 L 米切尔,普拉卡什, 拉温德·普拉卡什, 戴维·斯特普尼斯基, 斯特普尼斯基申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：乔纳.L.米切尔;拉温德.普拉卡什;戴维.斯特普尼斯基
技术所有人：国际商业机器公司
我是此专利的发明人