数字信号的编码和解码的制作方法

文档序号:2823206阅读:604来源:国知局
专利名称:数字信号的编码和解码的制作方法
技术领域
本发明涉及对数字信号及其数字样本分块(block)进行编码以通过分组交换网络进行传输。
因此,本发明还涉及对从分组交换网络接收的数字信号及其数字样本分块进行解码。
背景技术
和现有技术通过分组交换网络如基于IP(Internet Protocol,网际协议)的网络(主要是因特网或内部网)的电话由于很多特性而日益具有吸引力。这些特性包括诸如相对低的运营成本、容易集成新业务以及一个网络就可用于语音和数据。分组交换系统中的语音或音频信号转换为数字信号,即比特流,它分为多个具有适当大小的部分,以通过分组交换网络从发送器端传输到接收器端。
分组交换网络最初设计为用于传输非实时数据,并且通过这种网络传输语音将导致一些问题。因为数据分组会由于拥堵问题或传输错误而被网络有意丢弃,所以它们在传输期间会发生丢失。在非实时应用中,这不是问题,因为丢失的分组可以被重新传输。然而,重新传输对于实时应用而言不是一个可能的解决方案。对于实时应用,到达太迟的分组不能用来重构相应的信号,因为该信号已经或应该已经被传送到接收扬声器。因此,到达太迟的分组相当于丢失的分组。
IP网络的一个特性是,如果一个分组到达,则其内容未被破坏。IP分组具有一个首标,其中包括CRC(Cyclic Redundancy Check,循环冗余校验)字段。CRC用来检查分组内容是否未被破坏。如果CRC表示一个错误,则丢弃该分组。换句话说,不存在比特错误,只有分组丢失。
丢失或延迟的数据分组所带来的主要问题是给重构的语音或音频信号带来失真。失真是由于这一事实而产生的不能重构由丢失或延迟的数据分组传达的信号段。现今所使用的语音编码器最初设计用于其信道不存在错误或信道具有比特错误特性的电路交换网络。因此,这些语音编码器的问题是它们不能很好地处理分组丢失。
鉴于上述内容以及分组交换网络的其他细节,所存在的问题就是如何在通过分组交换网络的电话中提供与通过电路交换网络的普通电话相同的质量。为了解决这些问题,必须考虑分组交换网络的特性。
为了克服实时传输期间的与丢失或延迟的数据分组相关联的问题,为通过分组交换网络的传输引入分集是适合的。分集是在时间上(如在移动电话的交织中)或通过一些物理实体(如当使用多个接收天线时)对信息进行扩展来提高传输稳健性(robustness)的方法。在分组传输中,最好通过找到某种方式来创建分组间的分集,在分组级别上引入分集。在分组交换网络中创建分集的最简单的方式是在两个不同的分组中将相同的分组有效负荷传输两次。采用这种方式,丢失或延迟的数据分组将不打扰有效负荷信息的传输,因为最可能适时地接收具有相同有效负荷的另一分组。显然,分集系统中的信息传输与常规系统中的信息传输相比将需要更多的带宽。
现有技术的很多分集方案或分集系统存在这样的缺点声音信号的传输在正常工作状态下不受益于所传输的冗余信息所需的额外带宽。因此,对于大部分时间,当不存在分组丢失或延迟时,额外带宽将只是用于传输开销信息。
因为带宽经常是有限资源,所以如果所传输的声音信号能够以某种方式受益于分集系统所需的额外带宽,将是理想的。最好,如果额外的带宽能够用来在接收端改善解码声音信号的质量,将是理想的。
在“Design of Multiple Description Scalar Quantizers(多描述分级量化器的设计)”,V.A.Vaishampayan,IEEE Transactions on Information Theory(IEEE信息理论学报),Vol.39,No.3,1993年5月中,公开在分集系统中对多描述的使用。编码器通过两个不同的信道发送相同源信号的两个不同描述,并且解码器根据从当前工作的信道接收的信息重构源信号。因此,如果只有一个信道工作,重构信号的质量将基于一个描述。如果两个信道都工作,所再现的源信号将基于两个描述,并且在接收端获得更高的质量。在该文章中,作者解决了索引分配问题,从而最大化分集系统中多个描述的好处。
在通过分组交换网络传输数据的系统中,一个或多个首标加到每个数据分组。这些首标包含具有分组目的地、发送者地址、分组内的数据大小信息的数据字段,以及其他与分组传输相关的数据字段。加到分组的首标大小构成必须加以考虑的开销信息。为了保持数据分组的分组组装延迟小,数据分组的有效负荷具有有限大小。有效负荷是分组内由应用使用的信息。与包括开销信息在内的实际传输数据分组的大小相比,有效负荷的大小是一种考虑有效带宽量时的重要尺度。传输若干相对小的数据分组的问题是首标的大小与对应用有用的信息的大小相比将是相当大的。实际上,首标的大小往往大于有用信息的大小。
为了减轻带宽问题,最好通过对所要传输的信息进行适当的编码来减小比特速率。一个经常使用的方案是使用数据预测来对信息数据进行编码。这些预测是根据相同信息信号的前面信息数据来生成的。然而,由于在传输期间分组会丢失这一现象,插入不同分组之间的依赖性不是一个好主意。如果分组丢失并且后面信息段的重构依赖于包含在丢失分组中的信息,则后面信息段的重构将出现问题。避免这种误差传播是重要的。因此这种使用预测来减小语音或音频信号的比特速率的普通方法对于这种传输信道而言是无效的,因为这种预测将导致误差传播。因此,存在一个问题是,当传输具有语音或音频信号信息的数据分组时,如何在分组交换系统中提供预测。
使用预测是一种用于改善编码效率即减小比特速率的常用语音编码方法。一个例子是在“Digital Coding of WaveformsPrinciples and Applications toSpeech and Video(数字波形编码语音和视频的原理和应用)”,N.S.Jayant和P.Noll,Prentice Hall,ISBN 0-13-211913-701,1984。信号样本预测由预测器根据前面量化信号样本进行计算,即预测是后向适应的。然后从所要预测的原始样本中减去算出的预测样本。相减结果就是使用预测器预测信号样本时所获得的误差。然后将该所得到的预测误差进行量化并传输到接收端。在接收器,将预测误差加到从发送端的预测器所对应的一个预测器重新生成的预测信号。接收预测误差与算出的预测值之和将允许在接收器端重构原始原始信号样本。这种编码将导致节省比特速率,因为消除了冗余,并且预测误差信号具有比原始信号更低的功率,从而在给定噪声电平上对于误差信号的量化只需要更少的比特。
如上所述,如果分组丢失,这种通过分组交换网络的语音或音频编码/解码将导致误差传播。当没有接收到分组时,在解码器中所计算的预测值将基于最后收到的分组的样本。这将导致解码器中的预测值与编码器中的对应预测值不同。因此,所接收的量化预测误差将加到解码器中的错误预测值。因此,丢失的分组将导致误差传播。如果考虑在每个发送/接收分组之后对预测状态复位,将不存在误差传播。然而,这将导致低质量的解码信号,原因是如果预测器状态设为零,则在编码期间结果将是低质量的预测值,因此,生成具有更多信息内容的预测误差。因为量化器不适于对具有这种高信息内容的信号进行量化,所以这又将导致具有高噪声电平的低质量量化信号。
如果根据多个描述实现分集系统,加入预测将面对由于声音信号具有若干表示这一事实而产生的额外问题。如果与多描述量化器一起使用上述预测编码/解码方案,将出现两个问题的其中一个。该问题将依赖于如何在发送/接收端采用预测。
如果接收端的多描述量化器中的每个供给独立预测滤波器,则每个描述的预测值将独立于其它多描述的到达。然而,采用这种解决方案,在不同独立预测器输出之间,不同编码表示的偏移量将不同。从而,来自多个量化器的表示之间的有规则间距将丧失,并且随之而来,由于接收多个描述的优化改善也将丧失。
或者,可以由相同的预测器构造所有多个描述,从而保持由于接收多个描述的优化改善。然而,如果该预测来自预定表示,例如,通过所有描述的合并而获得的最佳表示,则当将来自发送端的编码器的描述传输到接收端的解码器时,如果由于分组丢失而接收不到多描述中的一个(或多个)描述,解码器与编码器的同步将丧失。
因此,如上所述,因为具有信号信息段的丢失分组将负面影响后面信号信息段的重构,所以存在一个问题是如何使用预测来减小语音或音频信号的比特速率,以通过分组网络进行传输。
当使用多个描述时,声音信号的传输将比使用单个描述的情况需要更多的带宽。在这种系统中,使用预测从而减小所需带宽甚至更另人感兴趣。然而,如上所述,存在一个问题是如何在保持多描述量化的基本增益的同时在这种系统中实现预测编码/解码机制。
发明概要本发明的目的是克服使用预测编码/解码来减小当通过分组交换网络传输数字化声音信号时所需的带宽的上述问题中的至少某些问题。
根据本发明,通过具有如独立权利要求1、15、29和30所限定的特性的方法,实现这一目的。
本发明提供一种有利的方式来对数字样本进行编码/解码以通过分组交换网络进行发送/接收。这是通过以所生成的预测样本为条件对数字样本进行无损编码和对相应的码字进行无损解码来执行的。
因此,条件无损编码器的输出是两个变量的函数量化数字样本和预测样本。对应地,条件无损解码器的输出是两个变量的函数码字和预测样本。
因为仍然继续对数字信号本身的量化数字样本执行无损编码,所以将减轻由于坏预测值,例如如果前面分组已丢失,而产生的边缘效应。相比,如果只对预测误差执行无损编码,这将导致严重的边缘效应。这样的原因是丢失的分组将意味着对预测器的状态复位,或者强制为0,这将导致大的预测器误差偏差。因此,如果在新分块的开始时将预测器状态强制为0,或者作其它的操作以避免不同数字样本分块之间的误差传播,将出现具有高信息内容的信号。在这种情况下,预测误差信号将基本上是原始数字信号。然而,采用本发明的解决方案,这一问题得以减轻,因为无损编码和解码将分别基于以预测值为条件的量化数字信号样本和码字,而不是仅基于预测误差。
因此,使用本发明,坏预测值将仍然允许高质量的传输信号样本,而折衷在于无损编码/解码的比特节省将很低。
而且,本发明允许在一个实施例中当对数字样本分块的开始处进行无损编码/解码期间生成预测样本时,可以将预测器状态设为零,因此减轻当在编码/解码过程中使用预测时丢失分组对误差传播的影响。
在编码期间,对所生成预测样本所执行的任何量化独立于对数字样本的量化。因而,在一个实施例中,可以在数字信号编码/解码期间以量化索引的形式在索引域中使用预测。
以这种方式使用预测的一个优点是预测器可以构造为在接收端以与发送端相同的方式工作,并且将不需要将任何额外预测信息传输到接收端。
根据一些实施例,可以直接作为预测样本的量化索引,或者作为在生成其之后使用与用于量化数字样本相同的量化电平集或者完全不同的量化电平集进行量化的样本,生成基于量化数字样本的预测。
在一个实施例中,无损编码/解码以所生成的预测样本为条件,方式如下使用所生成的预测样本从若干查询表中选择一个查询表,其中,查询表用于将量化数字样本无损编码为码字或者将码字无损解码为量化数字样本。
可以用例如信号的粗量化估计或预测误差偏差,或者从过去信号提取的其它粗量化特性补充用作无损编码/解码条件的预测。因此,可以从过去信号中提取很多特性,对它们进行粗量化,然后用来作为无损编码器或解码器的条件。因此,无损编码器/解码器可以独立地进行优化,并且用于来自所提取特性量化的每种可能的索引组合。用于语音信号编码的有用特性的例子是量化预测;不仅来自一个过去信号样本而且来自若干过去信号样本的量化器索引;信号量化估计或预测误差偏差;以及波形方向估计;和/或语音/非语音分类。
可以在编码器中逐样本或逐样本分块地提取上述特性中的某些特性,并且将其作为副信息进行传输。波形方向就是适合例如通过使用高维分块码作为副信息传输的这种特性的一个例子。语音/非语音分类是另一个例子。副信息导致用于无损编码的乘积码(product code)。该乘积码的编码可以顺序或分析合成的方式来进行。
然而,通过基于预测的无损编码/解码减小比特速率的优点不大显著,并且如果在传输数据分组之前将非常大的首标形式的开销加到编码信息,带宽仍然是一个问题。如果使用数字信号的多个描述以获得分集,将出现这个问题,但是,本发明将解决这一问题。
最好,本发明的编码器/解码器是多描述编码器/解码器,即生成/接收至少两个不同的数字信号描述的编码器/解码器。这样,多个描述因此为每个数字样本分块提供多个块描述。
本发明通过在不同的时刻在不同的数据分组中发送/接收相同数字样本分块的各个不同分块描述,提供基于多描述的分集。当在分组交换网络中发生局部时间瓶颈时,这一由分块描述之间的延迟提供的所谓时间分集尤其有利,因为当在不同的分组中以不同的时间点传输不同的分块描述时,接收特定分块的至少一个分块描述的机会将提高。最好,引入在传输相同数字样本分块的两个不同分块描述之间的预定时间间隔。
最好,属于不同数字信号描述并且与不同数字样本分块相关的分块描述一起分在相同的分组中。至少两个连续分块用来自不同数字信号描述的各个分块描述来表示。这是有利的,因为它避免传输同一数字样本分块的不同分块描述的多个分组的首标所需的额外开销,同时当分组丢失或延迟时,仍然只有特定数字样本分块的一个分块描述丢失或延迟。
最好,对每个不同分块描述单独执行无损编码/解码。这将降低所传输的多个描述所需的比特速率。而且,在发送和接收端对不同的描述分别使用相同类型的各自预测器。这将消除编码器与解码器之间的失步问题,当在发送/接收端使用单个预测器进行无损编码/解码时,如果具有分块描述的分组丢失,则会出现这一问题。
本发明适于包括数字化声音信号的数字信号,在这种情况下,数字样本分块对应于数字化声音信号的声音段。
根据本发明,数字信号可选地为n比特PCM编码数字化声音信号,最好为遵循标准G.711的64k比特/秒PCM信号。n比特PCM编码信号描述由多描述编码器转换为对于它的表示使用小于n比特的至少两个描述,例如,两个(n-1)比特表示,三个(n-1)比特表示或四个(n-2)比特表示。在接收器端,多描述解码器将接收描述转换回到单个n比特PCM编码声音信号。码型转换对应于一个描述的码字与至少两个不同描述的各个码字之间的译码。通过将PCM编码信号转换为多个描述,不需要对PCM编码信号首先进行解码然后进行重新编码,就能够提供多个描述。
因此,本发明允许在使用多个描述时使用预测编码/解码,以通过分组交换网络传输数字信号如数字化声音信号。
需要理解的是,在此所使用的术语数字信号样本应解释为实际样本或者从一个或多个样本中获得或提取的任何信号表示形式。另外,预测样本应解释为实际数字信号样本的预测,或者从一个或多个数字信号样本中获得或提取的任何预测表示形式。最后,数字样本的量化电平为量化数字样本的索引或值。
附图简述通过下面结合附图对本发明的多个示例性实施例进行详细描述,本发明的其他特性和优点将会变得更加清楚,其中相同的标号用于相同的部件,并且在其中

图1示出根据现有技术实现多个描述的一个示例方式;图2示出用于通过分组交换网络传输声音的系统的发送部分的概览;图3示出用于通过分组交换网络传输声音的系统的接收部分的概览;图4a和4b分别示出根据本发明一个实施例的用于通过分组交换网络传输声音的系统的发送部分的声音编码器和接收部分的声音解码器的概览;图5a和5b分别示出根据本发明另一个实施例的用于通过分组交换网络传输声音的系统的发送部分的声音编码器和接收部分的声音解码器的概览;以及图6示出根据本发明另一个实施例的用于通过分组交换网络传输声音的系统的发送部分的一些单元。
优选实施例在图1中,示出实现源信号如声音信号的多个描述的一个示例方式。该方法在本技术领域中是公知的,并且是可以由本发明使用的多个描述的一个例子。然而,实现多个描述的其他适当方式可以同样好地与本发明一起使用。在图1中,示出分别来自两个量化器的两个不同描述100、110的量化电平。如图所示,这两个描述具有相同的量化步长Q,但是描述110的量化电平相对于描述100的量化电平偏移量化步长Q的一半。根据这两个描述100、110,合并将导致具有更细量化步长Q/2的合并描述120。使用两个粗量化器,需要2R比特速率来匹配比特速率为R+1的单个细量化器性能。例如,如果每个描述100、110具有4个量化电平,每个描述将需要2个比特来对这些电平进行编码,即,总共4个比特。如果对合并描述120使用更细的量化器,7个量化电平在编码时将需要3个比特。对于大的R,当使用两个粗量化器来提供多个描述而不是使用一个更细的量化器来提供单个描述时,这将导致比特速率显著提高。
在图2中,示出用于通过分组交换网络传输声音的系统的发送部分的方框图。声音由麦克风210进行拾取,以产生模拟电信号215,模拟电信号215由A/D转换器220采样并量化为数字格式。声音信号的采样率依赖于声音信号的源和所需质量。典型地,采样率对于语音信号为8或16kHz,并且对于音频信号,高至48kHz。数字信号的质量还受A/D转换器的量化器的精度的影响。对于语音信号,精度通常在每样本8到16比特之间。在典型的系统中,发送端包括声音编码器230,以进一步压缩采样数字信号。根据本发明,声音编码器230的一个额外目的是在传输之前修改声音信号表示,从而提高对分组交换网络中分组丢失和延迟的稳健性。采样信号225输入到声音编码器230,它对采样信号进行编码并且将所获得的编码信号组装到数据分组中。数据分组235然后传输到控制器240,它将顺序和目标地址信息加到数据分组,从而使这些分组适于通过分组交换网络进行传输。数据分组245然后通过分组交换网络传输到接收器端。
在图3中,示出用于通过分组交换网络传输声音的系统的接收部分的方框图。控制器350从分组交换网络接收数据分组,剔除地址信息,并且将数据分组355放在抖动缓冲器360中。抖动缓冲器360是一个存储介质,典型地为RAM,它调整数据分组365离开抖动缓冲器360的速率。抖动缓冲器的物理容量是可以存储进入数据分组355的容量。离开抖动缓冲器360的数据分组365输入到声音解码器370。声音解码器370将数据分组中的信息解码为数字声音信号的再现样本。然后,数字信号375由D/A转换器380转换为模拟电信号385,该模拟信号驱动声音再现系统390,例如扬声器,在接收器端产生声音。
现在将参照图4a和4b对根据本发明一个实施例的声音编码器和声音解码器的设计和操作进行更详细的描述。除了下面对声音编码/解码块所述之外,整体操作对应于前面参照图2和3所述。
在图4a中,示出根据本发明一个实施例的用于在发送端对数字信号进行编码的声音编码器。声音编码器包括第一量化器400、反量化器410、延迟块420、预测器430、第二量化器440和条件无损编码器450。因为反量化器410和第二量化器440不是本实施例的必需单元,所以它们用虚线表示。后面将在另一实施例中描述对这些可选单元的使用。
对应地,在图4b中,示出根据本发明一个实施例的用于在接收端对数字信号进行解码的声音解码器。声音解码器包括条件无损解码器455、量化器470、预测器480、延迟块490以及反量化器460和463。因为量化器470和反量化器463不是本实施例的必需单元,所以它们用虚线表示。后面将在另一实施例中描述对这些可选单元的使用。
通过条件无损编码器450和条件无损解码器455执行无损编码/解码的目的是找到一种更不浪费比特的方式来描述从发送端传输到接收端的数据而不损失任何信息。无损编码使用有关输入信号的统计信息来减小平均比特速率。例如采用这样的方式来执行在得出输入信号中的码字出现频率之后在一个表中对这些码字进行排序。然后,最常用的码字用比其他码字更少的比特来表示。一个使用这种思想的本领域公知的无损编码器的例子是Huffman(哈夫曼)编码器。
无损编码只在接收数据中不带比特错误的网络中正常工作。结合无损编码所用的码字具有不同的长度,并且如果发生比特错误,则不可能知道码字何时结束以及新码字何时开始。因此,单个比特错误不仅给当前码字的解码还给整个数据块引入错误。当分组交换网络为IP(网际协议)网络时,所有被破坏的数据分组将被自动丢弃。因此,在这种分组交换网络中,在接收端所接收的数据分组中将不存在比特错误。因此,根据本发明,无损编码如分级或分块Huffman编码适用于分别对一起构成数字信号的每个编码数字样本分块进行单独压缩。
图4a和4b实施例的条件无损编码器450和条件无损解码器455都包括创建用来包括所有可能的码字及其比特表示的表。在作为码字通过分组交换网络进行传输之前,执行表查询以对由量化器400量化的数字样本分块进行无损编码。对应地,在接收器端,编码量化数字样本分块的码字经过无损解码为量化数字样本,然后这些量化数字样本由反量化器460反量化为重构的原始数字样本分块。
在图4a中,从A/D转换器接收的数字信号的数字样本由量化器400量化为量化数字样本。对于每个量化数字样本,由预测器430根据一个或多个前面量化数字样本生成一个预测样本。预测器430根据前面量化数字样本的量化电平即量化索引或量化值为预测样本所生成的可能是其量化索引,其中前面量化数字样本的电平由量化器400进行输出,并且由延迟块420进行延迟。预测样本或其量化索引在条件无损编码器450内用于从若干具有码字的查询表中选择一个查询表。来自量化器400的当前量化数字样本的量化电平如索引用来选择所选查询表的特定条目。然后,条件无损编码器将输出所选表的该特定条目所对应的码字。
完整的编码量化数字样本分块的码字最终组装到传输到控制器的不同分组。可选地,编码分块的每个码字由控制器集中,然后组装到编码分块的不同分组。控制器在通过分组交换网络传输数据分组之前加入首标信息。
在图4b中,示出对应于图4a的实施例的声音解码器。条件无损解码器455从抖动缓冲器接收具有码字的分组或者经过拆卸的分组的码字。对于每个量化数字样本,由预测器480根据一个或多个前面量化数字样本生成一个预测样本。接收端的预测器480构造为以与发送端的预测器430相同的方式工作。这些预测器的典型结构是当生成数字信号的开始量化数字样本所对应的预测样本时,预测器的状态为零或接近于零。采用与发送端相同的方式,预测器480可以根据前面量化数字样本的量化电平即量化索引或量化值生成一个预测器样本的量化索引,其中前面量化数字样本的电平隐式地由无损解码器455进行输出,并且由延迟块490进行延迟。在接收端生成的预测样本在条件无损解码器455内用来从若干表中选择一个查询表。从抖动缓冲器接收的码字用来对所选表的特定条件进行寻址,然后,输出对应的量化数字样本,以由反量化器460进行反量化,然后,将数字信号传输到D/A转换器。
在另一些实施例中,声音编码器包括如图4a所示的反量化器410和/或第二量化器440。对应地,根据这些其他实施例的声音解码器包括量化器470和/或反量化器463。
使用反量化器410和463,量化数字样本的量化值而不是量化索引将输入到预测器430和480,并且预测器将根据值而不是索引生成预测样本。
如果预测器430和480不包括用于输出所生成预测样本的量化电平如索引的量化表,最好,声音编码器/解码器将包括量化器440、470来提供所生成预测样本的量化电平,例如索引。因此,使用量化器440和470,可以确定所生成预测样本的量化电平为属于预定电平集的合法电平,而不是落在不同合法量化电平之间的电平。
根据本发明,为了避免误差传播,一个数字样本分块的数字样本所对应的所生成预测样本不应基于前面分块的数字样本。根据一个实施例,这通过在对具有量化数字样本的新分块进行编码之前将预测器430的预测器状态设为0来实现。对应地,在接收端的声音解码器中,在对具有量化数字样本的新分块进行解码之前,将预测器480的预测器状态设为0。可选地,不同于将预测器状态设为0,可以在每个数字样本分块中包含状态信息,或者当对分块的开始处进行编码/解码时,编码/解码可以遵循不使用或几乎不使用状态信息的方案。
因此,本发明的声音编码器/解码器设计为减小通过分组交换网络传输数字信号时所需的比特速率。声音编码器/解码器所操作的数字样本分块最好为具有数字化声音样本的声音段。
本发明没有为任何特定类型的预测器而进行优化。然而,对于声音信号,预测器的一个选择是通过对量化信号进行LPC分析而获得且最终采用长期预测器进行改进的声音信号,这一点为本领域的技术人员所公知。另外,非线性预测器,例如在“Time-Scale Modification of Speech Based on a Non-linearOscillator Model(基于非线性振荡器模型的语音时标修改)”,G.Kubin和W.B.Kleijn,Proc.Int.Conf.Acoust.Speech Sign.Process.(国际声学语音信号处理会议论文集),(Adelaide),pp.I453-I456,1994中公开的通过振荡器模型定义的非线性预测器可以用于本发明的编码/解码方案。
根据本发明,声音编码器/解码器进一步设计为提高对分组交换网络中分组丢失和延迟的稳健性。提高稳健性的这一设计依赖于使用多个描述表示声音信号或者一般情况下的任何数字信号。根据本发明的一个实施例,该设计如图5a和5b所示。除了下面对声音编码/解码块所述之外,整体操作对应于前面参照图2和3所述。
在图5a中,发送端的声音编码器530包括多描述编码器510和分集控制器520。对应地,接收端的图5b所示的声音解码器570包括分集控制器550和多描述解码器580。
现在参照图5a,声音编码器530的多描述编码器510以两种不同的方式对采样声音信号525进行编码,从而获得声音信号的两个不同比特流表示,即两个不同描述。如前所述,每个描述都有其自己的一组量化电平,它是例如通过将其中一个描述的量化电平偏移一半量化步长而获得的。对应地,如果要提供三个描述,则第二描述的量化电平相对于第一描述偏移三分之一步长,并且第三描述相对于第二描述偏移三分之一步长。因此,如图5a所示,可以使用多于两个的描述对声音信号进行编码,而不脱离本发明的范围。然而,为方便描述起见,在此公开的本发明实施例中只使用两个信号描述。
每个描述提供声音信号的编码声音信号段的段描述。多描述编码器510通过根据前面参照图4a所述对数字化声音样本进行条件无损编码,生成每个描述及其段描述。因此,在图5a所示的多描述编码器510中将为所生成的每个描述提供各自的一组图4a所示的所有单元。对应地,在图5b所示的多描述解码器中将为所使用的每个描述提供各自的一组图4b所示的所有单元。
在图5a中,相同声音段的不同段描述在各自的分组中传输到分集控制器520。在图5a中,两个描述用D1和D2表示。连续段n、n+1、n+2等用描述D1表示为段描述D1(n)、D1(n+1)、D1(n+2)…,这些段描述在各自的连续数据分组515、516和517中从多描述编码器510传输到分集控制器520。对应地,相同的段还用描述D2表示为段描述D2(n)、D2(n+1)、D2(n+2)…,并且也在各自的数据分组中传输到分集控制器。因此,声音信号525的每个声音段用每个描述的一个段描述来表示,例如,在图5a中,声音段n+1用描述D1的段描述D1(n+1)和描述D2的段描述D2(n+1)来表示。
分集控制器520根据所使用的分集方案调度从多描述编码器510接收的分组。在图5a中,分集控制器520将一个声音段的每个段描述顺序安排到不同的分组中。包含相同声音段的不同段描述的分组在不同的时刻传输到控制器540。例如,如图5a所示,声音段n的两个段描述D1(n)和D2(n)分别在不同的时间点t1与t2和不同的分组521与522中传送到控制器540。因此引入t2-t1的延迟来创建时间分集。对于典型的声音段长度20ms,可以使用的典型延迟t2-t1为10ms。当从分集控制器520接收到分组时,控制器540对分组进行格式化,如加入顺序和目标地址信息,以随即在分组交换网络上传输。因此,控制器540将带信息的首标H加到每个分组。在使用UDP(User DatagramProtocol,用户数据报协议)和RTP(Real Time Protocol,实时协议)的IPv4传输的情况下,首标大小为320比特。对于20ms的典型语音段长度,每个描述的首标将占用320比特/20毫秒,即16k比特/秒。如果每个语音段用两个段描述表示,则传输段描述的分组的首标一起将需要2*16=32k比特/秒的比特速率。这可以与用于标准PCM(Pulse Code Modulation,脉冲编码调制)电话的比特速率65k比特/秒相比。因此,开销比特速率将为有效负荷速率的50%(32除以64)。
如前面参照图3所述,由控制器350在接收器端接收分组。控制器删除首标信息,并且将分组传输到抖动缓冲器360,缓冲器360又将分组传输到声音解码器370。现在参照图5b,声音解码器570的分集控制器550从抖动缓冲器接收具有不同段描述的分组。然后,分集控制器调度相同声音段的不同段描述,以同时传输到多描述解码器580。因此,如图5b所示,多描述解码器580将例如同时接收分别具有声音段n的段描述D1(n)和D2(n)的分组571和572,然后是分别具有声音段n+1的段描述D1(n+1)和D2(n+1)的分组574和575,等等。多描述解码器580从不同分组中为每个声音段提取联合信息(joint information),并且对声音信号段进行解码,以传输到D/A转换器。如果例如段描述D1(n)没有到达接收器端或者到达太迟,分集控制器550将只把D2(n)(如果使用两个描述)调度到多描述解码器580,然后多描述解码器580从所接收的单个段描述D2(n)中以足够的质量对声音信号的声音段n进行解码。
在图6中,示出本发明的另一个实施例。本实施例与前面参照图5a和5b所述的实施例不同的方面是在由分组交换网络传输的分组中对段描述的组织。因此不同之处在于由声音编码器/解码器的分集控制器在发送/接收端执行的分组组装/拆卸。下面将描述该不同之处。
如参照图5a和5b所述,传输相同声音段的不同段描述的不同分组的首标所导致的开销相当大。为了减轻这一问题,在通过分组交换网络传输分组之前,将属于不同描述且与不同声音段相关的段描述一起分在相同的分组中。如图6所示,发送端的声音编码器的分集控制器620将分别属于两个连续声音段的两个段描述一起分在每个分组中。分组的两个段描述属于声音信号的不同描述。例如,一个分组将包含声音段n-1的段描述D2(n-1)和声音段n的段描述D1(n)。控制器640在通过分组交换网络传输包含两个段描述的分组之前,如前所述将首标信息加到每个分组。
因此,如同图5的实施例,本实施例的分集控制器620将声音段的每个段描述顺序安排到各自的分组中,并且如同图5的实施例,包含相同声音段的不同段描述的分组将在不同的时刻传输到控制器640。在图6中,声音段n和n+1的两个段描述D2(n)和D1(n+1)在分组622中传送到控制器640。因此,段n+1必须在段描述D2(n)可以传输到控制器之前已被编码。另一方面,段描述D1(n)在前一分组621中传输到控制器。如果声音段为20ms,因为D2(n)要调度到与D1(n+1)相同的分组622中,所以D2(n)的传输与D1(n)的传输相比必须延迟20ms。因此,该方案将自动提供时间分集,因为相同声音段的不同段描述将以20ms的间隔(假定声音段的长度为20ms)传输到控制器640。因此,与图5的实施例相比,使用在分组中组装若干段描述的这一方案,将自动引入相同声音段的两个不同段描述之间的额外延迟。段描述之间的这一额外延迟提供额外的时间分集优点,并且可以在传输链的后面进行补偿,例如,通过使接收端的抖动缓冲器中的延迟设置更小。
而且,根据本实施例的一个分组中的有效负荷量对应于从一个声音段生成的总数据量,因此,当采用这种方案创建时间分集时,不增加开销信息。
与上面所述相对应,本实施例的接收端的分集控制器在对应于图5b所示将段描述传输到多描述解码器之前将接收分组分为它们的段描述部分。
如果一个分组在通过分组交换网络进行传输期间丢失或延迟,图6所示的时间分集方案的效果是一样的,在接收端仍然可以获得所有声音段的描述,并且将感觉不到任何声音段的丢失。
根据本发明的一个实施例,声音编码器/解码器对标准64k比特/秒PCM比特流的PCM索引进行编码/解码。为方便描述起见,将再次参照图4a和4b,描述本实施例。如前所述,为由声音编码器/解码器生成/解码的每个描述分别提供图4a和4b的单元。然而,图4a的量化器400和图4b的反量化器460将分别替换为下面将要描述的码型变换器。而且,如果数字信号尚不是PCM编码信号,则声音编码器在它的码型变换器之前包括PCM编码器,并且声音解码器将在它的码型变换器之后包括PCM解码器。在本实施例中,声音编码器还包括向分集控制器输入同一声音段的多个描述的多描述编码器。对应地,声音解码器包括从接收端的分集控制器接收同一声音段的多个描述的多描述解码器。
声音编码器的多描述编码器由普通PCM编码器以及随后的码型变换器组成。因此,使用普通PCM编码器对由声音编码器从A/D转换器接收的数字信号进行编码。然后所获得的PCM比特流由码型变换器转换,即译码为若干比特流,然后,每个比特流提供PCM的粗表示。接收端的对应多描述解码器包括码型变换器,用于将所接收的多个比特流描述转换为单个PCM比特流。然后,该PCM比特流在传输到D/A转换器之前由普通PCM解码器进行解码。下面将举例说明码型转换或译码方法,其中,一个64k比特/秒PCM比特流转换为提供多个PCM信号描述的两个比特流。
采用μ律对数压缩的标准64k比特/秒PCM编码器使用8比特/样本对样本进行编码。这提供256个不同码字,但是量化器只包括255个不同的电平。零电平用两个不同的码字来表示以简化硬件实现。根据本实施例,每个量化电平用一个整数索引表示,从用于最负电平的零开始直到用于最高电平的254。通过删除每个整数索引的最低位比特,获得两个比特流中的第一比特流。该新索引表示两个粗量化器的第一量化器中的量化电平。通过在删除最低位比特之前对每个索引加1来获得第二比特流。因此,从原始8比特PCM表示中获取两个7比特表示。对两个表示的解码方式是在分组丢失的情况下,可以对单个表示执行解码;或者对两个表示执行解码,在这种情况下,原始PCM信号被重构。解码只是简单地转换回到PCM索引,然后进行表查询。
可选地,PCM编码器是使用A律对数压缩的标准64 k比特/秒PCM编码器。在这种情况下,量化器中的电平数目为256,比μ律编码器多一个。为使用两个新量化网格表示该256个电平,并且能够完全重构该信号,一个网格需要采用128个电平,并且另一个需要采用129个电平。最好使用如同μ律情况的两个7比特网格,然而必须解决额外量化电平的问题。根据本发明,每个量化电平用一个整数索引表示,从用于最负电平的零开始直到用于最高电平的255。除表示索引号255之外,使用与μ律情况完全相同的规则来形成新索引。索引号255对于第一量化器用索引号126表示,并且对于第二量化器用索引号127表示,而不是假如遵循上述规则所得到的128和127。当将两个比特流转换为A律PCM比特流时,解码器必须检查该索引表示。如果在传输之后只接收到两个描述中的第一描述并且所编码的是第255索引,则解码器将引入比其他索引稍高的量化误差。
编码PCM信号包含高度的冗余。因此,结合使用PCM信号与对从PCM声音信号获得的多个描述的无损编码/解码,是尤其有利的。
如果已经由声音编码器接收的数字化声音信号表示为64k比特/秒PCM比特流,并且如果接收部分的声音解码器应输出64k比特/秒PCM比特流,则不需要发送部分的PCM编码器和接收部分的PCM解码器。在这种情况下,本发明的多描述编码器接收PCM比特流,并且将PCM索引转换为上述0到254表示。该表示直接输入到码型转换器,它使用上面给出的简单规则将比特流转换为两个新比特流。在系统的接收器端,分集控制器集中接收分组中的信息。如果所有分组到达,则码型转换器合并来自多个描述的信息,并且将其转换回到原始PCM比特流。如果一些分组丢失,则不能完全重构原始比特流,但是从已到达的描述中获得良好的近似。
尽管在上面本发明是参照其不同实施例来举例描述的,但应该理解,在不脱离由所附权利要求限定的本发明范围的情况下,可以对其进行各种修改和改变。
权利要求
1.一种对数字信号及其数字样本分块进行编码以通过分组交换网络进行传输的方法,所述方法包括如下步骤将数字样本的二进制表示量化为数字样本的更粗表示;根据所述量化步骤的前面量化数字样本,生成作为定点或浮点表示的预测样本;以及以所生成预测样本的定点或浮点表示为条件,对量化数字样本进行无损编码。
2.如权利要求1所述的方法,其中,对量化数字样本的无损编码基于表查询。
3.如权利要求2所述的方法,其中,根据量化数字样本执行表查询,以生成量化数字样本所对应的两个量化区间边界电平,其中,所述电平根据普通生成的预测值和另一表映射到用于对量化数字样本进行无损编码的一对似然值。
4.如权利要求1或2所述的方法,其中,对特定量化数字样本的所述无损编码步骤包括输出具有码字的表中的特定条目所对应的特定码字,所述特定条目是根据对应于所述特定量化数字样本的所生成预测样本来获得的。
5.如权利要求4所述的方法,其中,根据所述所生成预测样本,从若干具有码字的表中选择所述具有码字的表,其中,所述特定条目是作为所述量化数字样本的所述量化索引所对应的条目而获得的。
6.如权利要求1-5中的任一权利要求所述的方法,其中,在所述生成预测样本的步骤之前,对量化数字样本进行反量化,从而获得所述量化数字样本的量化值。
7.如权利要求1-6中的任一权利要求所述的方法,包括对所生成的预测样本进行量化的步骤,其中,所述无损编码步骤基于具有预定量化电平集的量化电平的所生成预测样本。
8.如权利要求1-7中的任一权利要求所述的方法,包括如下步骤在开始对一个所述数字样本分块进行编码之前,将生成所述预测样本的预测器的状态设为零。
9.如权利要求7或8所述的方法,其中,所述无损编码步骤以所述所生成预测样本的量化索引为条件。
10.如权利要求1-9中的任一权利要求所述的方法,其中,由多描述编码器执行所述编码,所述多描述编码器通过为每个所生成的分块描述单独执行编码方法步骤,根据多个分块描述对所述数字样本分块的每个分块进行编码。
11.如权利要求10所述的方法,包括如下附加步骤以分组之间的预定时间间隔,为所述数字样本分块的每个分块,将至少两个不同的分块描述在各自的数据分块中进行传输。
12.如权利要求11所述的方法,包括将至少两个不同的数字样本分块的各自一个分块描述一起分在同一数据分组中进行传输。
13.如权利要求10-12中的任一权利要求所述的方法,其中,所述数字信号为数字化声音信号,并且所述数字样本分块为声音段,并且其中,所述多描述编码器中的编码方法包括如下初始步骤将n比特PCM表示的数字化声音信号转换为至少两个表示,其中每个表示用小于n比特来表示,并且分别具有所述数字化声音信号的声音段的段描述的各自量化电平集。
14.如权利要求1-12中的任一权利要求所述的方法,其中,所述数字信号为数字化声音信号,并且所述数字样本分块为声音段。
15.一种对从分组交换网络接收的数字信号及其数字样本分块进行解码的方法,所述方法包括如下步骤根据通过对接收码字进行无损解码而产生的所述数字信号的前面量化数字样本,生成作为定点或浮点表示的预测样本;以所生成预测样本的定点或浮点表示为条件,对接收码字进行无损解码;以及将通过无损解码步骤而产生的量化数字样本反量化为所述数字信号的数字样本的二进制表示。
16.如权利要求15所述的方法,其中,对接收码字的无损解码基于表查询。
17.如权利要求16所述的方法,其中,接收码字表示似然值,其中,两个似然值根据所生成的预测值和一个表映射到对应量化数字样本的两个量化区间边界电平,所述电平用于通过执行表查询来获得对应的量化数字样本。
18.如权利要求15或16所述的方法,其中,对特定量化数字样本的所述无损解码步骤包括输出具有量化电平的表的特定条目所对应的特定量化电平,所述特定条目是根据对应于所述特定量化数字样本的接收码字来选择的。
19.如权利要求18所述的方法,其中,根据所述特定量化数字样本所对应的所生成预测样本,从若干具有量化电平的表中选择所述具有量化电平的表。
20.如权利要求15-19中的任一权利要求所述的方法,其中,在所述生成预测样本的步骤之前,对通过无损解码步骤而产生的量化数字样本进行反量化,从而获得所述量化数字样本的量化值。
21.如权利要求15-20中的任一权利要求所述的方法,包括对所生成的预测样本进行量化的步骤,其中,所述无损解码步骤基于具有预定量化电平集的量化电平的所生成预测样本。
22.如权利要求15-21中的任一权利要求所述的方法,包括如下步骤在开始对一个所述数字样本分块进行解码之前,将生成所述预测样本的预测器的状态设为零。
23.如权利要求21或22所述的方法,其中,所述无损解码步骤以所述所生成预测样本的量化索引为条件。
24.如权利要求15-23中的任一权利要求所述的方法,其中,由多描述解码器执行所述解码,所述多描述解码器通过为每个所接收的分块描述单独执行反量化步骤之前的解码方法步骤,根据至少两个不同的接收分块描述,对所述数字样本分块的每个分块进行解码。
25.如权利要求15-24中的任一权利要求所述的方法,包括如下步骤在预定时间周期内等待接收至少两个不同的分组,其中,这些分组包含同一数字样本分块的不同分块描述;对在所述预定时间周期内接收到的所述数字样本分块的那些不同分块描述,一个或多个,执行反量化步骤之前的解码方法步骤;以及对一个分块描述或者多个分块描述的合并进行反量化。
26.如权利要求25所述的方法,其中,每个接收分组包括分在一起的若干不同数字样本分块的若干分块描述,所述方法包括如下步骤相对于所包含的分块描述,连续分解接收分组,从而获得所要解码的每个数字样本分块的若干不同分块描述。
27.如权利要求25-26中的任一权利要求所述的方法,其中,所述数字信号为数字化声音信号,并且所述数字样本分块为声音段,并且其中,所述数字化声音信号为PCM编码比特流,并且其中,所述反量化步骤的任何合并包括将每个均用小于n比特表示的至少两个段表示转换为所述相同声音信号段的单个n比特PCM表示。
28.如权利要求15-26中的任一权利要求所述的方法,其中,所述数字信号为数字化声音信号,并且所述数字样本分块为声音段。
29.一种计算机可读介质,具有计算机可执行指令,用于使数字信号及其数字样本分块经过编码以通过分组交换网络进行传输,所述计算机可执行指令执行如权利要求1-14中的任一权利要求所述的方法的步骤。
30.一种计算机可读介质,具有计算机可执行指令,用于使从分组交换网络接收的数字信号及其数字样本分块经过解码,所述计算机可执行指令执行如权利要求15-28中的任一权利要求所述的方法的步骤。
全文摘要
本发明涉及用于对通过分组交换网络传输的数字信号进行编码/解码的方法。在发送和接收端生成预测样本。数字信号以所生成的预测样本为条件,在发送端经过无损编码,并且在接收端经过无损解码。
文档编号G10L19/02GK1436347SQ0181127
公开日2003年8月13日 申请日期2001年5月10日 优先权日2000年5月10日
发明者蒂纳·亚伯拉罕森, 索伦·旺安德森, 罗尔·哈根, W·巴斯琴·克莱吉恩 申请人:环球Ip音响公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1