具有改进的编码器和解码器的传输系统的制作方法

文档序号：2822424阅读：335来源：国知局

专利名称：具有改进的编码器和解码器的传输系统的制作方法
技术领域：
本发明与一种包括一个发射机和一个接收机的传输系统有关，其中所述发射机包括一个将一个表示音频信号的输入信号编码成一个编码音频信号的音频编码器和一个将所述编码音频信号通过传输媒体发送给所述接收机的发送装置，所述音频编码器包括一个从所述输入信号得出至少一些第一信号段和一些比所述第一信号段短的第二信号段的分段装置和一个从所述第一和第二信号段得出所述编码音频信号的装置，而所述接收机包括一个从传输媒体接收所述编码音频信号的接受装置和一个从所述编码音频信号得出一个解码音频信号的音频解码器。
本发明还涉及一种发射机、编码器、编码方法、载有执行一种编码方法的计算机程序的有形媒体和载有执行一种编码方法的计算机程序的信号。
按照权利要求1的引言所述的传输系统从美国专利No.5,886,276中可以看到。
这样的传输系统和音频编码器用于音频信号必须通过传输容量有限的传输媒体发送或必须存储在存储容量有限的存储媒体上的一些应用。这样的应用的例子有通过互联网传输音频信号，将音频信号从移动电话机传输给基站和从基站传输给移动电话机，以及将音频信号存储在CD-ROM、固态存储器或硬盘驱动器上。
已经有不同的音频编码器工作方法试图以适度的比特率获得良好的音频质量。在其中的一种工作方法中，将一个需发送的音频信号分为多个通常具有10-20ms的固定长度的段。在每个所述段中，音频信号用多个信号分量表示，这些信号分量可以是一些正弦波，由它们的振幅、频率可能还有相位明确表示。
发射机向接收机发送这些信号分量的振幅和频率表示。发射机执行的操作可以包括信道编码、交织和调制。
接收装置从传输信道接收到表示音频信号的信号后，执行象解调、解交织和信道解码这样的一些操作。解码器从接收装置得到音频信号的表示后通过产生多个如由编码信号所揭示的正弦波再将它们合并成一个输出信号从中得出一个重建的音频信号。
这些音频编码器的一个问题是为这些信号段选择一个适当的长度(以时间为单位的)。如果信号段长，确定信号分量的频率分辨率可以很高，但是由于时间分辨率有限，可能出现一种称为前回声的现象。前回声是在一个诸如音频信号突然发响之类的事件实际出现前就已经听得到这个事件出现的现象。如果信号段短，就没有出现前回声的问题，但是严重地降低了确定低频信号分量的频率分辨率。
为了改善这种情况，在以上的美国专利中，将输入信号用一个子频带滤波器分离成若干个子频带，对于不同的子频带选用不同长度的信号段。信号段的长度选择成与相应子频带的频率范围成反比。
这样处理的问题是对于处在子频带滤波器的过渡频带附近的信号分量的编码质量不及对于其他信号分量的编码质量。
本发明的一个目的是提供一种可以解决上述问题的如前面所述的传输系统。
为了达到这个目的，本发明的传输系统的特征是其中的编码装置包括一个防止在编码音频信号中出现单个信号分量多重表示的预防装置。
本发明是在认识到在现有技术的系统中子频带滤波器的过渡频带內的一些频率是导致输入信号的同一个信号分量的多重表示的原因的基础上作出的。在用心理声学模型确定需发送的信号分量时不希望有这些多重表示。此外，很难重组一个在编码信号內表示了两次的信号分量。多重表示还导致比特率比信号分量没有多重表示的情况下大。
利用防止或抑制单个信号分量多重表示的预防装置，还消除了这些相关的问题。
在本发明的一个实施例中，预防装置包括一个从编码音频信号中表示所述第一信号段的部分得出一个合成音频信号的合成装置和一个通过从一个表示输入信号的信号中减去所述合成音频信号得出第二信号段的减法装置。由于是通过从一个表示音频信号的信号中减去一个表示第一信号段的合成音频信号得到第二信号段，因此可以理解，从所述表示音频信号的信号中除去了根据第一信号段确定的那些信号分量。所以，这些信号分量在第二信号段內不会出现或者受到很强的衰减。这样就避免了所述单个信号分量的多重表示。
在本发明的另一个实施例中，分段装置配置成从输入信号中得出一些比第一信号段长的更长信号段，音频编码器配置成还根据更长信号段得出编码音频信号，而音频编码器还包括另一个从编码音频信号中表示所述更长信号段的部分得出另一个合成音频信号的合成装置和另一个通过从一个表示输入信号的信号中减去所述另一个合成音频信号得出第一信号段的减法装置。实验已经表明，采用具有至少三种不同长度的相继段是有利的，因为在一个段內的周期数也许不太多，但是也不会太少。
在本发明的又一个实施例中，音频编码器包括一个从输入信号得出一个经滤波的信号的滤波器，而音频编码器配置成从所述经滤波的信号得出第一信号段。由于对输入信号滤波，就能从所述输入信号中除去一些信号分量，从而使确定剩余的信号分量更为可靠。在第一信号段內现在不存在的那些信号分量出现在确定它们的第二(或更长)信号段內。因此，得到输出信号的一个更为完全的描述。
本发明的再一个实施例的特征是其中编码装置配置成根据与心理声学有关的比例表示振幅。利用与心理声学有关的比例表示振幅可以更有效地利用传输信道，因为可以用较小的码元表示一个具有给定动态范围的信号。这样的与心理声学有关的比例可以是例如一个对数比例。
下面将结合附图对本发明进行说明。在这些附图中

图1示出了可以采用本发明的传输系统；图2示出了本发明的用于图1所示传输系统的正弦波分析单元8；图3示出了在图2所示分析单元8中所用的各信号段；以及图4示出了本发明的用于图1所示传输系统的噪声分析器14。
在图1所示的传输系统中，需发送的音频信号加到发射机2的输入端上。在发射机2中，输入信号加到音频编码器4上。在音频编码器4中，输入信号加到减法器12的第一输入端上和加到分析单元8的输入端上。分析单元8确定它的输入信号中的各正弦信号分量的振幅、相位和频率。
分析单元8输出载有表示这些正弦信号分量的振幅、相位和频率的输出信号，加到合成器10的输入端上和加到多路复用器16的输入端上。合成器根据从分析单元8接收到的这些振幅、相位和频率产生一个包括多个正弦波的合成音频信号。
合成器10输出载有合成音频信号，加到减法器12的第二输入端上。减法器12从输入信号中减去合成器10产生的合成音频信号。
减法器12的输出信号加到噪声分析器14上。噪声分析器14确定加在它的输入端上的噪声信号的频谱。所述噪声谱的表示加到多路复用器16上。多路复用器16将来自分析器8的信号与来自噪声分析器14的信号合并成一个复合信号。
最好，多路复用器16利用心理声学模型确定分析器8所确定的信号分量中哪些是可感觉的。只有那些可感觉的信号分量才予以发送。利用心理声学模型确定可感觉的信号分量通常用于频域编码器，这对于熟悉该技术的人员来说是众所周知的。
多路复用器16的输出信号构成音频编码器4的输出信号。音频编码器4的输出端连接到发送单元6的输入端。发送单元6产生适合于通过传输媒体3传输给接收机24的信号。发送单元6执行象信道编码、交织和调制那样的一些操作。
来自传输媒体3的信号加到接收机24內的接收单元18上。接收单元18执行象解调、解交织和信道解码那样的一些操作。
接收单元18的输出端接至音频解码器22的输入端。在音频解码器22中，来自接收单元的信号加到分路器20上。分路器20提供一个描述由分析器8确定的正弦信号分量的第一信号和一个描述由分析器14确定的噪声谱的第二信号。
第一信号加到正弦波合成器26上。合成器26从第一信号得出一个合成信号。合成器26与用于编码器4的合成器10类似。第二信号加到噪声合成器28上。噪声合成器28产生一个具有由第二信号限定的频谱的噪声信号。这可以通过对所接收的频谱在为其中各频谱分量指定随机相位的情况下执行IFFT来实现。正弦波合成器26的输出信号和噪声合成器28的输出信号由加法器30相加，得到一个输入音频信号的副本。
在图2所示的分析器8中，输入信号加到分段单元42上和加到低通滤波器30的输入端上。分段单元42从输入信号中选择一些包括360个样点的段。如果输入信号的采样率为44.1kHz，这相应于一个为8.16ms的分析周期。
低通滤波器30的输出端接至抽取器32的输入端。抽取器32使采样率降低一个为3的抽取因子。低通滤波器30提供防叠处理，具有一个为500Hz的截止频率。这个截止频率充分低于防叠处理所需要的，但设计成只使在相应分析窗口內有少数周期的信号几乎不受衰减地通过。
抽取器32的输出信号接至分段单元40的输入端和低通滤波器34的输入端。分段单元40从抽取器32的输出信号中选择一些包括360个样点的段。如果降低了的采样率为14.7kHz，这相应于一个为24.5ms的分析周期。
低通滤波器34的截止频率为165Hz。低通滤波器34的输出端接至抽取器36的输入端。抽取器36再次以为3的抽取因子降低采样率。抽取器36的输出端接至分段单元38的输入端。分段单元38选择一些包括256个样点的段。如果两次降低了的采样率为4.9kHz，这相应于一个为52.2ms的分析周期。
分段单元38的输出信号加到谱估计单元44上。谱估计单元44通过峰值检选和随后的在傅里叶域內精细搜索确定频谱分量。一些正弦分量的估计法对于熟悉音频编码技术的人员来说是众所周知的。
频谱估计单元44的输出端接至选频器50的输入端。这个选频器只选择在一个界限分明的范围內的频率分量。在本例中，选择器50只选择频率最高为133Hz的频率分量。频率更高的频谱分量就直接丢掉。校正器52校正所选信号分量的振幅和相位值。这种校正用来补偿由滤波器34引入的振幅和相位失真。由于滤波器的传递函数是已知的，因此所需的校正因子可以很容易确定。
校正器52的输出加到合成器54上。合成器54根据校正器52的输出信号产生一个合成音频信号。合成器54提供的合成音频信号的采样率相应于抽取器32的输出的采样率。减法器46从分段单元40的输出信号中减去合成器54提供的合成音频信号。合成器54和减法器46的组合是本发明的预防装置的一部分。因此，从分段装置40的输出信号中充分地除去了由估计单元44确定后由选择单元50选择的信号分量。
减法器46的输出信号传送给谱估计单元55，由谱估计单元55确定所述输出信号中的频谱分量。随后，选择单元只选择频率低于400Hz的信号分量。
校正器52的输出和选择器56的输出都接至合并器58的输入端。合并器58合并从具有不同持续时间的信号段得出的频率估计。由于以精时标(短的段)可以发现与用粗时标几乎相同的频率，因此可以用单个信号分量表示这些一致的信号分量。在本例中，这种合并将在频率相差小于10-3rad时进行。合并器58也是预防装置的一部分。
合并器58的输出传送给校正器62，由校正器62校正滤波器30的振幅和相位失真。校正器62的输出信号加到合成器60的输入端，合成器60根据确定的信号分量产生一个合成音频信号。减法器48从分段单元42的输出信号中减去合成器60产生的合成音频信号。合成器60和减法器48的组合是本发明的预防装置的一部分。减法器48的输出信号传送给谱估计单元64，谱估计单元64确定它的输入信号中的信号分量。这些信号分量与校正器62的输出信号一起传送给合并器68，合并器68确定在输入信号中发现的所有正弦波的表示。需由估计器44确定的正弦波的最多个数选择为等于5，需由分析器44和55一起确定的正弦波的最多个数是10，因此由分析器44、55和64确定的正弦波的总数选择为等于60。
由于分段单元38、40和42的输出信号具有不同的长度，因此分析也按不同的时标执行。这个抑制或防止单个信号分量多重表示的预防装置在这里是合成器54和60、减法器46和48以及合并器58和68。然而可想象，在预防装置中也可以只用合成器和减法器的组合或者只用合并器。
在图3中示出了如在分析器8中所用的这些信号段。图形70、71和72示出了在时刻T1涉及的这些信号段。
图形70示出了在分段单元42的输出端上一个在时刻T1可得到的段。这个段包括N＝360个样点。图形71示出了在分段单元40的输出端上这个在时刻T1可得到的段。这个段也包括N＝360个样点。
图形72示出了在分段单元38的输出端上一个在时刻T1可得到的段。这个段现在包括M＝256个样点。从这些图形中可以看出，在分析中利用了具有不同持续时间的信号段。
图形73、74和75示出了在下一个分析时刻T2的那些信号段。可以看到所有的段向右平移了最短的段的持续时间。这是因为完整的分析要用一个周期T。图形76、77和78示出了在T2后T的时刻T3的这些信号段。
在图4所示的噪声分析器14中，输入信号加到分段装置80、82和84的输入端上。分段装置80配置成从输入信号得出一些具有1024个样点的段。分段装置82配置成从输入信号得出一些具有512个样点的段，而分段装置84配置成从输入信号得出一些具有256个信号样点的信号段。
分段装置80的输出端接至FFT处理器86输入端。FFT处理器86确定较低频率范围的频谱。FFT处理器86配置成执行1024点FFT。分段装置82的输出端接至执行512点FFT的FFT处理器90的输入端。分段装置84的输出端接至执行256点FFT的FFT处理器94的输入端。
为了在图1中的多路复用器16中应用心理声学模型，所希望的是将噪声谱表示为每ERB分辨元(bin)的噪声功率。为此，FFT处理器86、90和94确定的各FFT分辨元內的值分别由ERB变换器88、92和96变换入18、7和18个ERB分辨元。由于所有的ERB分辨元覆盖了不同的频率范围，这些ERB变换器88、92和96就构成了防止一个信号分量多重表示的抑制装置。如所看到的那样，可以想像FFT处理器86、90和94不是执行完全的FFT而是执行确定那些确定与所述FFT相应的ERB分辨元所需的频率分辨元的部分FFT。在这种情况下，抑制装置还包括FFT处理器86、90和94。
ERB变换器88、92和96通过将处于由本ERB限定范围內的这些FFT分辨元內的功率相加得出每个ERB分辨元的值。ERB变换器执行的变换可以用矩阵形式写成Y(n)＝W(n)·P (1)在(1)中，Y(n)为每个ERB分辨元內的功率，其中n表示ERB分辨元的列序号。P为一个以在FFT分辨元內的功率为元的矢量，可以定义为P＝[|X(0)|2，|X(1)|2，…，|X(L－1)|2](2)在(2)中，|X(k)|2为在第k个FFT分辨元內的功率，而L为FFT內包括的点数。矢量W(n)表示ERB分辨元与FFT分辨元之间的交叠情况。如果f1表示一个ERB分辨元的下限而f2表示这个ERB分辨元的上限频率，矢量元W(n，k)可以写成W(n,k)[min[f2(n),(k+0.5)b]-max[f1(n),(k-0.5)b]b,0]----(3)]]>在(3)中，b为FFT分辨元长度，等于fs/L。为了得到所有的ERB分辨元，对n取不同的值，从而导致如下矩阵乘法Y＝W·P(4)在这些ERB分辨元內的功率传送给噪声分析器14的一个附加输出端，供多路复用器16中的心理声学模型使用。
噪声合成器28需要W的逆变换W-1，以便从ERB分辨元得到FFT分辨元。逆W-1可以用与确定W同样的方式得到。逆W-1可以如下计算W~(n,k)=min[min[(n+0.5)b,f2(k)]-max[(n-0.5)b,f1(k)]f2(k)-f1(k),0]----(5)]]>这43个ERB功率值传送给拟合装置98，用一个三阶多项式拟合这43个功率值。因此，在时间上调整这些估计的功率(它们是以不同分析段长度估计的)。这个拟合过程导致将数据从43个系数减少到4个系数。在执行拟合前，根据与心理声学有关的比例，诸如对数比例或者近似对数比例之类，变换这些ERB分辨元內的振幅。
在合成器28中，按照由这4个系数定义的三阶多项式计算出这43个ERB功率值。对于不同的ERB功率组以不同的时标进行合成，就象在分析中所做的那样。
虽然本发明是结合它的优选实施例进行说明的，但是可以理解这些优选实施例并不是限制性的。对于熟悉该技术的人员来说，在权利要求书所明确的本发明的专利保护范围內作出的各种修改都是显而易见的。
作为一个例子，相继的信号段可以部分交叠，虽然在这些实施例中它们是不交叠的。此外，在这些实施例中所揭示的各种预防装置不必以组合方式出现，也可以分别使用。
总之，已知在正弦波音频编码器中可以利用不同的时标分析频谱的不同部分。在现有技术的编码器中，通过子频带滤波将输入信号分离成若干个子频带。
通过将输入信号分离成一些子频带，可能会发生在两个子频带分界处的一个信号分量表示成两个子频带信号的情况。这种信号分量的双重表示可能在对这些分量编码时引起一些问题。本发明提出了一些预防装置(46，48，58，68；88，92，96)，用来避免出现使一些信号分量有多重表示的情况。
权利要求
1.一种包括一个发射机和一个接收机的传输系统，所述发射机包括一个将表示音频信号的输入信号编码成一个编码音频信号的音频编码器和一个将所述编码音频信号通过传输媒体发送给所述接收机的发送装置，所述音频编码器包括一个从输入信号得出至少一些第一信号段和一些比第一信号段短的第二信号段的分段装置和一个从所述第一和第二信号段得出所述编码音频信号的编码装置，所述接收机包括一个从传输媒体接收编码音频信号的接收装置和一个从编码音频信号得出一个解码音频信号的音频解码器，所述传输系统的特征是其中所述编码装置包括一个防止在编码音频信号內出现单个信号多重表示的预防装置。
2.按照权利要求1所述的传输系统，其特征是其中所述预防装置包括一个从编码音频信号中表示所述第一信号分段的部分得出一个合成音频信号的合成装置和一个通过从一个表示输入信号的信号中减去合成音频信号得出所述第二信号分段的减法装置。
3.按照权利要求2所述的传输系统，其特征是其中所述分段装置配置成从输入信号得出一些比所述第一信号段长的更长信号段，所述音频编码器配置成还根据所述更长信号段得出编码音频信号，而所述预防装置还包括另一个从编码音频信号中表示所述更长信号段的部分得出另一个合成音频信号的合成装置和另一个通过从一个表示输入信号的信号中减去所述另一个合成音频信号得出所述第一信号段的减法装置。
4.按照权利要求1所述的传输系统，其特征是其中所述音频编码器包括一个从输入信号得出一个经滤波的信号的滤波器，以及所述音频编码器配置成从所述经滤波的信号得出所述第一信号段。
5.按照权利要求4所述的传输系统，其特征是其中所述滤波器包括一个以一个降低了的采样率得到所述第一信号段的抽取装置。
6.按照权利要求1所述的传输系统，其特征是其中所述编码装置配置成根据与心理声学有关的比例表示振幅。
7.一种包括一个将一个表示音频信号的输入信号编码成一个编码音频信号的音频编码器和一个发送所述编码音频信号的发送装置的发射机，所述音频编码器包括一个从所述输入信号得出至少一些第一信号段和一些比所述第一信号段短的第二信号段的分段装置和一个从所述第一和第二信号段得出所述编码音频信号的编码装置，所述发射机的特征是其中所述编码装置包括一个防止在所述编码音频信号內出现单个信号分量多重表示的预防装置。
8.按照权利要求7所述的发射机，其特征是其中所述预防装置包括一个从编码音频信号中表示所述第一信号段的部分得出一个合成音频信号的合成装置和一个通过从一个表示输入信号的信号中减去所述合成音频信号得出所述第二信号分段的减法装置。
9.一种包括一个从一个表示音频信号的输入信号得出至少一些第一信号段和一些比所述第一信号段短第二信号段的分段装置和一个从所述第一和第二信号段得出一个编码音频信号的编码装置的音频编码器，其特征是其中所述编码装置包括一个防止在所述编码音频信号內出现单个信号分量多重表示的预防装置。
10.按照权利要求9所述的音频编码器，其特征是其中所述预防装置包括一个从所述编码音频信号中表示所述第一信号段的部分得出一个合成音频信号的合成装置和一个通过从一个表示输入信号的信号中减去所述合成音频信号得出所述第二信号段的减法装置。
11.一种包括从一个表示音频信号的输入信号得出至少一些第一信号段和一些比所述第一信号段短的第二信号段和从所述第一和第二信号段得出一个编码音频信号的音频编码方法，其特征是所述方法包括防止在所述编码音频信号內出现单个信号分量的多重表示。
12.按照权利要求11所述的方法，其特征是所述方法包括从所述编码音频信号中表示所述第一信号段的部分得出一个合成音频信号和通过从一个表示输入信号的信号中减去所述合成音频信号得到所述第二信号段。
13.一种使一个处理器可以执行按照权利要求11所述的方法的计算机程序。
14.一种载有一个按照权利要求13所述的计算机程序的有形媒体。
15.一种载有一个按照权利要求13所述的计算机程序的信号。
全文摘要
在正弦波音频编码器中,已知可以利用不同的时标分析频谱的不同部分。在现有技术的编码器中,通过子频带滤波将输入信号分离成若干个子频带。通过将输入信号分离成一些子频带,可能会发生在两个子频带分界处的一个信号分量表示成两个子频带信号的情况。这种信号分量的双重表示可能在对这些分量编码时引起一些问题。本发明提出了一些预防装置(46,48,58,68;88,92,96),避免了出现使一些信号分量有多重表示的情况。
文档编号G10L19/02GK1335979SQ00802433
公开日2002年2月13日申请日期2000年8月24日优先权日1999年8月27日
发明者A·W·J·奥门, A·C·登布林克尔申请人:皇家菲利浦电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A.W.J.奥门;A.C.登布林克尔
技术所有人：皇家菲利浦电子有限公司
我是此专利的发明人

上一篇：对噪声相对健全的语音识别系统和方法
上一篇：使用频谱图相关的讲话者识别的制作方法