音频编码的制作方法

文档序号：2821452阅读：211来源：国知局

专利名称：音频编码的制作方法
技术领域：
本发明涉及编码和解码音频信号。
背景技术：
现参照

图1，一个参数编码方案、尤其一个正弦编码器在PCT专利申请No.WO01/69593中被描述。在这个编码器中，一个输入音频信号x(t)被分离成几个(重叠的)片段或帧，其典型长度为20ms。每一个片段被分解为瞬态、正弦和噪声分量。(也可能得出输入音频信号的例如谐波复分量之类的其它分量，虽然这些对本发明的目的来说并不相关。)在正弦分析器130中，用多个以幅度、频率和相位参数表示的正弦曲线模型化用于每个片段的信号x2。此信息通常针对一个分析区间通过执行傅立叶变换(FT)来提取，该傅立叶变换提供该区间的频谱表示，包括频率；每一频率的幅度；以及每一频率的相位，其中每个相位在{-π，π}范围内。一旦一个片段的正弦信息被估计出来，则一个跟踪算法被启动。此算法使用一个代价函数，以便在片段到片段的基础上将正线曲线彼此链接起来，从而获得所谓的轨迹。跟踪算法因而导致正弦码CS包含正弦轨迹，此轨迹开始于一个特定的时刻，在多个时间片段上展开特定的时间量，然后停止。
在这种正弦编码中，频率信息通常被发送以用于在编码器中形成的轨迹。这一点能够很廉价的执行，因为轨迹被定义为具有一个缓慢变化的频率，因此，频率能用时间差分编码来有效地发送。(通常，幅度也能在时间上差分地编码。)相比于频率，相位传输被视为更加昂贵。原则上，如果频率为(近似)恒定，则相位作为轨迹片段系数的函数应该遵循(近似)线性特性。然而，当相位被发送时，通过傅立叶变换将相位限制在范围{-π，π}内。由于这个相位的以2π为模的表示，相位的结构上的帧间关系丢失，并且乍看之下表现为一个白色的随机变量。
然而，因为相位是频率的积分，原则上不需要发送相位。这就称为相位连续(phase continuation)，并明显降低了比特率。
在相位连续中，仅仅发送频率，而相位在译码器中通过利用相位和频率之间的积分关系而从频率数据中恢复。然而众所周知的是，用相位连续仅能近似恢复相位。如果出现频率误差，则由于频率的测量误差或者由于量化噪声，用积分关系重构的相位将会典型地表现出一个具有漂移特性的误差。这是因为频率误差具有近似白噪声特性。积分过程放大低频误差，从而所恢复的相位将趋于从实际测量的相位漂移开。这会导致可听的伪信号。
上述内容在图2(a)中描述，其中ψ和Ω为轨迹的真实频率和相位。无论在编码器还是译码器中，频率和相位都有如I所示的积分关系。在编码器中的量化过程被模型化为一个加性白噪声n。在译码器中，所恢复的相位因而包括两分量真实的相位ψ和一个噪声分量ε2，其中无论所恢复的相位的频谱还是噪声ε2的功率谱密度函数都有显著的低频特性。
因此可见，在相位连续中，由于所恢复的相位是一个低频信号的积分，因此所恢复的相位本身也是一个低频信号。然而，在重构过程中引入的噪声在这个低频范围内也占统治地位。因此，分离这些源以达到滤波在编码期间引入的噪声n的目的，是非常困难的。
本发明试图减轻这个问题的影响。
发明的公开内容根据本发明，提供了一种根据权利要求1的方法。
根据本发明，对现有技术的编码技术进行了反转，也就是说，发送相位而不是频率。在译码器中，能够通过使用有限差作为差分的近似来从量化的相位信息中近似恢复频率。在由相位量化引入的噪声几乎为频谱平坦的假设下，所恢复的频率的噪声分量有明显的高频特性。这如图2(b)所示，其中在编码器和译码器中，频率被表示为相位的差分(D)。此外，在编码器中引入了噪声n，同样在译码器中也引入噪声，所恢复的频率包括两个分量真实的频率Ω和一个噪声分量ε4，这里频率近似为一个DC(直流)信号而噪声主要在高频范围内。然而，由于基本频率(underlying frequency)具有低频特性，而加入的噪声具有高频特性，因此所恢复的频率的噪声分量ε4能够通过低通滤波来减小。
附图简述图1显示了一个音频编码器，其中实现了本发明的一个实施例；图2(a)和2(b)分别描述了在现有技术系统中和在根据本发明的音频系统中的相位和频率之间的关系；图3(a)和3(b)显示了图1的音频编码器的正弦编码器组件的一个优选实施例；图4显示了一个音频播放器，其中实现了本发明的一个实施例；和图5(a)和5(b)显示了图4的音频播放器的正弦合成器组件的一个优选实施例；和图6显示了一个包括根据本发明的音频编码器和音频播放器的系统。
优选实施例的描述现将参考附图来描述本发明的各优选实施例，其中相同的部件用相同的附图标记表示，并且除非另外说明的话执行相同的功能。在本发明的一个优选实施例中，编码器1是一个在PCT专利申请No.WO01/69593图1中描述的那一类型的正弦编码器。这个现有技术的编码器和与之相对应的译码器的操作已经被很好地描述了，而这里只提供与本发明相关的描述。
无论在现有技术还是此优选实施例中，音频编码器1都以一定的采样频率采样输入的音频信号，从而得到音频信号的一个数字表示x(t)。译码器1则将经采样的输入信号分离为三个分量瞬态信号分量，持续确定性分量和持续随机分量。音频编码器1包含一个瞬态编码器11，一个正弦编码器13和一个噪声编码器14。
瞬态编码器11包含一个瞬态检测器(TD)110，一个瞬态分析器(TA)111和一个瞬态合成器(TS)112。首先，信号x(t)进入瞬态检测器110。这个检测器110估计出是否有一个瞬态信号分量以及它的位置。这个信息被馈送到瞬态分析器111。如果一个瞬态信号分量的位置被确定，则瞬态分析器111就尝试提取此瞬态信号分量(的主要部分)。瞬态分析器111将一个形状函数匹配于一个优选地起始于一个所估计的起始位置的信号片段，同时它通过使用例如若干个(数目较少)正弦分量来确定此形状函数的下面的内容。这个信息包含在瞬态码CT中，而更详细的关于生成瞬态码CT的信息在PCT专利申请No.WO01/69593中被提供。
瞬态码代CT被提供给瞬态合成器112。合成后的瞬态信号分量在减法器16中被从输入信号x(t)中减去，得到一个信号x1。一个增益控制机制GC(12)被用于从x1中产生x2。
信号x2被提供给正弦编码器13，在此信号x2在一个正弦分析器(SA)130中被分析，该正弦分析器确定(确定性的)正弦分量。因此可以发现，虽然希望存在瞬态分析器，但是它并非必需的，而本发明也能够无需利用这样一个分析器来实现。或者，如上所述，本发明也能利用例如一个谐波复分量分析器来实现。
简单来说，正弦编码器编码输入信号x2作为从一个帧片段到下一个帧片段链接的正弦分量的轨迹。现参考图3(a)，以和现有技术相同的方式，在此优选实施例中，输入信号x2的每一个片段在一个傅利叶变换(FT)单元40中被变换到频域。对于每个片段，此FT单元提供测得的幅度A、相位φ和多个频率ω。如前面所提到的，由傅利叶变换提供的相位的范围被严格限制为-π≤φ＜π。一个跟踪算法(TA)单元42取得每一片段的信息，并通过使用一个合适的代价函数，链接从一个片断到下一个片端的各正弦曲线，从而对于每个轨迹产生一个测得的相位序列φ(k)和频率序列ω(k)。
相比于现有技术，根据本发明，最终由分析器130产生的正弦码CS包括相位信息，并且频率在译码器中从该信息重构得到。
然而如上所述，测得的相位被限制为对2π取模的形式。因此，在此优选实施例中，所述分析器包含一个相位展开器(PU)44，其中对2π取模的相位形式被展开以呈现对于轨迹ψ的结构上的帧间相位特性。由于在正弦轨迹中的频率几乎是恒定的，由此可见所展开的相位ψ典型地将是线性增长(或下降)函数，并且这使得廉价的相位传输成为可能。所展开的相位ψ被提供给一个相位编码器(PE)46作为输入，该相位编码器提供作为输出的适合于发送的表示电平r。
现参考相位展开器44的操作，如上所述，对于一个轨迹的实际的相位ψ和实际的频率Ω被如下关联
ψ(t)=&Integral;T0tΩ(τ)dτ+ψ(T0)]]>等式1其中T0为一个参考时间常数。
在各帧k＝K，K+1...K+L-1中的一个正弦轨迹具有测得的频率ω(K)(以弧度每秒表示)和测得的相位φ(K)(以弧度表示)。各帧的中心之间的距离以U(以秒表示的更新速率)给出。测得的各频率应该是所假定的基本连续时间频率轨迹Ω的样本(其中ω(K)＝Ω(kU))，类似地，测得的各相位为相关的连续时间相位轨迹ψ的样本(φ(K)＝ψ(KU)对(2π)取模)。对于正弦编码，假设Ω是一个近似恒定的函数。
假定在一个片段内各频率近似恒定，等式1能被近似为如下ψ(kU)=&Integral;(k-1)UkUΩ(t)dt+ψ((k-1)U)]]>≈{ω(k)+ω(k-1)}U/2+ψ((k-1)U)等式2因此可见，对给定的某一片段知道其相位和频率以及下一片段的频率，估计出下一片端的一个展开的相位值是有可能的，并且对于一个轨迹中的每一个片段都能如此。
在本优选实施例中，相位展开器在时刻k确定一个展开因子m(k)ψ(kU)＝φ(k)+m(k)2π 等式3该展开因子m(k)告知相位展开器44必须被添加以获得展开的相位的周期数目。
合并等式2和3，相位展开器如下确定一个递增展开因子e2πe(k)＝2π{m(k)-m(k-1)}＝{ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}这里e应该为一个整数。然而，由于测量和模型误差，递增的展开因子将不是一个精确的整数，因此e(k)＝round([{ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}]/(2π))假设模型和测量误差较小。
有了递增展开因子e，从等式(3)计算m(k)作为累计和，这里不失一般性，相位展开器以m(K)＝0开始于第一帧K，并且从m(k)和φ(k)，(被展开的)相位ψ(kU)被确定。
实际上，采样的数据ψ(kU)和Ω(kU)由于测量误差而失真φ(k)＝ψ(kU)+ε1(k)，ω(k)＝Ω(kU)+ε2(k)，这里ε1和ε2分别是相位和频率误差。为了防止展开因子的确定变得不明确，测量数据必须被确定得足够精确。因此，在此优选实施例中，轨迹被限定以便δ(k)＝e(k)-[{ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}]/(2π)＜δ0这里δ是取整运算中的误差。误差δ主要由ω中的由于乘以U而导致的误差来确定。假设ω从输入信号的一个采样频率为Fs的采样版本的傅利叶变换的绝对值中的最大值来确定，而傅利叶变换的分辨率为2π/La，其中La为分析尺寸。为了在所考虑的边界之内，我们有LaU=δ0]]>那意味着，分析尺寸应该被更新尺寸大几倍以使展开足够精确，举例来说，设置δ0＝1/4，分析尺寸应该为更新尺寸的四倍(忽略在相位测量中的误差ε1)。
第二能用于避免在取整运算中的判决错误的防范方法，是适当地定义轨迹。在跟踪单元42中，各正弦轨迹典型地通过考虑幅度和频率的差而被定义。此外，在链接准则中考虑相位信息也是有可能的。例如，我们能定义相位预测误差ε作为被测值和预测值之间的差，这是根据ϵ={φ(k)-φ&OverBar;(k)}mod2π]]>这里预测值能被取为φ~(k)=φ(k-1)+{ω(k)-ω(k-1)}U/2]]>因此，优选地，跟踪单元42禁止其中ε比一个特定值大(例如ε＞π/2)的轨迹，从而得到e(k)的一个明确定义。
此外，编码器能计算例如在译码器中可使用的各相位和频率。如果在译码器中可使用的各相位或者频率与那些例如在编码器中存在的相位和/或频率差别很大时，可以决定中断轨迹，也就是发信号示意一个轨迹的结束，并使用当前的频率和相位以及它们的所链接的正弦数据开始一个新的轨迹。
由相位展开器(PU)44产生的经采样的所展开相位ψ(kU)被提供给相位编码器(PE)46作为输入，以产生表示电平r的集合。用于一般的单调改变特性(例如展开的相位)的有效传输的技术为大家所熟知。在本优选实施例(图3(b))中，使用了自适应差分脉冲码调制(ADPCM)。这里，一个预测器(PF)48用于估计下一个轨迹片段的相位，以及仅在一个量化器(Q)50中编码所述差。由于ψ被预期为是一个接近线性的函数，且为了简单化，预测器48被选择为一个二阶滤波器，其具有如下形式y(k+1)＝2x(k)-x(k-1)这里x是输入而y是输出。然而可以发现，采用其它函数关系(包括高阶关系)以及包括自适应的(后向或前向)滤波器系数适配也是可能的。在本优选实施例中，为简单计，一个后向自适应控制机制(QC)52被用来控制量化器50。前向自适应控制也是可能的，但需要额外的比特率开销。
如下将看到，用于轨迹的编码器(和译码器)的初始化以知道开始的相位φ(0)和频率ω(0)为开始。它们通过一个分离机制量化和发送。此外，图5(b)中，在编码器的量化控制器52和译码器中的相关控制器62中使用的初始的量化步幅，无论在编码器还是在译码器中都被发送或被设置为一个特定的值。最后，轨迹的结束能够在一个分离的侧流(side stream)由信号通知或者作为一个独特符号在相位的比特流中由信号通知。
从由正弦编码器产生的正弦码CS，通过一个正弦合成器(SS)131，正弦信号分量以与将对于译码器的正弦合成器(SS)32所描述的相同的方式被重构。这个信号在减法器17中被从输入到正弦编码器13的x2中减去，从而得到一个残余信号x3。由正弦编码器13产生的残余信号x3被传递给本优选实施例的噪声分析器14，此噪声分析器产生一个代表这个噪声的噪声码CN，正如PCT专利申请No.PCT/EP00/04599中所描述的那样。
最后，在一个多路复用器15中，构成一个音频流AS，其包括代码CT、CS和CN。音频流AS被提供给例如一个数据总线、天线系统、存储介质等。
图4显示了一个适用于解码一个音频流AS’的音频播放器3，该音频流AS’由例如图1中的编码器1产生，并从一个数据总线、天线系统、存储介质等中获得。音频流AS’在一个多路分解器30中被多路分解，以获得代码CT、CS和CN。这些代码分别被提供给一个瞬态合成器31、一个正弦合成器32和一个噪声合成器33。从瞬态码CT中，瞬态信号分量在瞬态合成器31中被计算出来。如果瞬态码表示形状函数，则基于所接收到的参数可以计算该形状。进一步地，形状内容基于各正弦分量的频率和幅度而计算。如果瞬态码CT表示步幅，则不计算瞬态。总的瞬态信号yT是所有瞬态的和。
包括由分析器130编码的信息的正弦码CS被用于正弦合成器32以产生信号yS。现参考图5(a)和(b)，正弦合成器32包含一个和相位编码器46兼容的相位译码器(PD)56。这里，一个解量化器(DQ)60与一个二阶预测滤波器(PF)64协作产生展开的相位(的一个估计) 此展开的相位得自于各表示电平r；提供给预测滤波器(PF)64的初始信息以及用于量化控制器(QC)62的初始量化步幅。
如图2(b)中所阐述的那样，频率能够从展开的相位通过差分恢复出来。假定译码器处的相位误差近似为白色的，且因为差分过程放大了高频，故差分能与一个低通滤波器组合起来以减少噪声，并且从而在译码器处获得对频率的一个精确估计。
在本优选实施例中，一个滤波单元(FR)58近似所述差分，其对于从展开的相位中通过前向、后向或者中心差之类的多个程序获取频率是非常必要的。这使得译码器能够产生作为输出的各相位和各个频率它们可用于以传统方式合成已编码信号的正弦分量。
同时，当信号的各正弦分量被合成时，噪声码CN被馈送给一个噪声合成器NS 33，其主要是一个具有近似噪声谱的频率响应的滤波器。通过滤波一个具有噪声码CN的白噪声信号，NS 33生成重构的噪声yN。总的信号y(t)包含瞬态信号yT与一个乘积的和，该乘积是由任何幅度解压缩(g)乘以正弦信号yS与噪声信号yN的和而得到的。音频播放器包含两个加法器36和37，以求得对应信号的和。总的信号被提供给一个输出单元35，其例如是一个扬声器。
图6显示了一个根据本发明的音频系统，其包括一个如图1所示的音频编码器1和一个如图4所示的音频播放器3。这样一个系统提供播放和记录功能。音频流AS从音频编码器通过一个通信信道2被提供给音频播放器，此信道可以是无线连接、数据20总线或者存储介质。如果通信信道2是存储介质，则该存储介质可以固定于系统中，或者也可以是一个可以移动的磁盘、记忆棒等。通信信道2可以是音频系统的一部分，但也经常在音频系统之外。
权利要求
1.一种编码一个音频信号方法，此方法包括以下步骤对于多个顺序片段中的每一个，提供一个对应的经采样的信号值的集合；分析所述经采样的信号值以确定用于所述多个顺序片段中的每一个的一个或更多正弦分量；链接横跨多个顺序片段的各正弦分量，以提供各正弦轨迹；对于每一个正弦轨迹，确定一个相位，该相位包括一个一般单调变化的值；以及产生一个编码的音频流，该编码的音频流包括表示所述相位的正弦码。
2.一种根据权利要求1所述的方法，其中每一被链接的片段的相位值被确定为下面各项的一个函数前一片段的频率和所述被链接片段的频率的积分；以及前一片段的相位。
3.一种根据权利要求1所述的方法，其中所述正弦分量包括一个频率值；以及一个在范围{-π，π}内的相位值。
4.一种根据权利要求1所述的方法，其中产生步骤包括作为至少前一片段的相位的函数预测一个片段的相位值；以及作为所述相位的所述预测值和所述片段的所测量相位的函数量化所述各正弦码。
5.一种根据权利要求4所述的方法，其中用于一个轨迹的所述各正弦码包括一个初始相位和频率，以及其中所述预测步骤使用所述初始频率和相位以提供第一预测。
6.一种根据权利要求4所述的方法，其中所述生成步骤包括作为所述经量化的各正弦码的一个函数控制所述量化步幅。
7.一种根据权利要求6所述的方法，其中用于每一轨迹的所述各正弦码包括一个初始的量化步幅。
8.一种在权利要求1中请求保护的方法，其中所述各正弦码包括一个轨迹结束的指示。
9.一种根据权利要求1所述的方法，进一步包括使用所述各正弦码来合成所述各正弦分量；从所述经采样的信号值中减去所述合成的信号值，以获得表示所述音频信号的残余分量的一个值的集合；通过确定参数、近似残余分量来模型化音频信号的残余分量；以及在所述音频流中包括所述参数。
10.一种根据权利要求1所述的方法，其中所述经采样的信号值表示一个音频信号，瞬态分量已经从该音频信号中去除。
11.解码一个音频流的方法，此方法包括以下步骤读取一个编码的音频流，该编码的音频流包括表示被链接的各正弦分量的每一轨迹的相位的各正弦码；对于每一轨迹，从表示所述相位的所述码中生成一个一般单调改变的值；滤波所述生成的值以提供对轨迹频率的估计；以及使用所述生成的各值和所述各频率估计来合成所述音频信号的所述各正弦分量。
12.被安排成对于音频信号的多个顺序片段中的每一个处理一个经采样信号值的对应集合的音频编码器，该音频编码器包括一个分析器，用于分析所述经采样的信号值来对于所述多个顺序片段中的每一个确定一个或多个正弦分量；一个链接器，用于链接横跨多个顺序片段的各正弦分量以提供各正弦轨迹；一个相位展开器，用于对于每一个正弦轨迹确定一个包含一个一般单调改变值的相位；以及一个相位编码器，用于提供一个编码的音频流，该编码的音频流包括表示所述相位的各正弦码。
13.音频播放器，包括用于读取一个编码的音频流的装置，该编码的音频流包括表示被链接的各正弦分量的每一轨迹的相位的各正弦码；一个相位展开器，该相位展开器对于每一轨迹从表示所述相位的所述码中生成一个一般单调改变的值；一个滤波器，用于滤波所述生成的值以提供对轨迹频率的估计；以及一个合成器，用于使用所述生成的各值和所述各频率估计来合成所述音频信号的所述各正弦分量。
14.音频系统，包括一个如权利要求12中请求保护的音频编码器和一个如权利要求13中请求保护的音频播放器。
15.音频流，包括表示音频信号的被链接的各正弦分量的各轨迹的各正弦码，所述代码表示一个对应于被链接的各正弦分量的每一轨迹的相位的一般单调改变的值。
16.存储介质，其中存储一个如权利要求15中请求保护的音频流。
全文摘要
公开了对音频信号的编码，此编码由用于多个顺序片段中的每一个的一个对应的经采样的信号值的集合表示。经采样的信号值被分析(40)，以为多个顺序片段中的每一个确定一个或更多正弦分量。横跨多个顺序片段链接(42)各正弦分量，以提供各正弦轨迹。对于每一个正弦轨迹，确定一个包括一个一般单调变化的值的相位以及产生(46)一个编码的音频流，该编码的音频流包括表示所述相位的正弦码(r)。
文档编号G10L19/093GK1717719SQ200380104591
公开日2006年1月4日申请日期2003年11月6日优先权日2002年11月29日
发明者A·C·登布林克, A·J·格里特斯, R·J·斯鲁伊特申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A·C·登布林克、A·J·格里特斯、R·J·斯鲁伊特
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人