正弦模型参数的频率差分编码的制作方法

文档序号：2819663阅读：502来源：国知局

专利名称：正弦模型参数的频率差分编码的制作方法
技术领域：
本发明涉及一种正弦模型参数的频率差分编码。
近年来，基于模型的低比特率的音频压缩手段已经获得了更多的关注。典型地，这些参数方案将音频波形分解为多个共存的信号部分，例如，一个正弦部分，一个类似于噪声的部分，和/或一个暂态部分。接着，描述各信号部分的模型参数被量化，编码，并传送到解码器，在解码器中量化的信号部分被合成以及求和来形成一个重构的信号。通常，音频信号的正弦部分是由幅值、频率，可能还有相位参数等所确定的正弦模型来表示的。对于大多数音频信号，正弦信号部分比噪声和暂态部分更重要，因此，分配了相对大量的总比特预算用于表示正弦模型参数。例如，T.S.Verma和T.H.Y.Meng在2000年的Proc.IEEE Inst.Conf.Acoust.，Speech SignalProcessing中第877-880页的“A 6Kbps to 85Kbps scalable audiocoder”(6Kbps到85Kbps可升级音频编码器)中所描述的已知的可升级的音频编码器中，多余70％的可用比特率被用于表示正弦参数。
通常，为了减少正弦模型所需的比特率，使用时间差分(TD)编码方案来利用正弦参数之间的帧间相关性。当前信号帧中的正弦分量与先前帧中的量化分量是相关的(这样在时间-频率平面中形成“音调轨道”)，并且将参数差值进行量化和编码。不能与过去的分量相联系的当前帧中的分量被认为是新轨道的开始并且通常被直接编码，而不使用差分编码。虽然TD编码对减小平稳信号域的比特率是有效的，但在突发信号变化的域中却是低效的，因为相对较少的分量可以与音调轨道相关，所以大量的分量被直接编码。此外，为了在解码器一端能够从差分参数中重构信号，TD编码的关键取决于假设先前帧的参数已经无损地到达。在某些传输信道，例如，互联网一类的有损分组网络中，该假设可能是无效的。因而，在某些情况下希望有TD编码的替代方式。
一种上述的替代方式是频率差分(FD)编码，其中采用了正弦分量之间的帧间相关性。在FD编码中，属于相同信号帧的参数之间的差值被量化和编码，这样就消除了对先前帧中参数的依赖性。FD编码在基于正弦的语音编码中是众所周知的，并且最近同样被用于音频编码。典型地，一帧中的正弦分量以渐增的频率次序被量化和编码，首先，最低频率的分量被直接编码，接着较高频率分量相对于离它最近的较低频率一次一个地被量化和编码。尽管这种方法很简单，但它可能并不是最佳的。例如，在某些帧中放宽对最近相邻的限制可能会更有效。
为了达到本发明的目的，发明人寻求获得一种更通用的正弦模型参数的FD编码方法。对于给定的相应于每个量化级的参数量化器和码-字长度(比特)，所提出的方法找到了一帧中正弦分量的频率差分和直接编码之间的最佳组合方式。该方法允许参数差分包含任何分量对，也就是说，没有必要是频域相邻，就此而言，它比现有的方案加更通用。此外，不像上述的简单方案，如果能达到最高的效率，一些(在极端情况下，为所有的)分量可能被直接编码。
根据音频信号编码的方法，本方法的特征在于对编码帧中一个给定的正弦分量的参数或者相对于同一帧中的其它分量差分编码，或者直接编码，即不使用差分编码。
从各种其它的方面，本发明提供的方法和装置在下面的独立权利要求中作了阐明。另外，本发明实施例更优选的特征在下面的从属权利要求中作了阐明。
现在将通过实例以及参考附图的方式对本发明的实施例做详细地描述，其中

图1是一个有向图D，用于表示在给定帧中正弦分量(K＝5)的直接和频率差分编码的所有可能的组合；图2表示了本发明一个实施例中有刻度幅值的量化器的输出级的例子；图3表示了例示在K＝5时所允许的解树；图4表示了图G(K＝5)，它将问题1(如以下定义的)的可能的解决方案表示为赋值，其中，为清楚起见，只显示了几个边和权重；图5表示了在图G中相应于图3的树的赋值；图6a至图6c表示了拓扑相同和不同的解树的例子；
图7是体现本发明的编码信号中拓扑不同的解树的数目的图，它是正弦分量K数目的函数；以及图8是体现本发明的用于传输音频数据的系统的简化框图。
本发明的实施例可以在一个用于通过不可靠的通信链路(例如互联网)来传输音频信号的系统中构成。图8中所概略示出的这种系统，典型地包括一个音频信号源10，以及传输装置12，用于从音频信号源10传输音频信号。传输装置12包括一个输入单元20，用于从信号源10获得音频信号，一个编码装置22，用于对音频信号编码以获得编码的音频信号，以及一个输出单元24，通过把被编码的信号应用到网络链路26上来传输或记录被编码的音频信号。连接到网络链路26的接收装置30用来接收被编码的音频信号。接收装置30包括一个用于接收被编码的信号的输入单元32；一个用于对被编码的音频信号进行解码以获得已解码的音频信号的装置34；以及一个用于输出被解码的音频信号的输出单元36，。然后输出信号可以如适合的装置40所要求而被再生，记录或进行其它的处理。
在编码装置22内，信号根据一编码方法而被编码，该编码方法对给定的正弦分量参数或者相对于同一帧中的其它分量差分编码或者直接编码，即，不使用差分编码。该方法必须确定在编码过程的任何阶段中是否利用差分编码。
为了阐明必须由该方法解决以达到这种确定的问题，假设在一个信号帧中已经对若干正弦分量s1，...，sK进行估计的情况。每一个分量sK由幅值aK和频率值ωK来描述。为了当前的说明，没有必要考虑相位值，因为这些可以从频率参数中获得或者直接被量化。但是仍然应该注意到本发明实际上可以扩展到相位值和/或其它的值，例如阻尼系数。
考虑以下给定分量的参数量化的可能1)直接量化(即，非差分)，或者2)相对于较低频率成分中的量化参数的差分量化。
直接和差分量化的所有可能组合的集合利用图1所示的一个有向图D来表示。
顶点s1，...，sK表示要被量化的正弦分量。这些顶点之间的边表示差分编码的可能性，例如s1和s4之间的边表示与相对于s1而对s4的参数进行量化(即，对于幅值参数4＝1+Δ14)。顶点s0是一个虚拟的顶点，将其引入是为了表示直接量化的可能性。例如，s0和s2之间的边表示s2参数的直接量化。每一个边被赋予一个权重wij，它对应于选择由该边所表示的特定量化时在速率和失真方面的损失。基本任务是寻找一种直接和差分编码的速率-失真的最佳组合。这对应于在D中寻找具有最小的总损失的K边的子集，如此一来，每一个顶点s1，...，sK正好具有一个被赋值的入边(in edge)。
边权重的计算将在下面做描述。原则上，每一个边的权重具有以下形式wij＝rij+λdij方程1其中rij和dij分别表示与该特定方程相联系的速率(即比特的数目)和失真，λ是拉格朗日乘法系数。通常，如图1所示，高-指数的分量sj相对于(已量化的)低-指数的分量而被量化，因此权重wij的确切值取决于低-指数分量si的特定的量化。换句话说，在si被量化之前wij的值是不能被计算出来的。为了消除这种依赖性，我们假定使用相似的量化器用于幅值参数的直接和差分量化，如图2所示。
图2中，列1列出了直接幅值量化器的输出级，列2列出了差分幅值量化器的输出级，列3列出在差分量化后可以达到的幅值电平的集合。
在这种假设下，通过直接和差分量化可以达到的量化器级是相同的，并且给定的分量将以相同的方式被量化，而与使用直接还是差分量化无关。反过来，这意味着对于直接和差分编码的任意组合的总失真是恒定的，我们可以将λ＝0代入方程1中。此外，由于wij＝rij，现在D的所有权重值可以被提前计算出来，其中，整数r(.)代表用于表示已量化的参数(.)所需的比特数。在这个例子中，r(.)的值是预计算的霍夫曼码-字表的条目。
为了能清楚地理解该例子，有必要对正在讨论的问题进行系统的阐述。假定正在讨论的信号帧包含要被编码的K个正弦分量，我们将最佳FD编码问题用做如下公式表示问题1对于给定的具有边权重wI的图D，寻找具有最小总权重的K个边的集合，由此a)每个顶点s1，...，sK被分配给确切的一个入边，以及b)每个顶点s1，...，sK被分配给最大的一个出边。
由于能确保每K个正弦分量只被量化和编码一次，所以限制条件a)是必要的。限制条件b)将一个特殊的简单结构实施在K边方案树上。这对于减少指导解码器如何组合所传输的(delta-)幅值和频率时所需的附加信息是很重要的。图3显示了满足限制条件a)和b)的可能方案树的例子。注意，在例如现有技术建议中使用的“标准”FD编码配置是图3c所提供的框架结构的特殊情况。
为解决上述问题，提供了两种算法(指算法1和算法2)。算法1在数学上是最佳的，而算法2以较低的计算成本提供了一个近似的解决方案。
算法1为解决问题1，我们把它再表示为所谓的赋值问题，它是图形理论中一个众所周知的问题。利用有向图D(图1)，我们构建一个如图4所示的图G。G的顶点可以被分成两个子集左边的子集X，它包含顶点s1，...，sK-1以及K个s0，右边的子集Y，它包含顶点s1，...，sK以及K-1个虚顶点，表示成多个边将X和Y的顶点连接起来。连接到X中的顶点的边对应于有向图D中的出边，而连接到顶点s1，...，sK∈Y的边对应于D中的入边。例如，D中从s2∈X到s4∈Y的边对应于有向图D中的边s2s4。这样，图G中的实线边表示有向图D的“差分编码”的边。此外，从顶点{s0}∈X到s1，...，sK∈Y之间的虚线边都对应于分量s1，...，sK的直接编码。将X的顶点与s1，...，sK∈Y的顶点连接起来的边的权重与有向图D相应边的权重是相同的。最后，K-1个虚顶点用于表示解决解树中的某些顶点可以是“叶子”，即，不具有任何出边。例如，在图3a中，顶点s2就是叶子。在图G中，用从s2∈X到中的一个顶点之间的边来表示。所有连接到顶点的边的权重是0。
可以看出，满足问题1的限制条件a)和b)的D中，K个边的每一个集合都可以表示为G中X的顶点到Y的顶点的一个赋值，即G中2K-1个边的子集，这样每个顶点正好分配到一个边。图5a-c显示了分别对应于图3a-c的树的赋值的例子。因此，问题1可以被重新阐述成所谓的赋值问题，即我们所指的问题2。
问题2在图G中寻找具有最小总权重的2K-1个边的集合，这样每个顶点正好分配到一个边。
已经存在了解决问题2的几种算法，例如所谓的Hungarian方法，在H.W.Kuhn的“The Hungarian Method for the AssignmetProblem”，Naval Research Logistics Quarterly，283-97，1955中做过讨论，它使用0((2K-1)3)算术运算来解决该问题。一种可选的实现方式是R.Jonker和A.Volgenant在Computing，1987年第38卷325-340页的“用于密集和稀疏线性赋值问题的最短增加路径算法”(“A Shortest Augmenting Path Algorithm for Dense and SparseLinear Assignment Problems”)中所描述的算法。它的复杂度与Hungarian方法相似，但JonKer和Volgenants算法在实践中速度更快。此外，他们的算法可以快速地解决稀疏问题，这对于本实施例的多帧连接算法很重要。
总而言之，算法1由以下步骤组成。首先，构建有向图D(结果得到G)。接着，决定具有最小权重(问题2)的G中的赋值。最后，从G的赋值中很容易地得到直接和差分编码的最佳组合。
算法2是一种迭代的贪心算法，它对于增长的指数一次一个地处理图D中的顶点s1，...，sK。在迭代K，从候选边集合中选择顶点sK的一个入边。该供选择的集合由sK的入边和直接编码边s0sK组成，其中该sK的入边的源自于不具有以前选择的出边的定点。从该集合便可以选择具有最小权重的边。根据所述步骤，可以得到能满足问题1中限制条件a)和b)的K个边的集合。通常，该贪心的方法并不是最佳的，即，可能存在另外的满足条件a)和b)且具有更低总权重的K个边的集合。算法2具有0(K2)的计算复杂度。
除上述的被编码的正弦(delta-)参数外，采用本发明的编码信号必须包括描述如何在解码器端组合参数的附加信息。一种可能是在附加信息表中为每个可能的解树分配一个符号。然而不同的解树的数目是巨大的；例如，在具有K＝25的正弦分量的帧中，可以看出，不同解树的数目大约是1018，对应于附加信息表中索引解树的62比特。很明显，这个数字对于多数应用来说已经过大。幸而附加信息表只需要表示拓扑结构不同的解树，假定一特定的排序被应用到该(delta-)参数序列中。为了明确拓扑结构不同的树以及参数排序这一概念，可以参考图6a到6c中解树的例子，树的下面列出了相应的参数序列。图6a和6b中的生成树的拓扑结构是相同的，因为它们均由三边和二边的分支组成，由此在附加信息表中可以由相同的符号代表。相反地，图6c中的树由一个单独的五边分支组成，所以拓扑结构与其它的不同。已知拓扑树结构，并且假定该(delta-)参数以分支方式出现在具有最长分支的参数流中，解码器可能正确地组合所接收到的参数。
因此，本发明的优选实施例提供了一个附加信息表，它的符号对应于拓扑结构不同的解树。附加信息的上限值由这些树的数目确定。下面是拓扑结构不同的树的数目的表示。
如图6a到6c中的例子所示，解树的结构可以通过规定树中每个分支的长度来确定。假定以最长分支优先进行排序，拓扑结构不同的树的集合由非增长正整数的不同序列确定，它的总数是K；在组合学上，这种序列是指正整数K的“整数划分”。例如，如果K＝5，则存在以下7种整数划分{5}(图1c)，{4，1}，{3，2}(图1a和1b)，{3，1，1}，{2，2，1，}，{2，1，1，1}和{1，1，1，1，1}。这样当K＝5时，就有7种拓扑结构不同的解树，附加信息表将由7个符号组成。用Pj(K)表示K的整数划分的数目，它的第一个整数是j，下面的递归式直接反映出不同解树的数目PP(K)=Σi=1KPi(K)]]>等式2其中等式3图8表示了作为正弦分量的数目K的函数的拓扑结构不同的树的数目。这样，当K＝25时，附加信息表的索引会需要11比特的最大值。注意到该图表示附加信息的上限值；利用统计特性(例如熵编码)可以进一步减小附加信息率。
所述算法的性能可以由对音频信号的模拟研究来证明。四个不同的音频信号以速率44.1KHz、大约20秒持续时间采样，利用连续帧间的50％重叠的汉宁窗，每个被划分为1024个采样的固定长度帧。
每个信号帧利用正弦模型来表示，该模型具有固定数目K＝25时恒定幅值、恒定频率的正弦分量，其参数是利用匹配追踪算法提取的。幅值和频率参数在对数域中分别利用20％和0.5％的相对量化器级被均匀量化。类似的相对量化级也用在直接和差分量化中，如图2所示，经量化的参数利用霍夫曼编码进行编码。
进行了试验，其中使用算法1和2来确定如何在每一帧中组合直接和FD编码。另外，还做了模拟，其中利用如图3c所示K＝5的“标准”FD编码配置对幅值和频率参数进行量化。最后，为了确定FD编码可能的增益，对参数直接量化，即，不使用差分编码。每个试验根据各自的测算而使用了不同的霍夫曼编码。
对于每个编码过程，都(利用一阶熵)估计了(delta-)幅值和频率编码所需的比特率RPars。而且，由于算法1和2要求将有关解树结构的信息发送到解码器，所以对表示附加信息所需的比特率RS.I也进行了估算。后面的表1示出了对于各种编码策略和测试信号的估算的比特率。在此范围内，比特率的对比才是有说服力的，因为所有的试验都使用了相似的量化器，因此，测试信号在相同的失真级上进行编码。
下面表1的各列显示了不同编码方案和测试信号的比特率[Kbps]。这些列分别是RPars表示(delta-)幅值和频率的比特率，RS.I附加信息(树结构)所需的比特率，以及RTotal总比特率。增益是不同的FD编码方法与直接编码(非差分)相比的相对提高。
表1显示了利用算法1来确定直接和FD编码的组合，相对于直接编码，它使比特率减小了18.8-27.0％。算法2使比特率减小了将近18.5-26.7％。算法2导致了略低的附加信息量，这是由于算法2更趋向于用较少但是更长的“分支”来产生解树，因此减少了所观测的不同解树的数目。最后，FD编码的“标准”方法能将比特率减少12.7-24.0％。
为此，提供了使用两种算法的编码方法，用来确定在给定帧中正弦分量的直接和FD编码的比特率最佳组合。在对音频信号的模拟试验中，所提出的算法相对于直接编码使得比特率的减少达到了27％。此外，与典型的FD编码方法相比，所提出的方法使得比特率的减少达到了7％。尽管本发明的考虑集中在了单独的FD编码技术上，但在进一步的实施例中，概括描述了FD编码与TD编码相组合的方式。利用这种组合的TD/FD的编码方案，有可能提供将这两种编码技术的优势组合起来的实施例。
应该注意到，上述的实施例是用于说明本发明而不是限制本发明，熟练的技术人员在不脱离附加的权利要求的范围情况下，将能够设计出多种替换的实施例。在权利要求中，任何置于括号中的参考符号都不应被解释为对权利要求的限制。“包括”一词并不排除在权利要求中除了所列的之外还存在其它的元件或步骤。本发明可以由包括若干不同元件的硬件装置来实施，也可以由适当编程的计算机来实施。在列举了若干装置的设备权利要求中，这些装置中的若干可以由同一硬件来实现。在相互不同的从属权利要求中所记载的某些措施，并不表明不能用这些措施的组合来获得更多的益处。
表权利要求
1.一种编码音频信号的方法，其特征在于对编码帧中的给定正弦分量的参数进行编码的步骤，所述编码或者相对于同一帧中其它分量差分地进行或者直接进行，即不使用差分编码。
2.根据权利要求1所述的方法，包括一个根据算法确定参数是被差分编码还是直接编码的步骤。
3.根据权利要求2所述的方法，其中该算法对参数是差分编码还是直接编码作出最佳的确定。
4.根据权利要求2或权利要求3所述的方法，其中该算法包括步骤a.构造一个直接和差分量化分量的所有可能组合的集合的有向图D，并且据此，构造图G；b.确定具有最小总权重的G中的赋值；以及c.从G的赋值中获得直接和差分编码的最佳组合。
5.根据权利要求2所述的方法，其中该算法对参数是差分编码还是直接编码作出近似的确定。
6.根据权利要求2或权利要求5所述的方法，其中该算法是一个迭代的贪心算法。
7.根据权利要求6所述的方法，其中该算法包括步骤a.构造一个直接和差分量化分量所有可能组合的集合的有向图D；b.每次一个地以增长指数处理有向图D的顶点s1，...，sK；c.在迭代K，顶点sK的其中一个入边从候选边集合中选择，该候选边集合包括sK的入边，其源自于没有先前选择的出边的顶点，以及直接编码的边s0sK；以及d.从该集合中选择具有最小权重的边。
8.根据任何前述的权利要求的方法，包括一个在具有2K-1个边的集合的图G中寻找具有最小总权重的最佳组合的步骤，以使每个顶点正好被分配一个边。
9.根据权利要求8所述的方法，其中具有最小权重的边的集合是由一个包括用于解决赋值问题的Hungarian方法的过程找到的。
10.根据权利要求8所述的方法，其中具有最小权重的边的集合是由一个包括用于解决赋值问题的最短增加路径算法的过程找到的。
11.根据任何前述权利要求的方法，进一步包括产生用于指定一帧中的分量是被差分编码还是直接编码的附加信息的步骤。
12.一种编码音频信号编码的设备，该设备包括用于对给定的正弦分量的参数进行编码的装置，其特征在于在编码帧中的参数或者相对于相同帧中的其它分量而被差分编码或者被直接编码，即不使用差分编码。
13.根据权利要求12所述的编码设备，其按照任何前述权利要求的方法操作。
14.一种对已编码音频信号进行解码的方法，该已编码的音频信号包括给定的正弦分量的参数，其特征在于该编码帧中的参数或者相对于相同帧中的其它分量而被差分编码或者被直接编码，即不使用差分编码。
15.根据权利要求12所述的对已编码音频信号进行解码的方法，其中该信号是根据权利要求1至11的任意一个的方法进行编码的。
16.根据权利要求15所述的方法，其中已编码信号中的附加信息被解释用于确定一帧中的分量是被差分解码还是直接解码。
17.一种对已编码音频信号进行解码的设备，其中已编码的音频信号包括给定的正弦分量的参数，该参数在编码帧中已经或者相对于相同帧中的其它分量而被差分编码或者被直接编码，即未使用差分编码。
18.根据权利要求17所述的设备，其按照权利要求14至16的任意一个所述的方法进行操作。
19.一种已编码的音频信号，包括给定的正弦分量的参数，该参数在编码帧中已经或者相对于相同帧中其它分量而被差分编码或者被直接编码，即不使用差分编码。
20.根据权利要求19所述的已编码的音频信号，它包括用于指定一帧中的分量是差分编码还是直接编码的附加信息。
21.一种存储介质，权利要求19或权利要求20所要求的已编码音频信号被存储在其上。
22.一种用于传输或记录已编码音频信号的装置，该装置包括；a.一个输入单元，用于获得音频信号，b.一个根据权利要求12或权利要求13所述的装置，用于对音频信号编码以获得被编码的音频信号，以及c.一个输出单元，用于传输或记录已编码的音频信号。
23.一种用于接收和/或再生已编码音频信号的装置，该装置包括a.一个输入单元，用于接收已编码的音频信号，b.一个根据权利要求17或权利要求18所述的装置，用于对已编码的音频信号进行解码以获得被解码的音频信号，以及c.一个输出单元，用于输出已解码的音频信号。
全文摘要
本发明公开了编码和解码音频信号的方法以及实施该方法的装置。该编码方法的特征在于步骤对编码帧中给定的正弦分量参数或者相对于相同帧中的其它分量进行差分编码的或者直接编码，即不使用差分编码。该编码是差分地进行还是直接进行取决于算法。第一类算法利用从图形理论导出的方法能产生一个最佳的结果。另一个可选择的算法具有较低的计算强度，能利用一种迭代的贪心搜索算法提供一个近似的结果。
文档编号G10L19/00GK1571992SQ02820707
公开日2005年1月26日申请日期2002年9月27日优先权日2001年10月19日
发明者J·詹森, R·休斯登斯申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J.詹森;R.休斯登斯
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

上一篇：用于改善高频重建的方法
上一篇：在信号中编码辅助信息的系统的制作方法