参数音频编码的制作方法

文档序号:2821009阅读:185来源:国知局
专利名称:参数音频编码的制作方法
技术领域
本发明涉及参数音频编码。
背景技术
1999年10月17-20日在New York(纽约)New Paltz召开的音频和声学信号处理的应用的1999IEEE研讨会(1999 IEEE Workshop onApplicantions of Signal Processing to Audio and Acoustics)的会报中由Heiko Purnhagen著的“Advances in parametric audiocoding”披露了参数建模对通常的音频信号提供有效的表示,并且被用在非常低的比特率音频编码中。它是基于将音频信号分解成由适当的源模型描述的并且由模型参数(例如纯音调的频率和幅度)表示的分量建立的。在信号分解和模型参数编码中使用感知模型。

发明内容
本发明的目的是提供一种有利的多声道(例如,立体声)音频信号的参数化过程。为此,本发明提供一种如在独立权利要求中所定义的编码方法、编码器、装置、编码的音频信号、存储介质、解码方法、解码器和接收器或再现装置。本发明的优选实施例在从属权利要求中定义。
注意此类的立体声编码在现有技术中是已知的。例如,两个声道左(L)和右(R)可被独立的编码。这可通过两个平行布置的独立编码器或通过在一个编码器中时分多路复用来实现。通常,通过使用信号中的交叉声道相关(和不相关)而可以对两个声道进行更有效的编码。参照MPEG-2音频标准(ISO/IEC 13818-3,5-6页),其披露了联合(joint)立体声编码。联合立体声编码利用左和右声道之间的冗余以便降低音频比特率。两种形式的联合立体声编码是可能的MS立体声和强度立体声。MS立体声基于对和(L+R)和差(L-R)而不是对左(L)和右(R)声道进行编码。强度编码是基于只保持右(R)和左(L)声道在高频下的能量重叠。在参数编码中而不是在子频带编码中直接应用MS立体声编码原理将导致参数化的和信号和参数化的差信号。在编码之前形成和信号和差信号可能导致在将被编码的音频信号中产生额外的频率分量,这降低了参数编码的效率。强度立体声编码原理在参数编码方案上的直接应用将导致伴随独立编码的声道的低频部分和仅包括右和左声道的能量重叠的高频部分。
根据本发明的第一方面,在音频信号的至少两个声道中确定公共频率,该公共频率出现在至少两个声道的至少两个中,在给定公共频率下的各个声道中的各个正弦分量由给定的公共频率的表示和在给定公共频率下的各个正弦分量的各个幅度的表示表示。该方面是基于这样的认识由给定源产生的给定频率具有在每个声道中具有一个分量的高可能性。这些信号将具有它们共同使用的频率。这是真的,因为在从声音源经过记录设备至听者的传输中可能出现的信号转换将不会差分的影响各个或所有声道中的频率分量。因此,各个信号声道中的公共分量可由单一的、公共频率表示。各个声道中的各个分量的各个幅度(和相位)可以不同。因此,通过一公共频率和各个幅度的表示对正弦波进行编码,音频信号的有效压缩编码被获得;仅需要一个参数来对给定公共频率(其出现在各个声道中)进行编码。另外,通过适当的心理声学模型可有利的应用这种参数化过程。
一旦找出公共频率,就能表示描述每个各自声道中的分量的其它参数。例如,对于由正弦分量表示的立体声信号,幅度(和可选择的各个相位)的平均数和差值能被编码。在进一个例子中,最大幅度和差幅度一起在编码的音频流中被编码,其中差幅度的符号可确定对于该频率的主声道。
由于在左和右声道之间可能存在有某种程度的相关,所以能够使用正弦参数的熵(entropy)编码,这将导致立体声信号的更有效的编码。另外,可除去公共分量表示中的不相关信息,例如耳间的相位差在高频率下是听不见的并且能被设置为零。
能够对声道中的出现的任何频率进行编码作为公共频率。如果在一个声道中出现的频率在另一个声道中未出现,那么幅度表示应被编码以使为没有出现所述频率的声道产生零幅度。例如,如果在多声道场合一个频率出现在4个声道中的3个中,那么该频率能被编码作为公共频率,同时在没有出现该频率的声道中使幅度为零。
非公共频率也可表示作为各个声道中的独立正弦波。能够以独立的参数块的形式对非公共频率进行编码。进一步能够产生包括对于所有声道都是公用的公共频率的第一参数块,包括对于所有声道的一个(预定)子集是公用的频率的第二参数块,包括对于所有声道的另一个(预定)子集是公用的频率的第三参数块,等等,直到包括仅在一个声道中出现的频率的最后参数块,并且这些参数块被独立的编码。
公共频率可被表示为绝对频率值,但也可表示为随时间变化的频率,例如第一导数f/t。另外,公共频率可关于其它公共频率被差分的编码。
通过在同一时间考虑两个或多个声道评估频率而可找出公共频率。
在第一实施例中,对于各个声道的频率被独立确定,其后是比较步骤以确定公共频率。确定出现在各个声道中的频率可通过传统的匹配追踪(参见例如S.G.Mallat和Z.Zhang的“Matching pursuits withtime-frequency dictionaries”,IEEE trans.On Signal Processing卷41第12号3397-3415页)或峰值拾取(参见例如T.McAulay和T.Quatieri的“Speech Analysis/Synthesis Based on a SinusoidalRepresentaion”,IEEE Trans.ASSP,卷34第4号,744-754页,1986年8月)来执行在用于确定公共频率的第二实施例中,使用了结合的匹配追踪算法。例如,至少两个声道的各个功率或能量表示被结合以获得公共表示。然后基于公共表示确定公共频率。优选的,所述至少两个声道的能谱被相加以获得公共能谱。传统的匹配追踪被用于确定在该相加的能谱下的频率。在该相加的能谱中发现的频率被确定为公共频率。
在用于确定公共频率的第三实施例中,使用了在相加的能谱中进行的峰值拾取。在该公共能谱中找出的最大频率可被用作公共频率。也可以将对数能谱而不是线性能谱进行相加。
优选的,公共频率的各个分量的相位也被编码。公共相位和差相位(声道问)可包括在编码的音频信号中,所述公共相位可以是声道中的各相位的平均相位或具有最大幅度的声道的相位。有利的,差相位仅被编码达到指定的阈值频率(例如,1.5kHz或2kHz)。对于比该阈值高的频率,没有差相位被编码。这在没有显著降低质量的情况下是可能的,因为人类对耳间相位差的敏感度对于该阈值以上的频率来说是低的。因此,差相位参数对于给定阈值以上的频率来说不是必需的。在解码时,对于该阈值以上的频率,可假定德尔塔相位参数为零。解码器被布置以接收这样的信号。在阈值频率以上,解码器不要求为不同的相位进行任何的编码。因为差相位在实际的实施例中不提供有识别符,所以对于解码器来说知道何时要求差相位以及何时不要求差相位是重要的。另外,因为人们耳朵对于大的耳间强度差不敏感,所以可假定比某一阈值例如10dB大的德尔塔幅度为无穷大。因此,同样在该情况下不需要对耳间相位差进行编码。
不同声道中的小于给定阈值的不同频率可由公共频率表示。在该情况下,假设不同的频率起源于相同的源频率。在实际的实施例中,阈值与匹配追踪或峰值拾取算法的精度有关。
在实际的实施例中,根据本发明的参数化过程在帧的基础上被利用。
本发明适用于任何音频信号,包括语音信号。


本发明的这些和其他方面通过参考附图的说明将是显而易见的。
在图中图1表示根据本发明一实施例的编码器;图2表示图1的编码器的一个可能实现;图3表示图1的编码器的一个可选择实现;和图4表示根据本发明一实施例的系统。
附图仅示出了理解本发明的实施例所必需的那些元件。
具体实施例方式
图1表示根据本发明一实施例的编码器11。一多声道音频信号被输入给该编码器。在该实施例中,所述多声道音频信号为具有左声道L和右声道R的立体声音频信号。编码器11具有两个输入一个输入用于左声道信号L,另一个输入用于右声道信号R。可选择的,编码器可具有用于声道L和R的一个输入,在那样的情况下其是以对编码器11多路复用的形式布置的。编码器11从两个声道提取正弦波并确定公共频率fcom。在编码器11中执行的编码处理结果为编码的音频信号。该编码的音频信号包括公共频率fcom和对于每个公共频率fcom例如以最大或平均幅度A和差(德尔塔)幅度ΔA的形式表示的各个声道中的各个幅度。
下面,介绍如何确定公共频率,其中第一实施例利用匹配追踪(matching pursuit),第二实施例利用峰值拾取。
利用“匹配追踪”的实施例该方法是现有的匹配追踪算法的延伸。匹配追踪在现有技术中是已知的。匹配追踪是迭代算法。它将信号发射到从时间-频率波形的冗余字典(dictionary)中选择的一匹配字典元件上。从该信号减去该投射以使其在下次迭代中被近似。因此,在现有的匹配追踪算法中,通过重复确定音频信号的帧的“投射”能谱的峰值、导出对应于该峰值频率的最佳幅度和相位、并在分析的情况下从所述帧提取相应的正弦波来执行参数化过程。该过程被重复进行直到获得音频信号的满意参数化过程。为了在多声道音频信号中导出公共频率,左右声道的能谱被相加并且确定该和能谱的峰值。这些峰值频率被用于确定左右(或更多)声道的最佳幅度和可选择的确定相位。
根据本发明的实用实施例的多声道匹配追踪算法包括步骤将多声道信号分解成短周期(例如,10ms)重叠帧,并且在每个帧上重复的应用下列步骤直到停止准则被满足1.计算多声道帧的每个声道的能谱;2.将能谱相加以获得一公共能谱;3.确定公共“投射”的能谱为最大值时的频率;4.对于在步骤3中确定的频率,对于每个声道,最佳匹配的正弦波的幅度和相位被确定并且存储所有这些参数。使用公共频率结合各个幅度的表示从而利用交叉相关和不相关性对这些参数进行编码;5.从相应的当前多声道帧中减去正弦波以获得用作下一次步骤1中的多声道帧的更新的余数信号。
使用“峰值拾取”的实施例可选择的,可使用峰值拾取,例如包括下列步骤1.计算多声道帧的每个声道的能谱;2.将能谱相加以获得公共能谱;3.确定与能谱内的所有峰值对应的频率;4.对于这些确定的频率,最佳幅度和最佳相位被获得。
图2表示图1的编码器的一个可能实现,其使用声道的公共(相加的)能谱来确定公共频率。在计算单元110中,如上所述的通过使用从L和R声道获得的公共能谱来执行匹配追踪处理或峰值拾取处理。该确定的公共频率fcom被提供给编码单元111。该编码单元确定在给定的公共频率下的各个声道中的正弦波的各个幅度(和优选的确定相位)。
可选择的,各个声道被独立的编码以对于每个声道获得一组参数化的正弦波。之后对于公共频率这些参数被检查。这样的实施例在图3中示出。图3表示图1的编码器11的一个可选择实现。在该实现方式中,编码器11包括两个独立的参数编码器112和113。在这些独立的编码器中获得的参数fL、AL、和fR、AR被提供给进一步的编码单元114,其在这两个参数化的信号中确定公共频率fcom。
对立体声音频信号进行编码的例子假设立体声音频信号被给出具有下列特性

实际上,在各声道之间的幅度差异在给定频率下为+15dB或-15dB的情况下,认为该频率只出现在主声道中。
独立编码下列的参数化过程可被用于对典型的立体声信号进行独立的编码。
L(f,A)=(50,30),(100,50),(250,40),(500,40)R(f,A)=50,20),(100,60),(200,30),(500,35)该参数化过程需要16个参数。
使用公共频率和非公共频率公共频率为50Hz、100Hz和500Hz。对该信号进行编码(Fcom,Amax,ΔA)=(50,30,10),(100,60,-10),(500,40,5)(Fnon-com,A)=(200,-30),(250,40)在该例子中使用公共和非公共频率对典型的立体声音频信号进行编码需要13个参数。与独立编码的多声道信号相比,公共频率的使用减少了编码参数的数量。另外,德尔塔幅度的值小于如在独立编码的多声道信号中给出的绝对值。这进一步减小了比特率。
德尔塔幅度ΔA中的符号确定了主声道(在两个信号之间)。在上面的例子中,正幅度意味着左声道是占支配地位的。该符号还可用于非公共频率表示中以表示该频率对于哪一个信号是有效的。这里可使用相同的协定正幅度被保持(支配的地位)。可选择的能够给出结合不同幅度的平均幅度,或者关于其他声道一贯的给出具有不同幅度的给定声道的幅度。
与使用德尔塔幅度ΔA中的正符号确定主声道相反,也能够使用位流中的比特来指示主声道。这需要一个比特,这也可以是用于符号位的情况。该比特包括在位流中并且用在解码器中。在通过多于两个的声道对音频信号进行编码的情况下,需要1个以上的比特来指示主声道。该实现方式是简单明了的。
仅使用公共频率当只有基于公共频率的表示被使用时,非公共频率被编码使得在那个频率下没有出现正弦波的声道中的公共频率的幅度为零。实际上,对于德尔塔幅度的例如为+15dB或-15dB的值被用于指示在给定的声道中没有出现当前频率的正弦波。德尔塔幅度ΔA中的符号确定了主声道(在两个信号之间)。在该例子中,正幅度意味着左声道占支配地位。
(Fcom,A,ΔA)=(50,30,10),(100,60,-10),(200,30,-15),(250,40,15),(500,40,5)该参数化过程需要15个参数。对于该例子,只使用公共频率与使用公共和非公共频率相比具有较少的优点。
频率平均和差(Fav,ΔF,Aav,ΔA)=(50,0,25,5),(100,0,55,-5),(225,25,35,5),(500,0,30,10)该参数化过程需要16个参数。
这是一个可选择的编码,其中信号中的正弦分量由平均频率和平均幅度表示。很明显同样与该编码策略相比,公共频率的使用是有利的。注意平均频率和平均幅度的使用能被看作是当前申请的范围之外的独立的发明。
注意参数的数量不是严格限制的,但每个参数的比特数对于结果得到的编码音频流的比特率是重要的。在这方面,微分编码对于相关信号分量通常提供比特率的减小。
以公共频率参数和各个幅度(和可选择的各个相位)的表示能被看作是以参数公共频率、平均或最大幅度、平均或最大幅度的相位(可选择的)捕获的单声道表示,和以参数德尔塔幅度和德尔塔相位(可选择的)捕获的多声道扩展。单声道参数能被看作是加入单声道正弦编码器的标准参数。因此,这些单声道参数能被用于产生随后的帧中的正弦波之间的连接,以便根据这些连接对参数进行微分编码和执行相位连续。根据进一步利用双耳倾听特性的上述策略可对另外的、多声道参数进行编码。根据基于单声道参数已经建立的连接也可对德尔塔参数(德尔塔幅度和德尔塔相位)进行微分编码。另外,为了提供可升级的位流,单声道参数可被包括在基本层中,于是多声道参数被包括在增强层中。
在单声道分量的跟踪过程中,价值函数(或类似的度量法)为频率价值、幅度价值和(可选择的)相位价值的结合。对于立体声分量,价值函数可以是公共频率价值、平均或最大幅度价值、相位价值、德尔塔幅度价值和德尔塔相位价值的结合。可选择的,对于立体声分量的价值函数我们可以使用公共频率、各个幅度和各个相位。
优选的,在各个声道中使用公共频率和该频率的各个幅度的表示的正弦波参数化过程被与单声道瞬时参数化过程相结合,例如在WO01/69593-A1(申请人参考号PHNL000120)中所披露的。这可进一步与用于噪音的单声道表示相结合,例如在WO01/88904(申请人参考号PHNL000288)中所述的。
虽然上述实施例的大部分涉及双声道音频信号,扩展至三个或更多个的音频信号是简单明了的。
向已经编码的音频信号附加额外的声道可优先的按如下进行其足以在编码的音频信号中识别出现了额外的声道,并且将额外的声道中出现的公共频率的幅度的表示和非公共频率的幅度表示加到编码的音频信号。相位信息也能可选择的包括在编码的音频信号中。
在一实际实施例中,其它声道的在公共频率下的平均或最大幅度和该最大幅度的平均相位被量化,类似于在公共频率下的对德尔塔幅度和德尔塔相位的各个量化。量化的实际值为公共频率0.5%的分辨率幅度、德尔塔幅度1dB的分辨率相位、德尔塔相位0.25rad的分辨率当与独立的对声道进行编码相比时,所提出的多声道音频编码提供了比特率的降低。
图4表示根据本发明一实施例的系统。该系统包括用于传输或存储已编码音频信号[S]的装置1。装置1包括用于接收至少两个声道的音频信号S的输入单元10。输入单元10可以是天线、麦克风、网络连接,等等。装置1还包括如图1所示的编码器11,其用于通过根据本发明的参数化过程,例如(Fcom,AaV,ΔA)或(fcom,Amax,ΔA)对音频信号S进行编码以获得编码的音频信号。该编码的音频信号参数化过程被提供给输出单元12,其将编码的音频信号转换成用于通过传输介质或存储介质2传输或存储的适当格式[S]。该系统进一步包括一接收器或再现装置3,其在输入单元30中接收编码的音频信号[S]。输入单元30从编码的音频信号[S]提取参数(Fcom,AaV,ΔA)或(fcom,Amax,ΔA)。这些参数被提供给解码器31,其根据接收的参数通过产生具有各个幅度的公共频率来合成解码的音频信号以便获得解码的音频信号S′的两个声道L和R。该两个声道L和R被提供给输出单元32,其提供解码的信号S。输出单元32可以是再现单元,例如用于再现解码的音频信号S的扬声器。输出单元32还可以是用于例如在内部网络等上进一步传输解码的音频信号S的发送器。
应该注意上述实施例只是对本发明进行说明,而非本发明的限制,本领域技术人员在不脱离后附权利要求的范围的情况下可设计出许多可选择实施例。在权利要求中置于括号中的任何参考标记不应构成对权利要求的限制。类似的,所述的单词“包括(comprising)”并不排除出现除在权利要求中所列举的之外的其它元件或步骤。可利用包括若干种类不同的元件的硬件和利用适当编程的计算机来执行本发明。在列举若干装置的设备权利要求中,这些装置中的几个可通过一个和相同产品的硬件来体现。在彼此不同的从属权利要求中陈述的某些测量的纯粹事实并不表示不能有利的利用这些测量的结合。
权利要求
1.一种对至少两个声道的音频信号(L,R)进行编码(11)的方法,该方法包括在所述音频信号的至少两个声道(L,R)中确定(110)公共频率(fcom),该公共频率出现在所述音频信号的至少两个声道的至少两个中;和通过给定公共频率(fcom)的表示和在给定的公共频率下的各个正弦波分量的各个幅度(A,ΔA)的表示来表示在给定的公共频率下的各个声道中的各个正弦分量。
2.如权利要求1所述的方法,其中各个幅度(A,ΔA)的表示包括平均幅度(A)和差幅度(ΔA)。
3.如权利要求1所述的方法,其中各个幅度(A,ΔA)的表示包括最大幅度(A)和差幅度(ΔA)。
4.如权利要求1所述的方法,其中非公共频率被编码作为公共频率,其中幅度表示包括用于指示其中没有出现所述频率的至少一个声道的指示。
5.如权利要求1所述的方法,其中除了公共频率外,非公共频率被独立编码。
6.如权利要求5所述的方法,其中非公共频率以独立的块被集合在编码的视频流中。
7.如权利要求6所述的方法,其中在非公共频率块之前将公共频率集合并包括在编码的音频信号中。
8.如权利要求6所述的方法,其中在公共频率下的正弦分量的参数被包括在基础层中,而在非公共频率下的正弦波的参数包括在增强层中。
9.如权利要求1所述的方法,其中所述方法包括结合所述至少两个声道的各个功率或能量表示以获得公共表示的步骤,其中确定公共频率的步骤是根据所述公共表示执行的。
10.如权利要求9所述的方法,其中所述结合步骤包括将所述至少两个声道的能谱相加,其中所述公共表示为公共能谱。
11.如权利要求1所述的方法,其中频率和幅度参数被包括在基础层中,而德尔塔幅度被包括在增强层中。
12.如权利要求1所述的方法,其中在给定的公共频率下的各个正弦波的各个相位被确定,并且其中在编码的音频信号中包括各个相位的表示。
13.如权利要求12所述的方法,其中各个相位的表示包括平均相位和差相位。
14.如权利要求12所述的方法,其中各个相位的表示包括具有最大幅度的声道的相位,和差相位。
15.如权利要求12所述的方法,其中各个相位的表示仅被包括在具有达到给定阈值频率的频率的正弦波信号中。
16.如权利要求15所述的方法,其中所述给定阈值频率为约2kHz。
17.如权利要求12所述的方法,其中各个相位的表示仅被包括在与至少一个其它声道具有达到给定幅度临界值的幅度差的正弦波信号中。
18.如权利要求17所述的方法,其中给定的幅度临界值为10dB。
19.一种对至少两个声道的音频信号(L,R)进行编码(11)的编码器,该编码器包括用于在所述音频信号的至少两个声道(L,R)中确定(110)公共频率(fcom)的装置,该公共频率出现在所述音频信号的至少两个声道的至少两个中;和用于通过给定公共频率(fcom)的表示和在给定的公共频率下的各个正弦波分量的各个幅度(A,ΔA)的表示来表示在给定的公共频率下的各个声道中的各个正弦分量的装置。
20.一种用于传输或记录的装置(1),该装置包括输入单元(10),用于接收至少两个声道(L,R)的音频信号(S);如权利要求19所述的编码器(11),用于对音频信号(S)进行编码以获得编码的音频信号([S]);和输出单元,用于提供编码的音频信号([S])。
21.一种编码的音频信号([S]),表示一至少两个声道的音频信号(L,R),该编码的音频信号包括公共频率(fcom)的表示,该公共频率表示出现在所述音频信号([S])的至少两个声道的至少两个中的频率;和对于一给定公共频率(fcom),表示在所述给定公共频率下的各个声道中的各个正弦分量的各个幅度(A,ΔA)的表示。
22.一种在其上存储有如权利要求21所述的信号的存储介质。
23.一种对编码的音频信号([S])进行解码的方法,该方法包括接收(31)表示至少两个声道的音频信号(L,R)的编码音频信号([S]),该编码的音频信号包括公共频率(fcom)的表示,该公共频率表示出现在所述音频信号([S])的至少两个声道的至少两个中的频率,和对于一给定公共频率(fcom),表示在所述给定公共频率下的各个声道中的各个正弦分量的各个幅度(A,ΔA)的表示,在至少两个声道上(L,R)产生在各个幅度下的公共频率以获得解码的音频信号(S)。
24.一种对编码的音频信号([S])进行解码的解码器,该解码器包括用于接收表示至少两个声道的音频信号(L,R)的编码音频信号([S])的装置(31),该编码的音频信号包括公共频率(fcom)的表示,该公共频率表示出现在所述音频信号([S])的至少两个声道的至少两个中的频率,和对于一给定公共频率(fcom),表示在所述给定公共频率下的各个声道中的各个正弦分量的各个幅度(A,ΔA)的表示,在至少两个声道上(L,R)产生在各个幅度下的公共频率以获得解码的音频信号(S)的装置(31)。
25.一种接收器或再现装置(3),该装置包括输入单元(30),用于接收编码的音频信号([S]),如权利要求24所述的解码器,对所述的编码音频信号([S])进行解码以获得解码的音频信号([S]),和输出单元(32),用于提供解码的音频信号([S])。
全文摘要
本发明提供对至少两个声道的音频信号(L,R)进行的编码,该编码是通过确定音频信号的至少两个声道(L,R)中的公共频率(f
文档编号G10L19/08GK1705980SQ03804062
公开日2005年12月7日 申请日期2003年1月17日 优先权日2002年2月18日
发明者S·L·J·D·E·范德帕尔, A·G·科赫劳斯奇, A·C·登布林克, E·G·P·舒伊杰斯, N·H·范施恩德 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1