音频编码的制作方法

文档序号:2821080阅读:194来源:国知局
专利名称:音频编码的制作方法
技术领域
本发明涉及音频编码。
背景技术
在传统的基于波形的音频编码方案、如MPEG-LII、mp3和AAC(MPEG-2高级音频编码)中,通过把两个单声道音频信号编码为一个比特流来对立体声信号编码。但是,通过以诸如中/侧立体声编码和强度编码之类的技术利用信道间相关性和不相关性,可进行比特率节省。
在中/侧立体声编码的情况下,具有大量单声道内容的立体声信号可分为和M=(L+R)/2以及差S=(L-R)/2信号。这个分解有时与主要分量分析或时变比例因子结合。然后,通过参数编码器或者波形编码器(例如变换或子带编码器)独立地将这些信号编码。对于某些频率范围,这种技术可能为M或S信号产生略高的能量。但是,对于某些频率范围,可为M或S信号获得能量的显著减少。通过这种技术得到的信息量减少主要取决于源信号的空间属性。例如,如果源信号为单声道的,则差信号为零并且可被丢弃。但是,如果左和右音频信号的相关性很低(对于较高频率范围,常常是这样),则这个方案几乎未提供优点。
在强度立体声编码的情况下,对于某些频率范围,仅一个信号I=(L+R)/2与L和R信号的强度信息一起编码。在解码器侧,在利用对应的强度信息对这个信号I进行缩放之后将其用于L和R信号。在这种技术中,高频(通常在5kHz以上)由单一音频信号(即单声道)表示,与时变和频率相关比例因子结合。
音频信号的参数描述在过去数年中已经受到关注,尤其是在音频编码领域。已经表明,描述音频信号的传输(量化)参数只要极少的传送容量在接收端重新合成感觉相等的信号。但是,当前的参数音频编码器重点放在对单声道信号编码,而立体声信号则常常作为双单声道来处理。
EP-A-1107232公开一种产生由左声道信号和右声道信号组成的立体声音频信号的表示的参数编码方案。为了有效地利用传输带宽,这种表示包含仅与或者是左声道信号或者是右声道信号的单声道信号有关的信息以及参数信息。另一个立体声信号可根据单声道信号结合参数信息来恢复。参数信息包含立体声音频信号的定位线索,包括左右声道的强度和相位特性。
在双声道立体声编码中,与强度立体声编码相似,仅对一个单声道进行编码。附加侧信息保存参数以便检索左、右信号。2002年4月提交的欧洲专利申请第02076588.9号(代理人档案号PHNL020356)公开了多声道音频的参数描述,它涉及Breebaart等人在以下文献中提出的双声道处理模型“Binaural processing model based oncontralateral inhibition.I.Model setup”,J.Acoust.Soc.Am.,110,1074-1088,2001年8月;“Binaural processing model based on contralateralinhibition.II.Dependence on spectral parameters”,J.Acoust.Soc.Am.,110,1089-1104,2001年8月;以及“Binaural processing model based oncontralateral inhibition.III.Dependence on temporal parameters” ,J.Acoust.Soc.Am.,110,1105-1117,2001年8月,公开了一种双声道处理模型。这包括把输入音频信号分为若干限带信号,它们按照(等效矩形带宽)ERB速率比例来线性间隔。这些信号的带宽取决于中心频率,跟随ERB速率。随后,对于每个频带,分析输入信号的以下属性由出自左、右耳的限带信号的相对电平所定义的耳间电平差(ILD),
耳间时间(或相位)差(ITD或IPD),由对应于耳间互相关函数中的峰值的耳间延迟(或相移)来定义,以及无法通过ITD或ILD说明的波形相似性(相异性),可通过最大耳间互相关(即在最大峰值的位置的互相关值)来参数化。因此,从以上公开中知道,任何多声道音频信号的空间属性可通过指定ILD、ITD(或IPD)以及最大相关、作为时间和频率的函数来描述。
这种参数编码技术为一般的音频信号提供相当优良的质量。但是,特别是对于具有较高不稳定性能的信号,例如响板、大键琴、钟琴等,该技术就会遇到前回声人工信号。
本发明的一个目的是提供一种音频编码器和解码器以及相应的方法,它们减少与参数多声道编码有关的人工信号。
发明公开根据本发明,提供一种如权利要求1所述的对音频信号编码的方法以及一种如权利要求13所述的对比特流解码的方法。
根据本发明的一个方面,对多声道音频信号的空间属性进行参数化。空间属性最好包括左右信号之间的电平差、时间差以及相关性。
利用本发明,瞬态位置直接或间接地从单声道信号中提取,并链接到参数多声道表示层。在参数多声道层中利用这个瞬态信息提供提高的性能。
普遍认为,在许多音频编码器中,用瞬态信息来指导编码过程以取得更好的性能。例如,在WO01/69593-A1中所述的正弦编码器中,瞬态位置被编码到比特流中。编码器可把这些瞬态位置用于比特流的自适应分段(自适应组帧)。另外,在解码器中,这些位置可用来指导正弦和噪声合成的开窗。但是,这些技术一直局限于单声道信号。
在本发明的优选实施例中,在对已经由这种正弦编码器产生了单声道内容的比特流进行解码时,瞬态位置可直接从比特流中得出。
在波形编码器、如mp3和AAC中,瞬态位置不是直接编码在比特流中;而是假定例如在mp3的情况下,通过在单声道层中交换到更短的窗口长度(窗口交换)来标记瞬态间隔,因此可根据例如mp3窗口交换标志等参数来估算瞬态位置。
附图简介下面将通过实例,参照附图来描述本发明的优选实施例,附图中

图1是示意图,说明根据本发明的一个实施例的编码器;图2是示意图,说明根据本发明的一个实施例的解码器;图3表示编码在单声道信号的各个子帧以及多声道层的对应帧中的瞬态位置;以及图4表示来自单声道编码层的瞬态位置用于对参数多声道层解码的实例。
优选实施例说明现在参照图1,图中表示根据本发明的一个优选实施例的编码器10,它用于对包含左(L)和右(R)输入信号的立体声音频信号编码。在优选实施例中,如2002年4月提交的欧洲专利申请第02076588.9号(代理人档案号PHNL020356)中所述,编码器用以下各项描述多声道音频信号一个单声道信号12,包括多个输入音频信号的组合,以及对于各个附加声道,一组空间参数14包括最好是用于每个时间/频率间隙的两个定位线索(ILD和ITD或IPD)以及描述无法通过ILD和/或ITD说明的波形相似性或相异性(例如互相关函数的最大值)的参数(r)。
空间参数集可被音频编码器用作增强层。例如,如果仅允许低比特率,则传送单声道信号,同时,通过包含空间增强层,解码器可再现立体声或多声道声音。
可以看到,虽然在本实施例中,一个空间参数集与单声道(单一信道)音频编码器结合,以便对立体声音频信号编码,但整体思想可应用于n声道音频信号,其中n>1。因此,如果传送(n-1)个空间参数集,则本发明原则上可用于从一个单声道信号产生n个声道。在这些情况下,空间参数描述如何从单一单声道信号形成n个不同的音频声道。因此,在解码器中,通过将空间参数的后续集与单声道编码信号结合,得到后续声道。
分析方法一般来说,编码器10包括相应的变换模块20,它把各输入信号(L,R)分为子带信号16(最好是采用随频率而增加的带宽)。在优选实施例中,模块20采用开时间窗,然后是变换运算,从而执行时间/频率分片,但是也可使用时间连续方法(例如滤波器组)。
确定和信号12以及提取参数14的后续步骤在分析模块18中执行,并且包括求出对应子带信号16的电平差(ILD),求出对应子带信号16的时间差(ITD或IPD),以及描述无法通过ILD或ITD说明的波形相似性或相异性的量。
ILD的分析ILD由对于给定频带在某个时刻的信号的电平差来确定。确定ILD的一种方法是测量两个输入声道的对应频带的均方根值,以及计算这些均方根值的比率(最好以dB表示)。
ITD的分析ITD通过提供两个声道的波形之间最佳匹配的时间或相位对准来确定。获得ITD的一种方法是计算两个对应子带信号之间的互相关函数并找出最大值。与互相关函数中这个最大值对应的延迟可用作ITD值。
第二种方法是计算左右子带的分析信号(即计算相位和包络值),以及使用声道之间的相位差作为IPD参数。这里,采用复合滤波器组(例如FFT),通过查看某个仓位(频率范围),可随时间过去而得出相位函数。通过对左右声道进行这个操作,可估算相位差IPD(而不是把两个滤波后信号互相关)。
相关性的分析通过首先找出提供对应子带信号之间最佳匹配的ILD和ITD,然后在对ITD和/或ILD补偿之后再测量波形的相似性,得到相关性。因此,在这个构架中,相关性被定义为无法归因于ILD和/或ITD的对应子带信号的相似性或相异性。此参数的适当量度是互相关函数的最大值(即一组延迟中的最大值)。但是,也可采用其它量度,例如ILD和/或ITD补偿之后的差信号与对应子带的和信号(最好也对ILD和/或ITD进行了补偿)相比的相对能量。这个差值参数基本上是(最大)相关性的线性变换。
参数量化参数传输的一个重要问题是参数表示的准确度(即量化误差的大小),它与必需的传输容量和音频质量直接相关。在这个部分,将论述关于空间参数的量化的若干问题。基本思想是让量化误差基于空间线索的所谓的恰可察觉差异(JND)。更明确地说,量化误差由人的听觉系统对参数变化的灵敏度来决定。由于众所周知,对参数变化的灵敏度很大程度上取决于参数本身的值,因此应用以下方法来确定离散量化步长。
ILD的量化通过心理声学研究得知,对ILD变化的灵敏度取决于ILD本身。如果ILD以dB表示,则与0dB参考的大约1dB的偏差是可检测的,而如果参考电平差达到20dB,则要求大约3dB的变化。因此,如果左右声道的信号具有较大的电平差,则量化误差可以较大。例如,可通过首先测量声道之间的电平差,然后再对所得电平差进行非线性(压缩)变换以及随后的线性量化过程,或者通过利用查找表找到具有非线性分布的可用ILD值,从而应用这个方法。在优选实施例中,ILD(单位为dB)被量化为来自以下集合I的最接近值I=[-19-16-13-10-8-6-4-2 0 2 4 6 8 10 13 16 19]ITD的量化人类主体对ITD变化的灵敏度可表征为具有恒定相位门限。这意味着,在延迟时间方面,ITD的量化步长应当随频率而减小。或者,如果ITD以相位差的形式表示,则量化步长应当与频率无关。实现这一点的一个方法是把固定相位差作为量化步长,并确定各频带的相应时延。这个ITD值则被用作量化步长。在优选实施例中,ITD量化步长由0.1弧度(rad)的各子带中的恒定相位差来确定。因此,对于各子带,对应于子带中心频率的0.1弧度的时间差被用作量化步长。对于2kHz以上的频率,没有传送任何ITD信息。
另一种方法是传送按照频率无关量化方案的相位差。大家还知道,在某个频率以上,人的听觉系统不易感受精细结构波形中的ITD。可通过仅传送一直到某个频率(通常为2kHz)的ITD参数来利用这个现象。
比特流减小的第三种方法是结合取决于ILD和/或相同子带的相关性参数的ITD量化步长。对于大ILD,可对ITD以较低精确度进行编码。此外,如果相关性极低,则已知人对ITD变化的灵敏度减小。因此,如果相关性小,则可应用更大的ITD量化误差。这种思想的一个极端实例是,如果相关性低于一定的门限,则根本不传送任何ITD。
相关性的量化相关性的量化误差取决于(1)相关值本身,以及可能(2)取决于ILD。接近+1的相关值以高精确度进行编码(即小量化步长),而接近0的相关值则以低精确度进行编码(即大量化步长)。在优选实施例中,一组非线性分布的相关值(r)被量化为以下集合R的最接近值R=[1 0.95 0.9 0.82 0.75 0.6 0.3 0]以及这对每个相关值耗用另外3位。
如果当前子带的(量化)ILD的绝对值达到19dB,则对于此子带,不传送任何ITD和相关值。如果某个子带的(量化)相关值等于零,则对该子带不传送任何ITD值。
这样,各帧要求最多233位来传送空间参数。对于1024个样本的更新帧长以及44.1kHz的采样率,传输的最大比特率低于10.25千比特/秒[233*44100/1024=10.034千比特/秒]。(应当指出,利用熵编码或差分编码,这个比特率还可进一步减小。)第二种可能性是使用取决于相同子带的测量ILD的相关性的量化步长对于大ILD(即一个声道在能量上占主导地位),相关性中的量化误差变得较大。这个原理的一个极端实例是,如果某个子带的IID的绝对值超过某个门限,则根本不传送那个子带的任何相关值。
详细实现更具体来说,在模块20中,左右输入信号被分离为各种时间帧(44.1kHz采样率的2048个样本)以及采用平方根汉宁窗进行开窗。随后计算FFT。负FFT频率被丢弃,以及所得FFT被细分为FFT仓位的组或子带16。组合成子带g的FFT仓位的数量取决于频率在较高频率上比在较低频率上组合更多仓位。在当前实现中,对应于大约1.8ERB的FFT仓位被组成组,产生20个子带以表示整个可听的频率范围。各后续子带的所得FFT仓位数量S[g](从最低频率开始)为S=[4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]这样,前三个子带包含4个FFT仓位、第四个子带包含5个FFT仓位等等。对于各子带,分析模块18计算对应的ILD、ITD及相关性(r)。ITD和相关性仅通过把属于其它组的所有FFT仓位设置为零、把来自左右声道的所得(限带)FFT相乘、然后进行FFT逆变换来计算。扫描所得的互相关函数,寻找-64与+63样本之间的声道间延迟中的峰值。对应于该峰值的内部延迟被用作ITD值,此峰值处的互相关函数的值被用作这个子带的声道间相关值。最后,仅通过取各子带的左右声道的功率比来计算ILD。
和信号的产生分析器18包含和信号生成器17,它在对信号求和之前对左右子带执行相位校正(时间对准)。这个相位校正是根据该子带的所计算ITD得出的,并包括把左声道子带延迟ITD/2以及把右声道子带延迟-ITD/2。通过适当修改各FFT仓位的相位角在频域中执行该延迟。然后,通过相加左右子带信号的相位修改后形式来计算和信号。最后,为了补偿不相关或相关加法,和信号的各子带与sqrt(2/(1+r))、与对应子带的相关性(r)相乘以产生最终的和信号12。必要时,和信号可通过以下方式转换到时域(1)在负频率上插入复共轭,(2)逆FFT,(3)开窗,以及(4)叠加。
如上所述,给定时域和/或频域中的和信号12的表示,信号可以任何数量的传统方式编码在比特流50的单声道层40中。例如,mp3编码器可用来产生比特流的单声道层40。当这种编码器检测到输入信号的快速变化时,它可改变它用于那个特定时间周期的窗口长度,从而在对输入信号的那个部分编码时改进时间和/或频率定位。然后,窗口交换标志被嵌入比特流中,以便向稍后合成信号的解码器指明这个交换。为了本发明的目的,这个窗口交换标志被用作输入信号中瞬态位置的估算值。
但是,在优选实施例中,WO01/69593-A1中所述类型的正弦编码器30被用来产生单声道层40。编码器30包括瞬态编码器11、正弦编码器13以及噪声编码器15。
当信号12进入瞬态编码器11时,对于各更新间隔,编码器估算在分析窗口内是否存在瞬态信号分量及其位置(到样本精确度)。如果瞬态信号分量的位置被确定,则编码器11尝试提取瞬态信号分量(的主要部分)。它通过采用例如几个(少量)正弦分量把形状函数与最好是从估算的开始位置开始的信号段进行匹配,以及确定形状函数下的内容,并把这个信息包含在瞬态编码CT中。
减去瞬态分量的和信号12被提供给正弦编码器13,在其中对它进行分析以确定(确定性)正弦分量。简言之,正弦编码器把输入信号编码为从一个帧段链接到下一个的正弦分量的轨迹。这些轨迹最初由在给定段中开始的正弦的开始频率、开始幅度以及开始相位表示(诞生)。此后,轨迹在后续段中由频率差、幅度差以及可能的相位差(连续)表示,直到轨迹在其中结束的段为止(死去),以及把这个信息包含在正弦代码CS中。
减去瞬态和正弦分量的信号被假定为主要包含噪声,以及优选实施例的噪声分析器15产生表示这个噪声的噪声代码CN。按照传统方法,例如WO01/89086-A1中所述,噪声的频谱由噪声编码器根据等效矩形带宽(ERB)比例、采用组合的AR(自回归)MA(移动平均)滤波器参数(pi,qi)来建模。在解码器中,滤波器参数被馈入噪声合成器,噪声合成器主要是具有近似于噪声频谱的频率响应的滤波器。合成器通过采用ARMA滤波参数(pi,qi)对白噪声信号进行滤波来产生重构噪声,以及随后把它加入合成的瞬态和正弦信号,从而产生原始和信号的估算值。
多路复用器41产生单声道音频层40,它分为帧42,这些帧表示长度为16ms的重叠时间段以及每8ms被更新,如图4所示。各帧包含相应代码CT、CS和CN,以及在解码器中,当合成单声道和信号时,连续帧的代码在其重叠区域中被混合。在本实施例中,假定各帧仅可包含最多1个瞬态代码CT,这种瞬态的一个实例由标号44表示。
空间参数集的生成分析器18还包括空间参数层生成器19。这个组件对各空间参数帧执行空间参数量化,如上所述。一般来说,生成器19把各空间层声道14分为帧46,这些帧表示长度为64ms的重叠时间段以及每32ms被更新,如图4所示。各帧包含相应的ILD、ITD或IPD以及相关系数,而在解码器中,当合成信号时,连续帧的值在其重叠区域中被混合,以便确定任何给定时间的空间层参数。
在优选实施例中,瞬态编码器11在单声道层40中(或者由对应分析器模块在和信号12中)检测的瞬态位置由生成器19用来确定是否需要空间参数层14中的不均匀时间分段。如果编码器正使用mp3编码器产生单声道层,则单声道流中的窗口交换标志的存在由生成器用作瞬态位置的估算值。
参照图4,生成器19可接收瞬态44需要被编码在与要为其产生帧的空间参数层的时间窗口对应的单声道层的后续帧之一中的指示。可以看到,由于各空间参数层包含表示重叠时间段的帧,因此对于任何给定时间,生成器将对于每个空间参数层产生两帧。在任何情况下,生成器继续对表示瞬态位置周围的较短长度窗口48的帧产生空间参数。应当指出,这个帧将与正常空间参数层帧的格式相同,并以同样方式计算,但它涉及瞬态位置44周围的较短时间窗口。这个短窗口长度帧为多信道图像提供增加的时间分辨率。然后,在瞬态窗口帧之前和之后原本已产生的帧用来表示特殊瞬态窗口47、49,它们把短瞬态窗口48连接到正常帧表示的窗口46。
在优选实施例中,表示瞬态窗口48的帧是空间表示层比特流14中的附加帧,但是,由于瞬态很少出现,所以它对整体比特率增加极少。不过关键的是,读取利用优选实施例产生的比特流的解码器考虑这个附加帧,否则单声道和空间表示层的同步将会受到损害。
在本实施例中还假定,由于瞬态很少出现,使得正常帧46的窗口长度中只有一个瞬态可能与空间参数层表示相关。即使在正常帧的周期中确实出现两个瞬态,也假定不均匀分段将出现在第一瞬态周围,如图3所示。这里,表示了三个瞬态44,它们编码在相应的单声道帧中。但是,正是第二瞬态而不是第三瞬态将用来表明,表示相同时间周期的空间参数层帧(表示在这些瞬态之下)应当用作第一瞬态窗口,在由编码器插入的附加空间参数层帧得出的瞬态窗口之前,以及其后又跟随表示第二瞬态窗口的帧。
但有可能的是,并非单声道层中编码的所有瞬态位置对于空间参数层都是相关的,如图3中的第一瞬态44的情况那样。因此,单声道或者空间表示层的比特流语法可包括对于空间表示层是相关或不相关的瞬态位置的指示符。
在优选实施例中,正是生成器19通过考察从围绕瞬态位置44的较大窗口(例如1024个样本)得出的估算空间参数(ILD、ITD及相关性(r))与从围绕瞬态位置的较短窗口48得出的那些参数之间的差,确定对于空间表示层的瞬态的相关性。如果在来自短和粗略时间间隔的参数之间存在明显变化,则在瞬态位置周围估算的额外空间参数被插入表示短时间窗口48的附加帧中。如果存在极少差异,则没有选择瞬态位置以用于空间表示中,以及指示相应地被包含在比特流中。
最后,一旦已经产生单声道40和空间表示14层,它们又由多路复用器43写入比特流50。这个音频流50又被提供给例如数据总线、天线系统、存储媒体等。
合成现在参照图2,解码器60包括多路分离器62,它把输入音频流50分为单声道层40’以及在这种情况下的单一空间表示层14’。单声道层40’由对应于产生了该层的编码器的传统合成器64读取,从而提供原始和信号12’的时域估算。
然后,多路分离器62提取的空间参数14’由后处理模块66应用于和信号12’,以产生左右输出信号。优选实施例的后处理模块还读取单声道层14’信息,以便在这个信号中定位瞬态的位置。(或者,合成器64可向后处理器提供这种指示;但是,这将要求对其它方式的传统合成器64略作修改。)在任何情况下,当后处理器检测到与待处理的空间参数层14’的帧的正常时间窗口对应的单声道层帧42内的瞬态44时,它知道这个帧表示短瞬态窗口48之前的瞬态窗口47。后处理器知道瞬态44的时间位置,因此知道该瞬态窗口之前的瞬态窗口47的长度,还知道瞬态窗口48之后的瞬态窗口49的长度。在优选实施例中,后处理器66包括混合模块68,在合成空间表示层时,它对于窗口47的第一部分混合窗口47的参数与前一帧的那些参数。从当时直到瞬态窗口48的开始,只有表示窗口47的帧的参数用于合成空间表示层。对于瞬态窗口48的第一部分,瞬态窗口47和瞬态窗口48的参数被混合,以及对于瞬态窗口48的第二部分,瞬态窗口49和瞬态窗口48的参数被混合,等等,直到瞬态窗口49的中间为止,此后,帧间混合照常继续进行。
如上所述,在任何给定时间所用的空间参数是两个正常窗口46帧的参数的混合,正常46和瞬态帧47、49的参数的混合,单独的瞬态窗口帧47、49的参数,或者瞬态窗口帧47、49的参数与瞬态窗口帧48的参数的混合。利用空间表示层的语法,模块68可选择表明空间表示层的不均匀时间分段的那些瞬态,以及在这些适当的瞬态位置上,短长度瞬态窗口提供多信道图像的更好的时间定位。
在后处理器66内,假定如分析部分中所述的,和信号12’的频域表示可用于处理。这个表示可通过对合成器64产生的时域波形进行分窗和FFT运算来获得。然后,和信号被复制到左、右输出信号通路。随后,左和右信号之间的相关性通过去相关器69’、69”利用参数r进行修改。关于这如何可实现的详细描述,参照标题为“信号合成”、2002年7月12日提交、D.J.Breebaart为第一发明人的欧洲专利申请(我方参考号PHNL020639)。该欧洲专利申请公开了一种从输入信号合成第一和第二输出信号的方法,该方法包括对输入信号滤波以产生滤波信号、得到相关性参数、得到指示第一和第二输出信号之间预期电平差的电平参数、以及通过矩阵运算把输入信号和滤波信号变换为第一和第二输出信号,其中矩阵运算取决于相关性参数和电平参数。随后,在各级70’、70”,给定对应该子带的(量化)ITD,左信号的各子带被延迟-ITD/2,右信号被延迟ITD/2。最后,左和右子带根据该子带的ILD在各级71’、71”中被缩放。然后,各变换级72’、72”通过执行以下步骤把输出信号转换到时域(1)在负频率上插入复共轭,(2)逆FFT,(3)开窗,以及(4)叠加。
已经就产生作为两个信号的组合的单声道信号(主要在只有单声道信号用于解码器的情况下)描述了解码器和编码器的优选实施例。但应当看到,本发明不限于这些实施例,以及单声道信号可相当于单一输入和/或输出信道,其中空间参数层被应用于这个信道的相应副本以产生附加的信道。
可以看出,本发明可通过专用硬件、运行于DSP(数字信号处理器)或通用计算机上的软件来实现。本发明可包含在携带用于执行根据本发明的编码方法的计算机程序的实际媒体、如CD-ROM或DVD-ROM中。本发明还可作为通过例如因特网等数据网传送的信号、或者作为通过广播服务传送的信号来实施。本发明特别适用于以下领域因特网下载,因特网无线电台,固态音频(SSA),带宽扩展方案,例如mp3PRO、CT-aacPlus等(参见www.codingtechnologies.com)以及大部分音频编码方案。
权利要求
1.一种对音频信号编码的方法,所述方法包括产生单声道信号,分析至少两个音频信道的空间特性以得到连续时隙的一个或多个空间参数集,响应在给定时间包含瞬态的所述单声道信号,为包含所述瞬态时间的周期确定所述空间参数集的不均匀时间分段,以及产生包含所述单声道信号和所述一个或多个空间参数集的编码信号。
2.如权利要求1所述的方法,其特征在于,所述单声道信号包括至少两个输入音频信道的组合。
3.如权利要求1所述的方法,其特征在于,采用参数正弦编码器来产生所述单声道信号,所述编码器产生与所述单声道信号的连续时隙对应的帧,至少一部分所述帧包含表示在所述帧表示的相应时隙中出现的瞬态的参数。
4.如权利要求1所述的方法,其特征在于,采用波形编码器产生所述单声道信号,所述编码器为包含所述瞬态时间的周期确定所述单声道信号的不均匀时间分段。
5.如权利要求4所述的方法,其特征在于,所述波形编码器是mp3编码器。
6.如权利要求1所述的方法,其特征在于,所述空间参数集包括至少两个定位线索。
7.如权利要求6所述的方法,其特征在于,所述空间参数集还包括描述无法通过所述定位线索说明的波形的相似性或相异性的参数。
8.如权利要求7所述的方法,其特征在于,所述参数为互相关函数的最大值。
9.一种用于对音频信号编码的编码器,所述编码器包括用于产生单声道信号的部件,用于分析至少两个音频信道的空间特性以得到连续时隙的一个或多个空间参数集的部件,响应在给定时间包含瞬态的所述单声道信号、用于为包含所述瞬态时间的周期确定所述空间参数集的不均匀时间分段的部件,以及用于产生包含所述单声道信号和所述一个或多个空间参数集的编码信号的部件。
10.一种用于提供音频信号的设备,所述设备包括用于接收音频信号的输入端,用于对所述音频信号编码以得到编码音频信号的如权利要求9所述的编码器,以及用于提供所述编码音频信号的输出端。
11.一种编码音频信号,所述信号包括单声道信号,包含在给定时间在所述单声道信号中出现的瞬态的至少一个指示;以及用于所述信号的连续时隙的一个或多个空间参数集,所述空间参数集为包含所述瞬态时间的周期提供音频信号的不均匀时间分段。
12.一种存储媒体,其中已经存储如权利要求11所述的编码信号。
13.一种对编码音频信号解码的方法,所述方法包括从所述编码音频信号得到单声道信号,从所述编码音频信号得到一个或多个空间参数集,以及响应在给定时间包含瞬态的所述单声道信号,为包含所述瞬态时间的周期确定所述空间参数集的不均匀时间分段,以及把所述一个或多个空间参数集应用于所述单声道信号以产生多信道输出信号。
14.一种用于对编码音频信号解码的解码器,包括用于从所述编码音频信号得到单声道信号的部件,用于从所述编码音频信号得到一个或多个空间参数集的部件,以及响应在给定时间包含瞬态的所述单声道信号、用于为包含所述瞬态时间的周期确定所述空间参数集的不均匀时间分段的部件,以及用于把所述一个或多个空间参数集应用于所述单声道信号以产生多信道输出信号的部件。
15.一种用于提供解码音频信号的设备,所述设备包括用于接收编码音频信号的输入端,用于对所述编码音频信号解码以得到多信道输出信号的如权利要求14所述的解码器,用于提供或再现所述多信道输出信号的输出端。
全文摘要
在双声道立体声编码中,仅对一个单声道进行编码。附加层保存参数以便检索左、右信号。公开一种编码器,它把从单声道编码信号提取的瞬态信息链接到参数多声道层,从而提供增加的性能。瞬态位置可以直接从比特流中得到,或者也可从其它编码参数(例如mp3中的窗口交换标志)中估算。
文档编号G10L19/008GK1669358SQ03816440
公开日2005年9月14日 申请日期2003年7月1日 优先权日2002年7月16日
发明者E·G·P·舒杰斯, A·W·J·奥门 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1