一种用于参数立体声编码的空间参数选取方法

文档序号:2837089阅读:545来源:国知局
专利名称:一种用于参数立体声编码的空间参数选取方法
技术领域
本发明属于音频编码领域,特别涉及一种用于参数立体声编码,根据人耳 的空间听觉特性和参数码率分频带选择空间参数的方法。
技术背景参数立体声是一种建立在空间心理声学基础上的立体声编码方法。它最大 特点是仅对一路主信号(又称为下混信号)进行编码,同时从立体声信号中分 离出空间信息并参数化表示(又称为空间参数信息)。下混信号是左右两路信号 在时域或频域的数学平均值或平均值再乘以适当的增益系数得到的。相对于传统的立体声编码方法,如MP3 (MPEG-1 Layer III)和AAC (Advanced Audio Coding) 等对左右两路信号分别编码的方法,参数立体声在保持立体声音效的同时大大 降低了编码码率,因为空间参数信息的编码码率通常远低于主信号的编码码率, 而主信号的编码码率与左右两路中每一路的编码码率基本一致。根据空间心理声学,参数化的空间信息主要表现为三个方面耳间时间差 (Interaural Time Difference, ITD)或等价的耳间相位差(Interaural Phase Difference, IPD),耳间强度差(Interaural Intensity Difference, ILD), 以及耳间相关度(Interaural Coherence, IC)。人类听觉系统对声源空间位置 以及声场特性的感知主要取决于ITD、 ILD和IC这三个参数。现有的参数立体声编码方案,如C. Faller等人提出的双耳线索编码 (Binaural Cue Coding, BCC)和J. Breebaart等人提出的参数立体声编码 (Parametric Stereo, PS),都提取了这三个参数表示空间信息。它们首先进行 时频变换,如离散傅立叶变换(Discrete Fourier Transform, DFT)或混合正交 镜像滤波器组(Hybrid Quadrature Mirror Filterbank, HQMF),然后依据人耳 听觉特性将变换后的信号频谱非均匀划分为连续不重叠的子带,并提取左右两 路信号在每个子带的ITD、 ILD和IC参数。单一的提取模式会带来潜在的空间 音效失真,上述两种方案为了解决这一问题,在低频都采用了细分子带的方法, 但是该方法的空间参数数量也相应的增加,相应增加了编解码系统延时,降低 了立体声信号压縮的效率。 发明内容本发明的目的在于解决现有参数立体声编码屮固定的空间参数选择带来的 编码效率下降问题,基于空间心理声学,提出一种根据频带选择空间参数的方 法,进一歩提高参数立体声编码效率。本发明的解决方案包括以下步骤对立体声信号分段进行时频变换;在频 域将信号按频率划分成三个频段,即低频段、中频段和高频段;根据耳间时间 差、耳间强度差、和耳间相关度的空间听觉重要性和参数码率,为每个频段从 中选取一种以上空间参数;从立体声信号中分离出空间信息,采用选取的空间 参数表示相应频段立体声信号空间信息。而且,当空间参数码率为低码率时,低频段选取的空间参数为耳间时间差和 耳间相关度;中频段选取的空间参数为耳间强度差和耳间相关度;高频段选取 的空间参数为耳间强度差。而且,当空间参数码率为高码率时,低频段选取的空间参数为耳间时间差、 耳间强度差、和耳间相关度;中频段选取的空间参数为耳间强度差和耳间相关
度;高频段选取的空间参数为耳间强度差和耳间相关度。而且,低频段、中频段和高频段分别对应20 1600Hz、 1600 10000Hz和 10000 16000Hz。而且,空间参数的低码率和高码率分界点根据参数立体声编码器采用的参 数量化及熵编码方式确定。采用本发明实现参数立体声编码时,在立体声信号各个频段上都不需要传送对空间听觉不重要的参数,因此可以在保证立体声音质的同时降低参数码率;或者将更多的码率用于空间听觉敏感参数的编码,以提高立体声音质。因为不同的空间参数码率反映了量化误差的大小,进而反映到立体声空间信息重建的准确度,本发明还提供了在不同码率情况下的参数选择方案,进一步保证了立 体声音质。


图1人耳立体声空间听觉模型;图2空间参数的听觉重要性与频率及码率的关系示意图; 图3本发明实施例的空间参数测试系统; 图4本发明实施例的分频带参数选取示意图; 图5本发明实施例的分频带参数提取系统; 图6本发明实施例的分频带参数提取流程。
具体实施方式
本发明提出一种根据频带选择空间参数的方法,包括以下步骤对立体声 信号分段进行时频变换;在频域将信号按频率划分成三个频段,即低频段、中 频段和高频段;根据耳间时间差、耳间强度差、和耳间相关度的空间听觉重要性和参数码率,为每个频段从中选取一种以上空间参数;从立体声信号中分离 出空间信息,采用选取的空间参数表示相应频段立体声信号空间信息。本发明 所称的一种以上空间参数包括只有一种空间参数的情况。空间心理声学指出,人耳空间定位所依赖的空间线索参数在不同的频带有不同的重要程度。例如,在低于1.6KHz时,空间定位主要依赖于双耳的耳间时 间差ITD;在高于1. 6KHz时,空间定位主要依赖于双耳强度差ILD及信号的包 络延时。因此本发明提出不同的频带提取不同空间线索,以提高空间音效并降 低空间参数的比特率。现有的空间参数提取采用单一的模式,即在不同频带都 提取相同的参数,BCC和PS等现有参数立体声编码方案的都没有考虑ITD、 ILD 和IC对空间听觉的影响的频率相关性。而本发明创造性地分段选用不同空间参 数组合。而空间参数主要包括耳间时间差ITD、耳间强度差ILD和耳间相关度 IC。前两个参数描述声源的位置,其物理实质是声波经不同路径传播到左右耳 造成的距离差;IC是对左右耳到达声相关性大小的度量,描述声源的宽度。对 ITD和ILD数值的调整,将产生不同听觉位置感;对IC数值的调整,将产生不 同的听觉宽度感。因此人耳的立体声空间听觉可以用一个双入双出的模型表示 (参见附图1提供的人耳立体声空间听觉模型)。首先左耳入声和右耳入声被分 离为若干听觉单元或声像;然后分析每个声源1…N在左右耳入声中的异同,获 取ITD1…N、 ILD1…N和IC1…N这三种参数;最后将ITD1…N和ILD1…N映射 成声像方位1…N,将IC1…N映射成声像宽度1…N。值得注意的是,本领域中 耳间时间差工TD与耳间相位差IPD是等价的,因此本发明的保护范围包括用耳 间相位差IPD替换耳间时间差ITD的情况。由于人耳空间听觉有限的敏感程度,就单一的空间参数而言,在参数立
声编码中,随着其参数编码码率的上升,立体声音质将逐渐上升并趋近于某一 上限。这个上限反映了该参数的空间听觉重要性,且与频率相关。此外,不同 空间参数间的相对重要性在不同频率也是不同的。如果假定不同参数对立体声 音质的影响是独立,那么最优的参数组合不仅依赖于码率一将有限的码率分配 给更重要的参数比分配给所有参数可获得更高的音质,而且依赖于频率一参数 的相对听觉重要性随频率的变化而改变。因此本发明的方案不仅根据耳间时 间差、耳间强度差、和耳间相关度的空间听觉重要性,同时参考空间参数码率, 为每个频段选取空间参数。本发明还提供了优选的实施方案当空间参数码率为低码率时,低频段选 取的空间参数为耳间时间差和耳间相关度;中频段选取的空间参数为耳间强度 差和耳间相关度;高频段选取的空间参数为耳间强度差。当空间参数码率为高 码率时,低频段选取的空间参数为耳间时间差、耳间强度差、和耳间相关度; 中频段选取的空间参数为耳间强度差和耳间相关度;高频段选取的空间参数为 耳间强度差和耳间相关度。如附图2所示,其中图中(a)处表示在某一频率fi处不同参数及其组合的码 率和音质的关系;图中(b)处表示在另一频率f2这些参数及其组合的码率和音质 的关系。为了在给定码率下达到尽可能高的音质,图2(a)展示了在频率f,下, 当低于某一码率h时,应只选择参数P2,当高于这个码率时,应选择参数p^口 参数P2;图2(b)展示了在频率f2下,当低于某一频率时b2,应只选择参数Ph当 高于这个码率时,应选择参数Pi和参数P2。为了找到给定码率下,不同频段范围内最优的参数组合,需要首先得到ITD、 ILD和IC在不同频率处码率与音质的关系曲线,这些数据可以通过附图3所示 的测试系统得到。对于ITD和ILD,测试信号为窄带纯音信号S(O,频率范围取为20 16000Hz,每个Bark分别进行一组测试,Bark是描述人耳频域非线性听 觉特性的频率标度,与物理频率有确定换算关系。测试系统如附图3中(a)处所 示,左右两路Z(0和/ W的增益g,, g,和延时(《分别控制i (,) = g2K),此时ITDW,-《,ILD=201og,Q(g,/g2), IC恒为1。对于IC,测试信号为两个不相 关的窄带噪音S(0和&(f),频率范围取为20 16000Hz,每个Bark进行一组测 试。测试系统如附图3中(b)处所示,通过调整",-可以获得不同相关度的左右 耳入声Z(O = cosa5"i(0 + sinor&(,) (2) = cos风(0 + sin (0 ,此时IC=cos("-"), ITD=0s和ILD二0dB。在实际参数立体声编码中,ITD、 ILD 和IC都要经过量化,不同的参数码率反映了量化误差的大小,进而反映到立体 声空间信息重建的准确度。因此每组测试中,输入为一组码率,输出为每个码 率上参数在不同数值处包含量化误差的重建声与不包含量化误差的重建声之间 的相对音质。音质的评判可以使用主观测试方法,也可以使用客观测试软件。 这样就可以得到每个参数在不同频率处码率和音质的关系。假定参数之间对音 质的影响是独立的,对码率的影响是叠加的,进而可以得到ILD、 ITD和IC在 不同频率处,不同组合方式下码率和音质的关系。通过分析测试数据,将信号在频域划分为3个频带(附图4):低频、中频和 高频。在较低的参数码率条件下低频选取ITD和IC,中频选取ILD和IC,高 频选取ILD;在较高的参数码率条件下低频选取ITD、 ILD和IC,中频和高频 都选取ILD和IC。本发明的实施主要依据空间心理声学,低频段、中频段和高频段分别对应20 1600Hz、 1600 10000Hz和10000 16000Hz是优选方案。但具体实施时也可考虑具体编解码系统和应用环境进行调整,低中频段的划分点 可设置在1200 2000Hz内,中高频段的划分点可设置在8000 12000Hz内。空间参数的低码率和高码率分界点则根据参数立体声编码器釆用的参数量化及熵 编码方式确定, 一般分界点为1.6kbps 2.4kbps。具体实施时,可以利用本发 明图3提供的测试系统调试得到更精确的最优参数组合方案。下面结合附图5, 6对本发明实施例做进一步的说明,以便具体实施参考-如附图5所示,本发明实施例分频带参数提取系统包括四个模块参数选 取,ITD提取,ILD提取,和IC提取。首先参数选取模块根据码率和当前的频 率,给出三个控制信号,分别对应ITD提取,ILD提取,和IC提取模块是否进 行参数提取操作;其次将左右声道同一频率处的子带信号作为三个参数提取模 块的输入;然后对每个参数提取模块,如果相应的控制信号有效,则子带信号 实际连接到该模块,进行相应计算并输出这个参数,否则子带信号不连接到该 模块,不进行参数提取计算,无相应的参数输出。参数选取模块的输入是参数编码码率和当前子带信号的频率,输出控制 ITD、 ILD和IC提取模块是否进行计算并输出信号。当参数码率较低时,例如低 于2kbps, ITD控制信号仅在低频有效,ILD控制信号仅在中频和高频有效,IC 控制信号仅在低频和中频有效;当参数码率较高时,例如高于2kbps, ITD控制 信号仅在低频有效,ILD和IC控制信号在低频、中频和高频都有效。这里低频、 中频和高频的划分可以分别对应于20 1600Hz、 1600 10000Hz和10000 16000Hz。ITD提取模块的输入是同一频率下左右声道的子带信号,输出是ITD参数。 在频域可以通过计算子带信号的群延时得到ITD;在时域可以通过计算子带信号的互相关函数最大值的位置得到ITD。ILD提取模块的输入是同一频率下左右声道的子带信号,输出是ILD参数。 在频域可以通过计算子带信号在各个谱线能量和的比值得到ILD;在时域可以通 过计算子带信号各个样点的能量和的比值得到ILD。IC提取模块的输入是同一频率下左右声道的子带信号,输出是IC参数。在 频域可以通过计算子带信号频谱的互相关得到IC,特别的对于复频谱,取互相 关的实部作为IC;在时域可以通过计算子带信号互相关函数的最大值得到IC。如附图6所示,分频带参数提取流程首先对输入的立体声时域信号进行时 频变换,这里时频变换可以是DFT (离散傅立叶)、HQMF (混合正交镜像滤波器 组)或MDCT (修正余弦变换)。经过时频变换得到两路频域音频信号,分别对应 原信号的左右声道。然后在频域将信号分为若干连续不重叠的子带, 一般20 40个。对同一频 率处左右声道的子带信号,判断当前处理的子带信号所处的频段低频、中频 或高频,例如,低频的范围是20 1600Hz,中频的范围是1600 10000Hz,高 频的范围是10000 16000Hz,依据子带信号所处频段选择并提取相应的参数集。 在编码允许的参数码率较低条件下,例如低于2kbps,低频选取ITD和IC,中 频选取ILD和IC,高频选取ILD;在编码允许的参数码率较高条件下,例如高 于2kbps,低频选取ITD、 ILD和IC,中频和高频选取ILD和IC。 ITD可以通过 计算子带信号相位的群延时得到,ILD可以通过计算子带信号能量比得到,IC 可以通过计算子带信号的相关度得到。最后将每个子带的空间参数集,ITD、 ILD和IC的全部或部分,进行量化和熵编码,形成空间参数码流。量化可以对参数本身采用线性量化或者根据人耳 空间听觉特性进行非线性量化,或者先对参数在时频或频域进行差分处理在进行线性或非线性量化,去除参数间的冗余信息。熵编码可以采用Huffman编码 等无损编码方法,进一步去除参数的冗余信息。
权利要求
1.一种用于参数立体声编码的空间参数选取方法,其特征在于包括以下步骤,步骤1,对立体声信号分段进行时频变换;步骤2,在频域将信号按频率划分成三个频段,即低频段、中频段和高频段;步骤3,根据耳间时间差、耳间强度差、和耳间相关度的空间听觉重要性和参数码率,为每个频段从中选取一种以上空间参数;步骤4,从立体声信号中分离出空间信息,采用选取的空间参数表示相应频段立体声信号空间信息。
2. 如权利要求1所述的空间参数立体声编码方法,其特征在于当空间参数码 率为低码率时,低频段选取的空间参数为耳间时间差和耳间相关度;中频段选 取的空间参数为耳间强度差和耳间相关度;高频段选取的空间参数为耳间强度 差。
3. 如权利要求2所述的空间参数立体声编码方法,其特征在于当空间参数码 率为高码率时,低频段选取的空间参数为耳间时间差、耳间强度差、和耳间相 关度;中频段选取的空间参数为耳间强度差和耳间相关度;高频段选取的空间 参数为耳间强度差和耳间相关度。
4. 如权利要求1或2或3所述的空间参数立体声编码方法,其特征在于频段、 中频段和高频段分别对应20 1600Hz、 1600 10000Hz和10000 16000Hz。
5. 如权利要求1或2或3所述的空间参数立体声编码方法,其特征在于空间 参数的低码率和高码率分界点根据参数立体声编码器采用的参数量化及熵编码 方式确定。
全文摘要
本发明公开了一种用于参数立体声编码的空间参数选取方法。在参数立体声编码中,有耳间时间差、耳间强度差、和耳间相关度这三个空间参数用来描述立体声信号中的空间信息,本发明将信号分成低频、中频、和高频三个频段,根据空间参数的编码码率,在每个频段选取不同的空间参数组合用以描述空间信息。相对全频带提取相同空间参数的现有方法,本发明利用空间参数的听觉重要性与频率相关这一特性,提高了空间信息表达的有效性,进而提高了参数立体声的编码效率。
文档编号G10L19/00GK101149925SQ200710053769
公开日2008年3月26日 申请日期2007年11月6日 优先权日2007年11月6日
发明者刘雨田, 聪 张, 涂卫平, 胡瑞敏, 艾浩军, 陈水仙 申请人:武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1