保真度优化的预回声抑制编码的制作方法

文档序号:2837345阅读:179来源:国知局
专利名称:保真度优化的预回声抑制编码的制作方法
技术领域
本发明总的涉及音频信号的编码,尤其是多声道音频信号的编码, 背景抹水对在保持高音频质量的同时以低比特率传送和存储音频信号存在 高度的市场需要.特别是,在传榆资源或存储器受限的情况下,低比 特率操作是一个必要的成本闳素.例如在诸如GSM、 UMrS或CDMA之类 的移动通信系统中的流发送和消息发送应用中通常是这种情况.当今,不存在以对移动通信系统的使用来说在经济上令人感兴趣的 比特率来提供高立体声音频质量的标准化编解码器可用.对于可用的编 解码器,可以对音频信号进行单声道传输.在某种程度上的立体声传输 也是可用的。然而,比特率限制通常需要十分剧烈地限制立体声表达,音频信号立体声或多声道编码的最简羊的方式是将不同声道的信 号作为单个且独立的信号来分开编码.在立体声FM无线电传输中使用 的并且确保与传统单声道无线电接收机兼容的另一基本方式是传送所 涉及的两个声道的和信号以及差信号.现有技术的音频编解码器(例如MPEG-1/2层III以及MPEG-2/4 AAC)使用了所谓的联合立体声编码.根据这一技术,联合处理不同声 道的信号,而不是分开且单独进行处理.两种最经常使用的联合立体 声编码技术被称为"中/側"(M/S)立体声编码和强度立体声编码, 它们通常被应用在要被编码的立体声的子带或者多声道信号上.在以下的意义上M/S立体声编码类似于在立体声FM无线电中所述 的过程它编码并发送声道子带的和信号以及差信号,因而利用了声 道子带之间的冗余.例如在J. D. Johnston的美闺专利5,285, 498中 描述了一种基于M/S立体声编码的编码器的结构和操作.另一方面,强度立体声能够利用立体声的不相关性.它发送(不-同子带的)多个声道的联合强度以及指示所述强度是如何分布在多个 声道中的某种位置信息.强度立体声只是提供声道的频谱幅度信息.
不传递相位信息.为此以及由于时间上的声道间信息(更具体而言为 声it间的时间差)特别是在较低頻率时具有主要的心理声学相关性,因此只能在高于例如2KHz的高频上使用强度立体声.在例如R. Veldhuis等人的欧洲专利0497413中描述了一种强度立体声编码方 法.在2002年5月于德闺慕尼烹召开的笫112届ABS会议上由C. Faller等人发表的題为"Binaural cue coding applied to stefeo and multi-channel audio compression (对立体声和多声道音頻压 缩所实施的技术心理声学编码)"的会议论文中描迷了一种袭新发展 的立体声编码方法.该方法是一种参数多声道音频编码方法.基本原 理是,在编码側来自N个声道C1、 C2、…CN的输入信号被组合成一 个单声道信号m.使用任何的传统单声道音频编解码器对所述单声道信 号进行音频编码.同时,从声道信号中取得参数,这些参数描迷该多 声道图像.这些参数被编码并且与音頻位流一起被发送给解码器.解 码器首先解码羊声道信号迈,,然后基于多声道困像的参数描述来重新 产生声道信号C1,、 C2,..... CNV技术心理声学编码(BCC: Binaural cue coding)方法的原理在 于,其发送编码的单声道信号和所谓的BCC参数.BCC参数包括编码的 声道间电平差以及原始多声道输入信号的各于带的声道间时间差.解 码器通过基于BCC参数对单声道信号施加子带级的电平和相位调整来 重新产生不同的声道信号.与例如M/S或者强度立体声相比的优势在 于,以低得多的比特率来传输包含时间上的声道间信息的立体声信 息.然而,这一技术在编码器和解码器处、在每个声道上都需要计算 要求高的时间频率转换.而且,BCC并不处理以下的问題,许多立体声信息(特别是在低频 时)是扩散的,即它们不来自任一特定方向.扩散的声场存在于立体 声记录的两个声道中,但是它们在很大程度上相对于彼此是异相的. 如果诸如BCC之类的算法碰到了具有大量扩散声场的记录,则所再现 的立体声困像将会变得混乱,由于BCC算法只能把特定频带的信号分 配(pan)到左声遣或者右声道,因此会出现从左边跳到右边的情形.用于编码立体声信号并确保扩散声场的良好再现的一种可能的方 法是使用一种与FM立体声无线电广播所用的技术非常类似的编码方
案,即分开编码单声道(左+右)以及差(左-右)信号.在C.E. Holt等人的美国专利5,434,948中描述了一种技术,其 使用与BCC类似的技术来编码单声道信号和倒信息.在这种情形下, 側信息由预测滤波器组成并且可选地包括一个残留信号.在被施加到 该单声道信号上时由最小均方算法所估计的预测滤波器允许预测这些 多声道音频信号.利用这一技术,可以以十分低的比特率编码多声道 音频源,然而这是以质量下降为代价的,如以下进一步讨论的.最后,为了完整性,要提到一种在3D音频中使用的技术.该技术 通过利用所谓的头部相关滤波器对声源信号进行滤波来分析右和左声 道信号.然而,该技术需要分开不同的声源信号,因而通常不能应用 在立体声或多声道编码中.发明内容基于信号特别是一个主信号和一个或多"信号的帧的编码的现有编码 方案的问趙在于,预回声妙的存在.在图7a-b中,图表说明了这样的AX产 物,假设一^HI"号^i:具有如曲线100所示的时间进展,首先,从tO开始,在"t^M中^^在信号^i:.在tl和t2之间的时刻t,信号^1:突然出现.当信号^feWM t2-tl的帧长度编码时,信号分量的出现#^在#帧上故"涂 抹(smearedout)",如曲线IOI所示.如JMWtA在曲线101上,則信号 ^f:在信号^J:的预期出现之前的时间At出现,并且"预回声"被察觉到,因此本发明的一个目的是提供改善多声道音频信号的感知质量的编码方'^H殳备,特别是为了^^hfc^回声的人工产物,本发明的另一个目的是提供需M少的处理能力并且^T更恒定的传输bb^率需求的痴玛方法iMt备. J^目的由,斤附紗决求的^K殳4^i^J.大体而言,舰笫一方面,"^t用于辆多声道^T号的矛法,fe^产生第"-^出信号,该笫-"^出信 号A^示主信号的^NgL主信号A^少第"^p第二声道的信号的笫一线,)!ya 合。所i^^E^^产生第二餘出信号,该第二输出信号^^示倂腊号的^参 氣该,Kf号是一个^帧内的至少笫一和第二声道^fr号的笫二线'tiia合。所述 》法的特^L于产生第r^出信^E^^HWH^^主信号的能:t^廓.##笫二方面,^W^多声道"f^号的方法,^^^示主信号的^^ 数中产生一个解码的主信号.主信号^C少第""^第二声道的信号的第一幾feiM 合.该矛减fe^錄示鲥号的^^t中产i)8W的嫩号,嫩号絲一个 ^帧内的至少第"-^第二声道^rff号的第^^iia合.该^^fe^p至少j^
的主信^MW的MHia合^^少第""^第二声ii^ft号.该方法的#^*于产i)SW的嫩械^^iW的wr辦紗鹏的主信号的能狄廓.根据第三方面, 一种编码器设备,包括用于包括至少第一和第二声道的多声道音频信号的输入装置.该编码器设备包括用于产生笫一输出信号的装置,该第一输出信号是表示主信号的编码^4SL主信号是至少第一和第二声道的信号的第一线性组合.所述编码器设备还包括用于产生第二输出信号的装置,该第二输出信号^L示側信号的编码M.側信号是在一个编码帧内的至少第一和第二声道的信号的第二线性组合。所述编码器设 备还包括输出装置.所述编码器设备的特征在于用于产生第二输出信号的 装置还包括用于将側信号缩放为主信号的能量轮廓的装置.#^笫四方面,^t解码器设备,包括用于表示主信号的^NMa表示 俯Kt号的编v^lt的输A^X,所ii^信号4Jf""^笫二声道的笫一线'lila合. 所述俯m号^4第二声道的笫二线'l^a合.所iyf码器设备还^^用于M 示主信号的编码^lt中产生解码的主信号的装置以;s^于^M^示一个编码帧内 的Wt号的编码M中解码的俯KT号的i^j:.所iWf码器设备还^^用于将至少 解码的主信号和解码的m号组合成为至少笫-"^笫二声道的信号的装置,以及 输出M.所it)^码器设备的特;^于用于产生解码的,腊号的M进而又^ 用于将解码的,Kt号缩^解码的主信号的能量轮廓的M.本发明的主要优点在于,改善了对于音频信号的感知的保存.而 且,本发明仍然允许以非常低的比特率来进行多声道信号传输.


通过参考以下的描述和附困可以最好地理解本发明及其另外的目 的和优点,在附困中图i是用于发送多音信号的系统的方框困;困2a是在发射机中的编码器的框田; 困2b是在接收机中的解码器的框困; 困3a是说明具有不同长度的编码帧的困; 闺3b和3c是根据本发明的側信号编码器单元的实施例的框困; 困4是使用平衡因子编码側信号的编码器的实施例的框困; 困5是用于多信号系统的编码器的实施例的框困; 困6是适于对来自困5的设备的信号进行解码的解码器的实施例 的框困7a和b是说明一种预回声人工产物的困; 图8是根据本发明的側信号编码器单元的实施例的框困,其在不 同的子桢中采用了不同的编码原理;田9说明了在不同的频率子带中使用不同编码原理;图IO是根据本发明的编码方法的实施例的基本步稞的流程困;以及困ll是根据本发明的解码方法的实施例的基本步稞的流程困.具体实施方式
困1说明了一个典型的系统1,在其中可以有益地使用本发明. 发射机IO包含一个天线12,其包括相关的硬件和软件以能够向接收机 20发送无线电信号5.发射机10除了多个其它部分之外还包括多声道 编码器14,其将多个榆入声道16的信号变换成适于无线电传榆的输出 信号.以下将进一步详细描述合适的多声道编码器14的实例.可以从 例如音频信号存储器18提供输入声道16的信号,例如音頻记录的数 字表示的数据文件、磁带或者音频的聚乙烯盘等等.还可以"实况" 提供榆入声道16的信号,例如从一组话筒19提供.如果音頻信号还 不是数字格式,則在进入多声道编码器14之前对其进行数字化.在接收机20側,具有相关硬件和软件的天线22处理表示多音音 频信号的无线电信号5的接收.在此执行通常的功能,例如误差校正. 解码器24解码所接收的无线电信号5,并且将由此携带的音頻数据变 换成多个输出声道26的信号.输出信号可以被提供给例如扬声器29 进行立即呈现,或者可以被存储在任何种类的音频信号存储器28中.系统1可以是例如电话会议系统、用于提供音頻服务或其它音频 应用的系统.在一些系统中,例如在电话会议系统中,通信必须是双 工类型的,而从一个服务供应商向订户分发音乐则可以基本上是单向 类型的.从发射机10到接收机20的信号传输也可以用任何其它的方 式进行,例如通过不同种类的电磁波、电就或光纤以及它们的组合.困2a说明根据本发明的编码器的实施例.在这一实施例中,多音 信号是包含在输入端16A和16B处接收的两个声道a和b的立体声信 号.声道a和b的信号被提供给预处理单元32,在那里可以执行不同 的信号调节过程.来自预处理单元32的榆出的信号(也许被修改过) 在加法单元34中进行求和.所迷加法羊元34还把所得到的和除以因
子2.以这种方式产生的信号x,。是该立体声信号的主信号,闳为它基 本上包括来自两个信道的所有数据.在这一实施例中,主信号因而表 示一个纯"单声道"信号.主信号x,。n。被提供给主信号编码器单元38, 其根据任何合适的编码原理来编码所迷主信号.这些原理可以在现有 技术中获得,因而在此不作进一步的讨论.主信号编码器单元38给出 输出信号P,。n。,作为表示主信号的编码参数.在减法单元36中,声道信号的差(除以因子2)被提供作为側信 号x,"。.在这一实施例中,側信号表示立体声信号的两个声道之间的 差.側信号x,w。被提供给側信号编码单元30.以下将进一步讨论側信 号编码单元30的优选实施例.根据将在下面进一步详细讨论的側信号 编码过程,側信号x,",被转换成表示側信号x,"。的编码参数p,"。.在某些实施例中,还利用主信号X,。n。的信息来进行编码.箭头42指示了这种设备,其中利用了原始未编码的主信号x,。n。.在进一步的其它实 施例中,在側信号编码单元30中所使用的主信号信息可以从表示该主 信号的编码参数P,刚中推断出来,如虛线44所指示的.表示主信号x,。的编码参数p,。是笫一榆出信号,以及表示側信 号x,",的编码参数p,"。是笫二输出信号.在通常情形下,这两个输出 信号p,。n 、 p,",—起表示完整的立体声声音,它们在多路复用器单元40 被多路复用成一个传榆信号52.然而,在其它实施例中,可以分开进 行第一和笫二输出信号 的传输.在困2b中,以框困形式说明了根据本发明的解码器24的实施例. 所接收的信号54 (包含表示主和側信号信息的编码参数)被提供给解 复用器单元56,它分别分出笫一和笫二输入信号.对应于主信号的编 码参数p,。-。的笫一输入信号被提供給主信号解码器单元64.以传统的 方式,表示主信号的编码参数p.,被用于产生一个解码的主信号 x",咖,它尽可能地类似于编码器14 (困2a )中的主信号x,。(困2a ) 类似地,对应于側信号的第二输入信号被提供给一个側信号解码 器单元60.在这里,表示側信号的编码参数p."。被用于恢复解码的倒 信号x","。.在一些实施例中,解码过程利用有关主信号X",。n。的倌息, 如箭头所指示的.所解码的主和倒信号x",。n。、 x",",被提供给一个加法单元70,其 提供一个表示声道a的原始信号的榆出信号.类似地,由减法羊元68
提供的差提供了一个表示声道b的原始信号的输出信号.可以根据现 有技术的处理过程在后处理器单元74中对这些声道信号进行后处理. 最终,在解码器的输出端26A和26B提供声道信号a和b.如在发明内容中所述,通常以每次一械的方式进行编码. 一帧包 括在一个预定时间周期内的音頻采样.在困3a的底部,示例了持续时 间为L的桢SF2.在无阴影部分内的音頻采样要一起被编码.前面的采 样和随后的采样在其它桢中进行编码.无论如何,把采样分成幀都将 在帧边界处引入一些不连续.多变的声音将给出多变的编码参数,从 而基本上在每个帧边界处发生变化.这将产生可感知的误差.对这种 情形稍微进行补偿的一种方法是使编码不但基于要被编码的采样,而 且基于在该帧的绝对附近的采样,如由阴影部分所指示的.以这种方 法,在不同的帧之间将是比较乘和的转换.作为备选方案或者补充, 有时利用内插技术来降低由械边界引起的可感知的人工产物.然而, 所有这些过程都需要大量的附加计算资源,并且对于某些特定编码技 术而言,也许难于为其提供任何的资源.因此,使用尽可能长的帧将是有益的,因此桢边界的数目会小. 而且编码效率通常会变离,并且必要的传输比特率通常也被最小化. 然而,长桢所带来的问趙是预回声人工产物和虚幻声音.通过替代地利用较短的帧,例如分别具有L/2和L/4的持续时间 的SF1或甚至SFO,本领域的技术人员认识到,编码效率会被降低, 传输比特率必须比较高,并且幀边界人工产物的问趙将增加.然而, 较短的帧较少经受例如其它可感知的人工产物,比如虚幻的声音和预 回声.为了能够尽可能多地最小化编码误差,应当使用尽可能短的桢 长.根据本发明,通过使用依赖于当前信号内容的帧长度来编码側信 号可以改进音频感知.由于不同帧长度对于音頻感知的影响将根据要 被编码的声音的特性而不同,因此通过让信号本身的特性来影响所使 用的帧长度可以获得改进.主信号的编码不是本发明的目的,因此不 进行详细描述.然而,主信号所用的帧长度可以与側信号所使用的幀 长度相等,或者可以不相等.由于小的瞬时变化,所以例如在一些情形下使用相对较长的帧对 側信号进行编码是有益的.对于具有大量扩散的声场的记录比如音乐
会记录会出现这种情形.在其它情形下,例如在立体声语音会话中, 短帧则可能是优选的.可以用两种基本方法来判断选取哪种桢长度.在困3b中说明根据本发明的側信号编码器单元30的一个实施 例,其中利用了闭环判断.在此使用了长度为L的基本编码幀.产生 了多个编码方案81,由子帧的分开的集合80来表征.子帧的每个 集合80包括一个或者多个子帧,它们具有相同或不同的长度.然而 子帧的集合80的总长度总是等于基本编码帧长度L.参考困3b, 顶部编码方案被表征为只包含一个长度为L的子帧的子械集合.下一 个子帧集合包含两个长度为L/2的子桢.笫三集合包含两个长度为L/4 的子帧以及后面的一个长度为L/2的子桢.通过所有的编码方案81对被提供给側信号编码器单元30的信号 x,",进行编码.在顶部的编码方案中,以一块来编码整个基本编码桢. 然而在其它的编码方案中,在相互分开的各个子械中对信号x,",进行 编码.来自每个编码方案的结果被提供给选择器85.保真度测量装置 83确定每个编码信号的保真度测量值(measure).保真度測量值是一 个客观的质量值,优选的为信噪比测重值或者加权的信噪比.比较与 每种编码方案相关的保真度测量值,并且其结果控制一个切换装置 87,用于从给出最好的保真度测重值的编码方案中选择表示该側信号 的编码参数,以作为来自側信号编码器羊元30的输出信号p,"。.优选地,测试帧长度的所有可能的组合,并选择给出最好的客观 质量(例如信噪比)的子帧的集合.在本实施例中,根据下式选择所用的子械的长度其中l"是子帧的长度,lf是编码帧的长度,以及n是一个整数.在本 实施例中,在0和3之间选择n.然而,将可能使用任何帧长度,只要集合的总长度保持恒定.在困3c中说明了根据本发明的側信号编码器单元30的另一个实 施例.在此,帧长度判断是一个基于信号的统计特性的开环判断.换 言之,将使用側倌号的频谱特征以作为用于决定打算使用哪种编码方 案的基础.如前所述,可以获得被表征为不同子桢的集合的不同编码 方案.然而,在这一实施例中,选择器85被放置在实际编码之前.输
入的側信号x""进入选择器85和信号分析单元84.分析的结果成为开 关86的榆入,在开关中只使用一种编码方案81.来自该编码方案的榆 出也将是来自側信号编码器单元30的输出信号p,",.开环判断的优点在于只要执行一次实际编码.然而缺点在于,信 号特征的分析实际上会非常复杂,并且难以事先预测可能的特性以便 能够在开关86中给出适当的选择.在信号分析羊元M中必须执行和 包含许多的声音统计分析.编码方案中任何小的变化都可能完全颠倒 统计特性.通过使用闭环选择(困3b),可以互換编码方案而无需对羊元的 其余部分进行任何变化.另一方面,如果要研究许多编码方案,则计 算要求会很高.这种对側信号进行可变帧长编码的益处在于,可以在两种情形之 间进行选择 一方面是精细的时间分辦率和粗糙的頻芈分辦率,另一 方面是粗棘的时间分辦率和精细的頻率分辦率.以上的实施例将以最 佳可能的方式来保持立体声田像.对于在不同编码方案中所使用的实际编码还会有一些要求.特别 是,当使用闭环选择时,用于执行多个或多或少同时编码的计算资源 必须大.编码过程越复杂,所需要的计算能力就越多.此外,在传输 时的低比特率也是优选的.在US 5, 434, 948中给出的方法使用了单声道(主)信号的滤波形 式来比拟側信号或者差信号.滤波器的参数被优化,并且允许随时间 变化.然后表示側信号的编码的滤波器参数被发送.在一个实施例中, 也发送一个残留側信号.在许多情形下,这种方法将可能用作在本发 明范围内的側信号编码方法.然而,该方法具有一些缺陷.由于滤波 器阶数必须很高来提供精确的側信号估计,所以滤波器系数和任何残 留側信号的量化通常需要相对较离的传输比特率.滤波器自身的估计 也会有问題,特别是在瞬时丰富的音乐中.估计误差将给出一个修改 的側信号,其有时在幅度方面比未修改的倌号大.这将导致较高的比 特率需要.而且,如杲每N个采样计算一组新的滤波器系数,則需要 内插这些滤波器系数以产生从一组滤波器系数到另一组的平滑转换, 如上面所讨论的.滤波器系数的内插是一项复杂的任务,并且在内插 中的误差将会表现为大的側误差信号,从而导致差值误差信号编码器
所需的较高比特率.避免内插的需要的一种方法是基于逐个采样来更新滤波器系数, 并且依靠后向自适应分析.为了可以良好运行,要求残留编码器有相 当高的比特率.闳此,这对于低速率立体声编码不是一个好的备选方 案.存在以下例如对于音乐来说很常见的情形,其中单声道信号和差 信号几乎是不相关的.于是滤波器估计变得非常困难,附加的风险只 是使得差值误差信号编码器的情况更糟.根据US 5, 434, 948的解决方案可以在下面的情形下良好工作其 中滤波器系数随着时间的变化很慢,例如在会议电话系统中.在音乐 信号的情形下,该方法并不很好地工作,因为滤波器需要快速改变以 跟踪立体声困像.这意味着,必须使用幅度非常不同的子桢长度,其 意味着要测试的组合数目快速增加.这又意味着用于计算所有可能的 编码方案的要求变得高得不切实际.因此,在优选实施例中,基于以下思想来编码倒信号即通过使 用一个简单的平衡因子来代替复杂的比特率消耗的预测滤波器,从而降低单声道信号和側信号之间的冗余.然后编码这一採作的残留.所 述残留的幅度相对较低,并且不需要非常高的比特芈需求来进行传 送.这一思想的确非常适于和前面所述的可变桢集合方法相结合,因 为计算复杂度低.使用与可变楨长度方法结合的平衡因子消除了对复杂内插的需要 以及内插可能引起的相关问題.而且,使用简单的平衡因子代替复杂 的滤波器产生更少的估计问題,因为平衡因子的可能的估计误差具有 更少的影响.优选的解决方案将能够以良好的质量和受限的比特率要 求以及计算资源来再现平滑信号(panned signal)和扩散声场.困4说明了根据本发明的立体声编码器的优选实施例.该实施例 与困2a所示的实施例非常类似,然而,揭示了倒信号编码器单元30 的细节.该实施例的编码器14不具备任何的预处理单元,并且输入信 号被直接提供给加法和减法羊元34、 36.在乘法器33中单声道信号x 单声速和某一平衡因子g.,相乘.在减法单元35中,相乘后的单声道信号 被从側信号xw中减去(即基本上是这两个声道之间的差值),以产生 側残留信号.通过优化器37基于单声道信号和側信号的内容来确定平 衡因子g,,,以便根据质量标准来最小化側残留信号.所述质量标准优逸为最小均方标准.根据任一编码器过程在側残留编码器39中对倒残 留信号进行编码.优选地,側残留编码器39是一个低比特率变换编码 器,或者一个码本激励线性预測(CELP: Codebook Excited Linear Prediction)编码器.表示側信号的编码参数p,",则包含了表示側残 留信号的编码参数p,," ,""u.,和优化的平衡因子49.在图4的实施例中,用于合成側信号的单声道信号42是单声道编 码器38的目标信号x,。n。.如上所述(结合田2a ),也可以利用单声道 编码器38的本地合成信号.在后一情形下会增加总编码器时延,并会 增加側信号的计算复杂度.另一方面,质量会比较好,因为有可能修 复在单声道编码器中产生的编码错误.如下以更加精确的方式来描述基本编码方案.将两个声道信号表 示为a和b,它们可以是立体声对的左声道和右声道.通过相加将声道 信号组合成一个单声道信号,并且通过相减而组合成一个側信号.该 操作以等式的形式被描述为0.5(fl(")+6("》 x顺(")-0.5(fl(")-6(")) 有益的是以2为因子来缩小x柳。和x,",信号.在此,这暗示着存 在其它产生x,。。。和x,"。的方法.可以^使用例如"賴("卜戸(")+(i-r)&(") A始(")-w(n)-(i一yX")在榆入信号的块上,根据下式计算修改后的或者残留的倒信号(打)=兀 We (") - /(UriA )X濯(")>其中f (X.。n。, X,",)是平衡因子函数,其基于来自側和单声道信号^N 个采样的块(即子帧)来争取从側信号中尽可能多地消除.換言之, 使用平衡因子来最小化残留側信号.在以均方为准进行最小化的特殊情形下,这等价于最小化残留側信号x,"。『,"""的能量. 在上述特殊情形下,f (x,。-。, x,",)被描述为 其中X."。是側信号,以及X,。n。是单声道信号.注意到,该函数基于以 "帧开始"开始和以"帧结束"结束的块.有可能在频域中增加加权来计算平衡因子.这是通过利用加权滤 波器的脉冲响应对X,",和X,。n。信号巻积来完成的.这样有可能将估计 误差移动到更不易被听到的頻率范闺内.这被称为感知加权.由函数f (X,。n。, X."。)给出的平衡因子值的量化形式被发送到解 码器.在产生修改的側信号时最好已经说明了这些量化.然后获得以下的表达式<formula>formula see original document page 16</formula>Qg (...)是一个量化函数,其被应用到由函数f (x.,, x,",)所给出 的平衡因子上.在传榆信道中发送所述平衡因子.在正常的左右平滑 信号中,平衡因子被限制在区间[-i.o l.O]中.另一方面,如杲声道 相对于彼此异相,則平衡因子会超出这些限制.作为用于穗定立体声困像的一个可选方法,可以在以下情况下对 平衡因子进行限制,即如果羊声道信号和倒信号之间的归一化互相关 不佳,如以下等式所给出的其中, <formula>formula see original document page 17</formula>这些情形在具有大量扩散声音的古典音乐或播音室音乐中出现非常频繁,其中在一些情形下,在创建羊声道信号时a和b声道也许几 乎彼此抵消.对于平衡因子的影响就是会快速跳变,从而引起混乱的 立体声困像.上迷调整减轻了所述问題.在US 5,434, 948中基于滤波器的方法具有类似的问趙,但是在那种情形下解决方案并不那么简单.如果E,是残留倒信号的编码函数(例如变换编码器),以及E,是 单声道信号的编码函数,則在解码器末尾被解码的a"和b"信号可以被 描述为(在此假设Y -0. 5):<formula>formula see original document page 17</formula>对于每一帧计算平衡因子的一个重要益处就是遊免了使用内插. 代之以, 一般地如上所述,利用重叠的帧来执行帧处理.在音乐信号的情形下使用平衡园子的编码原理工作特别良好,其 中通常需要快速的改变来跟踪立体声困像.近来,多声道编码已经变得普遍. 一个实例是DVD电影中的5.1 声道环绕声.这些声道在那里被设置为前左、前中、前右、后左、 后右以及亚低音扬声器.在困5中,示出了根据本发明以这种采用声 道间冗余的布置对3个前声道进行编码的编码器的实施例.在3个输入端16A-C上提供3个声道信号L, C, R,并且通过这 三个信号的和来产生单声道信号x,。 。.增加了中夹信号编码器单元 130,其接收中央信号x""".在本实施例中单声道信号42是所编码和 解码的单声道信号X",。n。,并且在乘法器133中与果一平衡闳子g,相 乘.在减法单元135中,相乘后的单声道信号被从中央信号x。,",,中减
去,以产生中央残留信号.由优化器137基于单声道信号和中央信号 的内容来确定平衡因子g ,以便根据质量标准来袭小化中夬残留信 号.在中央残留编码器139中根据任何编码过程对中央残留信号进行 编码.优选地,中央残留编码器139是低比特芈变換编码器或CELP编 码器.表示中央信号的编码参数p"",,"则包含表示中央残留信号的编 码参数p""" 以及优化的平衡因子149.在加法单元235中将中 央残留信号与縮放后的单声道信号相加,从而产生修改后的中央信号 142来补偿编码误差.如前面的实施例中那样,側信号x,"。(即左L与右R声道之间的 差)被提供给側信号编码器单元30.然而,在这里,优化器37也依賴 于由中央信号编码器单元130所提供的修改后的中央信号142.因此将 在减法单元35中产生側残留信号以作为单声道信号42、修改后的中央 信号142以及側信号的最佳线性组合.上述可变帧长度的概念可以被应用到側信号和中央信号的任一上 或者全部上.图6说明适于从困5的编码器单元接收编码的音頻信号的解码器 单元.所接收的信号54被分成表示主信号的编码参数p.。.。、表示中央 信号的编码参数p.,""以及表示側倌号的编码参数p,",.在解码器64 中,表示主信号的编码参数p.,被用来产生主信号X".。n。.在解码器160 中,表示中央信号的编码参数p"""被用于基于主信号x",。,。来产生中央信号X""n"。.在解码器60中,根据主信号X",。n。和中央信号 来解码表示側信号的编码参数P,"e,从而产生側信号X",",.该过程可以在数学上表示如下根据下式将榆入信号 以及x"",。组合为一个单声道<formula>formula see original document page 18</formula>.为了简单起见,在剩余部分中将cx、 P以及x设置为1.0,但是它们可 以被设置为任意值.a、 P以及x的值可以是常数,或者取决于信号 内容,以便强调一个或者两个声道,从而获得一个最佳质量. 如下计算在单声道和中央信号之间的归一化的互相关<formula>formula see original document page 18</formula>
其中<formula>formula see original document page 19</formula>Xc。n"。是中央信号,以及X,。n。是单声道信号.单声道信号来自于单声道 目标信号,但是也可能使用单声道编码器的本地合成.要编码的中央残留信号为凡Qg (...)是被应用于平衡因子的量化函数.在传输信道中发送所述平 衡因子.如果Ee是中央残留信号的编码函数(例如变抶编码器),以及E, 是单声道信号的编码函数,则在解码器末尾的解码信号X"。,n,"被描述为'(")要编码的側残留信号为:<formula>formula see original document page 19</formula>其中gQ"和gQ,。是参数g,,和g"的量化值,其最小化了表达式
<formula>formula see original document page 19</formula>对于误差的表小均方最小化,ti例如可以等于2. g,.和g"参数可以被
共同量化或者分开量化.如果E,是側残留信号的编码函数,則解码后的声道信号x"左和 被给出为<formula>formula see original document page 20</formula>最令人讨厌的可感知人工产物之一是预回声效应.在困7a-b中, 所述困说明了这种人工产物.假设信号分量具有如曲线100所示的时 间发展.在开始(从t0开始),在音頻采样中不存在信号分重.在U 和t2之间的时间t,突然出现信号分重.当使用t2-tl的桢长度对该 信号分量编码时,该信号分量的出现会被"渗透"在整个楨上,如曲 线101所示.如杲产生该曲线101的解码,则该信号分量在该信号分 量的预期出现之前出现时间厶t ,由此感知到"预回声" 如果使用长的编码帧,则预回声的人工产物变得进一步增强.通 过使用较短的帧,该人工产物稍微得到抑止.处理上述预回声问趙的 另一方法是利用以下事实,即在编码器和解码器末尾都可以利用单声 道信号.这使得有可能根据该单声道信号的能量轮廊来缩放側信号. 在解码器末尾,执行相反的缩放,因而可以减轻一些预回声问題.在整个桢上计算该羊声道信号的能量轮廓为<formula>formula see original document page 20</formula>末尾,其中w(n)是加窗函数.最简单的加窗函数是一个矩形窗,但是也许更期望其它的窗口类型,例如汉明窗. 然后缩放側残留信号为<formula>formula see original document page 20</formula>桢开始《n <帧末尾. 上述等式可以使用更一般的形式被写为<formula>formula see original document page 21</formula>帧开始《n <幀末尾,其中f (…)是单调连续函数.在解码器中,对所解码的单声道信号计算 能量轮廓,并且将所述轮廓应用到解码的側信号上"。(")-4(")/fe(")),帧开始《n <帧末尾.由于在某种程度上缩放的此能重轮廊是使用较短械长度的替代, 因此这一概念特别适于与可变帧长度的概念相结合,如上面进一步描 述的.通过拥有一些应用能量轮廊缩放的编码方案、 一些不应用以及 一些仅在某些子桢期间应用能量轮廓缩放的编码方案,可以提供一个 更灵活的编码方案的集合.在困8中说明了根据本发明的一个信号编 码器单元30的实施例.在此,不同编码方案81包舍了加阴影的子帧(表示应用了能量轮廓缩放的编码)和未加阴影的子桢(表示没 有应用能量轮廓缩放的编码过程) 以这种方式,不仅可以获得不同 长度的子桢的组合,而且可以获得具有不同编码原理的子幀的组合. 在当前的说明性实例中,在不同编码方案之间应用的能量轮廓缩放不 同.在更一般的情形下,可以用类似的方式将任何的编码原理与可变 长度的概念相结合.困8的编码方案的集合包括以不同的方式处理例如预回声人工产 物的方案.在一些方案中,使用了根据能量轮廊原理具有预回声最小 化的较长子械.在其它方案中,利用了没有进行能重轮廓缩放的较短 的子帧.根据信号的内容,其中的一个备选方案会更为有益.对于十 分严重的预回声情形,必须使用进行能重轮廓缩放的短子桢的编码方 案.所提出的解决方案可以用在全部頻带中或者在一个或多个不同的 子带中.子带的使用可以被施加于主信号和側信号的二者上或者单独 施加在其中一个上.优选实施例包括将倒信号分成几个频带.原因只 是由于在隔离的頻带中除去可能的冗余比在整个频带中除去更容易. 当解码具有丰富的频谱内容时这一点特别重要.一种可能的用途是利用上述方法来编码低于预定阈值的頻带.所 述预定阅值优选可以为2kHz,或者甚至更优选为lkHz.对于感兴趣的 频率范闺的其余部分,可以利用上迷方法对另一个附加频带进行编
码,或者使用一个完全不同的方法.优选为低頻使用上述方法的一个动机是扩散的声场通常在高頻没 有多少能量内容.自然原因是声音吸收通常随着频率而增加.而且, 扩散声场分量在较高頻率对于人类听觉系统似乎起到不太重要的作用.因此,在低频时(低于1或2 kHz)采用所述解决方案是有益的, 并且依赖于其它条件而在较高頻率使用比特效率更高的编码方案.只 在低频时应用所述方案可以大量节省比特率,因为提出的方法所必须 的比特率与所需要的带宽成正比.在大多数情形下,单声道编码器可以对整个频带编码,而建议只是在频带的较低部分执行所提出的側信 号编码,如困9示意性地说明的.参考数字301指的是根据本发明的 側信号编码方案,参考数字302指的是任何其它的側信号编码方案, 以及参考数字303指的是側信号的一个编码方案.也有可能对于几个不同的頻带使用所提出的方法.在困10中,用流程困说明了根据本发明的编码方法的实施例的主 要步骤.该过程开始于步骤200,在步稞210,编码从多音信号中推导 出的主信号.在步稞212,提供编码方案,其包括具有不同长度和/或 顺序的子幀.在步稞214利用一个至少部分地根据当前多音信号的实 际信号内容而选择的编码方案来对从多音信号中推导出的側信号进行 编码.该过程结束于步槺299.在困11中,用流程困说明了根据本发明的解码方法的实施例的主 要步稞.该过程始于步碟200.在步稞220,解码所接收的编码的主信 号.在步驟222,提供编码方案,其包括具有不同长度和/或顺序的子 帧.在步稞224中通过一个选定的编码方案对所接收的側信号解码. 在步碟226中,将所解码的主和側信号组合为一个多音信号.所述过 程结束于步稞299.上述实施例应当被理解为本发明的一些说明性的实例.本领域的 技术人员将会理解,可以对这些实施例进行各种修改、组合和变化而 不同脱离本发明的范闺.特别是,在其它方案中可以组合不同实施例 中的不同的部分解决方案,只要其在技术上是可行的.然而,本发明 的范围由所附的权利要求书加以限定.参考文献欧洲专利0497413美国专利5, 285, 498 美国专利5, 434, 948由C. Faller等人在德国幕尼黑2002年5月举行的笫112届AES 会议上的"Binaural cue coding applied to stereo and multi-channel audio compression (对立体声和多声道音颔压缩所应用的 技术心理声学编码)".
权利要求
1.一种用于编码多音信号的方法,包括步骤产生第一输出信号(pmono),它是表示基于至少第一和第二信道(a,b;L,R)的信号的主信号(xmono)的编码参数;以及产生(214)第二输出信号(pside),它是表示在一个编码帧(80)内的基于至少该第一和第二信道(a,b;L,R)的信号的侧信号(xside)的编码参数,其特征在于所述产生(214)第二输出信号(pside)的步骤还包括步骤将所述侧信号(xside)缩放为所述主信号(xmono)的能量轮廓。
2. 根据权利要求1所述的方法,其特征在于利用一个因子来缩 放所述侧信号(x""),该因子是主信号(x,。n。)的能量轮廓的单调连 续函数。
3. 根据权利要求1所述的方法,其特征在于产生第二输出信号 (p"")的步骤包括创建一个基于側信号(x"")与主信号(x,。n。)之间的平衡差的側残留信号(xs"。 )的步骤,由此该残留信号(x,"ar。,"u")被缩放为主信号(x,。n。)的能量轮廊,
4. 根据权利要求3所述的方法,其特征在于将側残留信号(x,i""s"u")除以一个因子,该因子是主信号(x,。)的能量轮廊的单调连续函数.
5. —种解码多音信号的方法,包括步骤从表示主信号(x,。n。)的编码参数(P,。n。)中产生("0) —个解 码的主信号(x",。n。);从表示侧信号(x,"a)的编码参数(P,id。)中产生U24) —个解码的側信号(x"s"。);以及将至少解码的主信号(x",d )和解码的側信号(x",i")组合(226 ) 成至少第一和笫二信道(a,b;L,R)的信号,其特征在于所述产生(224 )解码的側信号(x",i")的步骤还包 括步骤将解码的側信号(x","。)缩放为解码的主信号(x",。)的能量轮廓.
6. 根据权利要求5所述的方法,其特征在于利用一个因子来缩放解码的側信号(X","。),该因子是解码的主信号(X",。n。)的能量轮 廓的单调连续函数.
7. 根据权利要求5所述的方法,其特征在于所述产生(224 )解码的側信号(X""")的步骤包括产生解码的側残留信号(X","a","u.,) 以及产生基于解码的側残留信号(X","e ","u,l)的解码的側信号(X","。)的步骤,由此解码的側残留信号(X","。,。,i"")被缩放为解 码的主信号(x",。n。)的能量轮廓.
8. 根据权利要求7所述的方法,其特征在于将解码的倒残留信 号(x"""","u")乘以一个因子,该因子是解码的主信号(x",。 。)的 能量轮廓的单调连续函数.
9. 一种编码器设备(14),包括用于包括至少笫一和笫二信道(a,b;L,R)的多音信号 (a,b;L,R,C)的输入装置(16; 16A-C),用于产生第一输出信号(p,。)的装置(38),该笫一输出信号 (p,刚)是表示基于至少笫一和第二信道(a,b;L,R)的信号的主信号(X,。n。)的编码参数;用于产生笫二输出信号(p"")的装置(30),该第二输出信号 (P"")是表示在一个编码帧(80)内的基于至少该第一和笫二信道 (a,b;L,R)的信号的側信号(x,"。)的编码参数;以及输出装置(52);其特征在于用于产生第二输出信号(p"")的装置(30)还包括 用于将側信号(x,"a)缩放为主信号(x,。n。)的能量轮廓的装置.
10. 根据权利要求9所述的编码器设备,其特征在于用于缩放侧 信号(p"")的装置适合于利用一个因子来缩放側信号(X,i"),所述 因子是主信号(x,。n。)的能量轮廊的单调连续函数.
11. 根据权利要求9所述的编码器设备,其特征在于用于产生第 二输出信号(P"")的装置(30)还包括创建一个基于側信号(x"") 与主信号(x,。n。)之间的平衡差的側残留信号(x""""".,)的装置,由此用于缩放側信号(X"d。)的装置适合于将側残留信号(X,id。","",)缩放为主信号(x固。)的能量轮廓.
12,根据权利要求11所述的编码器设备,其特征在于用于缩放 側信号(X,i")的装置适合于将側残留信号(x,"。,。"",,)除以一个因 子,该因子是主信号(X,咖)的能量轮廓的单调连续函数.
13. —种解码器设备(24),包括用于表示主信号(x,。n。)的编码参数(p,。n。)和表示側信号(x,"。) 的编码参数(p,"。)的输入装置U4);用于从表示主信号(X,。n。)的编码参数(P,。n。)中产生一个解码的主信号(x".。n。)的装置(64);用于从表示一个编码帧(80)内的側信号(x,"。)的编码参数 (p,i")中产生一个解码的側信号(x","。)的装置(60);用于将至少解码的主信号(x",。n。)和解码的側信号(x","。)组 合成至少第一和第二信道(a,B;L,R)的信号的装置(68, 70),以 及输出装置(26; 26A-C),其特征在于用于产生解码的側信号(x","a)的装置进而还包括 用于将解码的側信号(x""")缩放为解码的主信号(X",。n。)的 能量轮廓的装置。
14. 根据权利要求13所述的解码器设备,其特征在于用于缩放 解码的側信号(X""d。)的装置适合于利用一个因子来缩放解码的側信 号(X"sid。),该因子是主信号(x",。n。)的能量轮廊的单调连续函数.
15. 根据权利要求13所述的解码器设备,其特征在于用于产生 (224 )解码的側信号(x'"a)的装置(60)还包括用于产生解码的側残留信号(X",i" ","u")以及产生基于解码的側残留信号(X""d。",idu")的解码的側信号(X","a)的装置,由此用于缩放解码的側信号 (X""d。)的装置适合于利用 一个因子来缩放解码的側残留信号(X","a ","u"),该因子是解码的主信号(X",。)的能重轮廓的单调连续函数.
16. 根据权利要求15所述的解码器设备,其特征在于用于缩放解码的侧信号(X","。)的装置适合于将解码的側残留信号(X"s"。","u")乘以一个因子,该因子是解码的主信号(X",。n。)的能量轮廓的单调连续函数.
17. —种音频系统(l),包括下列中的至少一个 根据权利要求9到12中的任何一个所述的编码器设备,以及 根据权利要求13到16中的任何一个所述的解码器设备.
全文摘要
保真度优化的预回声抑制编码。本发明提供了一种编码多声道音频信号的方法,包括产生第一输出信号(x’<sub>mono</sub>),该第一输出信号是表示主信号(x<sub>mono</sub>)的编码参数。主信号(x<sub>mono</sub>)是至少第一和第二信道的信号(16A,16B)的第一线性组合。所述方法还包括产生第二输出信号(p<sub>side</sub>),该第二输出信号是表示侧信号(x<sub>side</sub>)的编码参数。该侧信号(x<sub>side</sub>)是在一个编码帧内的至少第一和第二信道的信号(16A,16B)的第二线性组合。所述方法的特征在于产生第二输出信号还包括将侧信号(x<sub>side</sub>)缩放为主信号(x<sub>mono</sub>)的能量轮廓。还提供了一种解码的方法以及一种编码器、解码器和音频系统,它们都是根据相同的基本概念。
文档编号G10L19/008GK101118747SQ20071013848
公开日2008年2月6日 申请日期2004年12月15日 优先权日2003年12月19日
发明者A·塔莱布, D·恩斯特伦, I·约翰松, S·布鲁恩 申请人:艾利森电话股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1