用于增强主观立体声音频的系统和方法

文档序号：7609809阅读：269来源：国知局

专利名称：用于增强主观立体声音频的系统和方法
技术领域：
本发明涉及具有改进的声学特性的一种音频通信系统和方法，并且特别涉及具有改进的立体声回声消除功能的会议系统。
背景技术：
在使用扩音器的传统的会议系统结构中，将两个或者多个通信单元置于不同地点。利用会议系统从一个地点传送到另外一个地点的信号将经历多个延时，这些延时包括传输延时和处理延时。对于视频会议系统，视频信号的处理延时要远大于音频信号的处理延时。由于音频和视频信号要同时同步地呈现，特意在发送和接收信号通道为音频信号引入一个唇型同步分析延时来补偿较长的视频信号延时。
在传统的会议系统中，一个或者多个麦克风在地点A采集声波，并且将该声波转换为第一音频信号。该第一音频信号被传送到地点B，在地点B处，电视机或者放大器和扩音器通过将在地点A处产生的第一音频信号转换为声波来重现原始声波。在地点B处产生的声波被在地点B处的音频采集系统部分采集，转换为第二音频信号，并且传回在地点A处的系统。在一个地点采集的声波传输到另外一个地点，接着又传回初始地点的问题被称为声学回声。最严重的表现为，当回路增益超过单位元素时，声学回声可以造成反馈音。并且，声学回声还导致在地点A和地点B处的参会者均听到他们自己的声音，特别是在所述系统结构中存在延迟(在视频会议系统中普遍如此)时，导致很难通过会议系统进行会话，这尤其归因于上述的唇形同步分析延迟。声学回声问题通常使用如下所述的一个声学回声消除器来解决。
图1是一个视频会议系统的总图。系统分布在A和B两个地点处。关于会议系统结构，视频会议模块可以分布在多于两个地点，并且只有一个地点有扩音器时系统结构才起作用。视频模块在A地点处具有用来采集视频图像的视频采集系统1141和对所述视频图像进行编码的视频子系统1150。与此并行的，声波由音频采集系统1111采集，并且音频子系统1130来将所述声波编码为声学信号。由于视频编码系统的处理延时，控制系统1160通过使用唇型同步分析延时1163对音频信号引入附加的延时，以便达到视频和音频信号之间的同步。视频和音频信号在多路复用器1161中混合到一起，得到的信号，也就是音频-视频信号被通过传输通道1300发送到地点B。在地点B处插入附加的唇型同步分析延时1262。而且，由音频呈现设备1221呈现的音频信号在地点B处被物化为声波。在地点B处呈现的声波的一部分作为直接声波或者反射声波到达音频采集设备1211。在地点B处采集所述声音并且将该声音伴随相关延时传回地点A处，就形成了回声。所述的所有延时总计起来相当可观，并且因此对在视频会议系统中使用的回声消除器的质量要求特别高。
图2显示一个声学回声消除器子系统的例子，它可以是图1中所示的视频会议系统的音频系统的一部分。为了减小通信系统中的回声，至少一个参会地点具有所述声学回声消除器子系统。声学回声消除器子系统2100是一个数字声学回声消除器的全频带模型。全频带模型直接处理音频信号的完整音频频带(例如，高达20kHz；对于视频会议，频带一般高达7kHz，在音频会议中，频带高达3.4kHz)。
如已所述的，通常声学回声的补偿由声学回声消除器来完成。就所述通信系统来说，声学回声消除器是一个单机设备或者一个集成部件。声学回声消除器，例如，使用一个线性/非线性数学模型，转换从地点A传输到地点B的声学信号，然后从由地点B传送到地点A的声学信号中减去所述经数学调制的声学信号。更具体地，参考在地点B处的声学回声消除器子系统2100为例，声学回声消除器令来自地点A的第一声学信号2131通过所述声学系统的数学模型器2121，计算回声信号的估计2133，从在地点B处采集到的第二音频信号2132中减去估计出的回声信号，并且将减去估计回声的第二音频信号2135传回地点A。图2所示的回声消除器子系统还包括一个误差估计，也就是，所估计的回声与实际回声之间的偏差，以便根据音频采集设备采集声音的位置处环境的变化，更新或者修改所述数学模型。
在绝大多数回声消除器中使用的声学系统模型2121是FIR(有限冲激响应)滤波器，用来近似房间中直接声音和绝大部分反射的传递函数。声学系统的全频带模型2121相对比较复杂，并且处理功率要求较高，作为全频带的替代，通常优选将频带分为几个子频带。
回声消除器的核心部件是已经提到的声学模型(最通常用FIR滤波器来实现)。该声学模型尝试去拟合远端信号从扩音器到麦克风的传递函数。这个自适应模型由梯度搜索算法来更新。该算法尝试最小化误差函数，误差函数是所述信号减去所述回声估计后的能量。对于单声道回声消除器，这个办法有效，它是不变和唯一的方法。
但是，在高品质通信中，经常要求传输和呈现高品质的多通道音频，例如立体声音频。立体声音频包括来自特定合成声音的通过两个呈现不同空间音频的独立通道的音频信号。将通道加载到每一个相应的扩音器上会产生更精确的音频再现，因为听众将察觉从中产生合成声音的音频源之间的空间差别。
在一个扩音器上播放的信号和在其他扩音器上播放的信号不同。这样，对于立体声(或者多通道)回声消除器，从每一个相应的扬声器到麦克风的传输函数都需要进行补偿。这与单音频回声消除相比有一些不同的情况，因为这里要补偿两个不同的但是相关的信号。
此外，不同通道之间的相关性也趋向于显著。这导致通常的梯度搜索算法难以发挥作用。从数学上解释，相关性引入所述误差函数的若干伪最小解。这个问题在Steven L.Gat和Jacob Benesty编著的“Acousticsignal processing for telecommunication(电讯的声学信号处理)”，由BostonKluwer Academic Pubulishers在2000年出版的一书里面有描述。基础问题是当多通道承载线性相关的信号时，使用所述自适应算法求解的误差函数的正态函数的解是奇异的。这暗示该方程没有唯一解，而是有无限多个解，可以看出，除了真解之外都依赖于传输空间的冲激响应(在此处上下文中，传输空间也可以包括一个合成的传输空间，例如，在远端侧播放的记录或者编程的材料)。于是梯度搜索算法可能陷入最小解但是该最小解不一定是真最小解。
这个立体声回声消除器自适应问题的另一种一般的表现方式是很难区分空间响应变化和立体声声像中的音频“移动”。例如，如果一个说话者在远端侧不同的位置开始说话，声学模型必须再收敛。没有一个自适应算法能够足够快速地跟踪这样的变化，并且在多通道情况下单声道回声消除器不能产生满意的性能。
解决所述唯一性问题的一个通常方法是加入一个去相关性的设备到扩音器音频信号通路上。在解决唯一性问题的同时，这引入了不希望有的音频失真。
另外一个方法是使用一个混合单声道/立体声回声消除器来解决回声消除器的问题，其是基于在绝大多数时间里，均匀立体声信号或者材料含有两个相同的信号，即是单声道，的事实。
在图3中示出用于解决这个问题的一个混合单声道/立体声回声消除器的变体。系统模拟L和R的和，也就是单声道响应。进一步地，该系统具有立体声检测器，当检测到立体声时，使得声学信号的模型暂停收敛。因而，回声对立体声的贡献将不会使得模型收敛到一个错误解，并且即使存在立体声，也可以保持对单声道回声的满意抑制。在绝大多数声学回声消除器中存在的非线性处理单元被修改以便去除/削弱立体声回声信号以及残余的单声道回声信号。当使用前面所述的混合立体声/单声道回声消除器来解决立体声回声的情形时，若远端信号的客观立体声级别降低，则性能提高。但是，不希望降低立体声的主观感觉。如果一个消除器完全基于单声道补偿器，则立体声像回声必须被看作是残余回声，由非线性处理单元进行处理。
因此，本发明的目标在于减弱立体声客观感觉，而不减弱主观感觉，以达到混合单声道/立体声回声消除系统的较好效果。

发明内容
特别地，本发明公开了一种音频回声消除器系统，其被调整用于根据加入了回声的输入信号提供回声削弱的输出信号，该输入信号包括近端的音频加上来源于接收左(L)和右(R)音频信号的远端音频呈现器单元的回声贡献，其中，所述远端音频呈现器单元包括被配置用于将L和R相加来产生一个非延时的单声道信号的第一加法器，一个延时单元，其被配置用于对所述非延时单声道信号进行预定时间的延时来产生被加载到中央扩音器中的延时的单声道信号，和一个左扩音器和一个右扩音器，其中分别载入第一和第二L和R削弱信号。本发明还提供了对应于该系统的一种方法。

为了使得本发明更加容易理解，以下的讨论将参考附图。
图1是传统的会议系统结构的详细框图，图2是一个声学回声消除器子系统的细图，图3是一个立体声音频回声消除器系统的示例的框图，图4是根据本发明的第一实施例的一个远端音频呈现器单元，图5是根据本发明的第二实施例的一个远端音频呈现器单元。
具体实施例方式
在下面，通过描述优选实施例并参考附图来论述本发明。但是，尽管结合视频会议描述了具体实施例，本领域技术人员将认识到属于公开的独立权利要求所定义的本发明范围之内的其它应用和修改。
本发明基于在声学领域众所周知的所谓Hass(哈斯)效应。Hass效应还叫做优先效应，其描述了人类能够正确识别两只耳朵听到的虽是在不同时间到达的声音的声源方向的心理声学现象。由于头部的几何构造(两个耳朵分隔在不同的两边，被障碍物分隔)，从任何声源发出的直接声音首先进入最接近该源的耳朵，接着才进入最远的那个耳朵。Hass效应描述了人类如何根据第一次到达的声音来定位一个声源，如果随后到达的声音基于音频级别被延时了少于25-35毫秒。如果后到达的延时长于这个时间，则将听到两个不同声音。Hass效应在即使第二个到达的声音响于第一个(甚至达到10dB的量级)时仍起作用。
本发明利用这个效应来仿真第二声像，其给出一个较客观立体声声像更好的主观立体声感觉。提供了一种系统和方法来用最优方式呈现立体声声像，以使相关回声消除器不损坏主观立体声感觉。
图4示出了根据本发明的一个实施例的音频呈现系统。左和右信号相加之后被乘以(来获得正确的级别)，产生一个单声道信号。该单声道信号被延时并且其后在一个中央扬声器上播放。单声道信号被乘以立体声增强增益ge，并且分别从右和左信号中减去前述相乘结果。通过乘以立体声声像增益gi，削弱所述相减得到的信号，并且其后在左和右(附属)扬声器上播放。
增益gi和中央延时的选择对结果至关重要。为了得到最好的回声消除器性能，gi要选择地尽可能低。经验证明，立体声增强增益ge为0，时间延时在5-10ms之间，并且gi为-12dB时可以维持立体声感觉。
立体声增强增益ge通过从附属扬声器除去部分单声道/和信号来放大立体声像。这个技术，尽管表示的稍有不同，是从三维音频呈现技术得到的。在左和右附属扬声器上的被修改信号分别为L’＝(L*(1-ge/2)-R*(ge/2))*giR’＝(R*(1-ge/2)-L*(ge/2))*gi增强增益可以在0到1范围内选择。0没有增强效果，并且原始的左和右信号分别没有经修改地在左和右附属扬声器上播放。1是完全增强，导致单声道信号将意味没有音频在附属扬声器上播放。
从以上的表述可以看出，两个增益ge和gi不是相互独立的。如果增强增益增加到0以上，声像增益需要也被增加以在附属扬声器上保持相同的客观音频级别。但是，当立体声声像被扩大，这不一定对保持立体声的主观感觉成立。因此，客观立体声声像级别可以使用增强增益来进一步降低。
图5示出系统的一个范化的版本。
左和右通道进行求和，并且由Hm滤波器进行滤波。对比图4，这个滤波器合并了与的相乘和延时。
左和右通道都由直接滤波器Hd进行滤波，与经分频滤波器Hc滤波的反信号求和。对比图7，Hd和Hc的组合构成增强增益和声像增益。
通过使用更多的一般滤波器，可以得到进一步改善/立体声回声降低。可以针对不同的频率对增强增益，声像增益和延时进行单独优化。另外，可以有意识地除去对人类立体声感觉没多少贡献的频带中的所有立体声信息，同时保留其它频带中的立体声信息。
本发明降低了整体客观立体声声像级别，同时保持了主观立体声感觉。因此，它减少了为了进行立体声回声控制使用混和单声道/立体声回声消除器算法引入的不利因素。通过使用在几乎每个高品质声学回声消除器中都使用的常见非线性处理算法，立体声声像可以被按照残余回声处理，因为立体声声像回声被客观降低到了与残余回声相当的级别。
本发明进一步降低了附属扬声器上所需的音频级别，因此，可以使用更小的、更便宜、也更容易安装到系统中的扬声器。
权利要求
1.一种音频回声消除器系统，其被调整用于根据加入了回声的输入信号提供回声削弱的输出信号，该输入信号包括近端的音频加上来源于接收左(L)和右(R)音频信号的远端音频呈现器单元的回声贡献，其特征在于，远端音频呈现器单元包括被配置用于将L和R相加产生一个非延时的单声道信号的第一加法器，一个延时单元，其被配置用于对所述非延时单声道信号进行预定时间的延时来产生一个被加载到一个或者多个主扩音器中的延时的单声道信号，和一个或者多个左扩音器和一个或者多个右扩音器，其中分别载入第一和第二L和/或R削弱信号。
2.如权利要求1中所述的音频回声消除器系统，其特征在于所述延时单元集成在接在所述第一加法器后的第一滤波器(Hm)中。
3.如权利要求2中所述的音频回声消除器系统，其特征在于一个第二加法器，其被配置用来对经第二滤波器(Hc)滤波的R与经第三滤波器(Hd)滤波的L进行求和，产生所述第一L和/或R削弱信号，一个第三加法器，其被配置用来对经所述第二滤波器(Hc)滤波的L与经所述第三滤波器(Hd)滤波的R进行求和，产生所述第二L和/或R削弱信号。
4.如权利要求1所述的音频回声消除器系统，其特征在于，一个接在所述第一加法器之后的衰减器，其被配置用来对第一加法器的输出乘来生成所述非延时单声道信号。
5.如权利要求1或4所述的音频回声消除器系统，其特征在于，所述第一和第二L和/或R削弱信号在被加载到所述一个或者多个左扩音器和一个或者多个右扩音器之前，分别乘以第一增益Gi。
6.如权利要求5所述的音频回声消除器系统，其特征在于，所述第一L和/或R削弱信号是L，所述第二L和/或R削弱信号是R。
7.如权利要求5所述的音频回声消除器系统，其特征在于，一个产生第一L和/或R削弱信号的第一减法器，其被配置用来从L中减去乘以了第二增益Ge的所述非延时单声道信号，一个产生第二L和/或R削弱信号的第二减法器，其被配置用来从R中减去乘以了第二增益Ge的所述非延时单声道信号。
8.一种在音频回声消除器系统中根据加入了回声的输入信号提供回声削弱的输出信号的方法，该输入信号包括近端的音频加上来源于接收左(L)和右(R)音频信号的远端音频呈现器单元的回声贡献，其特征在于，将L和R相加来产生一个非延时单声道信号，将所述非延时单声道信号延时预定时间以产生被加载到一个或者多个主扩音器的延时单声道信号，分别将所述第一和第二L和/或R削弱信号载入到一个或者多个左扩音器和一个或者多个右扩音器中。
9.如权利要求8所述的方法，其特征在于，所述延时步骤是在第一滤波器(Hm)中执行的。
10.如权利要求8或9所述的方法，其特征在于，对经第二滤波器(Hc)滤波的R与经第三滤波器(Hd)滤波的L进行求和，以产生所述第一L和/或R削弱信号，对经所述第二滤波器(Hc)滤波的L与经所述第三滤波器(Hd)滤波的R进行求和，以产生所述第二L和/或R削弱信号。
11.如权利要求8所述的方法，其特征在于，所述对L和R求和来生成非延时单声道信号的步骤进一步包括对所述结果进行的消减，以生成所述非延时单声道信号。
12.如权利要求8或11所述的方法，其特征在于，分别将所述第一和第二L和/或R削弱信号载入到所述一个或者多个左扩音器和一个或者多个右扩音器中之前，将之与第一增益Gi相乘。
13.如权利要求12所述的方法，其特征在于，第一L和/或R削弱信号是L，第二L和/或R削弱信号是R。
14.如权利要求12所述的方法，其特征在于，从L中减去乘以了第二增益Ge的所述非延时单声道信号，以产生第一L和/或R削弱信号。从R中减去乘以了第二增益Ge的所述非延时单声道信号，以产生第二L和/或R削弱信号。
全文摘要
本发明涉及具有改进的声学特性的一种音频通信系统和方法。本发明利用哈斯(Haas)效应来仿真一个能够较客观的立体声声像给出更好主观立体声感觉的声像。它提供了一种系统和方法来用最优方式呈现立体声声像，以使相关回声消除器不损害主观立体声感觉。
文档编号H04M9/08GK1902901SQ200480039416
公开日2007年1月24日申请日期2004年12月29日优先权日2003年12月29日
发明者T·F·马顿, B·温斯沃尔德, T·格拉弗莫恩申请人:坦德伯格电信公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：T.F.马顿;B.温斯沃尔德;T.格拉弗莫恩
技术所有人：坦德伯格电信公司
我是此专利的发明人

上一篇：在无线网络中使用信道自适应度量定位干扰设备的制作方法
上一篇：用于加扰的位传输的发射器和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。