基于模式识别和延迟前馈控制的视频会议回声抑制方法

文档序号:7552450阅读:194来源:国知局
专利名称:基于模式识别和延迟前馈控制的视频会议回声抑制方法
技术领域
本发明涉及视频会议领域,尤其涉及一种基于模式识别和延迟前馈控制的视频会议回声抑制方法。
背景技术
在远程视频会议系统中,回声是最难解决的技术难题,也是音频信号处理的主要问题,它们直接影响了远程会议系统的声音质量,如果控制不好,轻则影响会议通话质量,重则会使得会议无法继续进行,因此它是远程视频会议系统必须要解决的问题。如图1所示,视频会议中出现回声的原因如下:当进行远程会议时,远端会场(B)的声音信号经过网络传输到达本地会场(A)的扬声器,A扬声器的声音泄漏进A麦克风,这个信号再被通过网络传输进入B的扬声器,这时在B会场的扬声器里便会有一个B会场的延迟声音,这就是回声。回声的延迟时间取决与网络延迟和A会场的结构,回声的大小取决与A会场的结构和设备。因为回声产生的原因很多,包括:各个会场的布置情况(麦克风与扬声器之间的距离、角度等位置关系)、各个麦克风与扬声器的电气特性、会场的建筑结构(声学反馈)、各个会场之间的网络延迟情况、加入会议会场的个数(多方相互影响)等。在目前现有的解决方案中,一般采用“回声消除器”等设备来解决回声问题,但它存在以下几个问题:1、价格低廉的回声消除器一般对场景动态变化引起的回声消除能力有限;2、复杂的回声消除器价格比较昂贵,且一般还需要增加硬件设备,使得视频会议系统的结构复杂,后期维护麻烦;3、即便是配置了回声消除器,也不能完全解决多个会场参会时的回声,如笔记本声音免提方式加入会议(因为单台笔记本加入会议时不可能配置相应的回声消除器硬件设备);4、一般的系统集成方案即便实施后,每次会议时,或多或少的需要进行调试(如调整功放增益、麦克风增益、相对位置等),系统使用较为麻烦。

发明内容
本发明针对现有技术的缺陷,提出一种基于模式识别和延迟前馈控制的视频会议回声抑制方法,以实现精确、动态地消除回声。为了解决上述问题,本发明提供一种基于模式识别和延迟前馈控制的视频会议回声抑制方法,包括:监测本地的扬声器和麦克风的音频信号,计算所述麦克风拾取扬声器音频信号的增益系数和时差值;在扬声器的前端采集完整的音频信号,将采集到的音频信号与增益系数进行乘法运算,得到回声模拟信号;将所述回声模拟信号进行倒相运算,并根据所述时差值进行延迟处理,叠加到麦克风的输出信号上。优选地,上述方法还具有以下特点:所述监测本地的扬声器和麦克风的音频信号,计算麦克风拾取扬声器音频信号的增益系数和时差值的步骤包括:在扬声器的前端和麦克风的输出端进行米样,从扬声器的音频信号中提取扬声器特征频率信号的信息;从麦克风的音频信号中查找与所述扬声器特征频率信号匹配的回声特征频率信号,记录所述扬声器特征频率信号与回声特征频率信号的时差值,作为麦克风拾取扬声器音频信号的时差值,并计算所述扬声器特征频率信号与回声特征频率信号之间的增益系数,作为麦克风拾取扬声器音频信号的增益系数。优选地,上述方法还具有以下特点:采用声纹识别技术查找与所述扬声器特征频率信号匹配的回声特征频率信号。优选地,上述方法还具有以下特点:在监测本地的扬声器和麦克风的音频信号的步骤中,监测的音频区为3000Hz左右。优选地,上述方法还具有以下特点:所述扬声器特征频率信号的信息包括特征频率点所在的时间值、对应的频率值和信号幅值;所述从扬声器的音频信号中提取扬声器特征频率信号的信息的步骤包括:读取扬声器的音频信号,读取其短时能量,判断短时能量值是否超过设定值,若是,则标记该时间段,选择所述时间段中的多个特征频率点,并记录每个特征频率点所对应的时间戳、频率值和信号幅值。优选地,上述方法还具有以下特点:所述从麦克风的音频信号中查找与所述扬声器特征频率信号匹配的回声特征频率信号的步骤包括:在预设的时间段内提取麦克风的音频信号中特征频率点所对应的时间戳、频率值和信号幅值,与所述扬声器特征频率信号的信息进行比对,若有超过预设个数的特征频率点顺序吻合,则判断为回声特征频率信号。优选地,上述方法还具有以下特点:所述从扬声器的音频信号中提取扬声器特征频率信号的信息的步骤中,选择所述时间段中的10个特征频率点;所述从麦克风的音频信号中查找与所述扬声器特征频率信号匹配的回声特征频率信号的步骤中,若有超过7个特征频率点顺序吻合,则判断为回声特征频率信号。优选地,上述方法还具有以下特点:所述预设的时间段为扬声器特征频率信号的信息中第一个特征频率点的时间戳对应的时间T至T+500ms。优选地,上述方法还具有以下特点:通过比对扬声器特征频率信号的信息中的信号幅值和回声特征频率信号的信息中的信号幅值,计算所述扬声器特征频率信号与回声特征频率信号之间的增益系数。
本发明的回声模式识别技术是一种连续的、动态的、实时的模式识别技术,具有实时性强、准确度高的特点;基于延迟和前馈控制的回声补偿抑制的方法可以将回声信号准确的、高效的除去,以达到消除回声的目的;基于软件和插件的实现方法可以大量节约系统集成费用、降低成本和提高系统的易用性。


图1是视频会议中回声形成的示意图;图2是本发明实施例的解决方案示意图;图3是本发明实施例的解决方案示意图(笔记本免提模式参会);图4是本发明实施例的基于模式识别和延迟前馈控制的视频会议回声抑制方法示意图;图5是音频信号的波形图;图6是本发明应用实例的流程图(步骤I部分);图7是本发明应用实例的流程图(步骤2部分)。
具体实施例方式下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在非网络会议模式下(单一会场),由于一般单一会场空间不是很大,其回声延迟时间很短(小于50ms时,人耳不能分辨出差异),因此可以忽略,在此我们主要讨论网络会议模式下(多个会场,通过网络连接),由于网络延迟时间比较大(大于50ms),可以给人以明显的声音延迟,使得人耳能明显分辨出两个声音的时间差异,形成回声。回声有如下特征:回声和自己说话声音相比,有明显的延迟,回声一般比自己说话的声音小,回声的大小与声源的大小、传播的途径及周围的环境有关。目前市面上有种类繁多的回声消除/抵消/抑制产品,也有很多此类专利产品,其基本上都是通过对回声路径的分析,估计其特征参数,利用回声路径的特征参数构造模拟的回声信道,模拟回声的产生过程,得到的模拟回声信号与接收信号的反相求和即可消除接收信号中的回声。这些设备绝大多数是硬件产品,或者虽然其本质是软件实现,但是依赖独立的硬件设备来完成其功能,这些设备被集成至远程视频系统中时,一则会引起整个系统成本增加,二则会使得系统结构复杂,三则会使得系统的日后维护复杂和麻烦。本发明提出一种基于动态模式识别和延迟前馈控制的视频会议回声抑制方法,它有别于目前已知的方法,可以集成在远程视频会议系统中,也可以作为插件自动运行于参会者个人电脑中,具有不需要独立硬件、不需要安装和调试、不需要日常维护、价格低廉的优点,并且由于采用了特殊的控制算法,其回声抑制能力强,反映快速,不会对正常通话造成影响等优点。本发明的前馈控制是指通过观察情况、收集整理信息、掌握规律、预测趋势,正确预计未来可能出现的问题,提前采取措施,将可能发生的偏差消除在萌芽状态中,为避免在未来不同发展阶段可能出现的问题而事先采取的措施。下面对本发明的技术方案进行详细说明。
如图2所示,从回声产生的原因上,可以知:H点的信号是A会场麦克风拾取A会场的声音信号,A会场的声音信号包括:A会场发言人的声音、A会场扬声器的声音,这是无法改变的;如果将H点的信号直接送入B会场(B卩K点),则会产生回声,这是由于H点的信号包含了 B会场的声音信号,且在时间上延迟两个网络传输时间+B会场声音空气传输时间;笔记本免提模式参会时会产生回声,如图3,即J点不会存在。如果笔记本耳机模式参会的话,也不会产生回声(即A会场的扬声器的声音不可能被拾取到A会场的麦克风,图略)。因此,如果能在H点之后,将H点的信号进行处理,将其中的A会场扬声器的声音去除,仅剩A会场发言人的声音的话,然后将A会场发言人的声音送至J点和I点,那么在B会场的回声问题就可以得到解决。为了达到上述目的,如图4所示,本发明实施例包括如下步骤:1、监测本地的扬声器和麦克风的音频信号,计算所述麦克风拾取扬声器音频信号的增益系数和时差值;2、在扬声器的前端采集完整的音频信号,将采集到的音频信号与增益系数进行乘法运算,得到回声模拟信号;将所述回声模拟信号进行倒相运算,并根据所述时差值进行延迟处理,叠加到麦克风的输出信号上。一个音频信号的波形图如图5所示,横轴代表时间,纵轴代表音频信号幅值,信号在横轴上的疏密程度就是音频信号的叠加频率分布。可以看出音频信号的几个特点:1、音频信号的能量随着时间变化比较明显;2、短时能量(在一个很短时间内的信号能量和)可以有效地判断信号幅度的大小,并可用于声音有无和声音大小的判定;3、信号在横轴上的疏密程度可以通过信号穿越横轴的次数来表征,即短时平均过零率,它在一定程度上可反映频率信息,进而得到频谱特性。在步骤I中,在对人耳最敏感音频区(3000Hz左右,通常为2950 3050Hz,间隔IOHz为一个采样点)进行动态监测,监测在这个区域扬声器和麦克风的音频信号,并计算本地麦克风拾取扬声器音频信号的增益系数和时差值,在步骤2中用得到增益系数和时差值动态修改后续计算参数,以便快速的克服外界环境的变化情况。所述步骤I具体包括:1.1在扬声器的前端(SI位置处)和麦克风的输出端(S2位置处)进行米样,从扬声器的音频信号中提取扬声器特征频率信号的信息;其中,所述扬声器特征频率信号的信息包括特征频率点所在的时间值、对应的频率值和信号幅值;在步骤1.1中,读取扬声器的音频信号,读取其短时能量,判断短时能量值是否超过设定值,若是,则标记该时间段,选择所述时间段中的多个(比如,10个)特征频率点(可根据短时平均过零率是否等于需要的频率值来判断是否是特征频率点),并记录每个特征频率点所对应的时间戳、频率值和信号幅值。1.2从麦克风的音频信号中查找与所述扬声器特征频率信号匹配的回声特征频率信号,记录所述扬声器特征频率信号与回声特征频率信号的时差值,作为麦克风拾取扬声器音频信号的时差值,并计算所述扬声器特征频率信号与回声特征频率信号之间的增益系数,作为麦克风拾取扬声器音频信号的增益系数。在上述步骤中,将SI和S2处采集的特征频率信号进行智能分析,分析的结果是两个特征频率信号之间的增益系数和时差值;对声音信号的智能分析主要是建立在与文本无关的声纹识别技术基础之上,分别对SI和S2处的音频信号的声纹特征矢量进行提取,然后进行延迟比较,获得其匹配的时序和增益参数,从而计算出两个特征信号之间的增益系数和时差值。不同的声音由于其发声源千差万别,因此其声波的频谱差异非常大,将声音信号通过麦克风等电气设备转换为电信号后,可以对其频率特性的差异分析,识别出不同的声音,用于识别声音、识别发音源、鉴别两段音频的异同等,这就是声纹识别。具体地,在预设的时间段内提取麦克风的音频信号中特征频率点所对应的时间戳、频率值和信号幅值,与所述扬声器特征频率信号的信息进行比对,若有超过预设个数(比如,7个)的特征频率点顺序吻合(匹配),则判断为回声特征频率信号;否则,放弃本次采样,进行下一次采样,增益系数和时差值保持上次的有效值。假设扬声器特征频率信号的信息中第一个特征频率点的时间戳对应的时间为T,在一个优选的实施例中,预设的时间段为T至T+500ms。通过比对扬声器特征频率信号的信息中的信号幅值和回声特征频率信号的信息中的信号幅值,计算所述扬声器特征频率信号与回声特征频率信号之间的增益系数。具体地,可以是:将扬声器和回声匹配的特征频率点的信号幅值之比,取平均值,得到本次计算值,增益系数=上次计算值XK+本次计算值X (1-K),其中K是滤波系数,0〈K〈1。如果是首次计算,没有上次计算值,则增益系数=本次计算值。步骤I实时进行,进行连续的采样和计算。通过上述方法获得的系统模式参数(增益系数和时差值)是一个动态实时的参数,且其准确度高,为后续的信号延迟前馈控制消除回声做好数据上的准备工作。在步骤2中,在扬声器前端S3处采集完整的音频信号,并与增益系数进行乘法运算,这个信号即可以用来模拟回声拾取通道的信号;然后将此回声模拟信号进行延迟处理,其延迟参数取决于时差值。最后,将上述延迟处理之后的信号通过前馈运算模块注入麦克风的输出信号,即将此信号叠加至麦克风输出,以达到消除回声的目的。下面以一个具体的应用实例进一步说明本发明:如图6和图7所示,该应用实例包括如下步骤:步骤601,读取扬声器和麦克风的音频信号;步骤602,缓存一定的值后,执行下一步;步骤603,判断扬声器的短时能量值是否大于预设值,若是,则执行步骤604,否贝U,执行步骤601 ;步骤604,读取扬声器第i个特征频率,其中i的初始值为I ;步骤605,判断是否为特征频率点,若是则执行步骤607,否则,执行步骤606 ;步骤606,设置i=i+l,执行步骤604 ;步骤607,记录特征频率点所对应的时间戳、频率值和信号幅值;步骤608,判断是否是i>10且处于该时间段内,若是,则执行步骤609,否则,执行步骤606 ;
步骤609,读取麦克风的第k个特征频率,执行步骤611 ;步骤610,设置k=k+l,执行步骤609 ;步骤611,判断是否是特征频率点,若是,则执行步骤612,否则,执行步骤610;步骤612,记录特征频率点所对应的时间戳、频率值和信号幅值;步骤613,判断是否是k>10且处于该时间段内,若是,则执行步骤614,否则,执行步骤610 ;步骤614,逐个比较两个音频信号的特征频率信号的信息(特征值);步骤615,判断序列相同的个数是否大于7,若是,则执行616,否则,执行步骤601 ;步骤616,对比特征频率信号的信息中的时间戳;步骤617,得到回声时间(时差值);步骤618,对比特征频率信号的信息中的信号幅值;步骤619,得到回声增益(增益系数)。步骤701,读取扬声器的音频信号;步骤702,进行增益控制运算,即:将音频信号与增益系数进行乘法运算,得到回声模拟信号;步骤703,将回声模拟信号进行倒相运算;步骤704,按照所述时差值进行数字延迟运算;步骤705,通过前馈运算模块将上述延迟处理后的信号叠加至麦克风的输出。综上所述,本发明采用数字化、动态化、连续化模式识别,模型参数精度高,回声消除能力强,动态响应和跟踪速度快,且复杂度较低,纯软件方式实现,可跨平台运行(包括单不限于Windows、Linux、CE、Android、Symbian等),可以作为插件运行于参会设备之上,不依赖独立的硬件设备,可集成至视频会议的前端机、个人笔记本、甚至智能手机上,降低了系统实现成本、极大的拓展了使用范围、降低了系统维护技术要求和麻烦程度,因为没有硬件结点,也降低了系统失效概率,提高了系统可靠性。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种基于模式识别和延迟前馈控制的视频会议回声抑制方法,包括: 监测本地的扬声器和麦克风的音频信号,计算所述麦克风拾取扬声器音频信号的增益系数和时差值; 在扬声器的前端采集完整的音频信号,将采集到的音频信号与增益系数进行乘法运算,得到回声模拟信号; 将所述回声模拟信号进行倒相运算,并根据所述时差值进行延迟处理,叠加到麦克风的输出信号上。
2.如权利要求1所述的方法,其特征在于, 所述监测本地的扬声器和麦克风的音频信号,计算麦克风拾取扬声器音频信号的增益系数和时差值的步骤包括: 在扬声器的前端和麦克风的输出端进行米样,从扬声器的音频信号中提取扬声器特征频率信号的信息; 从麦克风的音频信号中查找与所述扬声器特征频率信号匹配的回声特征频率信号,记录所述扬声器特征频率信号与回声特征频率信号的时差值,作为麦克风拾取扬声器音频信号的时差值,并计算所述扬声器特征频率信号与回声特征频率信号之间的增益系数,作为麦克风拾取扬声器音频信号的增益系数。
3.如权利要求2所述的方法,其特征在于, 采用声纹识别技术查找与所述扬声器特征频率信号匹配的回声特征频率信号。
4.如权利要求1或2所述的方法,其特征在于, 在监测本地的扬声器和麦克风的音频信号的步骤中,监测的音频区为3000Hz左右。
5.如权利要求2所述的方法,其特征在于, 所述扬声器特征频率信号的信息包括特征频率点所在的时间值、对应的频率值和信号幅值; 所述从扬声器的音频信号中提取扬声器特征频率信号的信息的步骤包括: 读取扬声器的音频信号,读取其短时能量,判断短时能量值是否超过设定值,若是,则标记该时间段,选择所述时间段中的多个特征频率点,并记录每个特征频率点所对应的时间戳、频率值和信号幅值。
6.如权利要求5所述的方法,其特征在于, 所述从麦克风的音频信号中查找与所述扬声器特征频率信号匹配的回声特征频率信号的步骤包括: 在预设的时间段内提取麦克风的音频信号中特征频率点所对应的时间戳、频率值和信号幅值,与所述扬声器特征频率信号的信息进行比对,若有超过预设个数的特征频率点顺序吻合,则判断为回声特征频率信号。
7.如权利要求6所述的方法,其特征在于, 所述从扬声器的音频信号中提取扬声器特征频率信号的信息的步骤中,选择所述时间段中的10个特征频率点; 所述从麦克风的音频信号中查找与所述扬声器特征频率信号匹配的回声特征频率信号的步骤中,若有超过7个特征频率点顺序吻合,则判断为回声特征频率信号。
8.如权利要求6所述的方法,其特征在于,所述预设的时间段为扬声器特征频率信号的信息中第一个特征频率点的时间戳对应的时间T至T+500ms。
9.如权利要求6所述的方法,其特征在于, 通过比对扬声器特征频率信号的信息中的信号幅值和回声特征频率信号的信息中的信号幅值, 计算所述扬声器特征频率信号与回声特征频率信号之间的增益系数。
全文摘要
本发明公开一种基于模式识别和延迟前馈控制的视频会议回声抑制方法,包括监测本地的扬声器和麦克风的音频信号,计算所述麦克风拾取扬声器音频信号的增益系数和时差值;在扬声器的前端采集完整的音频信号,将采集到的音频信号与增益系数进行乘法运算,得到回声模拟信号;将所述回声模拟信号进行倒相运算,并根据所述时差值进行延迟处理,叠加到麦克风的输出信号上。本发明的回声模式识别技术是一种连续的、动态的、实时的模式识别技术,具有实时性强、准确度高的特点,可以将回声信号准确的、高效的除去。
文档编号H04N7/15GK103152546SQ201310056618
公开日2013年6月12日 申请日期2013年2月22日 优先权日2013年2月22日
发明者唐常芳 申请人:华鸿汇德(北京)信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1