一种用于扩音通信系统的语音增强方法与流程

文档序号:12274073阅读:385来源:国知局
一种用于扩音通信系统的语音增强方法与流程

本发明属于通讯领域,尤其基于移动通讯设备在扩音通信场景中的音频处理技术。



背景技术:

在语音通话过程中,语音清晰度至关重要。在扩音通信系统中,来自扬声器以及通话环境反射音等的干扰使得语音清晰度更加难以保证。为便于描述,本发明中将通话双方分别称为近端(near-end)和远端(far-end)。下面结合图1对扩音通信系统中的语音传输过程及干扰音产生过程加以描述。在实际扩音通话场景下,对语音清晰度产生干扰的信号来自于通话环境以及通话设备。一方面,近端说话者1-3发出语音信号后,有传入MIC1-2的直达语音a,也有经过天花板、墙壁等反射传入MIC1-2的非直达语音b,该反射语音b被称为混响;另一方面,近端说话者1-3的语音经过网络传输至远端,在远端扬声器2-1输出后,有直接传入远端MIC 2-2的语音c和经过远端环境的天花板、墙壁等反射后再次传输进远端MIC 2-2的语音d,语音c和语音d再经过网络传播,传回近端,在近端扬声器1-1输出,近端发言者1-3能够听到自己发出的语音,被传回的近端说话者语音被称为声学回声(区别于传统的回声概念,此处的声学回声是指通过通信线路传回的近端语音)。该回声会再次传入近端MIC1-2,根据传播路径不同可以将再次传入近端MIC1-2的声学回声分为直达回声g(direct echo)和房间回声f(room echo)。如果不对该回声g、f加以处理,将再次被传输至远端,并有可能在通话双端间被无限次传播。

基于上述描述,传入近端MIC1-2的语音中除了近端说话者的直达语音,还包括混响b和回声g、f。若不将回声成分消除,会出现无限次回声,啸叫等问题,严重影响通话质量。在扩音通信系统中,混响也被认为是语音信号的负面特征,会影响语音清晰度。

针对扩音通信中的声学回声,已经有诸多解决方案被提出,该类解决方案被称为回声抵消(acoustic echo cancellation,AEC)。回声抵消处理将传入近端MIC1-2的远端语音均视为消除对象,统称为声学回声。声学回声可分为直达回声(direct echo)和房间回声(room echo),直达回声能量较集中,属于短期、线性回声;而房间回声能量分散,大部分属于非线性回声。已有的AEC解决方案对于直达回声有较好的抑制效果,但对于房间回声抑制效果并不理想,其中部分解决方案为了改善对房间回声的抑制效果使计算量陡增。

针对扩音通信系统中语音混响成分的去除也有诸多解决方案被提出,该类解决方案被称为去混响算法(dereverberation)。语音混响成分可分为前期反射声和后期反射声,前期反射声不会对语音清晰度产生干扰,并且会增加直达语音响度,使直达语音听起来更加饱满;而后期反射声会对语音清晰度产生影响。诸多去混响解决方案从时域和频域不同角度去除后期反射声对语音质量产生的影响。。



技术实现要素:

本发明提出一种用于扩音通信系统的语音增强方法,目的在于解决现有AEC模块对房间回声抑制效果不佳的问题。

一种用于扩音通信系统的语音增强方法,旨在提高扩音通信系统的语音质量,其特征在于,主要包括以下操作:步骤a:对输入的当前语音信号进行去混响处理,得到去混响语音数据;步骤b:根据当前语音的语音状态,决定是否对去混响语音数据进行回声抵消处理。

优选的,去混响语音数据是去除了混响成分以及部分非线性回声成分得到的语音。

优选的,上述步骤b进一步包括步骤b1:语音状态检测,确认当前语音中是否包含扬声器输出的远端语音。

优选的,根据语音状态检测结果,可以将当前语音分为:近端语音状态、远端语音状态,以及双端语音状态,其中所述近端语音状态是指麦克风输入语音中仅包含近端说话者的语音,无远端传回语音;所述远端语音状态是指麦克风输入语音中仅包含扬声器输出的远端语音,可能包含远端说话者的语音及近端说话者的回声;所述双端语音状态是指麦克风输入语音中同时包含近端说话者的语音和扬声器输出的远端语音。

优选的,上述当前语音为远端语音状态或者双端语音状态,则进一步执行步骤b2:自适应滤波回声估计和抵消处理,从而使得语音的直达回声能够得到较好的抑制。

优选的,上述自适应滤波回声估计处理是指:当存在远端语音数据时,也就是属于远端语音状态或者双端语音状态时,利用上述远端语音数据以及参数自适应调整滤波器进行回声估计,得到回声成分;所述抵消处理是指:上述去混响语音数据减去回声成分,生成第一去除回声语音 。

优选的,在上述步骤b2中,如果属于远端语音状态,进行上述自适应滤波处理,并采用归一化最小均方算法更新滤波器的系数;如果属于双端语音状态,则只需进行上述自适应滤波处理,不进行滤波器系数更新。

优选的,上述第一去除回声语音中含有未被完全抑制的残余回声时,采用频域回声抵消处理对所述残余回声进行抑制:,为所述频域回声抵消处理,为所述频域回声抵消处理后得到的第二去除回声语音。

优选的,当前语音属于近端语音状态,则直接向去混响语音数据添加舒适噪声。

优选的,对上述第一去除回声语音或者第二去除回声语音添加舒适噪声。

本发明结合去混响和AEC的语音增强方法,能够更好地抑制回声的同时去除混响的干扰,使得扩音通信系统的音质得到进一步提高。

本发明提供的技术方案能够在提高传统AEC模块对房间回声抑制效果的同时,去除近端语音混响成分的干扰,提高扩音通信系统音质。此外,去混响模块对于房间回声的抑制作用解决了AEC模块针对该回声抑制而使计算量陡增的问题。

附图说明

图1为现有扩音通信系统中的语音传输过程及干扰音产生;

图2为本发明实施例中应用于扩音通信系统的语音增强装置功能框图;

图3为本发明具体实施例的语音增强方法的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明实施例中的技术方案进行清楚、完整的描述。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例都属于本发明保护的范围。

现有的诸多扩音通信系统中都内嵌有AEC功能模块,但AEC模块仅对回声起到抑制作用,对近端语音本身并无音质上的改善,而且对声学回声中的房间回声(room echo)成分抑制作用不明显。基于此,本发明公开了一种结合去混响模块(dereverberation,简记为Derb)和AEC模块的扩音通信系统语音增强装置。在AEC模块之前添加去混响模块,一方面,去混响模块(Derb)能够去除语音混响成分中的后期反射声干扰,提高扩音通信系统的语音质量;另一方面,添加的去混响模块对于与后期反射声有相似特征的房间回声也能起到较好的抑制作用,进一步提升了对回声的抑制效果。

图2为本发明实施例中应用于扩音通信系统的语音增强装置功能框图。由该图示可知,近端装置1与远端装置3通过网络信道2进行语音数据通信,远端装置3与近端装置1功能相同,本实施实例中仅对近端装置1进行描述。

本发明实施实例中,扩音通信系统通信过程分为远端信号经过网络传至近端装置的过程A和近端信号经过网络传至远端装置的过程B,下面结合图2分别进行简要描述。

过程A:远端信号传至近端装置,具体包括:

步骤A-1:音频编解码模块15接收远端装置发送的语音数据包,并根据具体通信协议对该语音数据包进行解码,得到数字语音信号;

步骤A-2:数模、模数转换模块13接收音频编解码模块15输出的数字语音信号,利用数模转换功能,将数字语音信号转换为模拟语音信号;

步骤A-3:扬声器11接收来自模数转换模块13输出的模拟语音信号,对该语音信号进行放大输出。

过程B:近端信号传至远端装置,具体包括:

步骤B-1:MIC12采集近端输入语音信号,其包括附图1中描述的近端说话者1-3的直达语音a、近端说话者的反射语音b、扬声器11输出远端传回语音的直达信号g(其中包含近端语音回声中的direct echo)以及远端传回语音的反射语音f(其中包含近端语音回声中的room echo);

步骤B-2:数模、模数转换模块13将MIC12拾取的模拟语音信号转换为数字语音信号;

步骤B-3:语音增强模块14是本发明的核心功能模块,对模数转换模块13得到的数字语音信号进行语音增强处理,其具体实施步骤在后面单独详细介绍;

步骤B-4:音频编解码模块15将语音增强模块14输出的增强后语音信号进行编码并通过网络传至远端装置。

图3为本发明具体实施例的语音增强方法的示意图。现有语音通信系统中,大多设置了静音检测模块(VAD),该模块的作用是从语音信号流中识别长期的静音期,并对静音帧数据进行特殊编码,以节省带宽资源并降低编解码复杂度。静音帧检测属于本发明方案的先前处理模块,因此本发明中不做详细论述。本发明方案提供的语音增强装置仅对非静音数据帧进行处理。结合图3所示的流程操作,可知本发明方法具体包括以下步骤:

步骤1:本发明方案首先对输入语音增强装置的数字语音信号进行去混响处理(图3中Derb模块),得到去混响语音数据

其中表示去混响处理,此处使用Nakatani的去混响算法。该具体算法可以参考论文数据库IEEE Xplore中《Blind dereverberation of single channel speech signal based on harmonic structure》(作者:Tomohiro Nakatani, Masato Miyoshi ;刊登时间:2003年)。

是去除了中混响成分以及部分非线性回声成分得到的语音。

步骤2:语音检测操作。本发明具体实施例采用的回声抵消处理(AEC)模块分为四个子模块:语音状态检测模块31、自适应滤波模块32、频域回声抑制模块33和舒适噪声添加模块34,分别对应于图3中提及的Detection模块、Adapt_Filter模块、Fre_AEC模块、CNI模块。先对传入回声抵消(AEC)模块的语音信号进行语音检测处理(Detection)。语音检测模块在整个回声抵消(AEC)模块中起到至关重要的作用,后续步骤需要根据语音检测状态的不同分情况处理。

语音状态检测的目的是确定当前输入语音的来源,可能包含近端语音或远端语音。根据当前输入语音来源的不同,可以将语音状态检测结果分为:近端语音状态a、远端语音状态b和双端语音状态c。近端语音状态a是指MIC输入语音中仅包含近端说话者的语音,无远端传回语音;远端语音状态b是指MIC输入语音中仅包含扬声器输出的远端语音,可能包含远端说话者的语音及近端说话者的回声;双端语音状态c是指MIC输入语音中同时包含近端说话者的语音和扬声器输出的远端语音。

本发明方案实施实例中采用基于能量对比的语音状态检测算法。检测远端语音操作非常简单,只需检测扬声器线路中是否存在远端传回语音。若无远端语音,则当前为近端语音状态a。若存在远端语音,需要进一步判定当前处于远端语音状态b还是处于双端语音状态c。此处采用经典的GEIGEL算法进行进一步判定。该算法思想是通过比较MIC输入语音与扬声器输出语音的能量来判定是否存在近端语音。由于存在回声延迟等因素,将MIC的输入语音与过去一段时间内扬声器输出声音信号中的最大值进行比对

上式表示要比较当前时刻MIC输入语音与当前时刻之前扬声器输出的个采样信号中的最大值,为系数,表示系统对远端信号的衰减,本实施实例中选为0.71,选为100。如果上式成立,即MIC输入语音的能量强度大于扬声器输出语音衰减后的能量强度,说明存在近端语音,则当前为双端语音状态c。若上式不成立,说明无近端语音存在,当前为远端语音状态b。

本发明方案旨在消除再次传入近端MIC1-2的远端语音,因此,当语音检测状态为近端语音状态a时,表示无远端语音,直接进行步骤5的操作即可;当为远端语音状态b或双端语音状态c时,存在远端语音,需要对其进行消除,按照后续步骤顺序处理。

步骤3:自适应滤波回声估计和抵消处理。自适应滤波算法是回声抵消(AEC)中常用的算法,该算法利用远端语音以及参数自适应调整滤波器,对近端反馈路径的冲击响应进行自适应估计,从而利用远端语音估计经过近端反馈路径形成的回声成分

其中表示利用自适应滤波估计回声的处理;

从去混响模块21输出语音中减去估计得到的回声成分可以得到去除回声后的语音

为经过自适应滤波回声抵消处理后得到的去除回声语音;

自适应滤波器系数根据诸如归一化最小均方(NLMS)等常用算法被自适应地更新。但根据步骤2中语音检测状态的不同,此处需要进行不同的处理。若当前语音检测状态为远端语音状态b,那么需要进行自适应滤波处理并采用归一化最小均方算法(NLMS)更新滤波器系数;若为双端语音状态c,则只进行自适应滤波处理,不进行滤波器系数更新。因为此时中不仅包含回声残余信号,还包含近端语音信号,若滤波器据此进行系数更新,会造成回声估计的极大误差,因此在双端语音状态c下不进行滤波器系数更新。

经自适应滤波处理后,语音中的直达回声(direct echo)能够得到较好的抑制;传统的AEC算法中,为了能够得到较好的回声抑制效果,自适应滤波器会被设置较多的抽头个数(也即较高的滤波器阶数),抽头个数的增加确实会改善AEC对房间回声的抑制效果,但同时会带来一些问题,比如滤波器阶数的增加会大大提高自适应滤波过程的计算复杂度,另外,与直达回声不同,房间回声变化较快,比如开门、人移动等都会引起房间回声的变化,但阶数较高的自适应滤波器无法及时地做出自适应调整,致使在一小段时间内回声抵消效果较差。本发明方案步骤1中添加的去混响模块已经对房间回声中非线性部分有所抑制,并且本方案在后续步骤中有针对残余回声的处理,所以此处选取较小的滤波器阶数,在保证回声抵消效果的同时,降低计算量。

步骤4:自适应滤波处理输出的语音中可能含有未被完全抑制的残余回声(tail echo),本发明实施实例采用CN102387272A专利方法(张妲李子等人,2012,专利公开号CN102387272A)在频域对残余回声进行抑制。残余回声具有非线性、能量不集中等特点,采用频域方法能够针对非线性回声取得较好效果。由于本发明方案添加了去混响处理模块,部分非线性、能量分散的回声已经得到抑制,因此,本步骤中可以根据应用场景对CN102387272A进行简化处理(此处不详述),以节省计算量

为频域回声抵消处理,为频域回声抵消处理后得到的去除回声语音。

步骤5:向语音信号中添加舒适噪声。在语音通信系统中,添加舒适噪声是常用方法。一方面,添加的舒适噪声可以掩盖掉部分噪声的干扰,另一方面,舒适噪声还可以帮助通话者避免对于通话状态的误判,比如在噪声间断情况下,某段无噪声干扰时间内给通话者一种寂静的感觉,通话者会误认为对方已经挂机或者掉线,添加舒适噪声后会避免这种错判情况发生。本发明实施实例采用邱洪的方法(邱洪,2011,专利公开号CN102136271A)生成并添加舒适噪声。

5-A:若当前语音信号为近端语音状态a,未进行步骤3、4的处理,则直接向经过去混响处理的语音中添加舒适噪声。

为语音增强装置14最终输出给语音编解码装置15的增强语音。

5-B:若当前语音信号为远端语音状态b或双端语音状态c,向去混响、回声抵消处理后的语音中添加舒适噪声

为语音增强装置14最终输出给语音编解码装置15的增强语音。从近端MIC12拾得的音频信号中会带有噪声干扰,步骤3中频域回声抵消处理过程中可能引入噪声,并且某些场景下经过去混响、自适应滤波和频域回声抑制处理后仍可能存在微弱残余回声,向语音中添加舒适噪声,掩盖掉噪声和残余回声以不被人耳感知。

上述步骤仅为本发明的一个实施实例,本发明旨在提供一种结合去混响和回声抵消的语音增强的方法,可以根据具体应用场景选择各步骤中的实现方法,也可根据具体应用场景及运行平台处理能力,适当调整各子模块的运算负荷分配情况,比如在去混响处理、自适应滤波阶数、频域回声抵消各模块的运算复杂度间做折中调整。频域回声抵消及添加舒适噪声能够对残余的非线性回声有较好的抑制处理,并掩盖噪声对人耳干扰。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1