一种增强声环境中目标语音信号拾取的信号处理方法

文档序号：2827747研发日期：2014年阅读：232来源：国知局

技术简介：
本专利针对传统回声消除技术处理复杂、保真度低及自适应滤波器稳定性差等问题，提出基于回声状态神经网络（ESN）的语音增强方法。通过建立音源模型，利用环境反射声与目标语音混合信号训练网络，实现对反射声的抑制和目标语音的增强，有效适应拾音位置变化，提升语音质量。
关键词：回声消除,ESN模型,语音增强

一种增强声环境中目标语音信号拾取的信号处理方法
【专利摘要】本发明涉及一种增强声环境中目标语音信号拾取的信号处理方法。（1）通过实验获取ESN网络的参数，建立相应的音源模型；（2）将模型用于两种场合：当模型的输出为期望的某目标语音信号，输入为该目标语音源的声环境反射声信号和目标语音信号的混合时，模型可用于现场扩声的回声消除；当模型的输出为期望的某目标语音信号，输入为其它特定语音源的声环境反射声信号和目标语音信号的混合时，模型可用于两个特定人间语音通信的回声消除；（3）模型在实际声环境中给目标语音人使用时，拾音的位置发生变化，也能抑制训练所指的音源信号的反射信号，而输出相应增强的目标语音信号。本发明克服因拾音位置移动，而造成语音信号质量受到的影响。
【专利说明】一种增强声环境中目标语音信号拾取的信号处理方法

【技术领域】
[0001] 本发明属于室内语音信号拾取的处理技术，涉及通过实验对回声状态神经网络的参数选择和训练建模的数字信号处理方法，特别是一种增强声环境中目标语音信号拾取的信号处理方法。

【背景技术】
[0002] 在现场扩声中，消除回声影响的涉及对象是：特定目标语音和该特定目标语音的环境反射声，主要用于提高声增益。主要的相关技术有：（1)传统技术如窄带均衡是滤除峰值的处理，消除反馈自振；移频法是采用对信号进行频谱移动再扩声，用以破坏反馈自振条件等，它们存在的一个共同问题都是处理技术复杂，并且不利于语音信号的保真；(2)基于现代的数字信号处理的方法则采用自适应滤波处理的回声抵消技术。
[0003] 在语音通信中，消除回声影响的涉及对象是：特定目标语音和另一个特定语音的环境反射声，主要达到语音增强的目的。回声消除的相关产品主要在两个方面：基于DSP平台的回声消除器和基于Windows平台的语音通信的回声消除算法软件。它们均是基于自适应回声抵消技术的产品，回声抵消必须精确地模拟回声路径，并且迅速地适应它的变化。这包括自适应滤波器的结构和自适应算法的选择，以及减少噪声对算法收敛速度的影响等。自适应回声抵消处理主要有以下两方面问题：首先，设计主要针对以下的使用问题：（1)处理同时通话。只有远端信号没有近端信号时，获得对回声模拟的滤波器系数，当加入近端信号时等于引进另外大的随机分量到自适应过程，滤波器系数会围绕这个中值的变化而显著增大，导致性能下降。对此必须检测近端信号存在的关键元件，在同时讲话时使自适应功能停止，保持前面的滤波器系数不变。（2) 基于自适应滤波的算法常用的LMS算法存储量小、实现及检测比较容易，但收敛性差；而收敛性好的RLS算法计算量大，因此出现了许多它们的改进算法，以及应用于解决实际回声问题的自适应滤波抵消算法处理。（3)当回声消除算法应用到Windows平台，必须解决采集和播放音频流的同步问题。相对于传统的DSP平台，现在的PC机，拥有丰富的CPU资源和海量的内存资源，再复杂的回声消除算法都可以运行自如。但是，应用程序很难在底层直接控制声卡的采集播放，获得的是非实时的音频流，从而带来了采集和播放音频流的同步问题。本地接收到远端的语音后，要把这些语音数据传给回声消除算法做参考，这是算法需要的一个输入信号；然后再传给声卡，声卡放出来后经过回音路径，本地再采集后传给回声消除算法，是算法需要的另一个输入信号。如果传给回声消除算法的两个信号同步得不好，即两个信号发生帧错位，就很难进行消除了。
[0004] 其次，扬声器与麦克风之间声耦合形成的声回波自适应滤波消除技术存在以下的技术问题：（1)由于延迟时间较长(达到ls)，需要几千个系数的高阶滤波器来拟合，需要更多的计算资源。（2)如此长的高阶滤波器的稳定性及提高其自适应速度都是比较困难的事情。首先，声回波路径由于声学特性的变化表现得不平稳；其次，声回波是通过多经传播来的；再次，房间声空间的传播散射特性是非线性，用一般的 1^1(或Μ)线性滤波器不能较好地对其建模。（3)对于立体声Mi￥0系统的声回波抵消问题，目前仍然是一个重要的、富有挑战性的研究课题，随着消回声消除技术的发展，当前回声消除研究的重点，已由电路回声的消除，转向了声学回声的消除。
[0005] 作为语音信号的产生可以米用.A通￡4或Ji?模型描述，室内扬声器到麦克风的声信道(反射声信号的产生）也可以用或模型近似描述，^模型具有以较少极点较准确模拟声信道的功能。对于室内声信道相当于大量驻波叠加的结果，有较多峰值，需要较多极点数的I模型模拟出来，而对于人声系统发出的语音信号则通常只要很少极点数的--模型就可以模拟出来。因此，如果能建立一个模型，其输出为目标语音，而输入为目标语音和环境反射声信号的，则抑制的是反射声信号，而相应强化的是目标语音信号。
[0006] 动态神经网络，又称递归神经网络，由动态神经元组成，是针对动态系统辨识研究中发展出来的一种神经网络。动态神经网络的训练过程是不断调整网络参数（如权值等）使网络输出逼近理想输出的过程，是建立iMfi模型的有力工具。作为一种新型递归神经网络，回声状态神经网络网络)在非线性系统辨识方面较传统的递归神经网络有较大改进。首先，在稳定性方面，可以通过预先设定储备池权值矩阵的谱半径来保证递归网络的稳定性；其次，在网络训练方面，输出权值的确定是唯一而且是全局最优的，因此没有传统神经网络普遍存在的局部最小问题，并且不存在传统动态神经网络靠误差调整而收敛速度慢的问题；除此之外网络避免了传统递归神经网络求取时序偏微分的过程，因此网络的训练过程变得特别简单。
[0007] 正因为网络在非线性系统辨识方面显示出的良好性能，因此，本发明针对上述需求，也利用ny网络建立一种抑制室内声环境反射声信号而增强输出目标语音信号的模型。借此，在回声消除处理中，上述自适应滤波器所遇到的问题将得到解决。

【发明内容】

[0008] 本发明的目的在于提供一种解决上述自适应滤波器抵消声环境反射信号的方法所存在的不足的增强声环境中目标语音信号拾取的信号处理方法。
[0009] 为实现上述目的，本发明的技术方案是：一种增强声环境中目标语音信号拾取的信号处理方法，包括以下步骤：步骤1 :确定建立的模型类型：包括第一音源模型和第二音源模型，所述第一音源模型为抑制目标语音本身在声环境中产生的的反射声信号而相应增强目标语音信号；所述第二音源模型为抑制另一特定人语音在声环境中产生的反射声信号而相应增强目标语音信号；步骤2 :模型的训练数据源分为两种获取准备：当准备建立第一音源模型时，需获取目标语音信号的数据采样点；当准备建立第二音源模型时，需获取特定人语音信号和目标语音信号5^〇)的数据采样点；步骤3 :获取训练模型用的环境反射声信号：首先，从电声系统对室内声环境输入激励信号，获取室内声环境的脉冲响应信号，并转换成数字信号jK/?;其次，设定阶数/?，利用基于自相关的线性预测算法获取全极点滤波器系数，该全极点滤波器用于模拟声环境中的声信道传输特性；再而，以准备抑制的反射声所对应的音源信号(;?)或：? 4经过全极点滤波器获得相应的环境反射声信号公/λ); 步骤4必W网络参数的确定：网络的方程为：

【权利要求】
1. 一种增强声环境中目标语音信号拾取的信号处理方法，其特征在于：包括以下步骤：步骤1 :确定建立的模型类型：包括第一音源模型和第二音源模型，所述第一音源模型为抑制目标语音本身在声环境中产生的的反射声信号而相应增强目标语音信号；所述第二音源模型为抑制另一特定人语音在声环境中产生的反射声信号而相应增强目标语音信号；步骤2 :模型的训练数据源分为两种获取准备：当准备建立第一音源模型时，需获取目标语音信号的数据采样点；当准备建立第二音源模型时，需获取特定人语音信号 ?〇!；)和目标语音信号的数据采样点；步骤3 :获取训练模型用的环境反射声信号：首先，从电声系统对室内声环境输入激励信号，获取室内声环境的脉冲响应信号，并转换成数字信号其次，设定阶数利用基于自相关的线性预测算法获取全极点滤波器系数，该全极点滤波器用于模拟声环境中的声信道传输特性；再而，以准备抑制的反射声所对应的音源信号(；?)或5^?：)经过全极点滤波器获得相应的环境反射声信号;步骤4必W网络参数的确定：网络的方程为：
其中，/表示内部神经元激活函数，通常取双曲正切函数，表示输出函数，典型情况下取恒等函数，if?为I'时刻储备池的状态变量，?/?为f时刻系统输入向量,Γ?是网络/时刻的输出；If为随机产生并且稀疏连接的高维方阵，储备池一经产生，其连接权值保持不变和#分别为网络的输入权值矩阵和输出权值向量;lf l22A为输出对状态变量连接权值向量；表示输出的偏置项或代表噪声；和随机产生而且保持不变，唯一需要调整的是输出权值%^;为使麦克风取一定长度的信号巾贞输入模型后，能够处理输出相应长度的目标语音中贞，上述三个随机连接权值向量的取值如下：
间；其中，If值越小，建立状态的时间相对越短，提高模型运算的实时性，而y值越大模型精确性越高，但可能使泛化能力下降；i取值为：①决定输入储备池的尺度，a>1 ；?0<^<1；?0<€<1；步骤5 :以?/_ = ;(?) +^(Λ)作为|；驟网络输入，D =作为目标期望，对篇f网络进行训练，得到抑制特定音源反射声而相应增强目标语音信号的模型；f'时刻，储备池的状态变量JT的状态方程：
对于给定非线性系统输入输出对= 利用网络辨识该系统的过程为：首先，初始化储备池中的权值If和%;其次，输入--激励系统，求得网络的各个时刻状态响应；储备池中的状态变量与期望输出之间是线性关系，因此网络的训练过程比较简单，而且解的过程不会出现传统神经网络常有的多个局部最小、收敛速度慢的缺点；输出权值i_f的确定采用基本的线性回归算法：
2. 根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述训练所得的模型还能够用于实际声环境中声信道变化时的目标语音信号增强，即从麦克风获取的信号?/ζτι；)中包含：目标语音信号、特定的环境声反射信号输入模型中，获得增强的目标语音信号输出，其采用liin#实现的代码段如下：
3. 根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述步骤2中，获取目标语音信号公的数据采样点，其数据帧长度大于625ms。
4. 根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述步骤3中，所述的输入激励信号为白噪声脉冲、周期脉冲或赝噪声。
5. 根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述步骤3中，所述声环境的脉冲响应信号由能够在室内使用范围的任意一种扬声器和麦克风相应位置获取。
6. 根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述步骤3中，所述阶数的确定过程如下：室内极点数，即线性预测的阶数对应的是室内声驻波数，其按下式估算：
式中/为估算频率为相应波长,为估算的带宽为声速,Λ = #7义p为室内容积,为室内总表面积；则所述阶数p = MAT。
7. 根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述步骤3中，所述环境反射声信号公2〇：)，其是指：当为第一音源模型时，及 2〇^为由目标语音信号，即由m_；) = &〇〇通过全极点滤波器形成；当为第二音源模型时,5·2〇ι：)为由特定人语音信号(?；)通过全极点滤波器形成。
8. 根据权利要求1所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述的网络参数沒、?€、ΛΓ、Ρ由实验选定，具体确定过程即：（1)取沒、况、jP满足Λ Μ,Ο <1,0 <c <1H3W,F= 0別仍中的任意一组值，输入训练数据建模，再对模型输入实例数据，观察处理输出时系统是否稳定，即是否存在振荡，存在振荡时调小参数I?,直至模型稳定输出；（2)增大或减小y值，重复上一步的训练和仿真输出，达到最佳效果时以、厶、的取值，即为确定参数值。
9. 根据权利要求2所述的一种增强声环境中目标语音拾取的信号处理方法，其特征在于：所述训练所得的模型能够用于实际声环境中声信道变化时的目标语音信号增强，其是指一旦模型建立后，拾音的位置发生变化时，还能够抑制训练所指的音源信号在时变声环境中的反射信号，输出相应增强的目标语音信号。
【文档编号】G10L21/02GK104157293SQ201410427254
【公开日】2014年11月19日申请日期:2014年8月28日优先权日:2014年8月28日
【发明者】陈国钦申请人:福建师范大学福清分校

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈国钦
技术所有人：福建师范大学福清分校
我是此专利的发明人

上一篇：可自由组合按键的电子琴及实现自由组合的方法
下一篇：一种回声消除方法及装置制造方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！