基于MVDR的隐声方法与流程

文档序号：11252380阅读：399来源：国知局

本发明涉及麦克风阵列的隐声技术，具体涉及一种基于mvdr的隐声方法。

背景技术：

隐声技术的研究已经有了很长的历史，人们在声信号传感领域主要探索了两种方法：骨传导麦克风和超声麦克风，在声信号处理领域探索了信号分离技术和差分麦克风阵列。

骨传导麦克风是利用人讲话时引起的头颈部骨骼的轻微振动来把声音信号收集起来转为电信号。由于它不同于传统麦克风通过空气传导拾取声音，所以在很嘈杂的环境里也可以把声音高清晰的传出来。早在几百年前，人们对骨传导技术已经有了许多现实的应用，但是早期骨传导麦克风的话音质量不是很好，尤其是高频的话音质量比较差，所以早期的骨传导麦克风只能用于辅助常规的麦克风，例如利用骨传导麦克风做语音端点检测，来提高单通道语音降噪的性能。近一二十年，骨传导麦克风开始真正受到人们关注，其性能有了大幅提高。目前，市场上已经出现了多款基于骨传导麦克风的通信耳麦。其中，2013年5月北京美尔斯通科技发展股份有限公司发明一种骨传导麦克风，实现了该产品自主研发国内零的突破，目前已投入市场。最近，类似于骨传导原理的其他声传感器也获得了重视，如daikin-dtalkmic耳麦，其工作原理是利用高灵敏度的麦克风拾取说话人声带振动信号，并转换成电信号。这种拾音方式同骨传导麦克风有很多类似之处。尽管骨传导麦克风技术得到了突破性的发展，但是其通信耳机目前推广还不是非常理想，主要存在几个问题：1)动态效果差；2)成本高；3)封装效果差；4)音质差。

十余年前，美国贝尔实验室的一批科学家设计了一种超声麦克风。这种麦克风由一个小的超声发射器和一个大宽带的传统麦克风组成。工作时，超声发射器发送一个周期性的宽带脉冲序列。这种宽带脉冲信号的频率在20khz到70khz之间，经说话人的声道反射后，由麦克风接收到反射信号，然后后端的数字信号处理环节利用发射信号和反射信号来估计声道的形状参数，进而合成说话人所说的语音。这种麦克风最大技术特点是工作在超声频段，因此不受听觉感知频率范围内音频信号的干扰，可用于解决类鸡尾酒会环境中的语音通信问题。美国贝尔实验室的科学家构造了一个可以工作的原型系统，这个原型系统将接收并合成出来的元音送到一个语音识别系统中，可以获得95％的识别率。初步的听力实验也证实合成的元音的质量基本可达到传统麦克风的话音质量。当然，这种麦克风在真正实用前还有很多问题需要解决，最大的技术问题就是对于鼻音等声道特征不突出的音素，合成的话音质量和可懂度都不高。

隐声技术从理论上讲可以看作是信号分离或增强问题的一个子问题。在一个复杂的声学环境中，利用麦克风来拾取来自某个声源的信号，该信号几乎无例外地会被污染。根据污染产生的机理，语音信号处理中的噪声分为4类：环境噪声，回声，混响和干扰。为了将声源和噪声分开，针对每一类噪声用特定的方法进行处理：

环境噪声(noise)：环境噪声无法避免而且无处不在，它的存在会严重影响语音信号的话音质量、可懂度和人耳对空间信息的感知。环境噪声通常都是相对平稳的，也就是说当前时间点噪声的统计特性可以用历史时间里的噪声统计特性来代替。根据带噪信号的统计特性和噪声的统计特性，可以设计滤波器对观测信号进行滤波，进而增强语音信号，抑制背景噪声，这种技术称为降噪技术。降噪技术可以利用单通道拾音系统，也可以利用多通道拾音系统，他们分别对应于单通道降噪技术和多通道降噪技术。单通道降噪技术在获得噪声抑制的同时会导致语音畸变，相比而言，多通道降噪技术在获得相同输出信噪比的同时会减小语音畸变。

回声(echo)：声学回声是由麦克风和扬声器之间的声耦合产生的。回声的存在会严重影响多方双工交互。回声最大的特点是声源信号是已知的，只要能够估计出从扬声器到麦克风之间的声传播信道，就能估计出麦克风拾取的观测信号中的回声成分，将此成分的估计从拾取到的信号中减去，就可以实现回声消除，这种技术称为回声对消技术。

混响(reverberation)：混响是由于房间环境中的界面反射(多径效应)造成的。反射分为早期反射和晚期反射。早期反射(通常40ms以内)一般会携带有用信息，如通过分析早期反射的结构，可以估计房间的大小。另外，早期反射还会增强音乐的谐波成分，提高听感。但是晚期反射会引起频谱畸变，进而导致话音质量、可懂度的下降，而且会模糊声源的位置信息。在语音通信系统中，晚期反射造成混响，从而严重影响语音通信的质量，所以需要去混响技术。一种去混响技术是首先对信道进行盲估计，然后再利用均衡技术实现去混响；另一种抑制混响的技术是超指向阵列波束形成技术，其基本原理是提取期望方向的声源信号的同时，抑制来自其他方向的信号。混响是来自四面八方的，因此超指向阵列可以一定程度地抑制混响。

来自其他声源的干扰(interference)信号：干扰信号由点源噪声引起，是空间中来自某个方向的噪声。语音通信中，周围往往有很多人，而且存在其他声源，因此在每个通信端，多个声源的情况是不可避免的，来自不同声源的信号之间会互相干扰。干扰抑制的典型技术是波束形成技术，其基本思想是首先形成一个空域的滤波器，再将滤波器响应最大的方向对准期望声源的方向，对干扰的抑制程度取决于干扰方向上的阵列响应的大小。语音降噪、声源分离和波束形成的目标都是将期望的有用信号与其他的干扰信号分开，所以这些技术都可以用于隐声处理。但目前的分离技术能取得的分离性能还很有限，无法满足隐声应用的需求。

前面提及的信号分离技术需要用到麦克风阵列(microphonearray)。对于麦克风阵列的研究已经有了四十多年的历史，在这四十多年里，人们已经研发出了很多阵列设计与处理方法。按照阵列对声场的响应原理，这些阵列可以分为两大类：加型阵列[additivemicrophonearray(ama)]和差分阵列[differentialmicrophonearray(dma)]。加性阵列一般尺寸较大，每个麦克风测量的是声场的声压，整个阵列波束形成也是对声压场进行响应。目前文献中大量的工作都是关于加性阵列的，关于加性阵列的处理方法。相较而言，差分阵列是对声压场的空间微分场进行响应，具有阵列尺寸小、波束图频率一致性较好、在给定阵元数目的情况下能够最大化阵列指向性等特点。

技术实现要素：

本发明要解决的技术问题是提供一种基于mvdr的隐声方法，具有很好的隐身效果。

为解决上述技术问题，本发明采取如下技术方案：基于mvdr的隐声方法，该方法是先利用短时傅里叶变换，将传感器阵列接收到的时域信号分解成子带信号，在各子带上构造基于mvdr的隐声滤波器，使得来自隐声距离以内声源的声信号无衰减通过隐声滤波器，最终通过反stft得到估计信号。

进一步地，该方法包括如下步骤：

s1：根据阵列的结构、阵元数目、声源的位置等参数，构造导向矢量

将麦克风阵列中传感器接收到的信号ym(k)＝xm(k)+vm(k),m＝1,2,...,m分成有一定重合比例的短时帧，帧长可从几个毫秒到几十个毫秒，然后m个通道中每一个通道的每一帧进行短时傅里叶变换，获得ym(ω,i),其中i表示第i帧，然后构造

y(ω,i)＝[y1(ω,i)y2(ω,i)…ym(ω,i)]^t，

s2：用短时傅里叶变换，将传感器阵列接收到的时域信号分解成子带信号；

s3：在频率为ω的子带上，构造基于mvdr的隐声滤波器

s4：在子带上,使用隐声滤波器h(ω)对第i帧的信号进行处理

s5：利用短时傅里叶逆变换和重叠相加方法对z(ω,i)进行变换，从而获得波束形成后的时域信号z(k)。

进一步地，用短时傅里叶变换，将传感器阵列接收到的时域信号分解成子带信号的具体步骤如下：

假设相邻两个麦克风之间的间距为δ，由于隐声技术用于拾取近距离声源，故假设声学环境中存在理想的近场声源和干扰作用在该麦克风阵列上，声源距各麦克风的距离分别为rs,1，rs,2，…，rs,m，将阵列的中心定义为参考点，声源距参考点的距离为rs，入射角为θs，则声源距第m个麦克风的距离可以表示为

其中，

设在离散时间k，声源发出的信号为x(k)，若忽略传播过程中的吸收损耗，则第m个麦克风拾取到的信号相对于声源信号仅有相位延迟，还存在与距离成反比的幅度衰减，可表示为：

其中，xm(k)表示第m个麦克风拾取到的声源信号，vm(k)表示第m个麦克风拾取到的噪声信号；τm表示第m个麦克风相较于声源的时延；由于近场理想声源的波阵面为球形，τm可表示为：

其中c表示空气中的声速，

在频域中式(1)变为：

其中，表示波数，ω＝2πf表示角频率；f代表时间频率，代表虚数单位，ym(ω)、xm(ω)、vm(ω)分别表示ym(k)、xm(k)、vm(k)的傅里叶变换。

进一步地，根据阵列的结构、阵元数目、声源的位置等参数，构造长度为m的导向矢量：上角标t表示向量转置运算，令r＝rs，θ＝θs，那么，m个麦克风拾取到的信号用向量表示为：

y(ω)＝[y1(ω)y2(ω)…ym(ω)]^t

＝ds(ω,rs,θs)x(ω)+v(ω),

y(ω)经过阵列处理，得到的输出信号为:

其中，z(ω)是声源信号x(ω)的估计；上标h表示共轭转置运算，h(ω)＝[h1(ω)h2(ω)…hm(ω)]^t表示麦克风阵列对输入信号的加权向量，也就是麦克风阵列的滤波器系数。

进一步地，s3中在频率为ω的子带上，构造基于mvdr的隐声滤波器方法如下：不衰减近距离声源信号同时最小化阵列输出端剩余噪声的方差就得到了mvdr隐声滤波器,数学表达式如下：

使用拉格朗日乘子法可以求解式(2)，得

进一步地，假设噪声为各向同性噪声，其归一化的相关矩阵的第(m，n)个元素可以写成如下形式：

其中，有两种极端的情况：1)如果ωτ0非常大，即在高频或着大间距情况下，两个传感器接收到的噪声信号接近不相关，各向同性噪声接近空间白噪声；2)如果ωτ0非常小，即在低频或者小间距情况下，两个传感器接收到的噪声信号就接近相干，各向同性噪声接近点源噪声；基于mvdr的隐声滤波器有一个矩阵求逆的运算，当麦克风阵元数目较多时，矩阵会出现病态，滤波器会出现极为不稳定的情况，为了避免求逆不稳定情况的发生，采用传统的做法：对角加载技术，将上述矩阵与一对角矩阵相加，对角加载后的矩阵可以表示为[γdn(ω)+ει]，其中ι为大小为m的单位矩阵，ε为加载系数，此时基于mvdr的隐声滤波器系数为：

本发明的有益效果：本发明在平台是小型麦克风阵列，其核心是先利用短时傅里叶变换，将传感器阵列接收到的时域信号分解成子带信号，在各子带上构造适当的隐声滤波器，使得来自隐声距离以内声源的声信号无衰减通过隐声滤波器，本发明的方法具有很好的隐声效果。

附图说明

为了更清晰地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为隐声模型图。

图2为小型麦克风阵列处理语音的系统示意图。

图3为均匀线性阵列对近场声信号的拾取及处理图。

图4为基于8阵元mvdr的隐声方法的隐声衰减曲线图。

图5为频率为1300hz、3300hz的基于8阵元mvdr的隐声方法

的波束图(蓝、红色、紫色、黑色分别表示r＝5cm、10cm、30cm、50cm)。

图6为基于8阵元mvdr的隐声方法对端射方向0cm的声源和端

射方向的干扰的信干比图。

具体实施方式

下面将通过具体实施方式对本发明的技术方案进行清楚、完整地描述。

本发明的基于mvdr的隐声方法，该方法是先利用短时傅里叶变换，将传感器阵列接收到的时域信号分解成子带信号，在各子带上构造适当的隐声滤波器，使得来自隐声距离以内声源的声信号无衰减通过隐声滤波器，最终通过反stft得到估计信号。

本发明的方法包括如下步骤：

s1：根据阵列的结构、阵元数目、声源的位置等参数，构造导向矢量

s2：将麦克风阵列中传感器接收到的信号ym(k)＝xm(k)+vm(k),m＝1,2,...,m分成有一定重合比例的短时帧，帧长可从几个毫秒到几十个毫秒，然后对m个通道中每一个通道的每一帧进行短时傅里叶变换，获得ym(ω,i),其中i表示第i帧，然后构造

y(ω,i)＝[y1(ω,i)y2(ω,i)…ym(ω,i)]^t；

s3：用短时傅里叶变换，将传感器阵列接收到的时域信号分解成子带信号；假设相邻两个麦克风之间的间距为δ，由于隐声技术用于拾取近距离声源，故假设声学环境中存在理想的近场声源和干扰作用在该麦克风阵列上，声源距各麦克风的距离分别为rs,1，rs,2，…，rs,m，将阵列的中心定义为参考点，声源距参考点的距离为rs，入射角为θs，则声源距第m个麦克风的距离可以表示为

其中，

其中，xm(k)表示第m个麦克风拾取到的声源信号，vm(k)表示第m个麦克风拾取到的噪声信号；τm表示第m个麦克风相较于声源的时延；

由于近场理想声源的波阵面为球形，τm可表示为：

其中c表示空气中的声速，

在频域中式(1)变为：

其中，表示波数，ω＝2πf表示角频率；f代表时间频率，代表虚数单位，ym(ω)、xm(ω)、vm(ω)分别表示ym(k)、xm(k)、vm(k)的傅里叶变换。

根据阵列的结构、阵元数目、声源的位置等参数，构造长度为m的导向矢量：上角标t表示向量转置运算，令r＝rs，θ＝θs，那么，m个麦克风拾取到的信号用向量表示为：

y(ω)＝[y1(ω)y2(ω)…ym(ω)]^t

＝ds(ω,rs,θs)x(ω)+v(ω),

y(ω)经过阵列处理，得到的输出信号为:

在推导隐声滤波器之前，先引入衡量隐身性能的几个重要指标。

阵列输出中与声源信号有关的成分为：h^h(ω)ds(ω,rs,θs)x(ω)。因此，阵列对声源信号的响应为：

h(ω,rs,θs)＝h^h(ω)ds(ω,rs,θs)。

阵列对声源信号的响应有三个变量：ω,rs,θs。固定其中两个变量，阵列对声源信号的响应随另一个变量变化而产生了三个指标：1)固定ω,θs，阵列对声源信号的响应随rs变化的指标称为隐声衰减函数；2)固定rs,θs阵列对声源信号的响应随ω变化的指标称为隐声频率响应函数；3)固定ω,rs，阵列对声源信号的响应随θs变化的指标称为波束图。

隐声衰减函数

隐声衰减函数描述的是阵列对单频声源信号在不同距离处的增益，其数学定义为：

h(rs)＝h^h(ω)ds(rs)。

隐声频率响应函数

隐声频率响应函数描述的是阵列对宽带信号的增益，其数学定义为：

h(ω)＝h^h(ω)ds(ω)。

波束图

波束图描述的是阵列对不同方向入射信号的敏感度，其数学定义为：

h(θs)＝h^h(ω)ds(θs)

信干比和信干比增益

信噪比衡量声源信号与噪声信号的相对大小。通过对比输入输出信噪比，可以衡量波束形成器的性能。本发明关心的是干扰噪声。将阵列的输入信干比定义为：

其中，x0(ω)是参考位置拾取的声源信号，v0(ω)是参考位置拾取的干扰信号,rn表示干扰噪声到阵列中心的距离。φx0(ω)、φv0(ω)分别表示x0(ω),v0(ω)的功率。

阵列的输出信干比表示为：

其中θn表示干扰噪声的方向、φx(ω)、φv(ω)分别表示x(ω),v(ω)的功率。

因此，信干比增益为:

s4：在频率为ω的子带上，构造基于mvdr的隐声滤波器；不衰减近距离声源信号同时最小化阵列输出端剩余噪声的方差就得到了mvdr隐声滤波器,数学表达式如下：

使用拉格朗日乘子法可以求解式(2)，得

假设噪声为各向同性噪声，其归一化的相关矩阵的第(m,n)个元素可以写成如下形式:

其中，有两种极端的情况：1)如果ωτ0非常大，即在高频或着大间距情况下，两个传感器接收到的噪声信号接近不相关，各向同性噪声接近空间白噪声；2)如果ωτ0非常小，即在低频或者小间距情况下，两个传感器接收到的噪声信号就接近相干，各向同性噪声接近点源噪声；

基于mvdr的隐声滤波器有一个矩阵求逆的运算，当麦克风阵元数目较多时，矩阵会出现病态，滤波器会出现极为不稳定的情况，为了避免求逆不稳定情况的发生，采用传统的做法：对角加载技术，将上述矩阵与一对角矩阵相加，对角加载后的矩阵可以表示为[γdn(ω)+ει]，其中ι为大小为m的单位矩阵，ε为加载系数，此时基于mvdr的隐声滤波器系数为：

s5：在子带上,使用隐声滤波器h(ω)对第i帧的信号进行处理

s6：利用短时傅里叶逆变换和重叠相加方法对z(ω,i)进行变换，从而获得波束形成后的时域信号z(k)。

为了展示本发明的效果，给出如下具体的实例来验证本专利提出的算法的正确性。其中，隐声衰减函数、隐声频率响应函数和波束图是matlab仿真结果，信干比是在西北工业大学智能声学与临境通信语音研究中心的全消声暗室进行测试的实验结果。实验条件设置如下：

麦克风阵列结构均匀线性阵列，麦克风数目m＝8，阵元间距δ＝1.1cm。

声源位置：θs＝0°，rs＝5cm。

图4(a)为基于8阵元mvdr的隐声方法的隐声衰减曲线图。可以看出：点源信号在20cm以内衰减很快，且距离越近衰减越快；大于20cm，衰减量几乎与距离成反比。说明当声源距离不大于20cm时，基于8阵元mvdr的隐声方法可以隐声远距离干扰。说明：隐声半径r0≈20cm，当声源距离rs＜r0时，基于8阵元mvdr的隐声方法可以隐声r0外的干扰。

图4(b)为基于8阵元mvdr的隐声方法的隐声频率响应曲线图。可以看出：2000hz的点源信号在5cm、10cm、30cm、50cm处的响应依次约为：0db、19db、33db、38db。说明：声源距离为5cm时，基于8阵元mvdr的隐声方法可以隐声端射方向10cm、30cm、50cm处的干扰。

图5为频率为1300hz、3300hz的基于8阵元mvdr的隐声方法的波束图。可以看出：在不同频率上，声源距离为5cm时，基于8阵元mvdr的隐声方法可以隐声任意方向10cm、30cm、50cm处的干扰，对非端射方向的干扰的隐声效果更好。

图6为基于8阵元mvdr的隐声方法对端射方向0cm的声源和端射方向的干扰的信干比图。可以看出：当干扰在50cm处，图6(a)中语音干扰的信干比提升了约10db，图6(b)中对高斯白噪声干扰的信干比提升了约6db，图6(c)中对线性调频干扰的信干比提升了约7db，图6(d)中对单频干扰的信干比提升了约7db。说明：基于8阵元mvdr的隐声方法有很好的隐声效果。

上面所述的实施例仅仅是本发明的优选实施方式进行描述，并非对本发明的构思和范围进行限定，在不脱离本发明设计构思的前提下，本领域中普通工程技术人员对本发明的技术方案作出的各种变型和改进均应落入本发明的保护范围，本发明的请求保护的技术内容，已经全部记载在技术要求书中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈景东;梁菲菲;王雪瀚;黄海;聂玮奇
技术所有人：临境声学科技江苏有限公司
我是此专利的发明人