一种噪声抑制方法及装置与流程

文档序号：11843732阅读：来源：国知局

技术特征：

1.一种噪声抑制方法，其特征在于，包括：

获取第一音频信号和第二音频信号，所述第一音频信号和所述第二音频信号为设置于移动终端上的不同位置的两个音频接收装置接收到的两路音频信号；

确定所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差；

根据所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差，更新语音出现概率；

根据所述第一音频信号和/或所述第二音频信号的PSD，以及更新后的语音出现概率，确定噪声的PSD；

根据所述噪声的PSD，以及所述第一音频信号和/或所述第二音频信号，确定噪声频谱增益；

根据所述噪声频谱增益，对所述第一音频信号和所述第二音频信号中的一路音频信号进行噪声抑制。

2.如权利要求1所述的方法，其特征在于，确定所述第一音频信号与所述第二音频信号的功率电平差以及相干性度量值，包括：

根据所述第一音频信号和所述第二音频信号的第n-1帧中语音出现的概率，确定递归函数系数，n为大于1的整数；

根据所述递归函数系数，采用递归方式对所述第一音频信号和所述第二音频信号的第n帧信号进行PSD估计；

根据所述第一音频信号和所述第二音频信号的第n帧信号的PSD估计值，确定所述第一音频信号与所述第二音频信号的第n帧信号的功率电平差以及相干性度量值。

3.如权利要求2所述的方法，其特征在于，根据所述第一音频信号和所述第二音频信号的PSD估计值，确定所述第一音频信号与所述第二音频信号的功率电平差，包括：

根据以下公式确定所述第一音频信号与所述第二音频信号的功率电平差的度量值：

$<mrow> <msub> <mi>D</mi> <mi>PLD</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>1</mn> <mi>y</mi> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>2</mn> <mi>y</mi> <mn>2</mn> </mrow> </msub> </mrow> <mrow> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>1</mn> <mi>y</mi> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>2</mn> <mi>y</mi> <mn>2</mn> </mrow> </msub> </mrow> </mfrac> </mrow>$

其中，D_PLD为所述第一音频信号与所述第二音频信号的功率电平差，Φ_y1y1为所述第一音频信号的自功率谱密度估计值，Φ_y2y2为所述第二音频信号的自功率谱密度估计值。

4.如权利要求2所述的方法，其特征在于，根据所述第一音频信号和所述第二音频信号的PSD估计值，确定所述第一音频信号与所述第二音频信号的相干性度量值，包括：

根据以下公式确定所述第一音频信号与所述第二音频信号的相干性度量值：

$<mrow> <msub> <mi>D</mi> <mi>Coh</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>1</mn> <mi>y</mi> <mn>2</mn> </mrow> </msub> <mo>|</mo> </mrow> <msqrt> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>1</mn> <mi>y</mi> <mn>1</mn> </mrow> </msub> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>2</mn> <mi>y</mi> <mn>2</mn> </mrow> </msub> </msqrt> </mfrac> </mrow>$

其中，D_Coh为所述第一音频信号与所述第二音频信号的相干性度量值，|·|为取绝对值符号，Φ_y1y2为所述第一音频信号与所述第二音频的互功率谱密度估计值，Φ_y1y1为所述第一音频信号的自功率谱密度估计值，Φ_y2y2为所述第二音频信号的自功率谱密度估计值。

5.如权利要求1至4中任一项所述的方法，其特征在于，根据所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差，确定语音出现概率，包括：

根据所述第一音频信号和第二音频信号的功率电平差、相干性度量值以及相位差，分别确定所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率、所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率、所述相位差条件下第一音频信号和第二音频信号中语音出现的概率；

根据所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率、所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率、所述相位差条件下第一音频信号和第二音频信号中语音出现的概率，确定第一联合概率；

根据所述第一联合概率，确定所述第一音频信号和所述第二音频信号中语音出现的概率。

6.如权利要求5所述的方法，其特征在于，所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率根据以下公式确定：

$<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>H</mi> <mn>1</mn> </msub> <mo>|</mo> <msub> <mi>D</mi> <mi>PLD</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <msub> <mi>ϵ</mi> <mi>PLD</mi> </msub> <mo>,</mo> </mtd> <mtd> <msub> <mi>D</mi> <mi>PLD</mi> </msub> <mo>≤</mo> <msub> <mi>th</mi> <mi>PLD</mi> </msub> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> <mo>-</mo> <msub> <mi>ϵ</mi> <mi>PLD</mi> </msub> <mo>,</mo> </mtd> <mtd> <msub> <mi>D</mi> <mi>PLD</mi> </msub> <mo>></mo> <msub> <mi>th</mi> <mi>PLD</mi> </msub> </mtd> </mtr> </mtable> </mfenced> </mrow>$

其中，D_PLD为所述第一音频信号和所述第二音频信号的功率电平差；p(H₁|D_PLD)表示功率电平差等于D_PLD条件下所述第一音频信号和所述第二音频信号中语音出现的概率；th_PLD为所述第一音频信号和所述第二音频信号的功率电平差阈值，0<th_PLD<1；ε_PLD为预设值，0<ε_PLD<1；

或者，所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率根据以下公式确定：

$<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>H</mi> <mn>1</mn> </msub> <mo>|</mo> <msub> <mi>P</mi> <mi>PLD</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>1</mn> <mi>y</mi> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>1</mn> <mi>y</mi> <mn>2</mn> </mrow> </msub> </mrow> <mrow> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>1</mn> <mi>y</mi> <mn>1</mn> </mrow> </msub> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>2</mn> <mi>y</mi> <mn>2</mn> </mrow> </msub> </mrow> </mfrac> </mrow>$

其中，D_PLD为所述第一音频信号和所述第二音频信号的功率电平差；p(H₁|D_PLD)表示功率电平差等于D_PLD条件下所述第一音频信号和所述第二音频信号中语音出现的概率；Φ_y1y1为所述第一音频信号的自功率谱密度估计值，Φ_y2y2为所述第二音频信号的自功率谱密度估计值；

或者，所述相位差条件下第一音频信号和第二音频信号中语音出现的概率根据以下公式确定：

其中，为所述第一音频信号和所述第二音频信号的相位差；p(H₁|D_PD)表示相位差等于D_PD条件下所述第一音频信号和所述第二音频信号中语音出现的概率；th_PD为所述第一音频信号和所述第二音频信号的相位差阈值，0<th_PD<1；ε_PD为预设值，0<ε_PD<1；

或者，所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率根据以下公式确定：

$<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>H</mi> <mn>1</mn> </msub> <mo>|</mo> <msub> <mi>D</mi> <mi>Coh</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <msub> <mi>ϵ</mi> <mi>Coh</mi> </msub> <mo>,</mo> </mtd> <mtd> <msub> <mi>D</mi> <mi>Coh</mi> </msub> <mo>≤</mo> <msub> <mi>th</mi> <mi>Coh</mi> </msub> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> <mo>-</mo> <msub> <mi>ϵ</mi> <mi>Coh</mi> </msub> <mo>,</mo> </mtd> <mtd> <msub> <mi>D</mi> <mi>Coh</mi> </msub> <mo>></mo> <msub> <mi>th</mi> <mi>Coh</mi> </msub> </mtd> </mtr> </mtable> </mfenced> </mrow>$

其中，D_Coh为所述第一音频信号和所述第二音频信号的相干性度量值；p(H₁|D_Coh)表示相干性度量值等于D_Coh条件下所述第一音频信号和所述第二音频信号中语音出现的概率；th_Coh为所述第一音频信号和所述第二音频信号的相干性度量值阈值，0<th_Coh<1；ε_Coh为预设值，0<ε_Coh<1。

7.如权利要求6所述的方法，其特征在于，确定出所述p(H₁|D_PLD)之后，还包括：根据以下公式进行平滑处理：

p_n(H₁|D_PLD)＝λ_PLD×p_n-1(H₁|D_PLD)+(1-λ_PLD)×p(H₁|D_PLD)

其中，p_n(H₁|D_PLD)为所述第一音频信号和所述第二音频信号的第n帧的功率电平差等于D_PLD条件下语音出现的概率，p_n-1(H₁|D_PLD)为所述第一音频信号和所述第二音频信号的第n-1帧的功率电平差等于D_PLD条件下语音出现的概率；λ_PLD为预设值，0<λ_PLD<1；

或者，确定出所述p(H₁|D_PD)之后，还包括：根据以下公式进行平滑处理：

p_n(H₁|D_PD)＝λ_PD×p_n-1(H₁|D_PD)+(1-λ_PD)×p(H₁|D_PD)

其中，p_n(H₁|D_PD)为所述第一音频信号和所述第二音频信号的第n帧的相位差等于D_PD条件下语音出现的概率，p_n-1(H₁|D_PD)为所述第一音频信号和所述第二音频信号的第n-1帧的相位差等于D_PD条件下语音出现的概率；λ_PD为预设值，0<λ_PD<1；

或者，确定出所述p(H₁|D_Coh)之后，还包括：根据以下公式进行平滑处理：

p_n(H₁|D_Coh)＝λ_Coh×p_n-1(H₁|D_Coh)+(1-λ_Coh)×p(H₁|D_Coh)

其中，p_n(H₁|D_Coh)为所述第一音频信号和所述第二音频信号的第n-1帧的相干性度量值等于D_Coh条件下语音出现的概率，p_n-1(H₁|D_Coh)为所述第一音频信号和所述第二音频信号的第n-1帧的相干性度量值等于D_Coh条件下语音出现的概率；λ_Coh为预设值，0<λ_PD<1。

8.如权利要求5所述的方法，其特征在于，所述第一联合概率为：所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率、所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率、所述相位差条件下第一音频信号和第二音频信号中语音出现的概率，三者相乘的结果，或者三者加权相加求平均值的结果。

9.如权利要求5所述的方法，其特征在于，根据所述第一联合概率，确定所述第一音频信号和所述第二音频信号中语音出现的概率，包括：

根据以下公式确定所述语音出现概率：

$<mfenced open='' close=''> <mtable> <mtr> <mtd> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>H</mi> <mn>1</mn> </msub> <mo>|</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>H</mi> <mn>1</mn> </msub> <mo>|</mo> <msub> <mi>Y</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>PLD</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>PD</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>Coh</mi> </msub> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mo>=</mo> <msup> <mrow> <mo>[</mo> <mn>1</mn> <mo>+</mo> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mn>1</mn> </msub> <mo>|</mo> <msub> <mi>H</mi> <mn>0</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mn>1</mn> </msub> <mo>|</mo> <msub> <mi>H</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>×</mo> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>H</mi> <mn>0</mn> </msub> <mo>|</mo> <msub> <mi>D</mi> <mi>PLD</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>PD</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>Coh</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>H</mi> <mn>1</mn> </msub> <mo>|</mo> <msub> <mi>D</mi> <mi>PLD</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>PD</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>Coh</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>]</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> </mtd> </mtr> </mtable> </mfenced>$

10.如权利要求1所述的方法，其特征在于，根据所述语音出现概率确定噪声PSD估计值，包括：

根据以下公式确定用于噪声估计的递归系数：

α＝λ_n+(1-λ_n)×p(H₁|Y)

其中，α为用于噪声估计的递归系数，0<α<1，λ_n为噪声功率谱密度的平滑参数，0<λ_n<1，p(H₁|Y)表示第一音频信号和第二音频信号中的语音出现概率；

根据以下第一公式或第二公式确定噪声的PSD估计值：

所述第一公式为：Φ_nn(n,k)＝α×Φ_nn(n-1,k)+(1-α)×|Y_i|²

其中，Φ_nn为噪声的PSD估计值，n为时域帧下标，k为频域傅里叶变化下标；Y_i表示第i音频信号，i等于1或2，i＝1时Y₁表示第一音频信号，i＝2时，Y₂表示第二音频信号；|·|为取绝对值符号；α为用于噪声估计的递归系数；

所述第二公式为：Φ_nn(n,k)＝α×Φ_nn(n-1,k)+(1-α)×(w1×|Y₁|²+w2×|Y₂|²)

其中，Φ_nn为噪声的PSD估计值，n为时域帧下标，k为频域傅里叶变化下标，w1与w2为权重值，Y₁表示第一音频信号，Y₂表示第二音频信号，|·|为取绝对值符号，α为用于噪声估计的递归系数。

11.如权利要求1所述的方法，其特征在于，根据所述噪声频谱增益，对所述第一音频信号和所述第二音频信号中的一路音频信号进行噪声抑制，包括：

根据以下公式对所述第一音频信号进行噪声抑制：

其中，为抑制噪声后的音频信号；G_PLD为噪声频谱增益；p(H₁|Y)表示第一音频信号和第二音频信号中的语音出现概率；Y₁表示第一音频信号。

12.一种噪声抑制装置，其特征在于，包括：

获取单元，用于获取第一音频信号和第二音频信号，所述第一音频信号和所述第二音频信号为设置于移动终端上的不同位置的两个音频接收装置接收到的两路音频信号；

第一确定单元，用于确定所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差；

第二确定单元，用于根据所述第一音频信号与所述第二音频信号的功率电平差、相干性度量值以及相位差，更新语音出现概率；

第三确定单元，用于根据所述第一音频信号和/或所述第二音频信号的PSD，以及更新后的语音出现概率，确定噪声的PSD；

第四确定单元，用于根据所述噪声的PSD，以及所述第一音频信号和/或所述第二音频信号，确定噪声频谱增益；

噪声抑制单元，用于根据所述噪声频谱增益，对所述第一音频信号和所述第二音频信号中的一路音频信号进行噪声抑制。

13.如权利要求12所述的装置，其特征在于，所述第一确定单元具体用于：

根据所述第一音频信号和所述第二音频信号的第n-1帧中语音出现的概率，确定递归函数系数，n为大于1的整数；

根据所述递归函数系数，采用递归方式对所述第一音频信号和所述第二音频信号的第n帧信号进行PSD估计；

14.如权利要求13所述的装置，其特征在于，所述第一确定单元具体用于：

根据以下公式确定所述第一音频信号与所述第二音频信号的功率电平差的度量值：

15.如权利要求13所述的装置，其特征在于，所述第一确定单元具体用于：

根据以下公式确定所述第一音频信号与所述第二音频信号的相干性度量值：

16.如权利要求12至15中任一项所述的装置，其特征在于，所述第二确定单元具体用于：

根据所述第一联合概率，确定所述第一音频信号和所述第二音频信号中语音出现的概率。

17.如权利要求16所述的装置，其特征在于，所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率根据以下公式确定：

或者，所述功率电平差条件下第一音频信号和第二音频信号中语音出现的概率根据以下公式确定：

$<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>H</mi> <mn>1</mn> </msub> <mo>|</mo> <msub> <mi>D</mi> <mi>PLD</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>1</mn> <mi>y</mi> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>2</mn> <mi>y</mi> <mn>2</mn> </mrow> </msub> </mrow> <mrow> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>1</mn> <mi>y</mi> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>Φ</mi> <mrow> <mi>y</mi> <mn>2</mn> <mi>y</mi> <mn>2</mn> </mrow> </msub> </mrow> </mfrac> </mrow>$

或者，所述相位差条件下第一音频信号和第二音频信号中语音出现的概率根据以下公式确定：

或者，所述相干性度量值条件下第一音频信号和第二音频信号中语音出现的概率根据以下公式确定：

18.如权利要求17所述的装置，其特征在于，所述第二确定单元还用于：

确定出所述p(H₁|D_PLD)之后，根据以下公式进行平滑处理：