一种基于β-VAE算法的声源分离方法与流程

文档序号：25738093发布日期：2021-07-06 18:47阅读：343来源：国知局

本发明涉及声源分离技术领域，尤其涉及一种基于β-vae算法的声源分离方法。

背景技术：

经检索，中国专利号cn111370019a公开了声源分离方法及装置、神经网络的模型训练方法及装置，该发明虽然结构简单，但其计算方式较为复杂，并且其分离质量较低；声源分离是指从混合在一起的多个声源发出的语音信号中，分离出每个声源对应的独立语音信号的过程，声源分离可应用于回声消除、应答词消除、目标识别和语音识别等听觉场景分析中，如何提高目标检测与识别类系统的抗噪声性能有十分重要的意义，目前针对声源分离方法大致可以分为两类：盲分离方法和基于模型的分离方法，但现有对声源分离的研究课题较少，使得现有方法的分离质量较低；因此，发明出一种基于β-vae算法的声源分离方法变得尤为重要；

现有的声源分离方法，大多是利用神经网络对声源特征进行模型训练，但神经网络中数据层结构较为复杂，控制参数相对较多，容易产生较大的计算量，并且随着网络层数的加深，神经网络在训练过程中的前传信号和梯度信号在经过很多层之后会出现衰减，造成梯度消失和数据特征传播减弱等问题，因而容易导致训练得到的模型在进行声源分离时，分离质量较低；为此，我们提出一种基于β-vae算法的声源分离方法。

技术实现要素：

本发明的目的是为了解决现有技术中存在的缺陷，而提出的一种基于β-vae算法的声源分离方法。

为了实现上述目的，本发明采用了如下技术方案：

一种基于β-vae算法的声源分离方法，该分离方法具体步骤如下：

(1)混合音频采集及频谱生成：在复杂环境下，通过收集器采集混合音频信号，并根据数学变换算法构建频谱图，得到混合音频频谱图；

(2)构建分离网络模型：构建包括单个和多个超参数β，并扩展可变自动编码器框架，形成β-vae分离网络模型；

(3)声源分离：将混合语音信号输入整个β-vae分离网络模型中，将混合音频信号中的每一段语音进行编码与解码，生成对应的预测源信号；若生成的预测源信号对应的源信号是存在的，则令h＝1，否则令h＝0，最后根据各预测源信号进行重构，得到重构混合音频信号；

(4)重构混合音频频谱图生成：根据步骤(1)所述数学变换算法对重构混合音频信号进行频谱图构建，得到重构混合音频频谱图；

(5)频谱对比验证：将重构混合音频频谱图与混合音频频谱图进行频率和幅度比较，若频谱越接近，则说明分离效果越好。

进一步地，所述数学变换算法具体为短时傅里叶变换。

进一步地，所述β-vae分离网络模型包括编码器和解码器，其具体分离过程如下：

步骤一：编码部分，

s1：输入混合音频信号设为x，将其输入β-vae分离网络模型的编码器中；得到输出向量集{gφ1(x)、gφ2(x)、…、gφk(x)}，

s2：确定β，同时假设输出向量集呈泊松分布，通过计算输出向量集{fφ1(z1)、fφ2(z2)、…、fφk(zk)}；

步骤二：解码部分，

ss1：将隐藏层的输出向量集{fφ1(z1)、fφ2(z2)、…、fφk(zk)}通过逆变换得到与输入样本集相同维度的数据集，即预测源信号{s1h1、s1h1、…、s1h1}，

ss2：若生成的预测源信号与对应的源信号是存在的，则令h＝1，否则令h＝0；

ss3：若h＝1，根据预测源信号{s1h1、s1h1、…、s1h1}进行重构，得到重构混合音频信号

所述β为声源的类别标签，若β＝1，则该β-vae分离网络模型对应于原始的vae框架；当β>1时，模型被推动以学习数据更有效的潜在表示，若数据至少包含一些独立的潜在变化因素，则可以将其解开。

进一步地，所述泊松分布的具体公式如下：

进一步地，所述分离网络模型的损失函数如下：

式中：k表示类别；

j表示潜在单元；

μ(i)与σ(i)均表示编码器的输出；

dgkl表示高斯散度。

相比于现有技术，本发明的有益效果在于：

1、该基于β-vae算法的声源分离方法，相较于nmf算法，使用了添加成分β去分解混合音频，并使用非线性并且表达能力更强的神经网络模型表示组件，并且本发明的分离模型中每一个编码器都只关心与自己相关的源信号的影响因子而不关心在这一混合音频中与其它源信号相关的影响因子，解码器也是同样学习去重构与之相关的源信号，从而有利于提高混合音频的分离精度；

2、该基于β-vae算法的声源分离方法，通过在可变自动编码器框架的基础上加入超参数β，改进得到β-vae分离网络模型；并将混和音频输入β-vae分离网络模型进行分离重构，得到重构混合音频，相较于传统的变分自编码器或无监督因子(infogan)和半监督(dc-ign)，本发明显著提高了学习的潜在表示中的解缠度，进而使得其计算复杂度降低，并且分离得到的音频质量更好，进而有利于应用于目标识别、语音识别和助听辅助等听觉领域中。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提出的一种基于β-vae算法的声源分离方法的整体流程图；

图2为本发明vae的网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

参照图1-2，一种基于β-vae算法的声源分离方法，该分离方法具体步骤如下：

(1)混合音频采集及频谱生成：在复杂环境下，通过收集器采集混合音频信号，并根据数学变换算法构建频谱图，得到混合音频频谱图；

(2)构建分离网络模型：构建包括单个和多个超参数β，并扩展可变自动编码器框架，形成β-vae分离网络模型；

(4)重构混合音频频谱图生成：根据步骤(1)数学变换算法对重构混合音频信号进行频谱图构建，得到重构混合音频频谱图；

(5)频谱对比验证：将重构混合音频频谱图与混合音频频谱图进行频率和幅度比较，若频谱越接近，则说明分离效果越好。

数学变换算法具体为短时傅里叶变换。

β-vae分离网络模型包括编码器和解码器，其具体分离过程如下：

步骤一：编码部分，

s1：输入混合音频信号设为x，将其输入β-vae分离网络模型的编码器中；得到输出向量集{gφ1(x)、gφ2(x)、…、gφk(x)}，

s2：确定β，同时假设输出向量集呈泊松分布，通过计算输出向量集{fφ1(z1)、fφ2(z2)、…、fφk(zk)}；

步骤二：解码部分，

ss1：将隐藏层的输出向量集{fφ1(z1)、fφ2(z2)、…、fφk(zk)}通过逆变换得到与输入样本集相同维度的数据集，即预测源信号{s1h1、s1h1、…、s1h1}，

ss2：若生成的预测源信号与对应的源信号是存在的，则令h＝1，否则令h＝0；

ss3：若h＝1，根据预测源信号{s1h1、s1h1、…、s1h1}进行重构，得到重构混合音频信号

β为声源的类别标签，若β＝1，则该β-vae分离网络模型对应于原始的vae框架；当β>1时，模型被推动以学习数据更有效的潜在表示，若数据至少包含一些独立的潜在变化因素，则可以将其解开。

泊松分布的具体公式如下：

分离网络模型的损失函数如下：

式中：k表示类别；

j表示潜在单元；

μ(i)与σ(i)均表示编码器的输出；

dgkl表示高斯散度。

本发明的工作原理及使用流程：该基于β-vae算法的声源分离方法，在使用时，首先需要在复杂环境下，通过收集器采集混合音频信号，并根据数学变换算法构建频谱图，得到混合音频频谱图；然后构建包括单个和多个超参数β，并扩展可变自动编码器框架，形成β-vae分离网络模型；此时输入混合音频信号设为x，将其输入β-vae分离网络模型的编码器中；得到输出向量集{gφ1(x)、gφ2(x)、…、gφk(x)}，然后确定β，同时假设输出向量集呈泊松分布，通过计算输出向量集{fφ1(z1)、fφ2(z2)、…、fφk(zk)}，之后确定β，同时假设输出向量集呈泊松分布，通过计算输出向量集{fφ1(z1)、fφ2(z2)、…、fφk(zk)}，若生成的预测源信号与对应的源信号是存在的，则令h＝1，否则令h＝0，若h＝1，根据预测源信号{s1h1、s1h1、…、s1h1}进行重构，得到重构混合音频信号然后根据所述数学变换算法对重构混合音频信号进行频谱图构建，得到重构混合音频频谱图；最后将重构混合音频频谱图与混合音频频谱图进行频率和幅度比较，若频谱越接近，则说明分离效果越好；本发明通过在可变自动编码器框架的基础上加入超参数β，改进得到β-vae分离网络模型；并将混和音频输入β-vae分离网络模型进行分离重构，得到重构混合音频，相较于传统的变分自编码器或无监督因子(infogan)和半监督(dc-ign)，本发明显著提高了学习的潜在表示中的解缠度，进而使得其计算复杂度降低，并且分离得到的音频质量更好，进而有利于应用于目标识别、语音识别和助听辅助等听觉领域中。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨予诺
技术所有人：杨予诺
我是此专利的发明人