基于深度学习的多通道音视频会议降噪的方法及系统与流程

文档序号：20450906发布日期：2020-04-17 23:04阅读：891来源：国知局

本发明涉及降噪处理的技术领域，尤其是指一种基于深度学习的多通道音视频会议降噪的方法。

背景技术：

在音视频会议中通常会产生噪音，例如敲桌子声音、敲键盘的声音，桌子发出的吱悠吱悠的声音等，都会极大影响会议的质量，除此之外，视频会议的另外一端也会产生比较大的噪音，例如处在音视频对面的一方可能位于火车上，或者在运动中。当噪音很大的时候，通常参会者需要集中精力才能听清楚对方说什么，由此会使得参与会议的人耗费很大的脑力，导致非常疲惫。

为了解决会议噪声问题，通常涉及到声学处理，需要利用声学特性去除声学信号中的噪声。声学信号是一个一维的时域信号，通常的处理方法是利用傅立叶变化等数学方法把信号分解成二维的时频信号来处理。然而，人声和噪音比如敲桌子等产生的声音在时频空间是重合的，因此并没有非常好的方法将两者区分开来。

近几年，随着深度学习的发展，开始有人利用深度学习的方法来解决降噪问题，例如“recurrentneuralnetworksfornoisereductioninrobustasr”中，作者利用rnn来做声学信号降燥，然而在实际使用过程中，存在以下问题：理论需要3-5秒的时间来估计噪音，然而实际使用中需要8-16秒内才能估计出噪音，导致实际使用的速度过慢；对于没有训练过的噪音数据类型，识别效率非常低；计算量过大，导致在实际使用时，效果很差。

技术实现要素：

为此，本发明所要解决的技术问题在于克服现有技术中会损失声音本身的质量，导致使用效果差的问题，从而提供一种不会损失声音本身的质量，且实际使用效果好的基于深度学习的多通道音视频会议降噪的方法及系统。

为解决上述技术问题，本发明的一种基于深度学习的多通道音视频会议降噪的方法，包括如下步骤：采集原始多通道信号，将采集的时域信号转换成频域信号；利用神经网络计算各个频段上存在的噪音概率，通过所述噪音概率计算噪音的协方差矩阵；通过所述噪音的协方差矩阵计算噪音的协方差矩阵的特征向量，根据所述噪音的协方差矩阵以及所述噪音的协方差矩阵的特征向量计算合并多通道的权值；根据所述合并多通道的权值以及所述频域信号输出降噪结果。

在本发明的一个实施例中，所述采集原始多通道信号的方法为：通过麦克风阵列采集所述原始多通道信号。

在本发明的一个实施例中，将采集的时域信号转换成频域信号的方法为：利用单个滤波器或者多个滤波器通过快速傅里叶变化，将采集的时域信号转换成所述频域信号。

在本发明的一个实施例中，利用神经网络计算各个频段上存在的噪音概率的方法为：将提前标注好的数据输入至所述神经网络中，通过所述神经网络的计算后输出在各个频段上存在的噪音概率。

在本发明的一个实施例中，所述噪音的协方差矩阵的计算方法为：若所述噪音的协方差矩阵为φf，频域信号为yi，t，则其中yi，t表示第i个信道在t时刻的频域信号，n表示通道的数量，是yi，t的共轭转置。

在本发明的一个实施例中，所述噪音的协方差矩阵的特征向量计算方法为φfwf＝wfλ，其中所述噪音的协方差矩阵的特征向量为wf，噪音的协方差矩阵为φf，λ表示特征值的矩阵。

在本发明的一个实施例中，计算合并多通道的权值的方法为：

其中所述合并多通道的权值为是wf的共轭转置。

在本发明的一个实施例中，根据所述合并多通道的权值以及所述频域信号输出降噪结果的方法为：

本发明还公开了一种基于深度学习的多通道音视频会议降噪的系统，包括：采集模块，用于采集原始多通道信号，将采集的时域信号转换成频域信号；第一计算模块，用于利用神经网络计算各个频段上存在的噪音概率，通过所述噪音概率计算噪音的协方差矩阵；第二计算模块，用于通过所述噪音的协方差矩阵计算噪音的协方差矩阵的特征向量，根据所述噪音的协方差矩阵以及所述噪音的协方差矩阵的特征向量计算合并多通道的权值；输出模块，用于根据所述合并多通道的权值以及所述频域信号输出降噪结果。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的基于深度学习的多通道音视频会议降噪的方法及系统，可以更加快速，有效的计算出噪音的协方差矩阵，然后带入到传统的信号处理框架中，可以快速收敛，计算出噪音的频谱矩阵；另外，由于本发明利用的信号的物理特性来降燥，并利用具有物理意义的传统信号处理框架，所以恢复的原始声音，更加真实。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明基于深度学习的多通道音视频会议降噪的方法流程图；

图2是本发明基于深度学习的多通道音视频会议降噪的系统示意图。

具体实施方式

实施例一

如图1所示，本实施例提供一种基于深度学习的多通道音视频会议降噪的方法，包括如下步骤：步骤s1:采集原始多通道信号，将采集的时域信号转换成频域信号；步骤s2:利用神经网络计算各个频段上存在的噪音概率，通过所述噪音概率计算噪音的协方差矩阵；步骤s3：通过所述噪音的协方差矩阵计算噪音的协方差矩阵的特征向量，根据所述噪音的协方差矩阵以及所述噪音的协方差矩阵的特征向量计算合并多通道的权值；步骤s4：根据所述合并多通道的权值以及所述频域信号输出降噪结果。

本实施例所述基于深度学习的多通道音视频会议降噪的方法，所述步骤s1中，采集原始多通道信号，将采集的时域信号转换成频域信号，从而有利于后续对信号的处理；所述步骤s2中，利用神经网络计算各个频段上存在的噪音概率，通过所述噪音概率计算噪音的协方差矩阵，可以快速收敛，从而有利于计算出噪音的频谱矩阵；所述步骤s3中，通过所述噪音的协方差矩阵计算噪音的协方差矩阵的特征向量，根据所述噪音的协方差矩阵以及所述噪音的协方差矩阵的特征向量计算合并多通道的权值，由于利用了信号的物理特性来降燥，因此识别效率高；所述步骤s4中，根据所述合并多通道的权值以及所述频域信号输出降噪结果，不但有利于恢复原始声音，使其更加真实，而且在实际使用中，速度快，使用效果好。

所述采集原始多通道信号的方法为：通过麦克风阵列采集所述原始多通道信号，不但采集的信号准确，而且速度快。另外，本实施例中，所述采样率16khz。

将采集的时域信号转换成频域信号的方法为：利用单个滤波器或者多个滤波器通过快速傅里叶变化，将采集的时域信号转换成所述频域信号。本本实施例中，使用的是多滤波器组，从而可以有效的保留各个频段的信号。

利用神经网络计算各个频段上存在的噪音概率的方法为：将提前标注好的数据输入至所述神经网络中，通过所述神经网络的计算后输出在各个频段上存在的噪音概率，不但方法简单，而且由于计算量小，因此速度快。

所述噪音的协方差矩阵的计算方法为：若所述噪音的协方差矩阵为φf，频域信号为yi，t，则其中yi，t表示第i个信道在t时刻的频域信号，n表示通道的数量，是yi，t的共轭转置，上述这个矩阵代表了噪音的频谱。所述噪音的协方差矩阵的特征向量计算方法为φfwf＝wfλ，其中所述噪音的协方差矩阵的特征向量为wf，噪音的协方差矩阵为φf，λ表示特征值的矩阵。

计算合并多通道的权值的方法为：

其中所述合并多通道的权值为是wf的共轭转置。由于将噪音的协方差矩阵φf带入到了传统的最小方差滤波器中，因此计算简单、快速。

根据所述合并多通道的权值以及所述频域信号输出降噪结果的方法为：由于本发明是利用信号的物理特性来降燥，且利用了具有物理意义的传统信号处理框架，所以恢复的原始声音更加真实。

实施例二

基于同一发明构思，本实施例提供了一种基于深度学习的多通道音视频会议降噪的系统，其解决问题的原理与所述基于深度学习的多通道音视频会议降噪的方法类似，重复之处不再赘述。

请参考图2所示，本实施例所述的基于深度学习的多通道音视频会议降噪的系统，包括：

采集模块，用于采集原始多通道信号，将采集的时域信号转换成频域信号；

第一计算模块，用于利用神经网络计算各个频段上存在的噪音概率，通过所述噪音概率计算噪音的协方差矩阵；

第二计算模块，用于通过所述噪音的协方差矩阵计算噪音的协方差矩阵的特征向量，根据所述噪音的协方差矩阵以及所述噪音的协方差矩阵的特征向量计算合并多通道的权值；

输出模块，用于根据所述合并多通道的权值以及所述频域信号输出降噪结果。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：辛鑫
技术所有人：苏州蛙声科技有限公司
我是此专利的发明人

上一篇：水溶性紫外光漆包线漆的制备方法以及涂覆固化方法与流程
上一篇：在远程观看的演示中提供超链接的制作方法