一种生成混响衰减参数模型的方法及计算系统与流程

文档序号：20989546发布日期：2020-06-05 21:33阅读：383来源：国知局

本发明涉及音频信号处理技术领域，更具体地说，涉及一种生成混响衰减参数模型的方法及计算系统。

背景技术：

波在室内传播时，要被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在室内要经过多次反射和吸收，最后才消失，我们就感觉到声源停止发声后还有若干个声波混合持续一段时间(室内声源停止发声后仍然存在的声延续现象)。这种现象叫做混响，这段时间叫做混响时间。

在声学中使用t60来估计房间混响时长，一般来讲，混响时长在80～100ms以内，在房间中的说话声会显得更加饱满，但是混响时长超过100ms甚至更长时，混响会逐渐降低语音的可懂度。在实时会议通讯系统中，这十分影响听感。同时混响时长的大小也会影响到语音识别的准确率。近年来，混响的解决方案通常是使用自适应滤波器来估计房间中的rir，从而对混响语音进行逆滤波等一系列操作，以到达去混响的目的。但是rir作为声学中较为特殊的一种信号，其时变性往往使滤波器无法很好很快的收敛，这就导致混响消除效果较差。

针对上述问题，现有技术也提出一些解决方案，例如发明创造名称为：一种基于倒谱滤波的混响参数估计方法(申请日：2018年9月5日，申请号：201811031342.4)，该方案公开了一种基于倒谱滤波的混响参数估计方法，首先用内置的扬声器发出1000hz的激励信号；其次，对麦克风接收的音频信号做快速傅里叶变换、对数运算和离散余弦变换，得到混响信号的倒谱参数；然后，对倒谱参数进行滤波，从混响信号的倒谱参数中分离出房间滤波器的倒谱参数；最后，通过逆离散余弦变换、指数变换和快速傅里叶逆变换，得到房间的混响参数。该方案可以快速测量房间的混响参数，构建逆滤波器，减小室内混响对语音处理系统的影响。但是，该方案的不足之处在于：采用的方法需要通过激励获取混响参数，但在实际应用时在房间中不断发出1000hz的信号明显不能满足实际应用需要。

综上所述，如何准确计算实时的混响衰减参数，是现有技术亟需解决的问题。

技术实现要素：

1.要解决的问题

本发明的目的在于克服现有技术中，不能准确计算实时的混响衰减参数的不足，提出一种生成混响衰减参数模型的方法及计算系统，可以实时计算室内的混响衰减参数，对于室内环境变化的适应能力较强，进而可以提高混响消除的效果。

2.技术方案

为了解决上述问题，本发明所采用的技术方案如下：

本发明的一种生成混响衰减参数模型的方法，包括以下步骤：

(1)合成混响语音

先采集语音数据和rir数据，再将语音数据和rir数据合成得到混响语音数据；

(2)特征提取

对混响语音数据进行处理得到j帧，每帧提取h维特征；

(3)生成混响衰减参数模型

利用rnn模型对j帧及每帧提取的h维特征进行训练得到混响衰减参数模型。

更进一步地，利用以下公式合成混响语音数据：

其中xrev表示混响语音数据，hj表示rir数据，xi-j表示语音数据，n表示语音数据的样本点总数，m表示rir信号的样本点总数。

更进一步地，对混响语音数据进行处理的具体过程包括：先对混响语音数据进行加窗分帧处理并进行短时傅里叶变换得到j帧；再计算每帧的幅度谱并将幅度谱均匀分为h个频带；之后计算每个频带的均值并作为特征，共得到h维特征。

更进一步地，rnn模型对j帧及每帧提取的h维特征进行训练的具体过程为：采用adam训练策略和改进的loss函数进行训练，改进的loss函数公式为：

bdgmse(true,pred)

＝|dg(true,pred)|*p100+mean((true(1:k)-pred(1:k))²)*p10

+mean((true(k:end)-pred(k:end))²)*p1

其中，bdgmse(true,pred)表示loss函数，dg(true,pred)表示衰减梯度差，其中true表示真实标签，pred表示预测标签，k、t1，t2，t3表示关键帧的下标，t为常数，p100，p10，p1表示惩罚系数。

更进一步地，adam训练策略公式为：

mt＝μ×mt-1+(1-μ)×gt

其中，gt表示梯度，mt表示梯度的一阶动量，mt-1表示在t-1时刻梯度的一阶动量，nt表示梯度的二阶动量，nt-1表示在t-1时刻梯度的二阶动量，表示对mt的校正，表示对nt的校正，θ表示学习率，μ和ρ表示衰减系数，0≤μ＜1，0≤ρ＜1；∈是常数，∈＝10^-8。

更进一步地，rnn模型包括编码器和解码器，输入层将j帧及每帧的h维特征传输至编码器进行编码，而后将编码后的数据传输至repeat层进行处理，之后将处理后的数据传输至解码器进行解码，再由输出层将解码后的j帧及每帧的h维特征的混响衰减参数进行输出。

更进一步地，对混响语音数据进行处理得到100帧，每帧提取40维特征。

本发明的一种混响衰减参数计算系统，包括计算单元，该计算单元包括存储器和处理器，存储器和处理器与处理器连接，存储器内存储有程序，该程序用于实现上述的一种生成混响衰减参数模型的方法，处理器用于执行程序得到响衰减参数模型并用于混响衰减参数的计算。

更进一步地，还包括采集单元、和存储单元，采集单元和计算单元电连接；计算单元通过传输单元与存储单元连接。

更进一步地，采集单元包括声音采集器和信号转换器，声音采集器与信号转换器电连接，信号转换器与计算单元电连接。

3.有益效果

相比于现有技术，本发明的有益效果为：

本发明的一种生成混响衰减参数模型的方法，通过rnn模型生成混响衰减参数模型，从而可以实时计算室内的混响衰减参数，即可以了解室内混响的实时状态，进而可以提高混响消除的效果，进一步可以达到实时通讯会议的要求。此外，本发明的一种混响衰减参数计算系统，可以生成混响衰减参数模型并进行混响衰减参数的计算，从而可以实时的计算室内的混响衰减参数，对于室内环境变化的适应能力较强，从而可以提高信号处理系统的去混响效果，进一步可以实现实时通讯会议。

附图说明

图1为本发明的生成混响衰减参数模型方法的流程示意图；

图2为本发明的rnn模型结构示意图；

图3为本发明的混响衰减参数计算系统结构示意图。

示意图中的标号说明：100、采集单元；200、计算单元；300、传输单元；400、存储单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例；而且，各个实施例之间不是相对独立的，根据需要可以相互组合，从而达到更优的效果。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。

实施例1

结合图1所示，本发明的一种生成混响衰减参数模型的方法，包括以下步骤：

(1)合成混响语音

先采集语音数据和rir数据，值得说明的是，采集的语音数据包括各个场景的语音，例如办公室、消声室、街道和公园等；rir数据指的是混响特征数据，本发明通过网上下载的方式获取rir数据；之后将语音数据和rir数据合成得到混响语音数据；通过合成混响语音数据可以准确大量的标注语音数据；本发明通过以下公式合成混响语音数据：

其中xrev表示混响语音数据，hj表示rir数据，xi-j表示语音数据，n表示语音数据的样本点总数，m表示rir信号的样本点总数。

(2)特征提取

对混响语音数据进行处理得到j帧，每帧提取h维特征；本实施例对混响语音数据进行处理得到100帧，每帧提取40维特征；其中，对混响语音数据进行处理的具体过程包括以下步骤：

先对混响语音数据进行加窗分帧处理并进行短时傅里叶变换得到j帧；而后计算每帧的幅度谱并将幅度谱均匀分为h个频带；值得说明的是，计算每帧的幅度谱的过程为：对帧进行加窗处理，再进行短时傅里叶变换得到若干个复数值，再取复数值的平方值得到该帧的幅度谱；本实施例中，取20ms为一帧，步长为10ms进行短时傅里叶变换得到160个复数值，再取其平方值得到该帧的幅度谱；其中，1帧对应的时长为10ms；

再计算每个频带的均值并作为特征，共得到h维特征；本实施例共得到40维特征；通过以下公式计算每个频带的均值：

其中，i，k表示频带范围内的子频带序号，x代表子频带值，代表的平均值。例如第一个频带的范围为[1,4]，将4个子频带值相加取平均值即为第一维子频带特征，取4个子频带值中最大的值作为第一个频带的最大值。

(3)生成混响衰减参数模型

利用rnn模型对j帧及每帧提取的h维特征进行训练得到混响衰减参数模型。值得说明的是，本发明的rnn模型采用的是基于序列的编解码模型，具体地，本发明的rnn模型包括编码器和解码器，输入层将j帧及每帧的h维特征传输至编码器进行编码，本实施例输入的数据为100帧及每帧的40维特征(如图2所示)，其中，输入的数据为100帧即1秒的数据；而后将编码后的数据传输至repeat层进行处理，之后将处理后的数据传输至解码器进行解码，再由输出层将解码后的j帧及每帧的h维特征的混响衰减参数进行输出。本实施例输出层将解码后的100帧及每帧的40维特征的混响衰减参数进行输出。由于在实际应用场景中混响参数在一般在1秒内高度相关，因此本实施例中的输入的数据为100帧。但输入的数据并不仅限于100帧，也可取64帧，120帧等作为输入数据。另外，本实施例为减少算法复杂度以及保证频谱信息的完整将频谱划分为40个子频带，因此对每帧提取的40维特征进行训练得到混响衰减参数模型。

此外，本发明的编码器(encoder)和解码器(decoder)分别包括8个神经元的dense层以及16个神经元的gru层，通过上述的rnn模型即可生成混响衰减参数模型，进一步可以实时计算室内的混响衰减参数，提高混响消除的效果。

值得说明的是，本发明的rnn模型采用adam训练策略和改进的loss函数进行训练，其中采用的adam训练策略为：

mt＝μ×mt-1+(1-μ)×gt

改进的loss函数公式为：

bdgmse(true,pred)

＝|dg(true,pred)|*p100+mean((true(1:k)-pred(1:k))²)*p10

+mean((true(k:end)-pred(k:end))²)*p1

其中，bdgmse(true,pred)表示loss函数，dg(true,pred)表示衰减梯度差，其中true表示真实标签，pred表示预测标签，mean((true(1:k)-pred(1:k))²)表示(true(1:k)-pred(1:k))²的均值，mean((true(k:end)-pred(k:end))²)表示(true(k:end)-pred(k:end))²的均值；(true(1:k)-pred(1:k))²和(true(k:end)-pred(k:end))²的结果均为数组；k、t1，t2，t3表示关键帧的下标，本实施例中k＝30，t1＝10，t2＝30，t3＝40。t为常数，t＝-39；p100，p10，p1表示惩罚系数，本实施例中p100＝100，p10＝10，p1＝1。

值得说明的是，本发明采用的改进的loss函数改进之处在于更关注关键数据段而不是全部数据，改进的loss函数对关注的数据段进行划分，并分别增加权重，进一步通过梯度来提高训练的收敛速度，进而提高了生成混响衰减参数模型的速度。

本发明的混响衰减参数模型的参数主要包括输入层与dense层的权重和偏置、dense层与gru层的权重和偏置，gru层与gru层的权重和偏置，gru层和dense层的权重和偏置，dense层和输出层的权重和偏置；根据模型结构设计并优化前向算法，具体为根据权重数量与各个层之间的连接情况定义同等大小的数组，并根据dense层和gru层的神经元的输入输出设计对应数据结构储存参数，从而可以存储至存储器中，进而可以部署在会议通信系统中。

本发明的一种生成混响衰减参数模型的方法，通过rnn模型生成混响衰减参数模型，从而可以实时计算室内的混响衰减参数，即可以了解室内混响的实时状态，进而可以提高混响消除的效果，进一步可以达到实时通讯会议的要求。

结合图3所示，本发明的一种混响衰减参数计算系统，包括计算单元200，该计算单元200包括存储器和处理器，存储器和处理器与处理器连接，存储器内存储有程序，该程序用于实现上述的一种生成混响衰减参数模型的方法，处理器用于执行程序得到响衰减参数模型并用于混响衰减参数的计算。此外还包括采集单元100和存储单元400，采集单元100与计算单元200连接，计算单元200通过传输单元300与存储单元400连接。

具体地，采集单元100包括声音采集器和信号转换器，声音采集器与信号转换器电连接，信号转换器与计算单元200电连接。其中，声音采集器用于采集语音，信号转换器用于将环境中的声学信号转换成数字信号，本实施例中的声音采集器麦克风，信号转换器为adc硬件芯片；本实施例的计算单元200为计算机；数据传输单元300用于传输数据，本实施例中传输单元300为传输数据的网络系统；存储单元400用于存储计算的混响衰减参数，本实施例的存储单元400通过传输单元300与计算单元200网络连接，可以快速的传输存储计算的混响衰减参数。

本发明的一种混响衰减参数计算系统，可以生成混响衰减参数模型并进行混响衰减参数的计算，从而可以实时的计算室内的混响衰减参数，对于室内环境变化的适应能力较强，从而可以提高信号处理系统的去混响效果，进一步可以实现实时通讯会议。

在上文中结合具体的示例性实施例详细描述了本发明。但是，应当理解，可在不脱离由所附权利要求限定的本发明的范围的情况下进行各种修改和变型。详细的描述和附图应仅被认为是说明性的，而不是限制性的，如果存在任何这样的修改和变型，那么它们都将落入在此描述的本发明的范围内。此外，背景技术旨在为了说明本技术的研发现状和意义，并不旨在限制本发明或本申请和本发明的应用领域。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：方泽煌;康元勋
技术所有人：厦门亿联网络技术股份有限公司
我是此专利的发明人

上一篇：一种用于下肢助力的柔性功能外衣本体的制作方法
上一篇：一种同时检测酪胺和组胺的荧光免疫方法与流程