一种环境自适应的语音混响消除方法和系统的制作方法

文档序号：9688755阅读：501来源：国知局

一种环境自适应的语音混响消除方法和系统的制作方法
【技术领域】
[0001] 本发明设及语音混响消除领域技术，尤其是指一种环境自适应的语音混响消除方法和系统。
【背景技术】
[0002] 在室内采集语音信号时，若声源与采集的麦克风距离较远，就会有混响。过大的混响会严重影响语音的清晰度和可懂度。在语音识别和说话人识别系统中，混响的出现将会使训练数据与测试数据不匹配影响系统的性能，严重时还可能导致系统无法正常工作。此时，一种有效的混响的消除方法就变得极其重要了。常用的混响消除算法大多是从语音中估计出混响分量，然后进行混响消除，然而运在实际中是很困难的。
[0003] 文献[K丄ebart，2001 ]使用Po lack混响统计模型的单麦克风混响消除系统。该混响消除系统根据混响时间来构造化lack混响统计模型，利用化lack混响统计模型估计出后期混响功率谱，最后采用谱减法去除后期混响，达到语音增强的效果。由于该技术要求已知混响时间先估计出后期混响后采用谱减法求解出没受污染部分的分量，实现混响消除。然而实际应用中很难直接得到准确的混响时间，运导致采用谱减法去除后期混响时常会引入一些人工噪声。在过估计时，会产生音乐噪声;欠估计时会有噪声残留。
[0004] 文献[Marc Delcroix,2014]提供了WPE(Weighted Prediction lirror)算法的混响消除方法。该方法采用线性滤波的方法进行混响消除。首先对语音进行短时傅里叶变换 (Sho;rt-time Fourier Transform,STFT);然后在频域通过迭代估计出一组最优的线性滤波器的参数;最后采用线性滤波器对STFT系数进行滤波，得到语音中消除混响后的STFT系数估计，实现对混响的消除。该算法在进行迭代估计时需要进行较多的运算，并且滤波器的长度需要人为设定。实际应用环境中，混响的影响并不是固定的，采用固定的滤波器长度将很难实现在不同环境下的稳定工作。

【发明内容】

[0005] 有鉴于此，本发明针对现有技术存在之缺失，其主要目的是提供一种环境自适应的语音混响消除方法和系统，其能够对大多数的室内环境下的语音混响进行消除，并且能够迅速的适应室内环境的变化，实现对室内混响环境的自适应。
[0006] 为实现上述目的，本发明采用如下之技术方案：
[0007] -种环境自适应的语音混响消除方法，包括有W下步骤：
[000引步骤100:使用混响模型训练装置训练混响模型，并且将训练得到的混响模型存储于音频处理装置的第二存储器中；
[0009] 步骤200 :采用RT60获取装置获取当前环境下的RT60值，并且发送给音频处理装置；
[0010] 步骤300:输入获取到的数字语音信号；
[0011] 步骤400:使用音频处理装置中的第二特征提取模块提取输入语音的MFCC，具体步骤与混响模型训练装置中的特征提取一致；
[0012]步骤500:将原始的特征经过前5帖后4帖的扩展，形成320维数据，再将320维数据的每一维进行均值方差归一化处理；
[0013] 步骤600:根据获取到的RT60值，读取第一存储器里对应的混响模型；
[0014] 步骤700:根据输入的归一化MFCC特征及混响模型，通过混响模型的参数对输入的语音特征进行映射得到混响消除后的语音特征，也就是将提取的归一化MFCC特征作为输入，根据混响模型的参数得到不带混响的语音特征；
[0015] 步骤800:输出混响消除后的语音特征，该输出可作为鲁棒性语音特征供语音识别或说话人识别使用。
[0016] 作为一种优选方案，所述步骤100中包括有W下步骤：
[0017] 步骤101:整理语料，混响语音采用在安静语音的基础上卷积加入房间脉冲响应获得；
[0018] 步骤102:按所在的混响时间区间分别使用第一特征提取模块提取带混响的语音及安静语音的MFCC;
[0019] 步骤103:将原始的特征经过前5帖后4帖的扩展，形成320维数据，再将320维数据的每一维进行均值方差归一化处理；
[0020] 步骤104:构建编码器，编码器的形式采用DAE的形式，使用RBM堆叠的方式构建深度置信网络；
[0021 ]步骤105:训练编码器，分别训练各个混响时间区间内的语音特征，并得到对应的混响模型；
[0022] 步骤106:将第二存储器中的所有混响模型及对应的一些参数存储到音频处理装置中的第二存储器里。
[0023] 作为一种优选方案，所述步骤200中包括有W下步骤：
[0024] 步骤201:使用RT60获取模块获取当前时刻的RT60估计值；
[0025] 步骤202:使用存储器存储RT60获取模块测得的RT60值；
[0026] 步骤203:使用算数平均模块，估计出当前时刻的RT60"真值"；
[0027] 步骤204:采用第一无线接口向音频处理装置发送RT60的"真值"。
[00%] -种环境自适应的语音混响消除系统，包括有混响模型训练装置、RT60获取装置 W及音频处理装置;该混响模型训练装置包括有第一特征提取模块、编码模块和模型存储器，该第一特征提取模块连接编码模块，该编码模块连接模型存储器;该RT60获取装置包括有RT60获取模块、第一存储器、算数平均模块和第一无线接口，该RT60获取模块连接第一存储器，该第一存储器连接算数平均模块，该算数平均模块连接第一无线接口；该音频处理装置包括有第二特征提取模块、解码模块、第二无线接口和第二存储器，该第二特征提取模块连接解码模块，该第二无线接口连接第二存储器，该第二存储器连接解码模块，前述第一无线接口无线连接第二无线接口，前述模型存储器连接第二存储器。
[0029] 本发明与现有技术相比具有明显的优点和有益效果，具体而言，由上述技术方案可知：
[0030] 首先，考虑到RT60值的大小可W近似表征房间的混响量的大小及特殊的室内应用环境(RT60的值会在一个较小的范围内），本发明中将RT60值按大小分成多个区间，使用区间内的语音特征来训练混响模型，使得数据训练的更加充分，混响模型更有针对性;其次，通过结合当前环境的RT60值所在区间和使用对应区间的混响模型进行解码的方法实现了对不同房间环境的自适应;再者，由于采用深度网络训练模型，在实际应用时就不需要估计混响分量，直接根据模型参数进行解码即可得到混响消除后的语音特征，减少了计算量。
[0031] 为更清楚地阐述本发明的结构特征和功效，下面结合附图与具体实施例来对本发明进行详细说明。
【附图说明】
[0032] 图1是本发明之较佳实施例的系统框图；
[0033] 图2是本发明之较佳实施例中RBM的结构示意图；
[0034] 图3是本发明之较佳实施例中降噪自动编码器的结构示意图；
[0035] 图4是本发明之较佳实施例中采用的网络结构图；
[0036] 图5是本发明之较佳实施例中混响模型预训练和微调过程示意图；
[0037] 图6是本发明之较佳实施例原理流程图；
[0038] 图7是本发明之较佳实施例混响模型训练和RT60获取流程图。
[0039] 附图标识说明：
[0040] 10、混响模型训练装置 11、第一特征提取模块
[0041] 12、编码模块 13、模型存储器
[0042] 20、RT60获取装置 2URT60获取模块
[0043] 22、第一存储器 23、算术平均模块
[0044] 24、第一无线接口 30、音频处理装置
[0045] 31、第二特征提取模块 32、解码模块
[0046] 33、第二无线接口 34、第二存储器
【具体实施方式】
[0047] 本发明公开一种环境自适应的语音混响消除系统，该系统主要包括有混响模型训练装

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卓鹏鹏;李稀敏;肖龙源;
技术所有人：厦门快商通信息技术有限公司;
我是此专利的发明人

上一篇：语音信号的处理方法和装置的制造方法
上一篇：一种基于声纹识别的音频处理方法及系统的制作方法