通信终端双麦克风消噪系统中的语音活动检测方法及装置的制造方法

文档序号：9709466阅读：487来源：国知局

通信终端双麦克风消噪系统中的语音活动检测方法及装置的制造方法
【技术领域】
[0001] 本发明涉及语音通话中的噪声抑制、消除、降噪、消噪通信技术，特别涉及带噪语音信号中的语音活动的检测方法及装置。
【背景技术】
[0002] 现有技术中，应用于手机消噪中的技术主要采用设定固定的阈值来判断语音和噪声。
[0003] 然而，通信终端，如手机在通话中所处的噪声环境非常的复杂，依赖于固定阈值的技术无法在复杂多变的多种噪声环境下准确的区分语音和噪声，应用于手机消噪系统会造成语音失真降低可懂度的问题。
[0004] 语音活动检测是语音增强处理中的重要组成部分，语音活动检测可以从带噪语音信号中确定出语音的起始和结束点的位置，准确的语音活动检测结果可以帮助消噪系统对噪声进行有效抑制的同时尽可能的减少语音信号的失真提高语音的可懂度。手机作为现在最主流的通讯设备，其通话质量的改善意义重大。
[0005] 因此急需一种不依赖于固定阈值，可能依据不同的噪声环境而自适应的调节参数的语音活动检测方法和装置，来提升复杂噪声环境下的语音活动检测的准确性。

【发明内容】

[0006] 发明目的：本发明为了解决现有技术的不足，提供了一种通信终端双麦克风消噪系统中的语音活动检测方法，同时提供了一种通信终端双麦克风消噪系统中的语音活动检测装置。
[0007] 技术方案:为解决上述技术问题，本发明提供的一种通信终端双麦克风消噪系统中的语音活动检测方法，包括如下步骤：
[0008] 1)神经网络训练:选取训练样本，提取特征，并得到对应的语音活动检测结果，利用特征和对应的语音活动检测结果对神经网络进行训练，得到训练好的神经网络；
[0009] 2)基于训练好的神经网络进行语音活动检测：通过通信终端的主、次麦克风采集待测的模拟带噪语音信号，并通过模数转换器转换为数字采样信号，得到待测的分别对应于主、次麦克风的数字带噪语音信号，接着对该数字带噪语音信号提取特征，然后将特征送入步骤1)训练好的神经网络，由神经网络输出语音活动检测的最终检测结果；
[0010] 所述步骤1)和步骤2)中的特征包括子带互通道能量差和归一化的互通道相关。
[0011] 优选的，所述1)神经网络训练包括如下步骤：
[0012] (11)通过通信终端的主麦克风和次麦克风采集训练用的模拟带噪语音信号作为神经网络的训练样本；
[0013] (12)通过模数转换器分别将主、次麦克风采集到的训练用模拟带噪语音信号转换为对应的数字采样信号，得到训练用的分别对应于主、次麦克风的数字带噪语音信号；
[0014] (13)将该数字采样信号传输至通信终端处理器；
[0015] (14)在处理器中对训练用数字带噪语音信号提取特征，包括:子带互通道能量差和归一化的互通道相关;并对每帧训练用数字带噪语音信号进行标记得到对应的语音活动检测结果；
[0016] (15)将特征作为神经网络的输入，步骤(14)中得到的语音活动检测结果作为输出目标训练神经网络；
[0017] (16)存储训练完毕的神经网络的权值和神经元个数；
[0018] 所述2)基于训练好的神经网络进行语音活动检测包括如下步骤：
[0019] (21)通过通信终端的主麦克风和次麦克风采集待测的模拟带噪语音信号；
[0020] (22)通过模数转换器分别将主、次麦克风采集到的模拟带噪语音信号转换为对应的数字采样信号，得到待测的分别对应于主、次麦克风的数字带噪语音信号；
[0021] (23)将该数字采样信号传输至通信终端处理器；
[0022] (24)在处理器中对待测的数字带噪语音信号提取特征，包括:子带互通道能量差和归一化的互通道相关；
[0023] (25)将步骤(24)提取的特征作为输入送入步骤1)中已训练完毕的神经网络，该神经网络使用步骤(16)存储的神经网络的权值和神经元个数；
[0024] (26)将神经网络的输出作为语音活动检测的最终检测结果。
[0025]优选的，所述特征中子带互通道能量差的计算方法为:使用短时傅里叶变化将主、次麦克风接受的信号转化到频域，在频域使用24个MEL频带对频域进行划分，对每一帧信号，先分别计算主、次麦克风的信号功率谱，再计算主、次麦克风的信号功率谱在每个频点的比值，对每个子带，将子带内每个频点的功率比值取对数相加求和再除以子带的频点数进行平均，然后得到每个子带的互通道能量差作为训练神经网络的特征，其中第b个子带互通道能量差为：
[0026]
⑴；
[0027]其中，uh(b)和m(b)分别为第b个子带的上下边界，PXl(k,n) *PX2(k,n)分别为主麦克风和次麦克风中第η帧信号的第k个频点的功率谱，k代表频率点，η代表语音帧标号，i 为麦克风的标号。
[0028]优选的，所述特征中归一化的互通道相关的计算方法为:在时域将主、次麦克风中的信号划分为短时帧，对每一帧信号，先计算主、次麦克风接受的信号幅值的均值，然后，在每个采样点上，再用主麦克风中的信号幅值减去对应均值的值，与当前采样点经过τ个采样点的延时后的次麦克风中的信号幅值减去对应均值的值相乘，并将每个采样点计算的结果在一帧内求和，最后对求和的值进行归一化，得到对应每一帧的归一化互通道相关Τ(η，τ)，计算公式如下：
[0029]
(2);
[0030] 其中，L代表每一帧时域信号的长度，τ为延时，χ1>η和χ2,η分别为主、次麦克风中的数字带噪语音信号，$1,η和&2,η分别为每一帧内主麦克风和次麦克风接受的信号的均值。
[0031] 进一步优选的，所述步骤(11)中，所采集的训练样本中包括训练集和验证集；
[0032] 所述步骤(15)中将特征作为神经网络的输入，步骤(14)中得到的语音活动检测结果作为输出目标训练神经网络，具体包括：
[0033] 根据预设的神经网络隐藏层神经元个数的范围，将从训练集中提取的特征作为神经网络的输入，对应训练集的语音活动检测结果作为神经网络的输出目标，计算神经网络的输出结果与输出目标之间的误差;通过误差反向传播算法持续调整神经网络的权值，直到误差小于预设的阈值或者训练次数达到预期最大迭代次数则停止神经网络的训练;然后使用验证集验证神经网络的结果，将从验证集中提取的特征作为神经网络的输入，神经网络的输出结果和对应验证集的语音活动检测结果进行比较，统计神经网络输出结果的正确率，如果正确率优于之前训练得到的结果，则记录此时的神经元个数;增加一个神经元重复上述的训练和验证步骤，直到到达设定神经元个数的上限，最后选取最优的结果对应的神经元个数，并记录此时神经网络内部的权值作为最终训练完毕的神经网络。
[0034] 本发明同时提供一种通信终端双麦克风消噪系统中的语音活动检测装置，其包括：
[0035] 神经网络训练单元:用于选取训练样本，提取特征，并得到对应的语音活动检测结果，利用特征和对应的检测结果对神经网络进行训练，得到训练好的神经网络；
[0036] 基于训练好的神经网络进行语音活动检测单元：用于通过通信终端的主、次麦克风采集待测的模拟带噪语音信号，并通过模数转换器转换为数字采样信号，得到待测的分别对应于主、次麦克风的数字带噪语音信号，接着对该数字带噪语音信号提取特征，然后将特征送入神经网络训练单元训练好的神经网络，由神经网络输出语音活动检测的最终检测结果；
[0037] 所述神经网络训练单元和基于训练好的神经网络进行语音活动检测单元中的特征包括子带互通道能量差和归一化的互通道相关。
[0038] 在上述语音活动检测装置中，优选的，所述神经网络训练单元中包括：
[0039] 训练样本采集模块:用于通过通信终端的主麦克风和次麦克风采集训练用的模拟带噪语音信号作为神经网络的训练样本；
[0040] 模数转换模块：用于通过模数转换器分别将主、次麦克风采集到的训练用模拟带噪语音信号转换为对应的数字采样信号，得到训练用的分别对应于主、次麦克风的数字带噪语音信号；
[0041] 信号传输模块:用于将该数字采样信号传输至通信终端处理器；
[0042] 信号特征提取和语音活动检测模块:用于在处

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：章雒霏;张铭;李晨;
技术所有人：南京师范大学;
我是此专利的发明人

上一篇：语音识别的控制方法和装置的制造方法
上一篇：概率线性鉴别分析模型生成方法和说话人聚类方法及系统的制作方法