通信终端双麦克风消噪系统中的语音活动检测方法及装置的制造方法_5

文档序号：9709466阅读：来源：国知局

(η，τ )，计算公式如下： Τ(η Τ) = Z)L=i(xi;n C')~^l,n )(X2,n ('~τ)~Χ2,η) (:2):.· Σι?ι^ι,η (1)-xi,n )2 +jEh=i(x2,n (0-x2,tt)2 其中，L代表每一帧时域信号的长度，τ为延时，X1>n和X2,n分别为主、次麦克风中的数字带噪语音信号，$1,η和$2,η分别为每一帧内主麦克风和次麦克风接受的信号的均值。5. 根据权利要求2所述的通信终端双麦克风消噪系统中的语音活动检测方法，其特征在于：所述步骤(11)中，所采集的训练样本中包括训练集和验证集；所述步骤（15)中将特征作为神经网络的输入，步骤（14)中得到的语音活动检测结果作为输出目标训练神经网络，具体包括：根据预设的神经网络隐藏层神经元个数的范围，将从训练集中提取的特征作为神经网络的输入，对应训练集的语音活动检测结果作为神经网络的输出目标，计算神经网络的输出结果与输出目标之间的误差;通过误差反向传播算法持续调整神经网络的权值，直到误差小于预设的阈值或者训练次数达到预期最大迭代次数则停止神经网络的训练;然后使用验证集验证神经网络的结果，将从验证集中提取的特征作为神经网络的输入，神经网络的输出结果和对应验证集的语音活动检测结果进行比较，统计神经网络输出结果的正确率，如果正确率优于之前训练得到的结果，则记录此时的神经元个数;增加一个神经元重复上述的训练和验证步骤，直到到达设定神经元个数的上限，最后选取最优的结果对应的神经元个数，并记录此时神经网络内部的权值作为最终训练完毕的神经网络。6. -种通信终端双麦克风消噪系统中的语音活动检测装置，其特征在于包括：神经网络训练单元：用于选取训练样本，提取特征，并得到对应的语音活动检测结果，利用特征和对应的检测结果对神经网络进行训练，得到训练好的神经网络；基于训练好的神经网络进行语音活动检测单元：用于通过通信终端的主、次麦克风采集待测的模拟带噪语音信号，并通过模数转换器转换为数字采样信号，得到待测的分别对应于主、次麦克风的数字带噪语音信号，接着对该数字带噪语音信号提取特征，然后将特征送入神经网络训练单元训练好的神经网络，由神经网络输出语音活动检测的最终检测结果；所述神经网络训练单元和基于训练好的神经网络进行语音活动检测单元中的特征包括子带互通道能量差和归一化的互通道相关。7. 根据权利要求6所述的通信终端双麦克风消噪系统中的语音活动检测装置，其特征在于：所述神经网络训练单元中包括：训练样本采集模块:用于通过通信终端的主麦克风和次麦克风采集训练用的模拟带噪语音信号作为神经网络的训练样本；模数转换模块：用于通过模数转换器分别将主、次麦克风采集到的训练用模拟带噪语音信号转换为对应的数字采样信号，得到训练用的分别对应于主、次麦克风的数字带噪语音信号；信号传输模块:用于将该数字采样信号传输至通信终端处理器；信号特征提取和语音活动检测模块:用于在处理器中对训练用数字带噪语音信号提取特征，包括:子带互通道能量差和归一化的互通道相关;并对每帧训练用数字带噪语音信号进行标记得到对应的语音活动检测结果；训练模块：用于将特征作为神经网络的输入，信号特征提取和语音活动检测模块中得到的语音活动检测结果作为输出目标训练神经网络；存储模块:用于存储训练完毕的神经网络的权值和神经元个数；所述基于训练好的神经网络进行语音活动检测单元包括：信号采集模块:用于通过通信终端的主麦克风和次麦克风采集待测的模拟带噪语音信号；模数转换模块：用于通过模数转换器分别将主、次麦克风采集到的模拟带噪语音信号转换为对应的数字采样信号，得到待测的分别对应于主、次麦克风的数字带噪语音信号；信号传输模块:用于将该数字采样信号传输至通信终端处理器；信号特征提取模块:用于在处理器中对待测的数字带噪语音信号提取特征，包括:子带互通道能量差和归一化的互通道相关；待测语音活动检测模块：用于将信号特征提取模块提取的特征作为输入送入神经网络训练单元中已训练完毕的神经网络，该神经网络使用神经网络训练单元中存储模块存储的神经网络的权值和神经元个数；输出单元:用于将神经网络的输出作为语音活动检测的最终检测结果输出。8. 根据权利要求6所述的通信终端双麦克风消噪系统中的语音活动检测装置，其特征在于：所述特征中子带互通道能量差的计算方法为:使用短时傅里叶变化将主、次麦克风接受的信号转化到频域，在频域使用24个MEL频带对频域进行划分，对每一帧信号，先分别计算主、次麦克风的信号功率谱，再计算主、次麦克风的信号功率谱在每个频点的比值，对每个子带，将子带内每个频点的功率比值取对数相加求和再除以子带的频点数进行平均，然后得到每个子带的互通道能量差作为训练神经网络的特征，其中第b个子带互通道能量差为：知(b-⑻·如纖 ⑴；其中，Uh(b)和m(b)分别为第b个子带的上下边界，PXl(k,n)和PX2(k,n)分别为主麦克风和次麦克风中第η帧信号的第k个频点的功率谱，k代表频率点，η代表语音帧标号，i为麦克风的标号。9. 根据权利要求6所述的通信终端双麦克风消噪系统中的语音活动检测装置，其特征在于：所述特征中归一化的互通道相关的计算方法为：在时域将主、次麦克风中的信号划分为短时帧，对每一帧信号，先计算主、次麦克风接受的信号幅值的均值，然后，在每个采样点上，再用主麦克风中的信号幅值减去对应均值的值，与当前采样点经过τ个采样点的延时后的次麦克风中的信号幅值减去对应均值的值相乘，并将每个采样点计算的结果在一帧内求和，最后对求和的值进行归一化，得到对应每一帧的归一化互通道相关Τ(η，τ )，计算公式如下： T(n x) = Xr=itxl,n ?')~χ1,η )(??2?η ?'~τ)~χ2,η 3 (2)· JSi'=1i^i1nW~xl,n)2+J^i ：=1(X2,n Ο)-χ2,η )2 其中，L代表每一帧时域信号的长度，τ为延时，χ1>η和Χ2, η分别为主、次麦克风中的数字带噪语音信号，5l,n和.?..η分别为每一帧内主麦克风和次麦克风接受的信号的均值。10. 根据权利要求7所述的通信终端双麦克风消噪系统中的语音活动检测装置，其特征在于：所述神经网络训练单元的训练样本采集模块中，所采集的训练样本中包括训练集和验证集；所述神经网络训练单元的训练模块中：将特征作为神经网络的输入，信号特征提取和语音活动检测模块中得到的语音活动检测结果作为输出目标训练神经网络，具体包括:根据预设的神经网络隐藏层神经元个数的范围，将从训练集中提取的特征作为神经网络的输入，对应训练集的语音活动检测结果作为神经网络的输出目标，计算神经网络的输出结果与输出目标之间的误差;通过误差反向传播算法持续调整神经网络的权值，直到误差小于预设的阈值或者训练次数达到预期最大迭代次数则停止神经网络的训练;然后使用验证集验证神经网络的结果，将从验证集中提取的特征作为神经网络的输入，神经网络的输出结果和对应验证集的语音活动检测结果进行比较，统计神经网络输出结果的正确率，如果正确率优于之前训练得到的结果，则记录此时的神经元个数;增加一个神经元重复上述的训练和验证步骤，直到到达设定神经元个数的上限，最后选取最优的结果对应的神经元个数，并记录此时神经网络内部的权值作为最终训练完毕的神经网络。
【专利摘要】本发明公开了通信终端双麦克风消噪系统中的语音活动检测方法和装置，一为神经网络的训练：选取训练样本提取特征并得到对应的语音活动检测结果，利用特征和对应的检测结果对神经网络进行训练；二为基于训练好的神经网络进行语音活动检测：分别使用通信终端的主、次麦克风采集待测带噪语音信号，对采集到的带噪语音信号提取特征，然后将特征送入训练好的神经网络，由神经网络输出语音活动检测的结果；其中特征包括子带互通道能量差和归一化的互通道相关。可依据不同的噪声环境自适应的调节参数进行语音活动检测，解决了现有的语音活动检测方法不能适应噪声环境改变而性能下降的问题，提升了复杂噪声环境下的语音活动检测的准确性。
【IPC分类】G10L15/08, G10L15/16, G10L15/20, H04M1/82, H04M1/19
【公开号】CN105469785
【申请号】CN201510830444
【发明人】章雒霏, 张铭, 李晨
【申请人】南京师范大学
【公开日】2016年4月6日
【申请日】2015年11月25日

完整全部详细技术资料下载

当前第5页1 2 3 4 5