通信终端双麦克风消噪系统中的语音活动检测方法及装置的制造方法_3

文档序号：9709466阅读：来源：国知局

器；
[0080]信号特征提取模块:用于在处理器中对待测的数字带噪语音信号提取特征，包括：子带互通道能量差和归一化的互通道相关；
[0081 ]待测语音活动检测模块:用于将信号特征提取模块提取的特征作为输入送入神经网络训练单元中已训练完毕的神经网络，该神经网络使用神经网络训练单元中存储模块存储的神经网络的权值和神经元个数；
[0082]输出单元:用于将神经网络的输出作为语音活动检测的最终检测结果输出。
[0083]同时本实施例提供的一种通信终端双麦克风消噪系统中的语音活动检测方法，主要包括两个部分：
[0084] 1)神经网络训练:选取训练样本，提取特征，并得到对应的语音活动检测结果，利用特征和对应的语音活动检测结果对神经网络进行训练，得到训练好的神经网络；
[0085] 2)基于训练好的神经网络进行语音活动检测：通过通信终端的主、次麦克风采集待测的模拟带噪语音信号，并通过模数转换器转换为数字采样信号，得到待测的分别对应于主、次麦克风的数字带噪语音信号，接着对该数字带噪语音信号提取特征，然后将特征送入步骤1)训练好的神经网络，由神经网络输出语音活动检测的最终检测结果，也即由神经网络输出待测语音活动的最终语音活动检测结果；
[0086]所述步骤1)和步骤2)中的特征包括子带互通道能量差和归一化的互通道相关。
[0087] 其中第一部分为神经网络训练部分，如图2所示，包括如下步骤：
[0088] (11)通过通信终端的主麦克风和次麦克风采集训练用的模拟带噪语音信号作为神经网络的训练样本；
[0089]本实施例一共选取100段训练用的纯净语音信号，其中80段作为训练集用于神经网络的训练，剩余20段作为验证集用于验证神经网络的结果;每句时间长度约为10s;同时，选取6种常见的噪声，babble，car，restaurant，office, street和方向性的语音干扰作为背景噪声，通过一邻近通信终端主麦克风的人工嘴播放纯净语音信号，通信终端外围布设若干喇叭播放环境噪声，信噪比分别为5db，10db和15db，从而产生训练用模拟带噪语音信号；然后通过通信终端的主、次麦克风对产生的训练用模拟带噪语音信号进行采样，将不同信噪比和噪声环境下采样的带噪语音作为训练神经网络的样本，并将训练样本划分为训练集和验证集；以上为本实施例产生训练用模拟带噪语音信号的方法，当然以上训练用模拟带噪语音信号的产生也可以通过本领域其他技术手段来实现；
[0090] (12)通过模数转换器分别将主、次麦克风采集到的训练用模拟带噪语音信号转换为对应的数字采样信号，得到训练用的分别对应于主、次麦克风的数字带噪语音信号；
[0091] 本实施例中的数字采样信号为8khz;
[0092] (13)将该数字采样信号传输至通信终端处理器；
[0093] (14)在处理器中对训练用数字带噪语音信号提取特征，包括:子带互通道能量差和归一化的互通道相关;并对每帧训练用数字带噪语音信号进行标记得到对应的语音活动检测结果；
[0094] 本实施例中分别对训练集和测试集提取上述特征；同时，分别对训练集和测试集中的每帧数字带噪语音信号进行标记得到对应的语音活动检测结果，其中将带噪语音信号中的语音帧标记为1，噪声帧标记为〇,作为神经网络的输出目标;其中对带噪语音信号进行短时分帧处理特征提取和标记语音活动检测结果所使用的短时分帧的帧长为256个采样点，帧移为128个采样点;在本实施例中，不管是训练集还是验证集，训练样本中用于神经网络训练的样本的正确的语音活动检测的结果是预先标记的，可以通过如下方式获得，如录制一段纯净的语音，根据预设的一个能量阈值(如阈值为25dB SPL声压级）来标记语音段，大于预设阈值则认为是语音帧标记为1，小于预设阈值则认为是噪声帧标记为〇,然后，如果这段语音混合了噪声，前边标记的语音帧和噪声帧就指明了带噪语音中语音存在的帧和噪声存在的帧，即可据此对训练集和测试集中的每帧数字带噪语音信号进行标记得到对应的语音活动检测结果；
[0095] (15)将特征作为神经网络的输入，步骤(14)中得到的语音活动检测结果作为输出目标训练神经网络；
[0096] 即纯净语音段中预设有标记语音存在的帧和噪声存在的帧，然后该纯净语音段和不同噪声在不同信噪比下混合得到模拟带噪语音信号，对通过通信终端的主、次麦克风采集的模拟带噪语音信号采样后得到的数字带噪语音信号提取特征作为神经网络的输入，以纯净语音段的标记为据所获得的训练样本对应的语音活动检测结果为神经网络的输出目标，这样来训练神经网络；
[0097] 在本实施例中具体为:根据预设的神经网络隐藏层神经元个数的范围（比如，10-50个），将从训练集中提取的特征作为神经网络的输入，对应的训练集语音活动检测结果，其中语音活动检测标签（1:语音〇:噪声)作为神经网络的输出目标，计算神经网络的输出结果与输出目标之间的误差;通过误差反向传播算法持续调整神经网络的权值，直到误差小于预设的阈值或者训练次数达到预期最大迭代次数则停止神经网络的训练，否则继续调整权值;训练结束后，使用验证集验证神经网络的结果，将从验证集中提取的特征作为神经网络的输入，神经网络的输出结果和对应验证集的语音活动检测结果进行比较，统计神经网络输出结果的正确率，如果正确率优于之前训练得到的结果，则记录此时的神经元个数;每次增加一个神经元重复上述的训练和验证步骤，直到到达设定神经元个数的上限，最后选取最优的结果对应的神经元个数，并记录此时神经网络内部的权值作为最终训练完毕的神经网络；
[0098] (16)存储训练完毕的神经网络的权值和神经元个数；
[0099] 第二部分为基于训练好的神经网络进行语音活动检测的应用，如图1所示，具体包括如下步骤：
[0100] (21)通过通信终端的主麦克风和次麦克风采集待测的模拟带噪语音信号；
[0101] 本实施例中通信终端为手机，当然也可以是其他通信终端产品；如图1所示，在本实施例中位于手机下侧的Micr〇ph 〇ne(简称下MIC)对应主麦克风，主麦克风为通话中相对接近用户发音部位的麦克风，位于手机上侧的Micr 〇ph〇ne(简称上MIC)对应次麦克风，次麦克风为通话中相对远离用户发音部位的麦克风；
[0102] (22)通过模数转换器分别将主、次麦克风采集到的模拟带噪语音信号转换为对应的数字采样信号，得到待测的分别对应于主、次麦克风的数字带噪语音信号；在本实施例中：?目号米样率为8khz;
[0103] (23)将该数字采样信号传输至通信终端处理器；
[0104] (24)在处理器中对待测的数字带噪语音信号提取特征，包括:子带互通道能量差和归一化的互通道相关;在本实施例中：对信号划分进行短时分帧处理提取特征所使用的短时分帧的帧长为256个米样点，帧移为128个米样点；
[0105] (25)将步骤(24)提取的特征作为输入送入步骤1)中已训练完毕的神经网络，该神经网络使用步骤(16)存储的神经网络的权值和神经元个数；
[0106] (26)将神经网络的输出作为语音活动检测的最终检测结果。
[0107] 上述神经网络训练中和基于训练好的神经网络进行语音活动检测中涉及的特征包括子带互通道能量差和归一化的互通道相关。
[0108] 本发明中，上述特征中子带互通道能量差的计算方法为:使用短时傅里叶变化将主、次麦克风接受的带噪语音信号转化到频域，在频域使用24个MEL频带对频域进行划分，对每一帧信号，先分别计算主、次麦克风的信号功率谱，再计算主、次麦克风信号功率谱在每个频点的比值，对每个子带，将子带内每个频点的功率比值取对数相加求和再除以子带的频点数进行平均，然后得到每个子带的互通道能量差作为训练神经网络的特征，其中第b 个子带互通道能量差为：
[0109]
.CD;
[0110] 其中，Uh(b)和m(b)分别为第b个子带的上下边界，Px.;(k,n)郝ΡΧ2〇?,η)分别为主麦克风和次麦克风中第η帧信号的第k个频点的功率谱，k代表频率点，η代表语音帧标号，i 为麦克风的标号。
[0111] 本发明中，上述特征中归一化的互通道相关的计算方法为:在时域将主、次麦克风中的信号划分为短时帧，对每一帧信号，先计算主、次麦克风接受的信号幅

完整全部详细技术资料下载

当前第3页1 2 3 4 5