手机麦克风的消噪系统和消噪方法_2

文档序号：9507147阅读：来源：国知局

果与基于互通道信号功率比值的语音活动检测结果相结合，提出一种新的适用于手机消噪系统的语音和噪声活动检测装置，该装置分别对语音和噪声进行检测减少了消噪系统因语音活动检测的误判而造成的性能下降。
【附图说明】
[0038] 图1是本发明中手机麦克风的消噪系统的结构示意图；
[0039] 图2是语音活动检测模块的结构示意图；
[0040] 图3是噪声活动检测模块的结构示意图；
[0041 ] 图4是消噪模块的结构示意图。
【具体实施方式】
[0042] 下面结合实施例对本发明做进一步的详细说明，本实施列对本发明不构成限定。
[0043] 图1中的手机麦克风的消噪系统包括：第一模数转换模块、第二模数转换模块、语音和噪声活动检测装置以及消噪模块，第一模数转换模块连接手机上的主麦克风，将主麦克风接收到的模拟带噪语音信号转换为主麦克风数字带噪语音信号，并将该数字带噪语音信号传递给语音和噪声活动检测装置和消噪模块；第二模数转换模块连接手机上的次麦克风，将次麦克风接收到的模拟带噪语音信号转换为次麦克风数字带噪语音信号，并将该数字信号传递给语音和噪声活动检测装置和消噪模块；上述模拟带噪语音信号，包括纯净语音信号和环境中的背景噪声信号，语音和噪声活动检测装置根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号为消噪模块确定语音采样点和噪声采样点，消噪模块在语音采样点先将次麦克风数字带噪语音信号中的纯净语音信号进行消除处理得到背景噪声信号，再在噪声采样点对主麦克风数字带噪语音信号中的背景噪声信号进行降噪处理得到纯净语音信号。
[0044] 在本实施例中位于手机下侧的Microphone (简称下MIC)对应主麦克风，主麦克风为通话中相对接近用户发音部位的麦克风，位于手机上侧的Microphone (简称上MIC)对应次麦克风，次麦克风为通话中相对远离用户发音部位的麦克风。
[0045] 上述语音和噪声活动检测装置包括：语音活动检测模块VAD和噪声活动检测模块 NAD，语音活动检测模块VAD对主麦克风数字带噪语音信号的时域采样点进行标记得到语音采样点，噪声活动检测模块NAD利用消噪模块获取的背景噪声信号（即：次麦克风数字带噪语音信号中滤除目标语音后得到的背景噪声信号）和主麦克风数字带噪语音信号对主麦克风数字带噪语音信号的时域采样点进行标记得到噪声采样点。
[0046] 如图2所示，语音活动检测模块VAD包括神经网络语音活动检测单元、基于互通道信号功率比值的语音活动检测单元和合并单元，神经网络语音活动检测单元和基于互通道信号功率比值的语音活动检测单元分别根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号对主麦克风数字带噪语音信号中的语音信号和噪声信号利用二进制数进行标记；合并单元将两个单元获取到的标记结果做与运算，得到最终的语音标记结果作为上述的语音信号采样点，即将神经网络语音活动检测的标记结果和基于互通道功率比值的语音活动检测的标记结果相结合，只有神经网络语音活动检测和互通道功率比值语音活动检测都判断当前采样点为语音的时候，该采样点才被标记为语音，否则标记为噪声。
[0047] 上述利用神经网络语音活动检测单元对语音信号和噪声信号利用二进制数进行标记，包括以下步骤：
[0048] (1)对主麦克风数字带噪语音信号和次麦克风数字带噪语音信号进行短时分帧处理，对每一帧信号提取特征，包括：子带互通道能量差和归一化的互通道相关；
[0049] (2)将该特征输入至预先训练好的神经网络，该神经网络利用所存储的神经网络的权值和神经元个数，对每一帧信号进行判断并输出每一帧语音活动检测的二进制标记结果：1表不语音帧，O表不噪声帧；
[0050] (3)将神经网络的语音活动检测结果转化为每个采样点的结果，转化的方法为：如果当前一帧带噪语音信号被判断为语音存在的帧，则一帧信号内的所有采样点都标记为 1，相反的，如果一帧信号被判断为噪声，则一帧信号内的所有米样点都标记为0。
[0051] 举例说明上述神经网络训练的步骤，具体如下：
[0052] 1)通过手机的主麦克风和次麦克风采集训练用的模拟带噪语音信号作为神经网络的训练样本。
[0053] 例如：选取100段训练用的纯净语音信号，其中80段作为训练集用于神经网络的训练，剩余20段作为验证集用于验证神经网络的结果；每句时间长度约为IOs ;同时，选取 6种常见的噪声，babble, car, restaurant, office, street和方向性的语音干扰作为背景噪声，通过一邻近手机主麦克风的人工嘴播放纯净语音信号，手机外围布设若干喇叭播放环境噪声，信噪比分别为5dB，IOdB和15dB，从而产生训练用模拟带噪语音信号；然后通过手机的主、次麦克风对产生的训练用模拟带噪语音信号分别进行采样，将不同信噪比和噪声环境下采样的带噪语音作为训练神经网络的样本，并将训练样本划分为训练集和验证集 (其中训练集为80段纯净语音分别在5, 10, 15dB信噪比的6种不同噪声环境下的带噪语音样本，测试集为20段纯净语音分别在5, 10, 15dB信噪比的6种不同噪声环境下的带噪语音样本）。
[0054] 2)通过模数转换器分别将上述主麦克风和次麦克风采集的训练样本转换为对应的数字采样信号，得到训练用的分别对应于主、次麦克风的数字带噪语音信号，例如：数字米样?目号的频率为8khz。
[0055] 3)对训练用数字带噪语音信号提取特征，包括：子带互通道能量差和归一化的互通道相关；并对每帧训练用数字带噪语音信号进行标记得到对应的语音活动检测结果表示语音帧，〇表示噪声帧。
[0056] 具体的，分别对训练集和测试集中的每帧数字带噪语音信号进行标记得到对应的语音活动检测结果，其中将带噪语音信号中的语音帧标记为1，噪声帧标记为〇,作为神经网络的输出目标；其中对带噪语音信号进行短时分帧处理特征提取和标记语音活动检测结果所使用的短时分帧的帧长为256个采样点，帧移为128个采样点。
[0057] 不管是训练集还是验证集，训练样本中用于神经网络训练的样本的正确的语音活动检测的结果是预先标记的，可以通过如下方式获得，如录制一段纯净的语音，根据预设的一个能量阈值（如阈值为25dB SPL声压级）来标记语音段，大于预设阈值则认为是语音帧标记为1，小于预设阈值则认为是噪声帧标记为0,然后，如果这段语音混合了噪声，前边标记的语音帧和噪声帧就指明了带噪语音中语音存在的帧和噪声存在的帧，即可据此对训练集和测试集中的每帧数字带噪语音信号进行标记得到对应的语音活动检测结果。
[0058] 4)将特征作为神经网络的输入，步骤3)中得到的语音活动检测结果作为输出目标训练神经网络。
[0059] 纯净语音段中预设有标记语音存在的帧和噪声存在的帧，然后该纯净语音段和不同噪声在不同信噪比下混合得到模拟带噪语音信号，对通过手机的主、次麦克风采集的模拟带噪语音信号采样后得到的数字带噪语音信号提取特征作为神经网络的输入，以纯净语音段的标记为据所获得的训练样本对应的语音活动检测结果为神经网络的输出目标，这样来训练神经网络。
[0060] 根据预设的神经网络隐藏层神经元个数的范围（比如，10-50个），将从训练集中提取的特征作为神经网络的输入，对应的训练集语音活动检测结果，其中语音活动检测标签（1 :语音0 :噪声）作为神经网络的输出目标，计算神经网络的输出结果与输出目标之间的误差；通过误差反向传播算法持续调整神经网络的权值，直到误差小于预设的阈值或者训练次数达到预期最大迭代次数则停止神经网络的训练，否则继续调整权值；训练结束后，使用验证集验证神经网络的结果，将从验证集中提取的特征作为神经网络的输入，神经网络的输出结果和对应验证集的语音活动检测结果进行比较，统计神经网络输出结果的正确率，如果正确率优于之前训练得到的结果，则记录此时的神经元个数海次增加一个神经元重复上述的训练和验证步骤，直到到达设定神经元个数的上限，最后选取最优的结果对应的神经元个数，并记录此时神经网络内部的权值作为最终训练完毕的神经网络。
[0061] 5)存储训练完毕的神经网络的权值和神经元个数。
[0062] 本发明中步骤3)中子带互通道能量差的计算方法为：使用短时傅里叶变化将主、次麦克风接受的带噪语音信号转化到频域，在频域使用24个MEL频带对频域进行划分，对每一帧信号，先分别计算主、次麦克风的信号功率谱，再计算主、次麦克风信号功率谱在每个频点的比值，对每个子带，将子带内每个频点的功率比值取对数相加求和再除以子带的频点数进行平均，然后得到每个子带的互通道能量差作为训练神经网络的特征，其中第b 个子带互通道能量差为：
[0064] 其中，uh(b)和…⑻分别为第b个子带的上下边界，ΡχΑ,?Ο.Ι^^ιι):分别为主麦克风和次麦克风中第

完整全部详细技术资料下载

当前第2页1 2 3 4