一种基于机器学习的智能呼叫系统中的噪声去除方法与流程

文档序号:20204393发布日期:2020-03-27 20:59阅读:1189来源:国知局
一种基于机器学习的智能呼叫系统中的噪声去除方法与流程

本发明涉及音频处理技术领域,具体而言,涉及一种基于机器学习的智能呼叫系统中的噪声去除方法。



背景技术:

在现有的智能呼叫系统中,电话信号会经过vad截取,然后送往asr转换成文字。由于背景的复杂,存在大量的噪声片段。通常的处理方法是在信号截取前使用噪声抑制方法对信号进行过滤,主要基于信号的频率分布,对噪声进行估计,常用的算法有自适应滤波器,谱减法,维纳滤波法等。自适应滤波器利用前一刻获得的滤波器参数,自动调节当前滤波器参数,以适应信号和噪声随机变化的统计特性,从而实现过滤噪声;谱减法主要是在频域对噪声的频谱进行去除,然后通过逆傅里叶变换将频域信号恢复成时域信号;维纳滤波法主要通过设计数字滤波器来去除噪声。这些噪声抑制方法,只能过滤一部分噪声,而不能将截取的噪声片段完全去除,并且随着电话信号中信噪比的减小,降噪效果随之变差,还会出现某些时段由于过度衰减导致得音频失真。



技术实现要素:

为解决上述问题,本发明的目的在于提供一种基于机器学习的智能呼叫系统中的噪声去除方法,通过基于机器学习的分类模型来识别信号为人声还是噪声,可以去除电话信号中的大量噪声信号,从而减少信号被送往asr翻译为文字的错误率。

本发明提供了一种基于机器学习的智能呼叫系统中的噪声去除方法,包括:

步骤1,将采样好的电话信号作为训练数据,基于机器学习建立噪声分类模型:

步骤101,将电话信号进行切片处理,并对切片信号进行归一化和分帧的预处理;

步骤102,对分帧后的切片信号,提取mfcc特征,并对提取出的mfcc特征进行取平均处理;

步骤103,将平均处理后的mfcc特征输入机器学习分类器,进行模型训练,训练好的分类模型作为噪声分类模型;

步骤2,利用建立好的噪声分类模型,把新增的电话信号输入到具体的噪声分类模型中,得出噪声识别结果:

步骤201,将新增的电话信号进行切片处理;

步骤202,对切片信号进行归一化和分帧的预处理;

步骤203,对分帧后的切片信号,进行频谱平坦度初步筛选;

步骤204,经过频谱平坦度初步筛选后,将分帧信号分为奇数段,分别提取每段信号的mfcc特征后进行取平均处理;

步骤205将各段信号平均化处理的mfcc特征输入噪声分类模型进行识别,识别出切片信号中的噪声。

作为本发明进一步的改进,在预处理时,采用式(1)来进行归一化处理,将切片信号统一经过16位量化,取值范围在-65535到65535之间,通过除以信号绝对值的最大值将信号归一化到-1到1之间;

式中,x为需要处理的切片信号,|x|为该切片信号的绝对值,为归一化后的切片信号。

作为本发明进一步的改进,切片信号在分帧处理时,帧长取为30ms,帧移取为10ms。

作为本发明进一步的改进,步骤203具体包括:提取每帧切片信号的频谱平坦度特征,对提取出的频谱平坦度特征取平均值,即平均平坦度;设定平均平坦度的平坦度阈值,若切片信号的平均平坦度高于该平坦度阈值,则判定该切片信号为噪声,直接丢弃;若切片信号的平均平坦度低于该平坦度阈值,则将该切片信号进行下一步处理。

作为本发明进一步的改进,平坦度阈值flatness=0.13。

作为本发明进一步的改进,在对提取到的mfcc特征进行取平均处理时,对每一维数据,根据公式(2)基于所有帧在各种维度上取平均值;

式中,y为每个维度上的mfcc特征的平均值,m为mfcc特征的维度,n为切片信号经过分帧处理后的帧数。

作为本发明进一步的改进,步骤205中,对各段切片信号的识别结果取众数,若识别为噪声的比例高,则认定该输入的切片信号为噪声,反之则为人声。

作为本发明进一步的改进,步骤s1中,每段时长0.5s,段移为0.25s。

作为本发明进一步的改进,切片信号分为人声信号和噪声信号,将人声信号阈值设定为threshold=0.2,步骤205中,当需要识别的切片信号通过分类模型后的概率大于该阈值,则认定该切片信号为人声信号。

作为本发明进一步的改进,所述机器学习分类器为随机森林分类器、svm分类器和xgboost分类器中的一种。

本发明的有益效果为:

1、本发明的噪声去除方法通过对智能外呼系统里的大量电话信号进行建模,通过噪声识别来去除电话信号中的大量噪声信号,从而减少信号被送往asr翻译为文字的错误率;

2、本发明的噪声去除方法在噪声识别过程中,采用了基于频谱平坦度来筛选比较明显的噪声信号,降低后续识别的工作量;

3、本发明的噪声去除方法在噪声识别过程中,采用了将信号分奇数段进行测试,识别结果取众数的方法,能有效提高切片信号的识别准确率,并避免误删除人声。

附图说明

图1为本发明实施例所述的一种基于机器学习的智能呼叫系统中的噪声去除方法的流程示意图。

具体实施方式

下面通过具体的实施例并结合附图对本发明做进一步的详细描述。

如图1所示,本发明实施例所述的一种基于机器学习的智能呼叫系统中的噪声去除方法,包括:

步骤1,将采样好的电话信号作为训练数据,基于机器学习建立噪声分类模型。所述步骤1具体包括:

步骤101,将电话信号进行切片处理即vad切片,并对切片信号进行归一化和分帧的预处理。

由于切片信号的音量高低各有不同,有些信号音量较大,有些信号声音较轻,对电话信号进行归一化处理有助于识别率的提高。在预处理时,采用式(1)来进行归一化处理,切片信号统一经过16位量化,取值范围在-65535到65535之间,通过除以信号绝对值的最大值将信号归一化到-1到1之间;

式中,x为需要处理的切片信号,|x|为该切片信号的绝对值,为归一化后的切片信号。

归一化处理切片信号后,因为切片信号的频率轮廓会随着时间的推移而丢失,因此还需要对切片信号进行分帧处理,得到的每帧信号可以作为平稳信号,用于提取频域特征。本发明的切片信号在分帧处理时,帧长取为30ms,帧移取为10ms。

步骤102,对分帧后的切片信号,提取mfcc特征,并对提取出的mfcc特征进行取平均处理。

由于mfcc特征比较符合人耳的听觉特性,可以用于机器学习分类器的代表特征,因此需要对预处理后的切片信号提取mfcc特征。

由于mfcc特征比较符合人耳的听觉特性,可以用于机器学习分类器的代表特征,因此需要对预处理后的切片信号提取mfcc特征。而由于切片信号长短不一,得到的帧数量不同,因此还需要对提取到的mfcc特征进行平均处理。在对提取到的mfcc特征进行取平均处理时,对每一维数据,根据公式(2)基于所有帧在各种维度上取平均值;

式中,y为每个维度上的mfcc特征的平均值,m为mfcc特征的维度,n为切片信号经过分帧处理后的帧数。

本发明中,m=39。

当然,除了提取mfcc特征外,还可以提取其他声学特征,譬如短时能量、过零率、音高等特征,也可以将一系列特征进行组合后供分类模型使用。

步骤103,将平均处理后的mfcc特征输入机器学习分类器,进行模型训练,训练好的分类模型作为噪声分类模型。

其中,机器学习分类器为随机森林分类器、svm分类器和xgboost分类器中的一种。当然也不仅限于上述几种,其他分类学习器也可以应用于本发明中。

步骤2,利用建立好的噪声分类模型,把新增的电话信号输入到具体的噪声分类模型中,得出噪声识别结果。所述步骤2具体包括:

步骤201,将新增的电话信号进行切片处理。

步骤202,对切片信号进行归一化和分帧的预处理。

由于切片信号的音量高低各有不同,有些信号音量较大,有些信号声音较轻,对电话信号进行归一化处理有助于识别率的提高。在预处理时,采用式(1)来进行归一化处理,切片信号统一经过16位量化,取值范围在-65535到65535之间,通过除以信号绝对值的最大值将信号归一化到-1到1之间;

式中,x为需要处理的切片信号,|x|为该切片信号的绝对值,为归一化后的切片信号。

归一化处理切片信号后,因为切片信号的频率轮廓会随着时间的推移而丢失,因此还需要对切片信号进行分帧处理,得到的每帧信号可以作为平稳信号,用于提取频域特征。本发明的切片信号在分帧处理时,帧长取为30ms,帧移取为10ms。

步骤203,对分帧后的切片信号,进行频谱平坦度初步筛选。

分帧处理后,由于语音频谱往往会在基频和谐波中出现峰值,而噪声频谱则相对平坦,因此可以利用信号的频谱平坦度来区分人声和噪声。步骤203具体包括:提取每帧切片信号的频谱平坦度特征,对提取出的频谱平坦度特征取平均值,即平均平坦度,设定平均平坦度的阈值,若切片信号的平均平坦度高于该阈值,则判定该切片信号为噪声,直接丢弃;若切片信号的平均平坦度低于该阈值,则将预处理后的切片信号进行下一步处理。

本发明的平坦度阈值设定为flatness=0.13。

步骤204,经过频谱平坦度初步筛选后,将分帧信号分为奇数段,分别提取每段信号的mfcc特征后进行取平均处理。

本发明将较长的切片信号先分成奇数段,每段时长0.5s,段移为0.25s。

步骤205,将取平均处理的各段切片信号输入噪声分类模型进行识别,识别出切片信号中的噪声。

对各段切片信号的识别结果取众数,若识别为噪声的比例高,则认定该输入的切片信号为噪声,反之则为人声。由于切片信号里面既有人声也有噪声,通过步骤205的处理,能有效提高信号的识别准确率。

进一步的,由于切片信号分为人声信号和噪声信号,将人声信号阈值设定为threshold=0.2,步骤205中,当需要识别的切片信号通过噪声分类模型后的概率大于该阈值,则认定该切片信号为人声信号,反之为噪声则丢弃。该方法能将人声召回率提高到99%,避免误删除人声。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1