一种广播信号预判预处理方法与流程

文档序号:18748802发布日期:2019-09-24 20:38阅读:321来源:国知局
一种广播信号预判预处理方法与流程

本发明涉及广播信号处理技术,具体涉及一种广播信号预判预处理方法。



背景技术:

无线电电磁频谱管控是经济生产及安全防范中的重要内容,由于无线电广播技术自身的开放性,所有有发射需求的用户,只需要占据特定的频段,即可通过发射信号进行广播。因此,时常有出于不同目的用户,在批准发射的频率之外,擅自占据频段进行广播发射(俗称“黑广播”)。

黑广播主要以售卖假冒伪劣产品居多,严重扰乱经济秩序;或者是扰乱正常电子通讯的运转;某些情况下甚至会干扰关键性通讯设备(如飞机飞航通讯频段),引发严重的安全隐患。因此,进行有效的无线电电磁频谱管控,是一件意义重大的课题。传统的无线电电磁频谱管控,主要是基于人工收听并识别的方法,具有成本高、效率低、操作人员疲劳易引发失误等缺点;随着人工智能的发展,采用人工智能技术来识别黑广播的方法也开始进入研究,但是,由于广播通常对音质没有过高要求,所以广播录音通常噪声很大,比如电流杂音、外界环境声音、说话者语气词等,因此单单对广播录音进行关键词的识别得到的结果准确率很低、误识率较高。



技术实现要素:

本发明目的在于解决广播录音中噪声大,采用人工智能进行关键词识别时误识率高的问题,提供了一种广播信号预判预处理方法,通过对语音中的加性噪声、冲激性噪声分别去除,以及建立循环网络神经模型对语音段进行筛选和分离,得到了消除电流杂音、外界环境声音、说话者语气词以及背景音乐的纯广播录音文件,从而提高了进行关键词的识别得到的结果准确率、降低了误识率。

本发明通过下述技术方案实现:

一种广播信号预判预处理方法,包括如下步骤:

步骤一、截取语音段,对其进行粗分段,并分离出含语音段和不含语音段;定义含语音段的语音时域序列为x(n),舍弃不含语音段;

步骤二、对含语音段的语音时域序列x(n)进行分帧和加滑动窗口,得到语音时域序列xi(n),滑动窗口为s(z),读取语音时域序列xi(n)的波形数据,求出每条语音的最大峰值top、方差var;对语音时域序列xi(n)做短时傅里叶变换,得到该含语音段的语音频谱ps,读取该语音频谱ps中初始静音段的幅度谱平均值作为该含语音段的噪声谱估计pn,并计算其信噪比:

其中,ps表示含语音段的幅度谱,pn表示该语音段的噪声谱估计,根据最大峰值top、方差var和信噪比snr三个参数对该语音段的语音质量进行综合打分,分数用score表示,预先设定好score的阈值(a,b,c);

当score<a时,跳过步骤三和步骤四;执行步骤五和步骤六;

当a<score<b时,执行步骤三跳过步骤四;执行步骤五和步骤六;

当b<score<c时,执行步骤三、步骤四、步骤五和步骤六;

当score>c时,直接丢弃;

步骤三、去除含语音段中的加性噪声,得到去除加性噪声后的语音时域序列yi(n);

步骤四、对该含语音段进行滤波去除冲激性噪声;

步骤五、建立循环网络神经模型,对该含语音段进行筛选,筛选出仅含标准中文语音的第一语音片段和既含有标准中文语音又含有背景音乐的第二语音片段;

步骤六、将第二语音片段的背景音乐和标准中文语音进行分离。

在采用人工智能技术来识别黑广播时,广播录音通常噪声很大,比如电流杂音、外界环境声音、说话者语气词等,因此单单对广播录音进行关键词的识别得到的结果准确率很低、误识率较高;所以发明人针对广播录音的以上特性构建了广播信号的语音噪声移除方法:因为对于一段广播录音,由于其具有不同的状态,含中文普通话、各种噪声等几种不同声音类别,所以不能一概而论,要在去噪前要先对其进行分段处理,再判定语音段是否含有普通话;由于我们去噪的目的是进行后续的关键词识别,步骤一的具体操作方式如下:截取语音段,对其进行分段,并将所有的语音片段输入进已经训练好的基于卷积网络cnn的音频类别分类器,分离出含普通话语音段和不含普通话语音段,打好标签并输出;因此我们只需要对含普通话语音段做去噪处理,不含普通话语音段则不做处理;由于分段后一段语音信号整体上看不是平稳的,但是在局部上可以看作是平稳的,在后期的语音处理中需要输入的是平稳信号,所以要对整段语音信号分帧,也就是将含普通话语音段切分成很多的小段,每个小段中的信号可以看成是平稳的,对每个小段进行一定频率的采样,通常为8khz、16khz等,再将该小段中的所有采样点集合成一个观测单位,称为帧,语音去噪的单位就是帧,这里定义该小段中采样点的个数为n;通常情况下n的值为256或512。由于分帧后帧与帧之间的连续性就降低了,为了避免相邻两帧的变化过大,因此会让两帧之间有一定的重叠区域;由于分帧后,每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大,加窗就是为了解决这个问题,使分帧后的信号变得连续,每一帧就会表现出周期函数的特征,加窗的目的就是一次仅处理窗中的数据,因为实际的语音信号是很长的,我们不能也不必对非常长的数据进行一次性处理,故而在语音信号处理中采用了加汉明窗的方式,因为加上汉明窗,只有中间的数据体现出来了,两边的数据信息丢失了,所以在移窗时,移动1/3或1/2窗,这样被前一帧或二帧丢失的数据又重新得到了体现;接下来针对两种不同广播噪声采取不同的去噪方法进行去噪处理,针对加性噪声,因为加性噪声与语音之间相互独立,在频域将噪声的功率谱从带噪语音功率谱中减去,得到纯净语音的幅度谱估计,并借助于带噪语音的相位经反傅里叶变换恢复出纯净语音信号;针对冲激性噪声噪声,本方法中采用不同的步骤和不同处理手段单独一对一的进行处理,有效的对冲激性噪声进行了去除,去噪之后可以得到较为“干净”的录音文件;去噪之后在通过循环网络神经模型筛选出仅含标准中文语音的第一语音片段和既含有标准中文语音又含有背景音乐的第二语音片段,针对第一语音片段,便无需做后续处理,可直接进行识别,针对第二语音片段将其中的背景音乐与标准中文语音进行分离,从而得到了单纯的标准中文语音信号,此时,再对第一语音片段和第二语音片段的录音做特征提取,提取出来的人声特征没有那么多干扰,能更近似的表达出原本的录音信息。去除了电流杂音、外界环境声音、说话者语气词等,进而提高了进行关键词的识别得到的结果准确率、降低了误识率。

进一步的,步骤三中去除加性噪声的过程如下:

步骤3.1、求出整体广播录音的频谱能量的平方|x′(k)|2

步骤3.2、选取一段不含语音段统计出噪声频谱的平方|d(k)|2

步骤3.3、通过如下公式进行迭代谱减:

直到去噪语音功率谱|y(k)|2不再变化,对其做反傅里叶变换得到去除加性噪声后的语音时域序列yi(n)。在迭代谱减法中,该公式会被多次重复,直到最终的频谱不在变化,或达到指定的迭代上限为止。

进一步的,步骤四中滤波处理的具体过程如下:

步骤4.1、将滑动窗口s(z)沿语音时域序列yi(n)或xi(n)方向进行滑动,窗口大小为z;初始时z值为0,每移动一次滑动窗口,z值加1,z有最大值z;

步骤4.2、每次移动后,定义当前窗口内的语音时域序列段为yi,j(n)或xi,j(n),对窗口内语音时域序列段yi,j(n)或xi,j(n)求差分序列gi,j(n);i表示在第i帧内,j表示在该帧的第j个采样点;

步骤4.3、找到各个窗口的差分序列gi,j(n),通过差分序列gi,j(n)找到含有离群点的窗口并求出这些窗口内的离群点gi,out;

步骤4.4、分别对含有离群点窗口中的各个离群点gi,out(n)进行排序,找出离群点中绝对值最大的点max{gi,out},由该离群点与原语音时域序列对应位置相加,求出其对应窗口中该点的语音时域序列值yi,maxout(n)或xi,maxout(n),即语音冲激值;

步骤4.5、针对含有离群点的窗口,求出各自窗口内所有点的语音时域序列值yi,out(n)或xi,out(n)并进行排序,求各自窗口内语音时域序列值yi,out(n)或xi,out(n)的中位数yi,med(n)或xi,med(n),在各自窗口内比较冲激值yi,maxout(n)或xi,maxout(n)与中位数yi,med(n)或xi,med的大小;

若语音冲激值yi,maxout(n)或xi,maxout(n)大于中位数yi,med(n)或xi,med(n)则中位数yi,med(n)或xi,med(n)可靠,用该中位数yi,med(n)或xi,med(n)替换该窗口内的中心值;

若语音冲激值yi,maxout(n)或xi,maxout(n)小于中位数yi,med(n)或xi,med(n)则中位数yi,med(n)或xi,med(n)不可靠,用中位数yi,med(n)或xi,med(n)的左临近值yi,medleft(n)或xi,medleft(n)替换该窗口内的中心值;

得到新的语音时域序列yi(n)'或xi(n)'。

传统的中值滤波的做法是在滑动窗口内对中心值和周围的其他所有值进行排序,得到一个中间值(中位数),以该中位数直接来替换掉原中心值,它是一种非线性的图像平滑法,它对脉冲干扰级椒盐噪声的抑制效果好,在抑制随机噪声的同时能有效保护边缘少受模糊。但是如果语音中某一段内出现高密度脉冲干扰,这样在该区域滑动窗口内的中位数会受到污染,进而导致滤波不够彻底。发明人针对上述问题对传统的中值滤波法进行了改进,通过检测语音时域序列中的离群点来判断脉冲干扰点存在的位置,再通过比较中位数与脉冲干扰点的能量值大小来判定中位数是否可靠,当判定中位数受脉冲干扰污染后便舍弃该中位数,用它的左临近值代替中位数;当判定中位数符合要求时便用来替换该滑动窗口内原中心值。

进一步的,步骤4.3的具体步骤如下:

步骤4.3.1、求出各个窗口内的差分序列gi,j(n)并进行排序组成整体差分序列gi(n),计算整体差分序列gi(n)的上四分位数q1、下四分位数q3和四分位极差q3-q1,得到差分序列的非离群点允许分布的范围为:[q1-δ(q3-q1),q3+δ(q3-q1)],记为ωi;

步骤4.3.2、判断每个窗口内的差分序列gi,j(n)中各个点的差分序列值gi,j(n)'是否位于差分序列的非离群点允许分布的范围ωi内,若超出该范围,则该点离群点gi,out;该筛选过程如下:

其中,gi,j(n)'表示各点的差分序列值。

通过对差分序列进行排序,得到差分序列的非离群点允许分布的范围,通过判断差分序列中各元素是否位于非离群点允许分布的范围,进而筛选出超出范围的离群点,方便后续对中位数的判定。

进一步的,一种广播信号预判预处理方法,还包括步骤4.6:将滑动窗口s(z)沿语音时域序列yi(n)'或xi(n)'方向按语音时间序列进行逐帧移动,并在移动过程中依时间顺序对窗口内的所有采样点做算术平均值,得到语音时域序列yi(n)”或xi(n)”。在对经过步骤4.5处理后得到的语音时域序列进行分析时,发明人发现在波形图中局部还是会有尖刺,同时语音之间的音节承接发现不连续的现象,所以发明人根据上述缺陷对滑动窗口内对所有的采样点做算术平均值,使得到的语音时域序列更加平滑。

进一步的,一种广播信号预判预处理方法,还包括如下步骤:

步骤4.7、将步骤4.6中得到的语音时域序列yi(n)”或xi(n)”与步骤三中得到的语音时域序列yi(n)或xi(n)进行对比,求出残差序列ci(m);

步骤4.8、对残差序列ci(m)执行步骤四中的滤波处理,得到平滑残差序列ci(m)”;

步骤4.9、将平滑残差序列ci(m)”补偿至步骤4.6中得到的语音时域序列yi(n)”或xi(n)”中,得到新的语音时域序列wi(n)。

由于初始信号有许多冲激性噪声,经过步骤四中的滤波处理后被平滑掉了,故该频段对应的残差往往很大,所以再将残差进行中位数平滑和线性平滑处理,这样得到一组“正常”“干净”的残差。以此残差序列ci(m)”去修正步骤4.6得到的语音时域序列,可以的得到更加接近原值的语音时域序列wi(n)。

进一步的,步骤五中建筛选的具体方法如下:

步骤5.1、对步骤二和/或步骤四得到的含语音段提取mfcc特征;

步骤5.2、建立含有上述mfcc特征的第一样本文件和第二样本文件,所述第一样本文件仅含标准中文,所述第二样本信号既含有标准中文有含有背景音乐;

步骤5.3、用第一样本信号和第二样本信号分别对循环网络神经模型进行训练;

步骤5.4、将步骤二和/或步骤四得到的语音时域序列送入循环网络神经模型,得到第一语音片段和第二语音片段;第一语音片段仅含标准中文,第二语音片段即含有标准中文又含有背景音乐。

mfcc又称梅尔频率倒谱系数,是基于人耳听觉特性提出来的,它与hz频率成非线性对应关系,梅尔频率倒谱系数则是利用它们之间的这种关系,计算得到的hz频谱特征。mfcc特征简单地说可以理解为语言信号的能量在不同频率范围的分布,可以表征语音信号的特征。是在mel标度频率域内提取出来的倒谱系数,mel标度描述了人耳频率的非线性特性,它与频率的关系可以近似表示为:

mel(f)=2595*lg(1+f/700)

上式中,f为频率,单位为hz;对于第一样本文件和第二样本文件的制作,发明人随机取一部分去除冲激性噪声之后的含语音段当作训练集,分为两类语音片段:仅含标准中文语音的第一样本文件和既含有标准中文语音又含有背景音乐的第二样本文件并人工打好标签,对两类语音段提取音频mfcc特征,将训练集的特征向量输入循环神经网络进行训练,其具体流程如下:将仅含标准中文语音的第一样本文件和既含有标准中文语音又含有背景音乐的第二样本文件的音频mfcc特征及它们各自对应的标签送入循环神经网络模型中训练,设定一定的迭代步数,利用交叉熵损失函数和adam优化器不断修正模型,使得循环神经网络网络对音频预测的标签类型真实标签之间的交叉熵损失函数最小,即训练好了我们的循环神经网络模型,使得对新送入的音频可以达到较好的预测,判断出新送入的音频是第一类音频,即仅含标准中文语音;还是第二类音频,即同时含有标准中文语音又含有背景音乐的音频;从而得到第一语音片段和第二语音片段;第一语音片段仅含标准中文,第二语音片段即含有标准中文又含有背景音乐。

进一步的,步骤六中对背景音乐和标准中文语音进行分离所采用的方法为非负矩阵分解法。针对第二语音片段,发明人采用非负矩阵分解法将其中的背景音乐与标准中文语音进行分离,从而得到了单纯的标准中文语音信号。

进一步的,步骤六的具体步骤如下:

步骤6.1、建立第三样本文件和第四样本文件,所述第三样本文件中仅包含标准中文,所述第四样本文件中仅包含背景音乐;

步骤6.2、分别对第三样本文件和第四样本文件做快速傅里叶变换,得到第三样本文件和第四样本文件的幅度谱;

步骤6.3、根据第三样本文件的幅度谱建立时频关系矩阵,定义为目标矩阵ws;根据第四样本文件的幅度谱建立时频关系矩阵,定义为目标矩阵wm;将目标矩阵ws和wm联合保存为联合字典矩阵w:w=[wswm]

步骤6.4、对第二语音片段进行分帧、加窗,得到第二语音片段的语音时域序列a(n);

步骤6.5、对语音时域序列a(n)做快速傅里叶变换,得到第二语音片段的幅度谱|a(k)|,用矩阵v来表示其时频关系,行数为该语音帧数,列数为频点数;

步骤6.6、以联合字典矩阵w做为基矩阵,对第二语音片段的时频矩阵v做非负矩阵分解,即v=wh,也可写作[vsvm]=[wswm]*[hshm],可以得到一个联合编码矩阵h,可知h=[hshm];

步骤6.7、求取第三样本文件增益函数gs,即:

步骤6.8、估计标准中文语音的幅度谱:

vs=gs*v

步骤6.9、对估计标准中文幅度谱vs做反傅里叶变换,得到去除背景音乐后的第二语音片段的语音时域序列a(n)'。

非负矩阵分解法的依据是来源于对整体的感知由对组成整体的部分的感知构成的(纯加性的),这也符合直观的理解:整体是由部分组成的,因此它在某种意义上抓住了智能数据描述的本质。非负矩阵分解法的基本思想可以简单描述为:对于任意给定的一个非负矩阵v,非负矩阵分解法能够寻找到一个非负矩阵w和一个非负矩阵h,使得满足从而将一个非负的矩阵分解为左右两个非负矩阵的乘积。原始矩阵的列向量是对左矩阵中所有列向量的加权和,而权重系数就是右矩阵对应列向量的元素,故称w为基矩阵,h为系数矩阵。非负矩阵分解是利用非负的基矩阵和编码矩阵的乘积实现对整体非负矩阵的逼近。

本发明与现有技术相比,具有如下的优点和有益效果:

1、提取出来的人声特征没有那么多干扰,能更近似的表达出原本的录音信息,去除了电流杂音等,进而提高了进行关键词的识别得到的结果准确率、降低了误识率;

2、通过对传统的中值滤波法进行改进,通过比较中位数与脉冲干扰点的能量值大小来判定中位数是否可靠,当判定中位数受脉冲干扰污染后便舍弃该中位数,用它的左临近值代替中位数;当判定中位数符合要求时便用来替换该滑动窗口内原中心值,进一步使得语音时域序列的波形图更加平滑;

3.本方法不但可以提高处理后语音的识别率,还可以增强其人耳可听性,所以可以拓展于其他语音场景,如智能家居、高铁等的通讯去躁、边防保障中的小语种识别增强等;

4.另外,由于非法广播的利益目的,音乐电台往往不是非法广播,如果能预判出广播以播放音乐为主,则可直接判为正常广播,所以进行广播类型的预判有助于提高效率和准确率。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:

图1为本发明的信号处理流程图;

图2为去除加性噪声之间的波形图;

图3为去除加性噪声之后的波形图;

图4为去除加性噪声之间的语谱图;

图5为去除加性噪声之后的语谱图;

图6为去除冲激噪声之前的整体波形图;

图7为去除冲激噪声之后的整体波形图;

图8为去除冲激噪声之前的整体语谱图;

图9为去除冲激噪声之后的整体语谱图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例1

如图1所示,一种广播信号预判预处理方法,包括如下步骤:

步骤一、截取语音段,对其进行粗分段,并分离出含语音段和不含语音段;定义含语音段的语音时域序列为x(n),舍弃不含语音段;

具体的本实施例中,将待识别的广播音频片段以3-5秒每段的长度切分成若干小段,并记录分得的总段数,取各个小段的梅尔频谱图载入卷积网络以“语音为主/非语音为主”的标准进行二分类,分离出含语音段和不含语音段;定义含语音段为x(n),舍弃不含语音段;

步骤二、对含语音段的语音时域序列x(n)进行分帧和加滑动窗口,得到语音时域序列xi(n),滑动窗口为s(z),其中z表示该滑动窗口的大小,本实施例中通常取5、7或9;读取语音时域序列xi(n)的波形数据,求出每条语音的最大峰值top、方差var;对语音时域序列xi(n)做短时傅里叶变换,得到该含语音段的语音频谱ps,读取该语音频谱ps中初始静音段的幅度谱平均值作为该含语音段的噪声谱估计pn,并计算其信噪比:

其中,ps表示含语音段的幅度谱,pn表示该语音段的噪声谱估计,根据最大峰值top、方差var和信噪比snr三个参数对该语音段的语音质量进行综合打分,分数用score表示,预先设定好score的阈值(a,b,c);

当score<a时,跳过步骤三和步骤四;执行步骤五和步骤六;

当a<score<b时,执行步骤三跳过步骤四;执行步骤五和步骤六;

当b<score<c时,执行步骤三、步骤四、步骤五和步骤六;

当score>c时,直接丢弃;

步骤三、去除含语音段中的加性噪声,得到去除加性噪声后的语音时域序列yi(n);

步骤四、对该含语音段进行滤波去除冲激性噪声;

步骤五、建立循环网络神经模型,对该含语音段进行筛选,筛选出仅含标准中文语音的第一语音片段和既含有标准中文语音又含有背景音乐的第二语音片段;

步骤六、对第二语音片段采用非负矩阵分解法将背景音乐和标准中文语音进行分离。

本实施例中打分的公式如下:

且a、b、c的值分别为3、8、10。

本实施例中,步骤三中去除加性噪声的过程如下:

步骤3.1、求出整体广播录音的频谱能量的平方|x′(k)|2

步骤3.2、选取一段不含语音段统计出噪声频谱的平方|d(k)|2

步骤3.3、通过如下公式进行迭代谱减:

直到去噪语音功率谱|y(k)|2不再变化,对其做反傅里叶变换得到去除加性噪声后的语音时域序列yi(n)。在迭代谱减法中,上述公式会被多次重复,直到最终的频谱不在变化,或达到指定的迭代上限为止。

本实施例中,步骤四中滤波的具体过程如下:

步骤4.1、将滑动窗口s(z)沿语音时域序列yi(n)或xi(n)方向进行滑动,窗口大小为z;初始时z值为0,每移动一次滑动窗口,z值加1,z有最大值z;

步骤4.2、每次移动后,定义当前窗口内的语音时域序列段为yi,j(n)或xi,j(n),对窗口内语音时域序列段yi,j(n)或xi,j(n)求差分序列gi,j(n);i表示在第i帧内,j表示在该帧的第j个采样点;

步骤4.3、找到各个窗口的差分序列gi,j(n),通过差分序列gi,j(n)找到含有离群点的窗口并求出这些窗口内的离群点gi,out;

步骤4.4、分别对含有离群点窗口中的各个离群点gi,out(n)进行排序,找出离群点中绝对值最大的点max{gi,out},由该离群点与原语音时域序列对应位置相加,求出其对应窗口中该点的语音时域序列值yi,maxout(n)或xi,maxout(n),即语音冲激值;

步骤4.5、针对含有离群点的窗口,求出各自窗口内所有点的语音时域序列值yi,out(n)或xi,out(n)并进行排序,求各自窗口内语音时域序列值yi,out(n)或xi,out(n)的中位数yi,med(n)或xi,med(n),在各自窗口内比较冲激值yi,maxout(n)或xi,maxout(n)与中位数yi,med(n)或xi,med的大小;

若语音冲激值yi,maxout(n)或xi,maxout(n)大于中位数yi,med(n)或xi,med(n)则中位数yi,med(n)或xi,med(n)可靠,用该中位数yi,med(n)或xi,med(n)替换该窗口内的中心值;

若语音冲激值yi,maxout(n)或xi,maxout(n)小于中位数yi,med(n)或xi,med(n)则中位数yi,med(n)或xi,med(n)不可靠,用中位数yi,med(n)或xi,med(n)的左临近值yi,medleft(n)或xi,medleft(n)替换该窗口内的中心值;

得到新的语音时域序列yi(n)'或xi(n)'。

步骤4.3的具体步骤如下:

步骤4.3.1、求出各个窗口内的差分序列gi,j(n)并进行排序组成整体差分序列gi(n),计算整体差分序列gi(n)的上四分位数q1、下四分位数q3和四分位极差q3-q1,得到差分序列的非离群点允许分布的范围为:[q1-δ(q3-q1),q3+δ(q3-q1)],记为ωi;

步骤4.3.2、判断每个窗口内的差分序列gi,j(n)中各个点的差分序列值gi,j(n)'是否位于差分序列的非离群点允许分布的范围ωi内,若超出该范围,则该点离群点gi,out;该筛选过程如下:

其中,gi,j(n)'表示各点的差分序列值。

本实施例中,步骤五中建筛选的具体方法如下:

步骤5.1、对步骤二和/或步骤四得到的含语音段提取mfcc特征;

步骤5.2、建立含有上述mfcc特征的第一样本文件和第二样本文件,所述第一样本文件仅含标准中文,所述第二样本信号既含有标准中文有含有背景音乐;

步骤5.3、用第一样本信号和第二样本信号分别对循环网络神经模型进行训练;

步骤5.4、将步骤二和/或步骤四得到的语音时域序列送入循环网络神经模型,得到第一语音片段和第二语音片段;第一语音片段仅含标准中文,第二语音片段即含有标准中文又含有背景音乐。

步骤六的具体步骤如下:

步骤6.1、建立第三样本文件和第四样本文件,所述第三样本文件中仅包含标准中文,所述第四样本文件中仅包含背景音乐;

步骤6.2、分别对第三样本文件和第四样本文件做快速傅里叶变换,得到第三样本文件和第四样本文件的幅度谱;

步骤6.3、根据第三样本文件的幅度谱建立时频关系矩阵,定义为目标矩阵ws;根据第四样本文件的幅度谱建立时频关系矩阵,定义为目标矩阵wm;将目标矩阵ws和wm联合保存为联合字典矩阵w:w=[wswm]

步骤6.4、对第二语音片段进行分帧、加窗,得到第二语音片段的语音时域序列a(n);

步骤6.5、对语音时域序列a(n)做快速傅里叶变换,得到第二语音片段的幅度谱|a(k)|,用矩阵v来表示其时频关系,行数为该语音帧数,列数为频点数;

步骤6.6、以联合字典矩阵w做为基矩阵,对第二语音片段的时频矩阵v做非负矩阵分解,即v=wh,也可写作[vsvm]=[wswm]*[hshm],可以得到一个联合编码矩阵h,可知h=[hshm];

步骤6.7、求取第三样本文件增益函数gs,即:

步骤6.8、估计标准中文语音的幅度谱:

vs=gs*v

步骤6.9、对估计标准中文幅度谱vs做反傅里叶变换,得到去除背景音乐后的第二语音片段的语音时域序列a(n)'。

通过上述方法,如图2至图5所示,分别对比处理前后的语音段的波形图和语谱图,迭代普减前波形图不平滑且带有很多的尖刺;迭代谱减后的波形图明显平滑,且比较接近纯语音的波形图,观察迭代谱减前的语谱图,发现原始带噪语音频率高,且频率分布比较均匀,说明语音带有高频时不变噪声,经由迭代谱减法去噪后,频率明显减小,去噪效果显著。

如图6至图9所示,发明人还对比了该语音段去除冲激性噪声前后的语音波形图及整体语谱图可以看出去噪后高频部分能量减小,说明高频噪声去除效果较好;同时对其中的语音信息的还原度很高,具有显著的进步。

综上所述,经过上述步骤之后从而可以得到较为“干净”的录音文件;此时,再对干净的录音做特征提取,提取出来的人声特征没有那么多干扰,能更近似的表达出原本的录音信息。去除了电流杂音、外界环境声音、说话者语气词等,进而提高了进行关键词的识别得到的结果准确率、降低了误识率。

实施例2

本实施例相较于实施例1的区别在于,本实施例在步骤四中又增设了如下步骤:

步骤4.7、将步骤4.6中得到的语音时域序列yi(n)”或xi(n)”与步骤三中得到的语音时域序列yi(n)或xi(n)进行对比,求出残差序列ci(m);

步骤4.8、对残差序列ci(m)执行步骤四中的滤波处理,得到平滑残差序列ci(m)”;

步骤4.9、将平滑残差序列ci(m)”补偿至步骤4.6中得到的语音时域序列yi(n)”或xi(n)”中,得到新的语音时域序列wi(n)。

由于初始信号有许多冲激性噪声,经过步骤四中的滤波处理后被平滑掉了,故该频段对应的残差往往很大,所以再将残差进行中位数平滑和线性平滑处理,这样得到一组“正常”“干净”的残差。以此残差序列ci(m)”去修正步骤4.6得到的语音时域序列yi(n)”或xi(n)”,可以的得到更加接近原值的语音时域序列wi(n)。

本方法,不但可以提高处理后语音的识别率,还可以增强其人耳可听性,所以可以拓展于其他语音场景,如智能家居、高铁等的通讯去躁、边防保障中的小语种识别增强等。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1