实时将语音进行分离的语音降噪的方法及系统与流程

文档序号:11691870阅读:395来源:国知局
实时将语音进行分离的语音降噪的方法及系统与流程

本发明涉及语音识别技术领域,尤其涉及一种实时将语音进行分离的语音降噪的方法及系统。



背景技术:

现有技术中,在一些支持语音操作的智能终端中往往必须用到语音识别的功能,即通过识别说话人的声纹以及语句得到智能终端能够执行的指令,并进而根据该指令执行相应的操作。由于说话人发出的声音在传播过程中夹杂了外界的噪音和说话人在说话时产生的噪音,因此接收到的语音主要包括两部分,一部分为携带有说话人声音及说话时产生噪音的语音,另一部分为声音在传输过程中由外界产生的噪音,因此在某些非说话人语音的噪声干扰较强的应用场合(例如应用在一个说话人较多的空间,或者所应用的空间的背景噪声较强),由于背景噪声与说话人的语音指令糅合在一起,会使语音识别更为困难,识别准确度大大降低。

由于外界的噪声可以是不断变换的,因此需要训练出与不断变换的噪声匹配的特征模型,识别噪声,以滤除噪声,但目前并不存在较为理想的关于噪声滤波的技术方案。



技术实现要素:

根据现有技术中存在的上述问题,现提供一种实时将语音进行分离的语音降噪的方法及系统以及智能终端的技术方案,具体包括:

一种实时将语音进行分离的语音降噪的方法,适用于智能终端,提供一预设的特征模型,包括下述步骤:

步骤s1,采集外部输入的声源,并存储;

步骤s2,将所述声源根据接收的时间顺序分割为复数个预设时间段的语音;

步骤s3,根据所述时间顺序提取一所述语音,将所述语音与所述特征模型进行匹配,以获取与所述特征模型匹配的所述噪声,以及与所述初始特征模型不匹配的携带人声的所述语音,并生成所述语音的匹配标识,所述匹配标识用于表示所述语音与所述特征模型匹配完成;

步骤s4,将所述噪声追加为所述特征模型的噪声样本,并依据所述噪声样本对所述特征模型进行更新,以形成新的所述特征模型;

步骤s5,判断携带人声的所述语音的声音强度是否高于一预设的强度阈值,并在所述声音强度高于所述强度阈值时将所述语音确认为待判断语音,并转向步骤s6;

步骤s6,根据所述待判断语音的频谱,生成对应所述待判断语音上每个频带的估计标识,所述估计标识用于表示所述语音在谐波结构上的显著性;

步骤s7,将所述噪声作为参照样本,根据所述参照样本及所述待判断语音生成对应于所述待判断语音的纯语音的概率模型;

步骤s8,以每个所述估计标识作为对应的所述待判断语音的所述频带的权重指标,依据所述概率模型处理得到关联于所述语音的纯语音估计值;

步骤s9,根据所述时间顺序提取一未被标识的所述语音,将所述语音与所述特征模型进行匹配,以获取与新的所述特征模型匹配的所述噪声,以及与所述初始特征模型不匹配的携带人声的所述语音,并生成所述语音的匹配标识,返回执行所述步骤s4。

优选的,该实时将语音进行分离的语音降噪的方法,其中,所述步骤s6中生成的所述估计标识包括第一估计标识;或者

所述步骤s6中生成的所述估计标识包括第一估计标识和第二估计标识。

优选的,该实时将语音进行分离的语音降噪的方法,其中,所述步骤s6中,生成所述第一估计标识的步骤具体包括:

步骤s61a,依据所述待判断语音的所述频谱,提取对应于所述待判断语音的所述谐波结构;

步骤s62a,对关联于所述谐波结构的数谱域上的监控值进行规则化处理,并依据梅尔刻度对经过规则化处理的所述监控值执行平滑处理;

步骤s63a,对经过平滑处理的所述监控值进行进一步的规则化处理,以使所述监控值的均值为1;

步骤s64a,根据所述监控值生成对应所述待判断语音的每个所述频带的所述第一估计标识。

优选的,该实时将语音进行分离的语音降噪的方法,其中,所述步骤s8中,根据所述第一估计标识处理得到所述纯语音估计值的方法具体包括:

步骤s81a,处理得到关联于所述待判断语音的最小均方误差估计的后验概率;

步骤s82a,以每个所述第一估计标识作为对应的所述待判断语音的所述频带的权重指标,依据所述概率模型对关联于所述待判断语音的所述后验概率进行加权计算,以得到所述纯语音估计值。

优选的,该实时将语音进行分离的语音降噪的方法,其中,所述步骤s6中,生成所述第二估计标识的步骤具体包括:

步骤s61b,依据所述待判断语音的所述频谱,提取对应于所述待判断语音的所述谐波结构;

步骤s62b,对关联于所述谐波结构的数谱域上的监控值进行规则化处理,并依据梅尔刻度对经过规则化处理的所述监控值执行平滑处理;

步骤s63b,对经过平滑处理的所述监控值从0到1进行相应的规则化处理;

步骤s64b,根据所述监控值生成对应所述待判断语音的每个所述频带的所述第二估计标识。

优选的,该实时将语音进行分离的语音降噪的方法,其中,执行所述步骤s8之后,还根据所述第二估计标识继续执行下述步骤:

针对所述待判断语音的每个频带,将每个对应的所述第二估计标识作为权重,以在所述监控值与所述纯语音估计值之间执行线性插值并处理得到对应的输出值。

一种实时将语音进行分离的语音降噪的系统,适用于智能终端,其中,包括:

采集单元,用于采集外部输入的声源;

存储单元,连接所述采集单元,用以存储所述声源;

分割单元,连接所述存储单元,用以将所述声源根据接收的时间顺序分割为复数个预设时间段的语音;

分离单元,连接所述分割单元,提供一预设的特征模型,用以根据所述时间顺序提取一所述语音,将所述语音与所述特征模型进行匹配,以获取与所述特征模型匹配的所述噪声,以及与所述初始特征模型不匹配的携带人声的所述语音,并生成所述语音的匹配标识,所述匹配标识用于表示所述语音与所述特征模型匹配完成;

模型更新单元,连接所述分离单元,用以将所述噪声追加为所述特征模型的噪声样本,并依据所述噪声样本对所述特征模型进行更新,以形成新的所述特征模型,并将新的所述特征模型发送至所述分离单元;

判断单元,连接所述分离单元,所述判断单元内预置有一强度阈值,并用于判断携带人声的所述语音的声音强度是否高于所述强度阈值,输出相应的判断结果;

第一处理单元,连接所述判断单元,用于根据所述判断结果,在所述语音的所述声音强度高于所述强度阈值时将所述语音确认为待判断语音,并根据所述待判断语音的频谱,生成对应所述待判断语音上每个频带的估计标识,所述估计标识用于表示所述语音在谐波结构上的显著性;

模型生成单元,分别连接所述第一处理单元和所述分离单元,用于将所述噪声作为参照样本,根据所述参照样本及所述待判断语音生成对应于所述待判断语音的纯语音的概率模型;

第二处理单元,分别连接所述模型生成单元和所述分离单元,用于以每个所述估计标识作为对应的所述待判断语音的所述频带的权重指标,依据所述概率模型处理得到关联于所述语音的纯语音估计值。

优选的,该实时将语音进行分离的语音降噪的系统,其中,所述估计标识包括第一估计标识;或者

所述估计标识包括第一估计标识和第二估计标识。

优选的,该实时将语音进行分离的语音降噪的系统,其中,所述第一处理单元具体包括:

提取模块,用于依据所述待判断语音的所述频谱,提取对应于所述待判断语音的所述谐波结构;

第一处理模块,连接所述提取模块,用于对关联于所述谐波结构的数谱域上的监控值进行规则化处理,并依据梅尔刻度对经过规则化处理的所述监 控值执行平滑处理;

第二处理模块,连接所述第一处理模块,用于对经过平滑处理的所述监控值进行进一步的规则化处理,以使所述监控值的均值为1;

第一生成模块,连接所述第二处理模块,用于根据所述监控值生成对应所述待判断语音的每个所述频带的所述第一估计标识。

优选的,该实时将语音进行分离的语音降噪的系统,其中,所述第二处理单元具体包括:

第三处理模块,用于处理得到关联于所述待判断语音的最小均方误差估计的后验概率;

第四处理模块,连接所述第三处理模块,用于以每个所述第一估计标识作为对应的所述待判断语音的所述频带的权重指标,依据所述概率模型对关联于所述待判断语音的所述后验概率进行加权计算,以得到所述纯语音估计值。

优选的,该实时将语音进行分离的语音降噪的系统,其中,所述第一处理单元包括:

第五处理模块,连接所述第一处理单元,用于对经过平滑处理的所述监控值从0到1进行相应的规则化处理;

第二生成模块,连接所述第五处理模块,用于根据所述监控值生成对应所述待判断语音的每个所述频带的所述第二估计标识。

优选的,该实时将语音进行分离的语音降噪的系统,其中,还包括:

第三处理单元,连接所述第二处理单元,用于针对所述待判断语音的每个频带,将每个对应的所述第二估计标识作为权重,以在所述监控值与所述纯语音估计值之间执行线性插值并处理得到对应的输出值。

上述技术方案的有益效果是:

1)提供一种实时将语音进行分离的语音降噪的方法,通过将外部输入的声源分割为复数个预设时间段的语音,以采用特征模型与语音进行匹配,分离出噪声与携带人声的语音,再根据识别出的噪音实时更新特征模型,从而达到实时识别外界不断变换的噪声的目的,同时将所述噪声作为参照样本以生成判断语音的纯语音的概率模型,对携带人声的语音的进行处理,以获取纯语音估计值,能够提升背景噪声去除的效果,较好地排除语音识别过程中 较大的背景噪声的干扰,提升语音识别的准确度;

2)提供一种实时将语音进行分离的语音降噪的系统,能够支持实现上述实时将语音进行分离的语音降噪的方法。

附图说明

图1是本发明的较佳的实施例中,一种实时将语音进行分离的语音降噪的方法的总体流程示意图;

图2-4是本发明的较佳的实施例中,于图1的基础上,实时将语音进行分离的语音降噪的方法的分步骤流程示意图;

图5是本发明的较佳的实施例中,一种实时将语音进行分离的语音降噪的系统的总体结构示意图;

图6-7是本发明的较佳的实施例中,于图5的基础上,实时将语音进行分离的语音降噪的系统的分模块结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。

通常而言,智能终端内适用的语音识别系统包括前端和后端两个部分,前端应用某种语音转换技术在说话人输入的语音中提取相应的特征量,后端就依据这些被提取的特征量,采用预先训练好的识别模型进行语音识别,以确定说话人输入的语句中包含的内容。则本发明技术方案是对现有技术中的语音识别系统中的前端进行的改进,即在根据外部输入的语音提取特征量的过程中进行的改进,旨在降低背景噪声对上述过程的影响。

因此,本发明的较佳的实施例中,基于现有技术中存在的上述问题,现提供一种实时将语音进行分离的语音降噪的方法,其适用于智能终端,例如 适用于支持语音操作的智能机器人。

该技术方案中,的“外部输入的语音”以及“待判断语音”均为叠加了背景噪声的说话人的语音。的“纯语音”是指去除了背景噪声的说话人的语音。所谓的“纯语音估计值”是指通过上述待判断语音(即包括背景噪声的语音)估计得到的纯语音。的“频谱”是指语音的功率谱或者幅度谱。

本发明技术方案基于下文中的现有技术展开,即基于mmse(minimummeansquareerror,最小均方误差)估计技术实现的噪声消除技术上做出改进得到的本发明技术方案。

因此,在描述本发明技术方案之前,首先描述基于mmse的噪声消除技术:在给出初始的语音值y(对应于上文中的叠加有背景噪声的语音)时,将纯语音值x建模为x的概率分布模型p(x|y),并且从概率分布模型p(x|y)估计纯语音x的估计值。则mmse估计是用在后续阶段的估计中的基础技术。

则mmse估计技术中,首先用麦克风收集和记录说话人的语音,作为观测语音,随后通过a/d转换的方式将观测语音转换为数字信号,并经过成帧以及dft变换(discretefouriertransform,离散傅里叶变换),以被转换为每一帧语音的频谱。接下来,每帧频谱经过梅尔滤波器组并取其对数(一种滤波器组,其中带通滤波器以相等间隔布置在梅尔标度上),其继而被转换为梅尔对数谱并被输出。

现有技术中,基于输出的梅尔对数谱,可以生成每一帧的纯语音估计值,并且可以输出对应的纯语音估计值。

mmse估计技术上文中形成的概率分布模型来执行mmse估计,并且能够生成纯语音估计值。但是应当注意的是,被保存的概率分布模型是梅尔对数谱域中的gmm模型(gaussianmixturemodel,高斯混合模型),即基于先验学习而针对每个音素生成的模型。则通过mmse估计可以生成纯语音估计值并作为梅尔对数谱域中的向量。

随后,可以提取特定的特征量,例如从被输出的纯语音估计值的梅尔倒频谱系数(mfcc)提取相应的特征量,并且将该特征量发送给后端。在后端,通过使用其他语音识别方式例如hmm(hiddenmarkovmodel,隐马尔可夫模型)、声学模型或n-gram语言模型(汉语语言模型)等已有配置,基于从前端接收的特征量指定说话人的语句中包含的内容。

则现有技术中,上述语音值y的帧t中的频带d(在梅尔刻度上的频带)的梅尔对数谱域中的语音值yd(t)可以在下述公式(1)中表示为纯语音值xd(t)和噪声值nd(t)的函数:

yd(t)=xd(t)+log(1+exp(nd(t)-xd(t)))(1)

在上述公式(1)中忽略帧t,并且将上述公式(1)表示为向量时,可以获得下述公式(2):

y=x+g(2)

上述公式(2)中,每个频带d的失配向量g均可由下述公式(3)中指示的失配函数g给出:

gd=gd(x,n)=log(1+exp(nd-xd))(3)

则上述纯语音x可以被建模为小数公式(4)中指示的k混合gmm模型:

在上述公式(4)中,γk,μx,k,和σx,k分别指示第k正态分布的先验概率、均值向量和协方差矩阵。

则通过基于上述公式(1)-(4)采用线性泰勒展开,可以对失配向量g进行建模,其表述为下述公式(5)中指示的k混合gmm模型:

上述公式(5)中的均值向量μg,k可以由下述公式(6)表示,并且协方差矩阵σg,k可以由下列公式(7)表示:

μg,k≌log(1+exp(μn-μx,k))=g(μx,k,μn)(6)

σg,k≌f(μx,k,μn)2·(σx,k+σn)(7)

上述公式(7)中的辅助函数f可以被定义为下列公式(8):

fd(x,n)=(1+exp(xd-nd))-1(8)

因此,通过下述公式(9-1)处理得到上述纯语音估计值

相应地,从语音值y直接估计得到纯语音估计值方法还可以由下列公 式(9-2)给出:

这里,以上公式(9-1)和(9-2)中后验概率ρk都由下列公式(10)给出:

上述公式(10)中,均值向量μy,k可以由下列公式(11)表示,并且协方差矩阵σyk可以由下列公式(12)表示:

μy,k≌μx,k+g(μx,k,μn)(11)

σy,k≌{1-f(μx,k,μn)2}·σx,k+f(μx,k,μn)2·σn(12)

则现有技术中,在上述公式(11)-(12)中,语音模型参数[μx,k,σx,k]可以由先验训练数据得到,并且噪声模型参数[μn,σn]基于非语音片段中的、被给予mmse估计部分514的观测值而由基于模型的噪声补偿部分512设置。

如上文中,换言之,上述mmse估计的过程就是将纯语音估计值近似为使用后验概率ρk(y)作为权重而被加权的k个概率分布的均值向量μx,k之和的过程。

则本发明的较佳的实施例中,上述实时将语音进行分离的语音降噪的方法的步骤具体如图1所示,提供一预设的特征模型,包括下述步骤:

步骤s1,采集外部输入的声源,并存储;

步骤s2,将声源根据接收的时间顺序分割为复数个预设时间段的语音;

步骤s3,根据时间顺序提取一语音,将语音与特征模型进行匹配,以获取与特征模型匹配的噪声,以及与初始特征模型不匹配的携带人声的语音,并生成语音的匹配标识,匹配标识用于表示语音与特征模型匹配完成;

步骤s4,将噪声追加为特征模型的噪声样本,并依据噪声样本对特征模型进行更新,以形成新的特征模型;

步骤s5,判断携带人声的语音的声音强度是否高于一预设的强度阈值,并在声音强度高于强度阈值时将语音确认为待判断语音,并转向步骤s6;

步骤s6,根据待判断语音的频谱,生成对应待判断语音上每个频带的估计标识,估计标识用于表示语音在谐波结构上的显著性;

步骤s7,将噪声作为参照样本,根据参照样本及待判断语音生成对应于 待判断语音的纯语音的概率模型;

步骤s8,以每个估计标识作为对应的待判断语音的频带的权重指标,依据概率模型处理得到关联于语音的纯语音估计值;

步骤s9,根据时间顺序提取一未被标识的语音,将语音与特征模型进行匹配,以获取与新的特征模型匹配的噪声,以及与初始特征模型不匹配的携带人声的语音,并生成语音的匹配标识,返回执行步骤s4。

在本实施例中,实时将语音进行分离的语音降噪的方法通过将外部输入的声源分割为复数个预设时间段的语音,以采用特征模型与语音进行匹配,分离出噪声与携带人声的语音,再根据识别出的噪音实时更新特征模型,从而达到实时识别外界不断变换的噪声的目的,同时将所述噪声作为参照样本以生成判断语音的纯语音的概率模型,对携带人声的语音的进行处理,以获取纯语音估计值,能够提升背景噪声去除的效果,较好地排除语音识别过程中较大的背景噪声的干扰,提升语音识别的准确度。

在一个具体实施例中,首先采集外部的语音(即采集说话人的语音),并判断该被采集的语音的声音强度是否大于一预设的强度阈值。该判断的主要目的在于去除一些说话人本不希望对智能终端进行语音控制的场景,例如说话人低声与其他人交谈的场景,或者说话人无意中说出的语句。因此,只有在说话人说出的语音的声音强度较强(大于预设的强度阈值)时,才能被认为是向智能终端发出语音指令,此时智能终端才需要开始进行语音识别,以及进行语音识别前的将语音进行分离的语音降噪。因此,上述判断可以避免智能终端中关于语音识别和实时将语音进行分离的语音降噪的功能模块始终处于工作状态,并能够节省智能终端的功耗。

该实施例中,当说话人的语音的声音强度大于上述预设的强度阈值时,执行步骤s6,即根据待判断语音的频谱,生成对应待判断语音上每个频带的估计标识。该实施例中,上述估计标识用于表示语音在谐波结构上的显著性。

该实施例中,生成对应于待判断语音的纯语音的概率模型,并且以每个估计标识作为对应的待判断语音的频带的权重指标,依据概率模型处理得到关联于语音的纯语音估计值。

本发明的较佳的实施例中,上述步骤s6中,生成的估计标识包括第一估计标识;或者

上述步骤s6中,生成的估计标识包括第一估计标识和第二估计标识。

本发明的较佳的实施例中,如图2所示,上述步骤s6中,生成第一估计标识的步骤具体包括:

步骤s61a,依据待判断语音的频谱,提取对应于待判断语音的谐波结构;

步骤s62a,对关联于谐波结构的数谱域上的监控值进行规则化处理,并依据梅尔刻度对经过规则化处理的监控值执行平滑处理;

步骤s63a,对经过平滑处理的监控值进行进一步的规则化处理,以使监控值的均值为1;

步骤s64a,根据监控值生成对应待判断语音的每个频带的第一估计标识。

本发明的较佳的实施例中,如图3所示,上述步骤s8中,根据第一估计标识处理得到纯语音估计值的方法具体包括:

步骤s81a,处理得到关联于待判断语音的最小均方误差估计的后验概率;

步骤s82a,以每个第一估计标识作为对应的待判断语音的频带的权重指标,依据概率模型对关联于待判断语音的后验概率进行加权计算,以得到纯语音估计值。

本发明的较佳的实施例中,如图4所示,上述步骤s6中,生成第二估计标识的步骤具体包括:

步骤s61b,依据待判断语音的频谱,提取对应于待判断语音的谐波结构;

步骤s62b,对关联于谐波结构的数谱域上的监控值进行规则化处理,并依据梅尔刻度对经过规则化处理的监控值执行平滑处理;

步骤s63b,对经过平滑处理的监控值从0到1进行相应的规则化处理;

步骤s64b,根据监控值生成对应待判断语音的每个频带的第二估计标识。

本发明的较佳的实施例中,在执行步骤s8之后,还根据第二估计标识继续执行下述步骤:

针对待判断语音的每个频带,将每个对应的第二估计标识作为权重,以在监控值与纯语音估计值之间执行线性插值并处理得到对应的输出值。

下文中给出本发明技术方案中的第一个实施例:

在现有mmse中,纯语音估计值由上述公式(9-1)和(9-2)给出,并且每个公式中后验概率ρk(y)由上述公式(10)给出。

则在该实施例中,在给出纯语音估计值的上面公式(9-1)和(9-2)中,cw-mmse使用利用估计标识αd加权的后验概率ρ'k(y)而不是后验概率ρk(y)作为权重。下文中的公式(13)指示该实施例中使用的后验概率ρ'k(y):

该实施例中,上文中的公式(13)中正态分布可以由下文中的公式(14)表示,公式(14)使用对角协方差假设。在下述公式(14)中,d表示正交分布的维度的数目:

上述公式(14)表示:正态分布n′(公式中用于计算后验概率ρ'k(y)的项)被乘以使用估计标识αd作为权重的指标。所谓估计标识,其实际是代表频带的估计的标识。一般地,频带的估计是从背景噪声引起的信号退化的角度进行的。在本发明技术方案中,估计标识定义如下:

由于预先可以知晓包括在人类通常的话音中的元音的频谱具有一般的谐波结构,在没有背景噪声的环境中,元音的谐波结构会保持在被采集到的语音的频谱的整个频带中。相应地,在具有较强的宽带噪声时,在很多频带中会丢失元音的谐波结构,并且谐波结构仅能被保持在诸如语音功率集中的共振峰(formant)的频带中。因此,本发明技术方案中,假设由于背景噪声引起的退化很少发生在具有明显谐波结构的频带中,并且将谐波结构的显著性定义为该频带的估计标识。

本发明技术方案中的估计标识是使用lpw(localpeatweight,局部峰值权重)生成的。lpw的方式例如将包括共振峰信息的巨大改变从被采集到的语音的频谱能量分布中移除,并且仅提取对应于谐波结构的规则的波峰和波 谷,并且将其值规则化。在本发明技术方案中,通过执行下述过程生成每一帧的lpw:

首先,采用被采集的语音的帧t的频谱的算法进行处理,并且其对数谱经过离散余弦变换获得倒谱。随后,在获得的倒谱的项中,仅留下对应于lpw元音的谐波结构的域中的项,并删除其他项。此后,对处理的倒频谱进行反离散余弦变换,以将倒谱转换回对数谱域。最后,对被转换的频谱执行规则化处理,以使频谱的均值变成1,由此获得lpw。

接下来,通过在梅尔刻度上对lpw进行平滑处理,以得到对应的梅尔lpw。本发明的一个较佳的实施例中,可以通过一组梅尔滤波器对lpw的值进行平滑处理,以针对每个梅尔频带获得一个相应的值。所谓梅尔滤波器,是一种滤波器组,其中带通滤波器以相等间隔布置在梅尔刻度上。在每个梅尔频带均给出相应的梅尔lpw的值。梅尔lpw值的大小对应于高分辨率的频谱带的谐波结构的显著性,并且每个梅尔频带对应一个梅尔lpw值。

在本发明技术方案中,上述梅尔lpw值可以作为对应频带的估计标识。具体地,上述公式(14)中的估计标识αd可以由以下过程生成:

首先,通过采用适宜的缩放函数例如曲线函数压缩梅尔lpw的动态范围。如下述公式(15)中,每个频带的梅尔lpw值wd被转换为α'd。下述公式(15)指示通过使用曲线函数将梅尔lpw值wd转换为α'd的方式:

α'd=1.0/(1.0+exp(-a.(wd-1.0)))(15)

在上述公式(15)中,a是调谐参数,并可以设置适当的数值。

随后,对被压缩的值α'd规则化处理,以使其均值变成1。下述公式(16)指示用于规则化α'd且获得估计标识αd的方法:

在有声部分的帧t中明显的频谱频带中存在元音的谐波结构时,对应频带d的估计标识αd将变得大于1。此时,对于频带d,以上公式(14)中的正态分布n′变大,并且频带d的后验概率ρ'k(y)变大。因此对应于其中元音的谐波结构明显的谱频带的梅尔频带的贡献变大。

相反,在有声部分的帧t中被丢失的频谱频带中存在元音的谐波结构时,对应频带d的估计标识αd将变得小于1。则对于频带d,以上公式(14)中的正 态分布n′变小,并且频带d的后验概率ρ'k(y)变小。因此对应于其中元音的谐波结构丢失的谱频带的梅尔频带的贡献变小。

下文中给出本发明技术方案中的第二个实施例:

如果被采集的语音等效于纯语音(即在一个几乎没有背景噪声的环境下采集到的说话人的语音,或者说话人距离语音采集装置例如麦克风非常近的情况),则不需要对其进行任何处理,直接输出被采集到的语音是最佳选择。但是,若采用本发明技术方案中的实时将语音进行分离的语音降噪的方法进行语音处理的话,即使在上述情况下,也同样会根据被采集到的语音对纯语音进行估计,并且因此会输出比纯语音的效果更差的语音估计值。

因此,在该实施例中提出一种能够在语音模态和被采集到的语音之间实现线性插值的方法,其中估计标识作为权重参与计算。

则在该实施例中,在下述公式(17)中,通过线性插值函数得到频带d中的输出值

在上述公式(17)中,表示频带d中的纯语音估计值,βd表示给频带d的置信指标,yd表示频带d中被采集的语音的值,并且表示频带d中的输出值。在上述公式(17)中,使用估计标识βd作为权重对线性插值函数进行加权,使其变成从0到1的值。由线性插值函数中可以看到:随着βd接近1,输出值接近被采集到的语音的值yd;相应地,随着βd接近0,输出值接近纯语音估计值

本发明技术方案中,通过对梅尔lpw值进行规则化处理生成上述估计标识。上述公式(17)中的估计标识βd可以通过下面的过程生成:

首先获得针对帧t的梅尔lpw的值,即通过使用适当的缩放函数例如曲线函数将梅尔mpw的值wd进行规则化处理,以使wd值取从0到1的值,其 中1是最大值。下文中的公式(18)指示用于通过使用曲线函数规则化梅尔mpw值wd并且获得估计标识βd的方式:

βd=1.0/(1.0+exp(-a·(wd-1.0-b)))(18)

在上述公式(18)中,a和b是调谐参数,并且可以根据实际情况预先设定适当的数值。

在有声部分的帧t中明显的频谱频带中存在元音的谐波结构时,对应频带d的估计标识βd接近1。则频带d中的输出值为上述公式(17)中指示的线性插值的结果,因此使得该输出值距被采集的语音的值yd的距离比距纯语音估计值的距离更近。

相反地,在有声部分的帧t中被丢失的谱频带中存在元音的谐波结构时,对应频带d的估计标识βd接近0。则频带d中的输出值为在公式(17)中指示的线性插值的结果,因此使得该输出值距纯语音估计值的距离比距观测值yd的距离更近。

本发明的较佳的实施例中,上述第一实施例和第二实施例可以结合应用,例如下文中的过程:

首先获得对应于被采集到的语音的一帧的频谱y,提取频谱y的谐波结构并且生成lpw,并根据lpw生成梅尔lpw。随后用适当的方法对梅尔lpw进行规则化处理以生成针对每个频带的估计标识α,该估计标识α的均值为1。同时对梅尔lpw进行规则化处理以生成针对每个频带的估计标识β,该估计标识β的值从0到1分布。分别输出生成的估计标识α和估计标识β。

此后,将对应于一帧的频谱y转换成梅尔对数谱y并输出。通过使用输出的梅尔对数谱y和上述估计标识α来估计纯语音。具体地,采用上述估计标识α作为权重对mmse估计的后验概率进行加权计算,并且输出纯语音估计值

随后,针对每个频带,在梅尔对数谱y的向量与上述纯语音估计值(梅尔对数谱域中的向量)之间执行线性插值。该线性插值的计算过程中,以上述估计标识β作为权重。最终计算得到输出值

最终,根据得到的输出值进行特定的特征量的提取,并且将提取到的特征量发送给后端。对被采集到的语音的每一帧均重复执行上述步骤,并且在到达最后一帧时,处理结束。

本发明的较佳的实施例中,基于上文中的实时将语音进行分离的语音降噪的方法,现提供一种实时将语音进行分离的语音降噪的系统,适用于智能终端,其结构具体如图5所示,包括:

采集单元1,用于采集外部输入的声源;

存储单元9,连接采集单元1,用以存储声源;

分割单元8,连接存储单元9,用以将声源根据接收的时间顺序分割为复数个预设时间段的语音;

分离单元7,连接分割单元8,提供一预设的特征模型,用以根据时间顺序提取一语音,将语音与特征模型进行匹配,以获取与特征模型匹配的噪声,以及与初始特征模型不匹配的携带人声的语音,并生成语音的匹配标识,匹配标识用于表示语音与特征模型匹配完成;

模型更新单元10,连接分离单元7,用以将噪声追加为特征模型的噪声样本,并依据噪声样本对特征模型进行更新,以形成新的特征模型,并将新的特征模型发送至分离单元7;存储单元9分离单元7存储单元9

判断单元2,连接分离单元7,判断单元内预置有一强度阈值,并用于判断携带人声的语音的声音强度是否高于强度阈值,输出相应的判断结果;

第一处理单元3,连接判断单元2,用于根据判断结果,在语音的声音强度高于强度阈值时将语音确认为待判断语音,并根据待判断语音的频谱,生成对应待判断语音上每个频带的估计标识,估计标识用于表示语音在谐波结构上的显著性;

模型生成单元6,分别连接第一处理单元3和分离单元7,用于将噪声作为参照样本,根据参照样本及待判断语音生成对应于待判断语音的纯语音的 概率模型;

第二处理单元5,分别连接模型生成单元6和分离单元7,用于以每个估计标识作为对应的待判断语音的频带的权重指标,依据概率模型处理得到关联于语音的纯语音估计值。

在本实施例中,通过分割单元8将外部输入的声源分割为复数个预设时间段的语音,分离单元7采用特征模型与语音进行匹配,分离出噪声与携带人声的语音,模型更新单元10根据识别出的噪音实时更新特征模型,从而达到实时识别外界不断变换的噪声的目的,同时模型生成单元6将所述噪声作为参照样本以生成判断语音的纯语音的概率模型,利用第二处理单元5对携带人声的语音的进行处理,以获取纯语音估计值,能够提升背景噪声去除的效果,较好地排除语音识别过程中较大的背景噪声的干扰,提升语音识别的准确度。

本发明的较佳的实施例中,上述实时将语音进行分离的语音降噪的系统中,估计标识可以包括第一估计标识;或者

估计标识可以包括第一估计标识和第二估计标识。

本发明的较佳的实施例中,上述实时将语音进行分离的语音降噪的系统中,如图6所示,上述第一处理单元3具体包括:

提取模块31,用于依据待判断语音的频谱,提取对应于待判断语音的谐波结构;

第一处理模块32,连接提取模块31,用于对关联于谐波结构的数谱域上的监控值进行规则化处理,并依据梅尔刻度对经过规则化处理的监控值执行平滑处理;

第二处理模块33,连接第一处理模块32,用于对经过平滑处理的监控值进行进一步的规则化处理,以使监控值的均值为1;

第一生成模块34,连接第二处理模块33,用于根据监控值生成对应待判断语音的每个频带的第一估计标识。

本发明的较佳的实施例中,上述实时将语音进行分离的语音降噪的系统中,如图7所示,上述第二处理单元5具体包括:

第三处理模块51,用于处理得到关联于待判断语音的最小均方误差估计的后验概率;

第四处理模块52,连接第三处理模块51,用于以每个第一估计标识作为对应的待判断语音的频带的权重指标,依据概率模型对关联于待判断语音的后验概率进行加权计算,以得到纯语音估计值。

本发明的较佳的实施例中,上述实时将语音进行分离的语音降噪的系统中,仍然如图6所示,第一处理单元3还包括:

第五处理模块35,连接第一处理单元32,用于对经过平滑处理的监控值从0到1进行相应的规则化处理;

第二生成模块36,连接第五处理模块35,用于根据监控值生成对应待判断语音的每个频带的第二估计标识。

本发明的较佳的实施例中,上述实时将语音进行分离的语音降噪的系统中,仍然如图5所示,还包括:

第三处理单元4,连接第二处理单元5,用于针对待判断语音的每个频带,将每个对应的第二估计标识作为权重,以在监控值与纯语音估计值之间执行线性插值并处理得到对应的输出值。

本发明的较佳的实施例中,还提供一种智能终端,其中采用上述的实时将语音进行分离的语音降噪的方法。

本发明的较佳的实施例中,还提供一种智能终端,其中包括上述的实时将语音进行分离的语音降噪的系统。

以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1