语音带宽扩展模型的训练方法及语音带宽扩展方法与流程

文档序号:13737753阅读:310来源:国知局
语音带宽扩展模型的训练方法及语音带宽扩展方法与流程

本发明实施例涉及智能信息技术领域,具体涉及一种语音带宽扩展模型的训练方法及语音带宽扩展方法。



背景技术:

随着通信技术的发展,在不久的将来宽带语音通信将会取代窄带语音通信。然而,为了保证传输宽带语音信号需要构建一个新的网络环境使其能够支持更高的速率和更大的带宽,并且要求通信终端具备宽带信号的处理能力,实现这种方式不仅成本高而且耗时。而传统的电话网络难以在短时间内实现真正的宽带语音传输。一个有效的解决方案是在通信系统的终端对窄带语音进行处理,对接收到的语音信号人工加入一些丢失频谱成分,生成宽带语音信号。这种语音带宽扩展算法是解决此类问题的有效方法。语音带宽扩展是利用窄带语音根据某种模型算法重新构建出丢失的信号高频部分,从而生成宽带语音信号。

人类语音的频带信息主要分布在50hz到8khz的频率范围之间。然而,目前大多数电话网络所传输的语音信号的带宽要求在300hz到3.4khz。在这种电话网络通信系统中,窄带语音包含了足够的信息,语音质量基本上能够被人们所接受。虽然它保证了语音信号一定的可懂度,同时降低了系统对通信带宽的需求,但这种方式是以牺牲语音的自然度为代价的。因为窄带语音丢失了原始语音中的高频分量,使其听起来不够自然,听者容易产生疲劳感和压抑感。如果对窄带语音和宽带语音相比较时,很容易发现窄带语音音质和自然度的欠缺。因此需要语音带宽扩展算法重构出丢失的高频带信息,提高窄带语音的音质和自然度。目前已有的语音带宽扩展方法大多是基于源滤波模型的语音带宽扩展,这种方法将语音分解成激励源和谱包络两个部分后分别进行带宽扩展。采用这种方法进行语音带宽扩展时,在语音分析合成过程中声码器模块会带来音质的损伤。

有鉴于此,特提出本发明。



技术实现要素:

为解决上述的一个或多个问题,本发明提供了一种语音带宽扩展方法,以提高窄带语音的音质和自然度。此外,本发明还提供了一种语音带宽扩展模型的训练方法。

为了实现上述目的,根据本发明的一个方面,提供了以下技术方案:

一种语音带宽扩展模型的训练方法。该方法可以包括:

获取窄带语音及其对应的宽带语音;

计算所述窄带语音的幅值谱和相位谱以及所述宽带语音的幅值谱,并提取所述窄带语音的辅助特征;

采用基于最小均方误差准则的后向传播算法,训练深层神经网络模型。

较佳地,所述辅助特征包括以下至少任一项:梅尔频率倒谱系数、线谱对系数、各子带的清浊度及瓶颈特征。

较佳地,所述计算所述窄带语音的幅值谱和相位谱以及所述宽带语音的幅值谱,并提取所述窄带语音的辅助特征,具体包括:

分别对所述窄带语音和所述宽带语音进行分帧处理,并对每帧窄带语音和宽带语音在时域上进行加窗处理;其中,帧移为帧长的一半;

对加窗后的窄带语音帧进行快速傅里叶变换,确定所述窄带语音各频带的幅值谱和相位谱;

针对所述加窗后的窄带语音帧在频域上进行三角带通滤波,得到各子带的对数能量,并对所述各子带的对数能量进行离线余弦变换,确定所述梅尔频率倒谱系数;

针对所述加窗后的窄带语音帧计算自相关系数,采用自相关法确定线性预测系数,并对所述线性预测系数进行变换,确定所述线谱对系数;

基于混合激励线性预测语音编码标准,对所述窄带语音进行子带划分,并采用melp标准,在各子带范围内计算所述清浊度;

利用语音识别声学模型处理每帧窄带语音,确定所述每帧窄带语音的所述瓶颈特征;

对加窗后的宽带语音帧进行快速傅里叶变换,确定所述宽带语音各频带的幅值谱。

较佳地,所述深层神经网络模型为长短时记忆递归神经网络。

为了实现上述目的,根据本发明的另一个方面,还提供了一种语音带宽扩展方法。该方法可以包括:

获取待扩展窄带语音;

计算所述待扩展窄带语音的幅值谱和相位谱,并提取所述待扩展窄带语音的辅助特征;

采用上述训练方法训练的所述语音带宽扩展模型对所述待扩展窄带语音的所述幅值谱和所述辅助特征进行处理,得到重构的宽带语音高频带的幅值谱;

在频域上对所述待扩展窄带语音的所述相位谱进行镜像翻转,确定宽带语音高频带的相位谱;

基于所述窄带语音的所述幅值谱和所述相位谱,并联合所述重构的宽带语音高频带的幅值谱和所述宽带语音高频带的相位谱,确定宽带语音信号。

较佳地,所述待扩展窄带语音的辅助特征包括一下至少任一项:梅尔频率倒谱系数、线谱对系数、各子带的清浊度及瓶颈特征。

较佳地,所述计算所述待扩展窄带语音的幅值谱和相位谱,并提取所述待扩展窄带语音的辅助特征,具体包括:

对所述待扩展窄带语音进行分帧处理,并对每帧待扩展窄带语音在时域上进行加窗处理;其中,帧移为帧长的一半;

对加窗后的待扩展窄带语音帧进行快速傅里叶变换,确定所述待扩展窄带语音各频带的幅值谱和相位谱;

针对所述加窗后的待扩展窄带语音帧在频域上进行三角带通滤波,得到各子带的对数能量,并对所述各子带的对数能量进行离线余弦变换,确定所述梅尔频率倒谱系数;

针对所述加窗后的待扩展窄带语音帧计算自相关系数,采用自相关法确定线性预测系数,并对所述线性预测系数进行变换,确定所述线谱对系数;

基于混合激励线性预测语音编码标准,对所述窄带语音进行子带划分,并采用melp标准,在各子带范围内计算所述清浊度;

利用语音识别声学模型处理所述每帧待扩展窄带语音,确定所述每帧待扩展窄带语音的所述瓶颈特征。

较佳地,所述采用上述训练方法训练的所述语音带宽扩展模型对所述待扩展窄带语音的所述幅值谱和所述辅助特征进行处理,得到重构的宽带语音高频带的幅值谱,具体包括:

采用所述语音带宽扩展模型对所述窄带语音的所述幅值谱进行处理,得到宽带语音高频带的幅值谱;

对所述窄带语音的所述幅值谱和所述辅助特征中各维特征分别进行归一化;

利用所述语音带宽扩展模型对归一化后的窄带语音的幅值谱和辅助特征进行处理,得到归一化的宽带语音高频带的幅值谱;

利用所述宽带语音高频带的幅值谱各维特征的均值和方差,对所述归一化的宽带语音高频带的幅值谱进行变换,得到所述重构的宽带语音的高频带幅值谱。

较佳地,所述语音带宽扩展方法还包括:

采用非负矩阵分解方法对所述重构的宽带语音的高频带幅值谱进行处理。

较佳地,所述在频域上对所述待扩展窄带语音的所述相位谱进行镜像翻转,确定宽带语音高频带的相位谱,具体包括:

在频域上对窄带语音低频带的相位谱进行镜像翻转,以将所述窄带语音低频带的相位谱复制到所述窄带语音的高频带,确定所述宽带语音高频带的相位谱。

较佳地,所述基于所述窄带语音的所述幅值谱和所述相位谱,并联合所述重构的宽带语音高频带的幅值谱和所述宽带语音高频带的相位谱,确定宽带语音信号,具体包括:

在频域上,对所述窄带语音的所述幅值谱和所述相位谱以及所述重构的宽带语音高频带的幅值谱和所述宽带语音高频带的相位谱进行拼接,确定所述宽带语音的幅值谱和相位谱;

对所述宽带语音的幅值谱和相位谱进行反傅里叶变换,以将宽带语音帧变换到时域上;

在时域上,对交叠的宽带语音帧进行加窗和内插处理,确定所述宽带语音信号。

从上述技术方案可以看出,本发明具有以下有益效果:

本发明实施例通过计算窄带语音的幅值谱和相位谱,并提取窄带语音的辅助特征;基于窄带语音的幅值谱和辅助特征,利用语音带宽扩展模型进行带宽扩展,确定重构的宽带语音高频带的幅值谱,在频域上对窄带语音的相位谱进行镜像翻转,确定宽带语音高频带的相位谱;基于窄带语音的幅值谱和相位谱,并联合重构的宽带语音高频带的幅值谱和宽带语音高频带的相位谱,确定宽带语音信号,使得生成的宽带语音话音质量接近真实的宽带语音,直接在频域上进行语音带宽扩展,从而避免声码器对语音音质的影响,从而在节约硬件成本的同时提升了窄带语音的音质和自然度;而且具有高鲁棒性,还降低了计算复杂度,满足通信系统的延时要求,便于将其应用到通信系统中。

附图说明

图1为根据一示例性实施例示出的语音带宽扩展模型的训练方法的流程示意图;

图2为根据一示例性实施例示出的语音带宽扩展方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。在没有明确限定或不冲突的情况下,本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。

本发明实施例的基本思想是将采集到的窄带语音信号分解成幅值谱和相位谱,并提取多种辅助特征,通过低频带的幅值谱和多种辅助特征预测高频带幅值谱,利用低频带的相位谱重构高频带的相位谱。联合重构的高频带语音特征和原始的低频带语音特征生成宽带语音信号。

深度学习方法在语音识别、语音合成、语音转换、语音增强等领域中均得到了成功的应用。因此本发明实施例考虑将深层神经网络模型应用到语音带宽扩展领域,利用深层神经网络模型建立低频带语音特征和高频带语音特征之间复杂的非线性关系,为此,提供一种语音带宽扩展模型的训练方法。如图1所示,该训练方法可以通过步骤s100至步骤s120来实现。

步骤s100:获取窄带语音及其对应的宽带语音。

训练语音带宽扩展模型需要选择覆盖不同说话人、不同主题的音库进行训练,这样可以保证模型的鲁棒性;所以,对于每个音频样本,需要同时包括原始窄带语音和宽带语音。

步骤s110:计算窄带语音的幅值谱和相位谱以及宽带语音的幅值谱,并提取窄带语音的辅助特征。

其中,辅助特征可以包括但不限于梅尔频率倒谱系数、线谱对系数、各个子带的清浊度及瓶颈特征。其中,梅尔频率是基于人耳听觉特性提出来的,它与赫兹频率成非线性对应关系。当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个。梅尔刻度是对这一临界带宽的度量方法之一。线性预测系数能够反映出共振峰特性,线性预测系数最有效的表达方式是与其在数学角度上完全等价的线谱对系数。相对于线性预测系数而言,线谱对系数不仅与语音的短时谱包络密切相关,且拥有更优的量化特性、内插特性和鲁棒性,同时它具有良好的动态范围,易保证所构成的滤波器的稳定性。子带清浊度是区分清音帧、浊音帧和过渡帧的有效标志;本文中低频带范围是0-4khz,高频带范围是4khz-8khz;低频带包含共振峰信息,具有更高的浊音度;高频子带具有丰富的噪声成分,具有明显的清音特性;不同类型语音帧的语音参数具有明显差异。瓶颈特征位于语音识别声学模型中靠近输出端的位置,它的维度低于其它隐藏层的维度,在分类问题中,这种特征具有相对明显的类别区分性。另外,辅助特征还可以包括音素类别特征。各个语音帧可能属于不同的音素,不同音素的频带特征分布存在明显差异,对语音音素类别进行区分将有助于提高语音带宽扩展算法的性能。

具体地,本步骤可以通过步骤s111至步骤s117来实现。

步骤s111:分别对窄带语音和宽带语音进行分帧处理,并对每帧窄带语音和宽带语音在时域上进行加窗处理。其中,帧移为帧长的一半。

其中,优选地,可以选择汉明窗作为窗函数。通过加窗可以抑制频谱泄露。

步骤s112:对加窗后的窄带语音帧进行快速傅里叶变换,确定窄带语音各频带的幅值谱和相位谱。

优选地,本步骤还可以进一步对幅值谱进行诸如平方及取对数变换,而得到对数功率谱,利用该对数功率谱进行后续处理,这样可以得到更好音质的宽带语音。

步骤s113:针对加窗后的窄带语音帧在频域上进行三角带通滤波,得到各个子带的对数能量,并对各个子带的对数能量进行离线余弦变换,确定梅尔频率倒谱系数。

在实际应用中,较佳地,本步骤可以选取前12阶作为梅尔频率倒谱系数。

步骤s114:针对加窗后的窄带语音帧计算自相关系数,采用自相关法确定线性预测系数,并对线性预测系数进行变换,确定线谱对系数。

在实际应用中,本步骤可以取10阶线谱对系数。

步骤s115:基于混合激励线性预测语音编码标准,对窄带语音进行子带划分,并采用melp标准,在各个子带范围内计算清浊度。

例如,可以参考混合激励线性预测语音编码标准进行子带划分,将窄带语音划分成0-500hz、500-1000hz、1000-2000hz、2000-3000hz和3000-4000hz共5个子带,然后,利用与melp标准相同的计算方法,在各个子带范围内计算清浊度。

步骤s116:利用语音识别声学模型处理每帧窄带语音,确定每帧窄带语音的瓶颈特征。

较佳地,语音识别声学模型的结构可以为受限玻尔兹曼机深层置信神经网络。

本步骤中,将窄带语音输入到用于语音识别声学模型中,靠近输出层的隐藏层用于抽取瓶颈特征;将各个实验样本输入到语音识别声学模型,可以得到每帧语音的瓶颈特征。

当然,如果考虑音素类别也作为辅助特征的话,通过语音识别声学模型,也可以得到音素类别特征。

步骤s117:对加窗后的宽带语音帧进行快速傅里叶变换,确定宽带语音各频带的幅值谱。

较佳地,本步骤还可以进一步对幅值谱进行变换而得到对数功率谱,利用该对数功率谱进行后续处理,可以获得更好地效果。

步骤s120:采用基于最小均方误差准则的后向传播算法,训练深层神经网络模型。

深度学习方法在语音识别、语音合成、语音转换、语音增强等领域中均得到了成功的应用。因此,可以将深层神经网络模型应用到语音带宽扩展领域,利用深层神经网络模型建立低频带语音特征和高频带语音特征之间复杂的非线性关系,以提高窄带语音的音质和自然度。

较佳地,深层神经网络模型可以采用长短时记忆递归神经网络。长短时记忆递归神经网络的结构可以充分捕获到语音序列中的历史信息,可以有效的解决训练过程中梯度消失问题,相比于受限玻尔兹曼机-深层置信神经网络,可以有效的避免硬延时问题,便于算法在实际系统中的应用。

本发明实施例将深层神经网络模型应用到语音带宽扩展领域,利用深层神经网络模型来构建语音带宽扩展模型,进而建立低频带语音特征和高频带语音特征之间复杂的非线性关系,从而有助于提高窄带语音的音质和自然度。

目前已有的语音带宽扩展方法大多是基于源滤波模型的语音带宽扩展。采用这种方法进行语音带宽扩展时,在语音分析合成过程中声码器模块会带来音质的损伤。为此,本发明实施例提出一种语音带宽扩展方法。如图2所示,该方法可以通过步骤s200至步骤s240来实现。

步骤s200:获取待扩展窄带语音。

步骤s210:计算待扩展窄带语音的幅值谱和相位谱,并提取待扩展窄带语音的辅助特征。

在本发明实施例中,可以但不限于通过快速傅里叶变换来计算每帧待扩展窄带语音的幅值谱和相位谱。

上述辅助特征可以包括但不限于梅尔频率倒谱系数、线谱对系数、各个子带的清浊度及瓶颈特征。其中,梅尔频率倒谱系数是受人的听觉系统研究成果推动而导出的声学特征。当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个。梅尔刻度是对这一临界带宽的度量方法之一,它在语音识别领域中广泛应用,梅尔频率是基于人耳听觉特性提出来的,它与赫兹频率成非线性对应关系。线性预测系数是语音信号处理中广泛应用的语音参数,它能够反映出共振峰特性,线性预测系数最有效的表达方式是与其在数学角度上完全等价的线谱对系数。相对于线性预测系数而言,线谱对系数不仅与语音的短时谱包络密切相关,且拥有更优的量化特性、内插特性和鲁棒性,同时它具有良好的动态范围,易保证所构成的滤波器的稳定性。子带清浊度是区分清音帧、浊音帧和过渡帧的有效标志。本文中涉及到的低频带范围可以是0-4khz,高频带范围可以是4khz-8khz;低频子带包含共振峰信息,具有更高的浊音度;高频子带具有丰富的噪声成分,具有明显的清音特性;可见,不同类型语音帧的语音参数具有明显差异。瓶颈特征在语音识别领域中有着广泛的应用,它位于语音识别声学模型中靠近输出端的位置,它的维度低于其它隐藏层的维度,在分类问题中,这种特征具有相对明显的类别区分性。另外,由于各个语音帧可能属于不同的音素,不同音素的频带特征分布存在明显差异,这样对语音的音素类别进行区分将有助于提高语音带宽扩展算法的性能,所以,在一些实施例中,本发明实施例中涉及到的辅助特征还可以包括音素类别特征。因此,可以选择梅尔频率倒谱系数、线谱对系数、各个子带的清浊度和瓶颈特征以及音素类别特征作为辅助特征。

具体地,本步骤可以通过步骤s211至步骤s216来实现。

步骤s211:对待扩展窄带语音进行分帧处理,并对每帧待扩展窄带语音在时域上进行加窗处理。其中,帧移为帧长的一半。

其中,优选地,可以选择汉明窗作为窗函数。通过加窗可以抑制频谱泄露。

步骤s212:对加窗后的待扩展窄带语音帧进行快速傅里叶变换,确定待扩展窄带语音各频带的幅值谱和相位谱。

为了得到的效果更好,在优选的实施例中,本步骤可以进一步对幅值谱进行变换处理,以得到对数功率谱。在本文中,涉及到幅值谱的地方均可以用对数功率谱来代替。

步骤s213:针对加窗后的待扩展窄带语音帧在频域上进行三角带通滤波,得到各个子带的对数能量,并对各个子带的对数能量进行离线余弦变换,确定梅尔频率倒谱系数。

较佳地,本步骤可以选取前12阶作为梅尔频率倒谱系数。

步骤s214:针对加窗后的待扩展窄带语音帧计算自相关系数,采用自相关法确定线性预测系数,并对线性预测系数进行变换,确定线谱对系数。

较佳地,本步骤可以取10阶线谱对系数。

步骤s215:基于混合激励线性预测语音编码标准,对窄带语音进行子带划分,并采用melp标准,在各个子带范围内计算清浊度。

例如,可以参考混合激励线性预测语音编码标准进行子带划分,将窄带语音划分成0-500hz、500-1000hz、1000-2000hz、2000-3000hz和3000-4000hz共5个子带,然后,利用与melp标准相同的计算方法,在各个子带范围内计算清浊度。

步骤s216:利用语音识别声学模型处理每帧待扩展窄带语音,确定每帧待扩展窄带语音的瓶颈特征。

本步骤中,将窄带语音输入到用于语音识别声学模型中,靠近输出层的隐藏层用于抽取瓶颈特征;将各个实验样本输入到语音识别声学模型,可以得到每帧语音的瓶颈特征。当然,利用语音识别声学模型对每帧待扩展窄带语音处理,也可以得到音素类别特征。在本发明优选的实施例中,可以将音素类别特征加入到辅助特征中,进行语音带宽扩展的处理中。

优选地,上述语音识别声学模型的结构可以为受限玻尔兹曼机深层置信神经网络。

步骤s220:采用上述训练后的语音带宽扩展模型对待扩展窄带语音的幅值谱和辅助特征进行处理,得到重构的宽带语音高频带的幅值谱。

其中,语音带宽扩展模型例如可以选择长短时记忆递归神经网络。长短时记忆递归神经网络可以充分捕获到语音序列中的历史信息,同时能够有效的抑制梯度消失问题,相比于受限玻尔兹曼机-深层置信神经网络,可以有效的避免硬延时问题,便于算法在实际系统中的应用。语音带宽扩展模型包括多个隐藏层,从输入层到隐藏层经过多次非线性变换,从隐藏层到输出层经过一次线性变换。将窄带语音的幅值谱、梅尔频率倒谱系数、线谱对系数、各个子带的清浊状态和瓶颈特征输入到这种语音带宽扩展模型,可以重构出宽带语音的高频带幅值谱。

具体地,步骤s220可以通过步骤s221至步骤s224来实现。

步骤s221:采用上述训练后的语音带宽扩展模型对窄带语音的幅值谱进行处理,得到宽带语音高频带的幅值谱。

步骤s222:对窄带语音的幅值谱和辅助特征中各维特征分别进行归一化。

在具体实施过程中,因为语音特征参数均为数值型变量,所以,可以对窄带语音的幅值谱、梅尔频率倒谱系数、线谱对系数、各个子带的清浊度、瓶颈特征和宽带语音的对数功率谱进行高斯归一化,以使其满足零均值、单位方差。

步骤s223:利用训练后的语音带宽扩展模型对归一化后的窄带语音的幅值谱和辅助特征进行处理,得到归一化的宽带语音高频带的幅值谱。

其中,在对窄带语音的幅值谱和辅助特征进行归一化之后,可以将过归一化处理的窄带语音的幅值谱和辅助特征输入到语音带宽扩展模型,语音带宽扩展模型包括多个隐藏层,从输入层到隐藏层经过多次非线性变换,从隐藏层到输出层经过一次线性变换;经过多次非线性变换和一次线性变换后,可以得到归一化的宽带语音的高频带幅值谱。

步骤s224:利用宽带语音高频带的幅值谱各维特征的均值和方差,对归一化的宽带语音高频带的幅值谱进行变换,得到重构的宽带语音的高频带幅值谱。

当然,本步骤可以用对数功率谱代替幅值谱来进行处理。在一个优选的实施例中,采用语音带宽扩展模型对窄带语音的对数功率谱和辅助特征进行处理,得到宽带语音的高频带对数功率谱,从而可以利用宽带语音的高频带对数功率谱进行后续处理,这样会得到更好的效果。

在经过步骤s224处理后,会出现过平滑问题,从而导致语音音质的下降。因此,优选地,本发明实施例还可以采用非负矩阵分解方法对重构的宽带语音的高频带幅值谱进行处理,以抑制过平滑问题,进而弱化过平滑导致的音质下降。

通过上述技术方案,实现了直接在频域上进行幅值谱的频带扩展。

步骤s230:在频域上对待扩展窄带语音的相位谱进行镜像翻转,确定宽带语音高频带的相位谱。

人耳的听觉系统对幅值谱的失真比较敏感,而对相位谱的失真的分辨率较粗;相对于幅值谱,低频带与高频带相位谱之间的相关性较弱,采用数据驱动的方法对高频带的相位谱进行预测时,可能会适得其反。因此,本发明实施例采用训练好的语音带宽扩展模型进行处理。

具体地,本步骤可以包括:在频域上对窄带语音低频带的相位谱进行镜像翻转,以将窄带语音低频带的相位谱复制到窄带语音的高频带,从而确定宽带语音高频带的相位谱。

步骤s240:基于窄带语音的幅值谱和相位谱,并联合重构的宽带语音高频带的幅值谱和宽带语音高频带的相位谱,确定宽带语音信号。

具体地,本步骤可以通过步骤s241至步骤s243来实现。

步骤s241:在频域上,对窄带语音的幅值谱和相位谱以及重构的宽带语音高频带的幅值谱和宽带语音高频带的相位谱进行拼接,确定宽带语音的幅值谱和相位谱。

其中,宽带语音低频带的幅值谱和相位谱与窄带语音低频带的幅值谱和相位谱相同。宽带语音高频带的幅值谱和相位谱是通过深层神经网络重构得到的。

步骤s242:对宽带语音的幅值谱和相位谱进行反傅里叶变换,以将宽带语音帧变换到时域上。

步骤s243:在时域上,对交叠的宽带语音帧进行加窗和内插处理,确定宽带语音信号。

本发明实施例通过采用上述技术方案将窄带语音的幅值谱和相位谱作为宽带语音低频带的幅值谱和相位谱;对于宽带语音高频带的幅值谱和相位谱,则利用相对应的窄带语音特征预测得到,生成宽带语音频谱后变换到时域从而得到宽带语音信号。

本发明实施例提供的语音带宽扩展方法,获取原始窄带语音,对每帧语音计算幅值谱特征和相位谱特征,并对每帧语音提取多种语音特征;采用深层神经网络模型对宽带语音的幅值谱特征进行预测,模型的输入是窄带语音的幅值谱和多种辅助特征,模型的输出是宽带语音的幅值谱和音素类别,采用非负矩阵分解方法对预测得到的宽带语音幅值谱特征进行后增强处理;对窄带语音的相位谱特征在频域上进行镜像翻转,获得宽带语音的相位谱;联合重构的宽带语音幅值谱特征和相位谱特征生成宽带语音信号。本发明实施例可以实现对窄带语音的带宽扩展,提高窄带语音的音质和自然度。带宽扩展后的语音具有较高的音质和自然度,同时这种方法具有高鲁棒性,不受说话人、文本内容、声音采集环境的限制,便于实际应用。

需要说明的是,上述对各部件的实现方式并不仅限于实施方式中提到的各种实现方式,本领域的普通技术人员可对其进行简单地、熟知地替换,例如:

(1)上述语音带宽扩展方法实施例中深层神经网络模型的输入参数包括线谱对参数和梅尔频率倒谱系数,其可以用其它语音参数替代,如使用线性预测系数。

(2)上述语音带宽扩展方法实施例中通过深层神经网络模型预测高频带对数域功率谱,可以用其它形式表征高频带幅值谱,如使用线性域功率谱。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。

以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述,但是,上述实施例的说明仅适用于帮助理解本发明实施例的原理;同时,对于本领域技术人员来说,依据本发明实施例,在具体实施方式以及应用范围之内均会做出改变。

需要说明的是,本文中涉及到的流程图不仅仅局限于本文所示的形式,其还可以进行其他划分和/或组合。

还需要说明的是:附图中的标记和文字只是为了更清楚地说明本发明,不视为对本发明保护范围的不当限定。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

本发明的各个步骤可以用通用的计算装置来实现,例如,它们可以集中在单个的计算装置上,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置,也可以分布在多个计算装置所组成的网络上,它们可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此,本发明不限于任何特定的硬件和软件或者其结合。

本发明提供的方法还可以使用可编程逻辑器件来实现,也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等),例如根据本发明的实施例可以是一种计算机程序产品,运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如:采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如:ram、rom、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储介质(例如:cd-rom和dvd)、磁光存储介质(例如:mo)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置rom的媒体(例如:rom盒)。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1