技术简介:
本专利针对语音信号中噪声干扰问题,提出基于梅尔频率倒谱系数和对抗网络模型的语音增强方法。通过提取语音特征参数与基频,结合对抗网络生成优化脉冲波形,并利用频谱包络滤波技术,有效去除噪声并提升语音清晰度,实现高质量语音重建。
关键词:语音增强,对抗网络
1.本发明涉及语音技术领域,尤其涉及一种语音处理方法、装置、设备及计算机可读存储介质。
背景技术:2.关于以前对语音的处理经常使用各种声学特征,例如时长信息、谐波噪声比等,但是由于这些声学特征所包含的语音关键信息的不足,使得处理后得到的语音质量欠佳。
3.因此,现有技术还有待改进。
技术实现要素:4.本发明的主要目的在于提出一种语音处理方法、装置、设备及计算机可读存储介质,旨在提高语音质量。第一方面,本发明提供的语音处理方法的步骤为:
5.获取初始语音信号每个语音波段的语音特征参数和基频;
6.根据各个所述语音波段的语音特征参数和基频生成目标语音信号。
7.在一种实现方式中,所述语音特征参数为梅尔频率倒谱系数。
8.在一种实现方式中,所述获取初始语音信号每个语音波段的语音特征参数和基频的步骤包括:
9.获取初始语音信号每个语音波段的语音特征参数;
10.将每个语音波段的语音特征参数输入已训练的基频模型,得到与每个所述语音特征参数对应的基频;所述基频模型为基于样本语音特征参数以及与所述样本语音特征参数对应的基频训练而成的。
11.在一种实现方式中,所述根据各个所述语音波段的语音特征参数和基频生成目标语音信号的步骤包括:
12.根据各个所述语音波段的语音特征参数和基频生成各个所述语音波段对应的第一脉冲波形;
13.根据各个所述语音波段对应的第一脉冲波形确定各个所述语音波段对应的第二脉冲波形;
14.根据各个所述语音波段对应的第一脉冲波形和第二脉冲波形生成目标语音信号。
15.在一种实现方式中,所述根据各个所述语音波段的语音特征参数和基频生成各个所述语音波段对应的第一脉冲波形的步骤包括:
16.将各个所述语音波段的语音特征参数和基频输入已训练的脉冲模型,得到各个语音波段对应的第一脉冲波形;所述脉冲模型为基于样本语音波段的语音特征参数和基频,与样本第一脉冲波形之间的对应关系训练而成的。
17.在一种实现方式中,所述根据各个所述语音波段对应的第一脉冲波形确定各个所述语音波段对应的第二脉冲波形的步骤包括:
18.将各个所述语音波段对应的第一脉冲波形输入已训练的对抗网络模型的生成器;
19.通过所述已训练的对抗网络模型的生成器生成各个所述语音波段对应的第二脉冲波形。
20.在一种实现方式中,所述根据各个所述语音波段对应的第一脉冲波形和第二脉冲波形生成目标语音信号的步骤包括:
21.将每个所述语音波段对应的第一脉冲波形和第二脉冲波形进行叠加,得到各个所述语音波段对应的第三脉冲波形;
22.根据基音同步叠加算法,将各个所述语音波段对应的第三脉冲波形依据各个所述语音波段的基频进行拼接,得到连续波形;
23.基于所述连续波形生成目标语音信号。
24.在一种实现方式中,所述基于所述连续波形生成目标语音信号的步骤包括:
25.获取各个所述语音波段的语音特征参数组成的序列对应的频谱包络;
26.以所述频谱包络为声道滤波器,对所述连续波形进行过滤,得到目标语音信号。
27.在一种实现方式中,所述对抗网络模型的训练方法的步骤包括:
28.获取训练样本数据,所述训练样本数据包括若干样本数据组,每个所述样本数据组包括样本语音波段、样本第一脉冲波形和样本高频分量数据,所述样本语音波段为训练标签,所述样本语音波段与所述样本第一脉冲波形成对应关系,所述样本高频分量数据为从预设的高频分量数据集中获取的;
29.将与所述样本语音波段均对应的样本第一脉冲波形和所述样本高频分量数据输入预设的对抗网络模型的生成器,通过所述预设的对抗网络模型的生成器输出与所述样本语音波段对应的样本第二脉冲波形,所述样本第二脉冲波形为由所述样本第一脉冲波形叠加所述样本高频分量数据形成的;
30.将所述样本语音波段和与所述样本语音波段对应的样本第二脉冲波形输入所述预设的对抗网络模型的鉴别器,通过所述预设的对抗网络模型的鉴别器输出所述样本第二脉冲波形和所述样本语音波段的真实率。
31.根据所述样本第一脉冲波形和所述样本第二脉冲波形,以及所述真实率对所述预设的对抗网络模型进行修正,得到已训练的对抗网络模型。
32.在一种实现方式中,所述根据所述样本第一脉冲波形和所述样本第二脉冲波形,以及所述真实率对所述对抗网络模型进行修正,得到已训练的对抗网络模型的步骤包括:
33.固定所述生成器,根据所述样本语音波段和所述样本语音波段对应的所述样本第二脉冲波形对鉴别器进行训练;
34.固定所述鉴别器,根据所述真实率、所述样本第一脉冲波形和所述样本第二脉冲波形对所述生成器进行训练;
35.继续执行固定所述生成器的步骤直至所述预设的对抗网络模型满足预设条件,得到已训练的对抗网络模型。
36.第二方面,一种语音处理装置,其特征在于,所述语音处理装置包括:
37.获取模块,用于获取初始语音信号每个语音波段的语音特征参数和基频;
38.生成模块,用于根据各个所述语音波段的语音特征参数和基频生成目标语音信号。
39.第三方面,一种语音处理设备,所述语音处理设备设备包括存储器、处理器及存储
在所述存储器上并可在所述处理器上运行的语音处理程序,所述语音处理程序被所述处理器执行时实现如上所述的语音处理方法的步骤。
40.第四方面,一种计算机可读存储介质,所述计算机可读存储介质上存储有所述语音处理方法程序,所述语音处理方法程序被处理器执行时实现如上所述的语音处理方法的步骤。
41.有益效果:与现有技术相比,本发明提供了一种语音处理方法、装置、设备及计算机可读存储介质,所述方法包括获取初始语音信号每个语音波段的语音特征参数和基频;根据各个所述语音波段的语音特征参数和基频生成目标语音信号。本发明通过获取初始语音信号每个语音波段的语音特征参数,以获取初始语音信号中的关键信息,过滤掉了初始语音信号中的噪声数据,又因为获取到的语音特征参数中不含有基频,进一步获取每个语音波段的基频,根据每个语音波段的语音特征参数和基频生成目标语音信号,提高了由目标语音信号产生的语音的质量。
附图说明
42.图1为本发明提供的语音处理方法的应用场景示意图;
43.图2为本发明语音处理方法实施例的流程示意图;
44.图3为本发明实施例的实际音高和合成音高的对比图;
45.图4为本发明实施例语音波段、第一脉冲波形即第二脉冲波形的对比图;
46.图5为本发明实施例频域信号的对比图;
47.图6为本发明实施例的生成器结构示意图;
48.图7为本发明实施例的鉴别器结构示意图;
49.图8为图7中l层结构示意图;
50.图9为本发明提供的实验对比图;
51.图10为本发明提供的语音处理设备的结构原理图。
52.本发明目的的实现、功能特点及优点将结合实施例,参照附图做说明。
具体实施方式
53.本发明提供一种语音处理方法、装置、设备及计算机可读存储介质,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
54.本技术领域人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组合。应当理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接和无线耦接。这里使用的措辞“和/或”包括一个或多个相关联的列出项的全部或任一单元和全部组合。
55.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该
理解的是,诸如通用字典中定义的那些术语,应该被理解为具有于现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会理想化或过于正式的含义解释。
56.发明人经过研究发现,为了去除原始语音中的噪声影响,本技术领域技术人员尝试过多种降噪的方法,但是其效果欠佳,最后得到的语音要么原始的语音中的非周期性缺失,要么原始的语音中的高频部分损失。
57.为了解决这些问题,在本发明的实施例中通过获取初始语音信号每个语音波段的语音特征参数和基频;根据各个所述语音波段的语音特征参数和基频生成目标语音信号,既可以避免初始语音信号非周期性缺失,又可以恢复初始语音信号中的高频部分,提升了获得的目标语音信号的质量。
58.举例说明,本发明实施例可以应用到如图1所示的场景。在该场景中,首先,终端设备1可以获取初始语音信号每个语音波段的语音特征参数和基频,并将每个语音波段的语音特征参数和基频发送至服务器2,以使得服务器2依据每个语音波段的语音特征参数和基频生成目标语音信号。
59.可以理解的是,在上述应用场景中,虽然将本发明实施方式的动作描述为部分由终端设备1执行、部分由服务器2执行,但是这些动作也可以完全由服务器2执行,或者完全由终端设备1执行。本发明在执行主体方面不受限制,只要执行了本发明实施方式所公开的动作即可。
60.需要注意的是,上述应用场景仅是为了便于理解本发明而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
61.下面结合附图,通过对实施例的描述,对发明内容作进一步说明。
62.如图2所示,本实施提供了一种语音处理方法,所述方法可以包括以下步骤:
63.步骤s10,获取初始语音信号每个语音波段的语音特征参数和基频;
64.具体地,初始语音信号为预先获取的,所述初始语音信号可以是采集到的来自某个人发出的一段语音。语音波段是对初始语音信号进行分帧处理得到的,对初始语音信号进行分帧,得到多个语音帧,每个语音帧即是一个语音波段,一般的取20~30ms的长度为一个语音帧。语音特征参数即是将语音波段转化成设备能够处理的,符合人耳听觉感知特性的语音特征向量,语音特征参数的种类有很多,本实施例语音特征参数指的是梅尔频率倒谱系数(mel-scale frequency cepstral coefficients,mfcc)。梅尔频率倒谱系数包含了初始语音信号中很多关键信息,对于表达初始语音信号中的特征有很好的效果。技术人员尝试过借用梅尔频率倒谱系数直接转化成语音,这种语音处理的方法过于简单,使得初始语音信号中的非周期性缺失。本实施例除了获取每个语音波段的梅尔频率倒谱系数外,还需获取每个语音波段的基频。基频即是每个语音波段中基音的频率,也称音高,男生的基频分布在0~200hz,女生的基频分布在200~500hz。
65.举例说明,获取到学生a发出的初始语音信号a,首先对初始语音信号a进行分帧处理,得到语音波段a1、a2…an
,继续获取语音波段a1中的语音特征参数和基频,语音波段a2中的语音特征参数和基频,直至得到语音波段an中的语音特征参数和基频。
66.进一步的,在本实施例的一个实现方式中,步骤s10包括:
67.步骤s11,获取初始语音信号每个语音波段的语音特征参数;
68.步骤s12,将每个语音波段的语音特征参数输入已训练的基频模型,得到与每个所述语音特征参数对应的基频;所述基频模型为基于样本语音特征参数以及与所述样本语音特征参数对应的基频训练而成的。
69.该实施方式提供一种获取语音波段的基频的方法。语音特征参数的获取方法可根据语音特征参数的种类确定,当语音特征参数为梅尔频率倒谱系数时,对初始语音信号每个语音波段依次进行加窗处理、快速傅里叶变换、mel滤波、对数运算以及最后经离散余弦变换得到梅尔频率倒谱系数。加窗处理即是将每个语音波段代入窗函数,窗外的值设定为0,其目的是消除每个语音波段左端和右端的不连续性,窗函数可以是汉宁窗、汉明窗等。快速傅里叶变换是为了将时域上的语音波段转化成频域上的能量分布,能量分布能够反映语音波段的语音特性。mel滤波即是将通过快速傅里叶变换得到的能量分布通过一组mel尺度的三角形滤波器组,消除语音波段中谐波的作用,凸显语音波段中的共振峰,再计算语音波段的对数能量,将对数能量代入离散余弦变换得到梅尔频率倒谱系数。
70.基频模型是基于rnn(recurrent neural networks,递归神经网络)模型的变体,即lstm模型(long short-term memory,长短时记忆模型),已训练的基频模型将每个语音波段的语音特征参数作为输入,利用自回归输出反馈链路层和分类层softmax预测各个与所述语音特征参数对应的语音波段的基频。
71.举例说明,语音波段a1的语音特征参数为b1、语音波段a2的语音特征参数为b2,
…
,语音波段an的语音特征参数为bn,将b1,b2,
…
,bn输入已训练的基频模型,已训练的基频模型输出a1的基频c1,a2的基频c2,
…
,an的基频cn。
72.首先预设一个基频模型,该基频模型为未训练的基频模型,当预设的基频模型基于样本训练集进行训练后,可以得到已训练的基频模型。可以理解的是未训练的基频模型与已训练的基频模型的模型结构相同,其区别在于未训练的基频模型的模型参数与已训练的基频模型的模型参数不同,未训练的基频模型的模型参数为预先设定的初始模型参数,已训练的基频模型的模型参数为基于样本训练集训练得到的模型参数。其中,样本训练集包括样本语音特征参数以及与样本语音特征参数对应的基频,将样本训练集输入预设的基频模型中,预设的基频模型根据样本训练集中样本语音特征参数生成样本基频,并计算样本基频与样本语音特征参数对应的基频之间的损失值,预设的基频模型根据该损失值调整初始模型参数,当损失值较大时,继续对预设的基频模型进行训练,直至损失值的变化趋于收敛的状态,此时预设的基频模型中的参数为最优的模型参数,将该最优的模型参数配置于预设的基频模型中,得到已训练的基频模型。
73.本实施例提供的基频模型预测基频具有很好的效果,参见图3,图3为属于同一语音波段的实际音高(音高即基频)和通过本实施例提供的基频模型获得的合成音高的对比图,可以看出实际音高与合成音高的误差非常小。
74.步骤s20,根据各个所述语音波段的语音特征参数和基频生成目标语音信号。
75.目标语音信号是一段与初始语音信号同等长度的语音信号,与初始语音信号不同的是,目标语音信号是对初始语音信号进行降噪处理后的信号。首先根据各个语音波段的语音特征参数,以及各个语音波段的基频,恢复出与各个语音特征参数和基频对应的信号,这里的信号仍然是分段的,进一步地根据各个分段的信号形成一段连续的语音信号,即是目标语音信号。
76.在本实施例的一些具体的实现方式中,步骤s20包括:
77.步骤21,根据各个所述语音波段的语音特征参数和基频生成各个所述语音波段对应的第一脉冲波形;
78.步骤22,根据各个所述语音波段对应的第一脉冲波形确定各个所述语音波段对应的第二脉冲波形;
79.步骤23,根据各个所述语音波段对应的第一脉冲波形和第二脉冲波形生成目标语音信号。
80.本实施例提供如何将各个语音波段转化成信号,进一步的得到目标语音信号的方法。第一脉冲波形即是根据各个语音特征参数和基频恢复出的一段信号,需要说明的是,第一脉冲波形是一段平滑的信号,也是去噪处理后的信号,其中缺少了很多的高频部分,高频部分即是语音波段中急剧变化(可以理解的是,在预设时长内变化程度大于预设阈值)的部分,也称高频分量数据,为了弥补第一脉冲波形中的高频部分,根据各个语音波段对应的第一脉冲波形得到各个语音波段对应的第二脉冲波形,第二脉冲波形具有高频部分,最后根据已经得到的语音波段对应的第一脉冲波形和第二脉冲波形得到目标语音信号,可以理解初始语音信号经过去噪处理,失去了高频部分,第二脉冲波形又恢复了脉冲波形,所以目标语音信号也具有高频部分,进一步提升了目标语音信号的真实性。
81.举例说明,根据语音波段a1的语音特征参数为b1和基频c1生成与a1对应的第一脉冲波形d1、根据语音波段a2的语音特征参数为b2和基频c2生成与a2对应的第一脉冲波形d2,
…
,根据语音波段an的语音特征参数为bn和基频cn生成与an对应的第一脉冲波形dn;再根据d1生成与a1对应的第二脉冲波形e1,根据d2生成与a2对应的第二脉冲波形e2,
…
,根据dn生成与an对应的第二脉冲波形en,最后分别根据d1和e1,d2和e2,
…
,dn和en生成目标语音信号。
82.在本实施例的一种可实现方式中,步骤s21还包括将各个所述语音波段的语音特征参数和基频输入已训练的脉冲模型,得到各个语音波段对应的第一脉冲波形;所述脉冲模型为基于样本语音波段的语音特征参数和基频,与样本第一脉冲波形之间的对应关系训练而成的。
83.脉冲模型的输入端使用门控循环单元层,因为门控循环单元层对编码声学序列信息非常有用,脉冲模型还包括多个1维卷积层。将各个语音波段的语音特征参数和基频输入已训练的脉冲模型中,最终输出各个语音波段的第一脉冲波形。脉冲模型基于均值回归理论对各个语音波段的语音特征参数和基频进行处理,所述均值回归理论是指数据的变化最终回归于数据长期的均值,所以脉冲模型输出的第一脉冲波形是平滑的,缺少高频部分。
84.举例说明,将语音波段a1的语音特征参数为b1和基频c1输入已训练的脉冲波形得到与a1对应的第一脉冲波形d1、将语音波段a2的语音特征参数为b2和基频c2输入已训练的脉冲波形得到与a2对应的第一脉冲波形d2,
…
,将语音波段an的语音特征参数为bn和基频cn输入已训练的脉冲波形得到与an对应的第一脉冲波形dn。
85.关于脉冲波形的训练,首先预设一个脉冲模型,该脉冲模型为未训练的脉冲模型,当预设的脉冲模型基于样本训练集进行训练后,可以得到已训练的脉冲模型。关于脉冲模型的训练同样是调整脉冲模型中的参数。样本训练集包括样本语音波段的语音特征参数和基频,以及样本第一脉冲波形,将样本训练集输入未训练的脉冲模型中,即预设的脉冲模型,预设的脉冲模型根据样本训练集中的样本语音波段的语音特征参数和基频生成第一脉
冲波形,计算生成的第一脉冲波形与样本训练集中样本第一脉冲波形的损失值,预设的脉冲波形根据该损失值调整内部的模型参数,直至损失值趋于收敛状态,将最后得到的模型参数视为最终的模型参数,将其配置于预设的脉冲模型,得到已训练的脉冲模型。
86.在本实施例的另一种实施方式中,步骤s22还包括:
87.步骤s221,将各个所述语音波段对应的第一脉冲波形输入已训练的对抗网络模型的生成器;
88.步骤s222,通过所述已训练的对抗网络模型的生成器生成各个所述语音波段对应的第二脉冲波形。
89.对抗网络模型包括生成器和鉴别器,对抗网络模型在使用时只用到生成器。已训练的对抗网络模型的生成器可生成脉冲模型中丢失的高频部分。具体的,将各个语音波段对应的第一脉冲波形输入到已训练的对抗网络模型的生成器,已训练的对抗网络模型的生成器生成各个语音波段对应的第二脉冲波形,第二脉冲波形与第一脉冲波形的区别在于第二脉冲波形是根据第一脉冲波形生成的具有高频部分的信号。
90.举例说明,将语音波段a1对应的第一脉冲波形d1输入已训练的对抗网络模型的生成器,已训练的对抗网络模型的生成器输出语音波段a1对应的第二脉冲波形e1,参照图4,图4中的波形1为语音波段a1,波形2为语音波段a1对应的第一脉冲波形d1,波形3为语音波段a1对应的第二脉冲波形e1,通过对比波形2和和波形3可知,第二脉冲波形e1相对于第一脉冲波形d1,波形显得更加的参差,更加的与波形1相似,这就是因为第二脉冲波形e1显示出了语音波段a1中更多的细节信息,即高频分量数据。图4表达的是时域信号,图5表达的是频域信号,曲线4为语音波段a1对应的频域信号,曲线5为第一脉冲波形d1对应的频域信号,曲线6为第二脉冲波形e1对应的频域信号,通过比较曲线5和曲线6可知,曲线6与曲线4更加相似,也进一步说明第二脉冲波形更加靠近真实的波形。
91.对抗网络模型的生成器结构参见图6,由图6显示的生成器结构包括三个卷积层,由图6可知,需将第一脉冲波形输入每个卷积层,并且相邻的两个卷积层中前一个卷积层的输出项作为后一个卷积层的输入项,也就是说第一个卷积层的输入项为两个第一脉冲波形,其余的卷积层的输入项为第一脉冲波形和前一个卷积层的输出项,还需将第三个卷积层的输出项与第一脉冲波形进行叠加,得到第二脉冲波形。对抗网络模型的生成器还可以将第三个卷积层的输出项和第一脉冲波形叠加的结果进行快速傅里叶变换,得到与第二脉冲波形对应的频域信号。
92.本实施例的一个实现方式中,对抗网络模型的训练方法的步骤包括:
93.步骤a10,获取训练样本数据,所述训练样本数据包括若干样本数据组,每个所述样本数据组包括样本语音波段、样本第一脉冲波形和样本高频分量数据,所述样本语音波段为训练标签,所述样本语音波段与所述样本第一脉冲波形成对应关系,所述样本高频分量数据为从预设的高频分量数据集中获取的;
94.步骤a20,将与所述样本语音波段均对应的样本第一脉冲波形和所述样本高频分量数据输入预设的对抗网络模型的生成器,通过所述预设的对抗网络模型的生成器输出与所述样本语音波段对应的样本第二脉冲波形,所述样本第二脉冲波形为由所述样本第一脉冲波形叠加所述样本高频分量数据形成的;
95.步骤a30,将所述样本语音波段和与所述样本语音波段对应的样本第二脉冲波形
输入所述预设的对抗网络模型的鉴别器,通过所述预设的对抗网络模型的鉴别器输出所述样本第二脉冲波形和所述样本语音波段的真实率。
96.步骤a40,根据所述样本第一脉冲波形和所述样本第二脉冲波形,以及所述真实率对所述预设的对抗网络模型进行修正,得到已训练的对抗网络模型。
97.预设的对抗网络模采用generative adversarial nets网络,预设的对抗网络模型包括生成器和鉴别器,对对抗网络模型的训练即是训练对抗网络模型的生成器和鉴别器,得到已训练的对抗网络模型。首先获取用于训练预设对抗网络模型的训练样本数据,训练样本数据包括多个样本数据组,每个样本数据组包括样本语音波段,样本第一脉冲波形,样本高频分量数据,样本第一脉冲波形和样本高频分量数据作为预设的对抗网络模型的生成器的输入项,样本第一脉冲波形与样本语音波段成一一对应的关系,可将样本语音波段的语音特征参数和基频输入已训练的脉冲模型得到。样本高频分量数据可从预设的高频分量数据集中获得,高频分量数据集中的样本高频分量数据可以是高斯白噪声,高斯白噪声可通过对真实的语音信号进行计算获得。预设的对抗网络模型的生成器根据样本第一脉冲波形和样本高频分量数据生成样本第二脉冲波形,可以理解样本第二脉冲波形与样本语音波段也成一一对应的关系,样本第一脉冲波形为平滑波形,样本第二脉冲波形具有样本第一脉冲波形没有的样本高频分量数据。将样本第二脉冲波形与样本语音波段作为鉴别器的输入项,鉴别器计算并输出样本第二脉冲波形与样本语音波段的真实率。
98.参见图7,图7为鉴别器的结构,鉴别器包括多个卷积层,由图7可以看出将样本第二脉冲波形输入鉴别器,相邻的两个卷积层,前一个卷积层的输出为后一个卷积层的输入,卷积层的卷积核逐渐减小,最终得到的是单个数值,即真实率,鉴别器根据样本第二脉冲波形与样本语音波段若判定样本第二脉冲波形为假时,输出的真实率为0,若判定样本第二脉冲波形为真时,输出的真实率为1,鉴别器将真实率发送给生成器。
99.具体地,对预设的对抗网络模型进行修正指的是对预设的对抗网络模型中的网络参数进行修正,直至所述网络参数满足预设条件。所述预设条件包括损失函数值满足预设要求或者训练次数达到预设次数,所述预设要求可以是根据损失函数值趋于收敛的状态,所述预设系数可以为预设神经网络的最大训练次数,如4000次等。
100.进一步的,所述对抗网络模型包括生成器和鉴别器,所述生成器用于生成样本语音波段对应的样本第二脉冲波形,并期望所述样本第二脉冲波形骗过鉴别器,所述鉴别器用于判断样本第二脉冲模型的真假,所述生成器和所述鉴别器为对抗关系,而为了保证对抗网络模型中生成器和鉴别器的平衡性,在对预设的对抗网络模型进行训练时,可以采用对生成器和鉴别器的交替训练的方式。相应的,根据样本第一脉冲波形和样本第二脉冲波形以及真实率对预设的对抗网络模型进行修正,得到已训练的对抗网络模型,具体包括以下步骤:
101.步骤a41,固定所述生成器,根据所述样本语音波段和所述样本语音波段对应的所述样本第二脉冲波形对鉴别器进行训练;
102.步骤a42,固定所述鉴别器,根据所述真实率、所述样本第一脉冲波形和所述样本第二脉冲波形对所述生成器进行训练;
103.步骤a43,继续执行固定所述生成器的步骤直至所述预设的对抗网络模型满足预设条件,得到已训练的对抗网络模型。
104.具体地,所述固定所述生成器指的是固定所述生成器的网络参数,所述固定所述鉴别器指的是固定所述鉴别器的网络参数。在对所述鉴别器进行训练时,保持所述生成器的网络参数不变,而对所述生成器进行训练时,保持所述鉴别器的网络参数不变,实现交替对所述生成器和鉴别器进行训练。
105.进一步的,在本实施例的一个实现方式中,所述生成器和所述鉴别器的交替训练可以在一次训练中完成,所述交替训练的过程可以为,首先将样本第一脉冲波形和样本高频分量数据输入生成器,并且读取生成器输出的样本第二脉冲波形;其次固定所述生成器,根据样本第二脉冲波形和样本语音波形对所述鉴别器进行训练,并通过训练后的鉴别器输出样本第二脉冲波形和样本语音波形的真实率;然后,固定所述鉴别器,根据所述真实率、所述样本第一脉冲波形和所述样本第二脉冲波形对所述生成器进行训练,以实现对生成器和鉴别器的交替训练,最终得到已训练的对抗网络模型。
106.具体地,固定所述生成器,根据样本第一脉冲波形、样本第二脉冲波形以及真实率计算鉴别器的损失值,鉴别器的损失函数为:
107.其中,d为鉴别器,为样本第一脉冲波形,z为标准高斯分布的采样,x为样本第二脉冲波形,x
′
为样本第二脉冲波形的导数,鉴别器给来自样本语音波形的输出值为1,给来自样本第二脉冲波形的输出值为0。鉴别器的损失值越大,说明鉴别器判断的准确度越低,鉴别器的损失值越小,说明鉴别器判断的准确度越高。根据鉴别器的损失值对鉴别器的网络参数进行修正。
108.进一步的,在本实施例的一个实现方式中,固定所述鉴别器,根据所述样本第一脉冲波形,样本第二脉冲波形对所述生成器进行训练,具体地,计算所述生成器的损失值,所述生成器的损失函数为:
109.d
l
表示图7中鉴别器结构的l层,参见图8。根据所述生成器的损失值对所述生成器的网络参数进行修正。
110.在一些具体地实施方式中,步骤s23还包括:
111.步骤s231,将每个所述语音波段对应的第一脉冲波形和第二脉冲波形进行叠加,得到各个所述语音波段对应的第三脉冲波形;
112.步骤s232,根据基音同步叠加算法,将各个所述语音波段对应的第三脉冲波形依据各个所述语音波段的基频进行拼接,得到连续波形;
113.步骤s233,基于所述连续波形生成目标语音信号。
114.将与同一语音波段对应的第一脉冲波形和第二脉冲波形叠加,得到与所述语音波段对应的第三脉冲波形,所述第一脉冲波形输入已训练的对抗网络模型中进行处理,所述第一脉冲波形中包含的语音信息可能会出现部分遗失,所以将与同一语音波段对应的第一脉冲波形和第二脉冲波形叠加,可以弥补所述第二脉冲波形中遗失的语音信息。
115.可以理解的是,所述第三脉冲波形与所述语音波段是一一对应的关系,所以本实施例得到的是若干段的第三脉冲波形,不是一个完整的语音信号,得到一段完整的语音信号,还需将若干段的第三脉冲波形首尾连接,并且是按照时间顺序连接,否则得到的语音与真实情况不符。本实施例采用基音同步叠加算法对第三脉冲波形进行拼接,基音同步叠加算法对第三脉冲波形对应的语音波段的基频的控制,将第三脉冲波形以节距同步的方式拼
接起来,得到一个连续的波形,即连续波形。最后根据连续波形得到目标语音信号。
116.在本实施例的一个实施方式中,步骤s233还包括:
117.步骤s2331,获取各个所述语音波段的语音特征参数组成的序列对应的频谱包络;
118.步骤s2332,以所述频谱包络为声道滤波器,对所述连续波形进行过滤,得到目标语音信号。
119.频谱包络指的是初始语音信号的频谱图中所有共振峰点连接得到的平滑曲线,共振峰点指的是所述频谱图中峰值的位置点。频谱包络反映的是初始语音信号中的低频分量数据,低频分量数据指的是初始语音信号中平稳变化(可以理解的是,在预设时长内变化程度小于或等于预设阈值)的部分。将连续波形通过以所述频谱包络制成的声道滤波器,可以弥补所述连续波形中缺失的低频分量数据,得到目标语音信号。由此可知,目标语音信号含有初始语音信号中高频分量数据和低频分量数据,但不含有噪声数据,提高了由目标语音信号产生的语音的质量。
120.需要说明的是,本实施例获得频谱包络的方法并不是直接从初始语音信号的频谱图中获取,因为初始语音信号中包括很多的噪声数据,本实施例获得的频谱包络是不含有噪声数据的,所以本实施例提供了一种获取不含有噪声数据的频谱包络的方法。
121.具体地,以语音特征参数为梅尔频率倒谱系数为例,梅尔频率倒谱系数的计算是由可逆的逐点运算和线性矩阵运算构成,这两种运算在最小二乘法的意义上是伪可逆的,因此可以根据梅尔频率倒谱系数重新构建频谱包络。对初始语音信号的每个语音波段依次进行频域转换、梅尔刻度滤波器组过滤、求对数能量以及离散余弦变换得到每个语音波段的梅尔频率倒谱系数,其计算的表达式为:c=dlog(ms),c表示梅尔频率倒谱系数,s表示与语音波段对应的频域谱图中峰值对应的矩阵,m表示梅尔刻度滤波器组矩阵,d表示离散余弦变换矩阵。每个语音波段对应的频域谱图的重建过程的表达式为:表示频域谱图中峰值对应的矩阵,m
+
为m的逆矩阵,d
+
为d的逆矩阵。将每个语音波段的梅尔频率倒谱系数组成的序列代入上述的表达式中,得到初始语音信号信号对应的频域谱图中所有峰值对应的矩阵,即可绘制出频谱包络,本实施例提供的频谱包络获取方法可生成具有尖锐的共振峰结构的频谱包络。
122.综上所述,本实施例提供了一种语音处理方法,所述方法包括获取初始语音信号每个语音波段的语音特征参数和基频;根据各个所述语音波段的语音特征参数和基频生成目标语音信号。本发明通过获取初始语音信号每个语音波段的语音特征参数,以获取初始语音信号中的关键信息,过滤掉了初始语音信号中的噪声数据,又因为获取到的语音特征参数中不含有基频,进一步获取每个语音波段的基频,根据每个语音波段的语音特征参数和基频生成目标语音信号,提高了由目标语音信号产生的语音的质量。
123.本发明还提供了验证上述语音处理方法的具有很好的效果的实验。上述的语音处理方法应用了三种模型,分别是基频模型、脉冲模型和对抗网络模型,参见图9,图9中的三种实验分别为是impulse实验、dnn实验以及gan实验,impulse实验减少了上述语音处理方法中对抗网络模型的处理过程(其他的处理过程一样),dnn(deep neural networks,深度神经网络模型)实验是将上述语音处理方法中的对抗网络模型替换成dnn模型(其他的处理过程一样),gan实验即是上述语音处理方法。图9中反映的数据是主观评断数据。分别获取学生nick和学生jenny说出的15句话,每句话分别通过impulse实验、dnn实验以及gan实验
的过程进行处理,得到学生nick的15句话通过三种实验的语音,共三组,即nick的impulse语音、dnn语音和gan语音,以及学生jenny的15句话通过三种实验的语音,共三组,即jenny的impulse语音、dnn语音和gan语音,50个参与者分别听每组语音,并为听到的语音打分,打分机制为1~5分,1分最差,5分最好,图9中纵轴表示每组语音得分的平均分,由图中可以看出,无论是学生nick,还是学生jenny,均是gan语音获得的分数最高,所以经过上述实施例提供的语音处理方法得到的目标语音信号对应的语音质量最好。
124.此外,本发明实施例还提出一种语音处理装置,所述语音处理装置包括:
125.获取模块,用于获取初始语音信号每个语音波段的语音特征参数和基频;
126.生成模块,用于根据各个所述语音波段的语音特征参数和基频生成目标语音信号。
127.在一种实施方式中,所述获取模块包括:
128.第一获取单元,用于获取初始语音信号每个语音波段的语音特征参数;
129.第一输入单元,用于将每个语音波段的语音特征参数输入已训练的基频模型,得到与每个所述语音特征参数对应的基频;所述基频模型为基于样本语音特征参数以及与所述样本语音特征参数对应的基频训练而成的。
130.在一种实施方式中,所述生成模块包括:
131.第一生成单元,用于根据各个所述语音波段的语音特征参数和基频生成各个所述语音波段对应的第一脉冲波形;
132.确定单元,用于根据各个所述语音波段对应的第一脉冲波形确定各个所述语音波段对应的第二脉冲波形;
133.第二生成单元,用于根据各个所述语音波段对应的第一脉冲波形和第二脉冲波形生成目标语音信号。
134.在一种实施方式中,所述第一生成单元包括:
135.第一输入子单元,用于将各个所述语音波段的语音特征参数和基频输入已训练的脉冲模型,得到各个语音波段对应的第一脉冲波形;所述脉冲模型为基于样本语音波段的语音特征参数和基频,与样本第一脉冲波形之间的对应关系训练而成的。
136.在一种实施方式中,所述确定单元包括:
137.第二输入子单元,用于将各个所述语音波段对应的第一脉冲波形输入已训练的对抗网络模型的生成器;
138.第一生成子单元,用于通过所述已训练的对抗网络模型的生成器生成各个所述语音波段对应的第二脉冲波形。
139.在一种实施方式中,所述第二生成单元包括:
140.叠加子单元,用于将每个所述语音波段对应的第一脉冲波形和第二脉冲波形进行叠加,得到各个所述语音波段对应的第三脉冲波形;
141.拼接子单元,用于根据基音同步叠加算法,将各个所述语音波段对应的第三脉冲波形依据各个所述语音波段的基频进行拼接,得到连续波形;
142.第二生成子单元,用于基于所述连续波形生成目标语音信号。
143.在一种实施方式中,所述第一获取单元还用于获取各个所述语音波段的语音特征参数组成的序列对应的频谱包络;
144.所述第二生成子单元还包括过滤子单元,用于以所述频谱包络为声道滤波器,对所述连续波形进行过滤,得到目标语音信号。
145.在一种实施方式中,所述语音处理装置还包括训练模块,所述训练模块包括:
146.第二获取单元,用于获取训练样本数据,所述训练样本数据包括若干样本数据组,每个所述样本数据组包括样本语音波段、样本第一脉冲波形和样本高频分量数据,所述样本语音波段为训练标签,所述样本语音波段与所述样本第一脉冲波形成对应关系,所述样本高频分量数据为从预设的高频分量数据集中获取的;
147.第二输入单元,用于将与所述样本语音波段均对应的样本第一脉冲波形和所述样本高频分量数据输入预设的对抗网络模型的生成器;
148.第一输出单元,用于通过所述预设的对抗网络模型的生成器输出与所述样本语音波段对应的样本第二脉冲波形,所述样本第二脉冲波形为由所述样本第一脉冲波形叠加所述样本高频分量数据形成的;
149.第三输入单元,用于将所述样本语音波段和与所述样本语音波段对应的样本第二脉冲波形输入所述预设的对抗网络模型的鉴别器;
150.第二输出单元,用于通过所述预设的对抗网络模型的鉴别器输出所述样本第二脉冲波形和所述样本语音波段的真实率。
151.修正单元,用于根据所述样本第一脉冲波形和所述样本第二脉冲波形,以及所述真实率对所述预设的对抗网络模型进行修正,得到已训练的对抗网络模型。
152.在一种实施方式中,所述修正单元包括:
153.第一固定模块,用于固定所述生成器;
154.第一训练单元,用于根据所述样本语音波段和所述样本语音波段对应的所述样本第二脉冲波形对鉴别器进行训练;
155.第二固定模块,用于固定所述鉴别器;
156.第二训练单元,用于根据所述真实率、所述样本第一脉冲波形和所述样本第二脉冲波形对所述生成器进行训练;
157.所述第一固定模块还用于继续执行固定所述生成器的步骤直至所述预设的对抗网络模型满足预设条件,得到已训练的对抗网络模型。
158.基于上述训练样本的扩充方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的语音处理方法中的步骤。
159.基于上述语音处理方法,本发明还提供了一种语音处理设备,如图10所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(communications interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
160.此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
161.存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行
程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
162.存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据语音处理设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
163.此外,上述存储介质以及语音处理设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
164.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。