语音修复方法、装置、电子设备及存储介质与流程

文档序号:33712520发布日期:2023-04-01 00:30阅读:71来源:国知局
语音修复方法、装置、电子设备及存储介质与流程

1.本发明涉及通信技术领域,尤其涉及一种语音修复方法、装置、电子设备及存储介质。


背景技术:

2.语音修复是将去噪可能失真的待修复语音信号还原为正常语音信号的过程,它是语音识别系统、数字助听器、智能音箱和军事窃听设备等重要的前端组成部分。目前一般通过频谱映射的方法结合深度学习来实现语音降噪,具体通过预估音频每一帧的先验信噪比,然后结合语音增强算法的方法去对修复音频的幅度谱进行修改,保持原先含噪信号的相位不变,从而生成新的去噪音频,但是这种方式在对语音去噪的同时引入语音失真,从而导致了现有技术中语音降噪效果较差的问题。


技术实现要素:

3.本发明提供了一种语音修复方法、装置、电子设备及存储介质,解决了现有技术中语音降噪效果较差的问题。
4.第一方面,本发明提供了一种语音修复方法,包括:
5.获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值,所述逻辑回归激活值用于指示所述修复音频与所述纯净音频的差异值,所述修复音频通过将待修复音频输入到预训练的第二语音模型中获得;
6.将所述逻辑回归激活值作为损失值对所述预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型;
7.将待修复语音输入到所述更新后的第二语音模型进行语音修复,输出修复语音。
8.可选的,所述获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值之前,所述方法还包括:
9.获取第一训练样本,所述第一训练样本包括修复音频样本和纯净音频样本;
10.通过第一训练样本对预先创建的语音特征提取模型进行训练,得到所述第一语音模型,所述第一语音模型用于提取所述修复音频样本和所述纯净音频样本之间的差异值。
11.可选的,所述第一语音模型包括按照预设顺序依次连接的多层卷积层,且所述多层卷积层的第一膨胀系数按照所述预设顺序依次增加,所述多层卷积层中每层卷积层均连接有一个非线性的第一修正线性单元激活函数。
12.可选的,所述获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值,包括:
13.获取修复音频和纯净音频并输入到预训练的第一语音模型中;
14.基于多个所述非线性的第一修正线性单元激活函数对所述修复音频和所述纯净音频的差异值进行加权损失计算,得到逻辑回归激活值。
15.可选的,所述将所述逻辑回归激活值作为损失值对所述预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型之前,所述方法还包括:
16.获取第二训练样本,所述第二训练样本包括待修复语音样本;
17.通过第二训练样本对预先创建的语音修复模型进行训练,得到所述第二语音模型,所述第二语音模型用于对所述待修复语音样本进行语音修复。
18.可选的,所述第二语音模型包括按照预设顺序依次连接的多个空洞卷积单元,且所述多个空洞卷积单元的第二膨胀系数按照所述预设顺序依次增加,所述多个空洞卷积单元中每个空洞卷积单元均连接有一个非线性的第二修正线性单元激活函数且所述多个空洞卷积单元与一个卷积合成单元连接。
19.可选的,所述将所述逻辑回归激活值作为损失值对预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型,包括:
20.将所述逻辑回归激活值作为损失值对预训练的第二语音模型的损失函数进行更新,得到所述第二语音模型,其中,所述第二语音模型的模型精度满足预设精度要求,所述预设精度要求根据所述待修复语音的需求修复程度确定。
21.第二方面,本发明还提供了一种语音修复装置,所述装置包括:
22.获取模块,用于获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值,所述逻辑回归激活值用于指示所述修复音频与所述纯净音频的差异值,所述修复音频通过将待修复音频输入到预训练的第二语音模型中获得;
23.更新模块,用于将所述逻辑回归激活值作为损失值对所述预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型;
24.修复模块,用于将待修复语音输入到所述更新后的第二语音模型进行语音修复,输出修复语音。
25.第三方面,本发明还提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面中任一项所述的语音修复方法的步骤。
26.第四方面,本发明还提供了一种计算机可读存储介质,其特征在于,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如第二方面中任一项所述的语音修复方法的步骤。
27.本发明提供一种语音修复方法,所述方法包括:获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值,所述逻辑回归激活值用于指示所述修复音频与所述纯净音频的差异值,所述修复音频通过将待修复音频输入到预训练的第二语音模型中获得;将所述逻辑回归激活值作为损失值对所述预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型;将待修复语音输入到所述更新后的第二语音模型进行语音修复,输出修复语音。本发明提供的一种语音修复方法,通过将修复音频和纯净音频输入到第一语音模型中输出修复音频与纯净音频之间的差异值,并将差异值作为损失值对第二语音模型进行
更新,从而将修复语音输入到第二语音模型进行语音修复,提高了语音修复的效果。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
29.图1为本发明实施例提供的一种语音修复方法的流程示意图;
30.图2为本发明实施例中网络模型的结构示意图;
31.图3为本发明实施例提供的一种语音修复装置的结构示意图;
32.图4为本发明实施例电子设备的结构示意图。
具体实施方式
33.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本技术保护的范围。
34.在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
35.此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本技术的范围的情况下,可以将第一速度差值为第二速度差值,且类似地,可将第二速度差值称为第一速度差值。第一速度差值和第二速度差值两者都是速度差值,但其不是同一速度差值。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
36.本技术实施例提供了一种语音修复方法,如图1所示,该方法的步骤包括:
37.步骤101、获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值,所述逻辑回归激活值用于指示所述修复音频与所述纯净音频的差异值,所述修复音频通过将待修复音频输入到预训练的第二语音模型中获得。
38.在本实施例中,修复音频是指将待修复音频通过预训练的第二语音模型中进行修复后获得,而纯净音频是原始纯净音频,需要进行说明的是,可以将同一段包含噪声的音频进行去噪处理后得到修复音频和纯净音频。第一语音模型可以为深度学习模型,在本实施例中对模型的种类和结构不作出具体限制,能够对修复音频和纯净音频进行特征提取即可。
39.其中,输入的修复音频和纯净音频为16khz单通道格式,通过将格式进行统一便于比较修复音频和纯净音频之间的差异值。
40.具体地,将修复音频和纯净音频输入到提前训练好的第一语音模型进行特征提取,第一语音模型会输出逻辑回归激活值,需要进行说明的是,逻辑回归激活值代表了修复音频和纯净音频之间多个维度上的差异,例如音质差异、分贝差异等等。
41.步骤102、将所述逻辑回归激活值作为损失值对所述预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型。
42.在本实施例中,第二语音模型与第一语音模型相同,也是属于深度学习模型,与第一语音模型不同之处在于,第二语音模型能够将语音增强过程中有损伤的语音进行修复,从而解决语音失真的问题。
43.具体地,通过将第一语音模型输出的逻辑回归激活值作为第二语音模型的损失值对第二语音模型进行更新,使得第二语音模型能够更好地识别修复音频和纯净音频之间的差异,从而更好地对待修复语音进行修复。
44.步骤103、将待修复语音输入到所述更新后的第二语音模型进行语音修复,输出修复语音。
45.在本实施例中,待修复语音是指包含噪声或者失真等情况的语音,其中存在杂音影响了用户的听感。通过将待修复语音输入到更新后的第二语音模型中,对待修复语音进行修复,从而输出修复完成的修复语音,有效地根据修复音频和纯净音频之间差异值对待修复语音进行修复,提高了语音修复的效果,从而提示了用户的体验。
46.本发明提供一种语音修复方法,所述方法包括获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值,所述逻辑回归激活值用于指示所述修复音频与所述纯净音频的差异值,所述修复音频通过将待修复音频输入到预训练的第二语音模型中获得;将所述逻辑回归激活值作为损失值对所述预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型;将待修复语音输入到所述更新后的第二语音模型进行语音修复,输出修复语音。本发明提供的一种语音修复方法,通过将修复音频和纯净音频输入到第一语音模型中输出修复音频与纯净音频之间的差异值,并将差异值作为损失值对第二语音模型进行更新,从而将修复语音输入到第二语音模型进行语音修复,提高了语音修复的效果。
47.在其他实施例中,可选的,所述获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值之前,所述方法还包括:
48.获取第一训练样本,所述第一训练样本包括修复音频样本和纯净音频样本;
49.通过第一训练样本对预先创建的语音特征提取模型进行训练,得到所述第一语音模型,所述第一语音模型用于提取所述修复音频样本和所述纯净音频样本之间的差异值。
50.在本实施例中,第一语音模型为语音特征提取模型,其中,首先获取未训练的语音特征提取模型,通过第一训练样本对取未训练的语音特征提取模型进行训练。具体地,第一训练样本包括大量的修复音频样本和纯净音频样本,其中纯净音频样本可以通过对修复音频样本进行去噪处理后获得,而修复音频样本可以通过对纯净音频样本添加噪声进行获得,具体获取方式在本实施例中不做具体限定。
51.在通过大量第一训练样本对语音特征提取模型训练之后,不断更新其中参数,从而获得训练好的语音特征提取模型,并将该训练好的语音特征提取模型作为第一语音模型,输入修复音频和纯净音频后,第一语音模型能输出修复音频样本和纯净音频样本之间的差异值。
52.可选的,所述第一语音模型包括按照预设顺序依次连接的多层卷积层,且所述多层卷积层的第一膨胀系数按照所述预设顺序依次增加,所述多层卷积层中每层卷积层均连接有一个非线性的第一修正线性单元激活函数。
53.以图2为例进行说明,在本实施例中,第二语音模型中为音频分类深度网络,参阅图2,图2为第二语音模型的结构示意图,主要是对音频进行特征提取,此网络是受vgg在计算机视觉领域的成功设计的,它已经被证明是有效的特征损失架构。具体地,此网络结构包含15层洞卷积(或者称为空洞卷积),卷积核大小为3*1,洞卷积的激活函数为非线性的第一修正线性单元激活函数,步幅为[1,2]。需要进行说明的是,图2中的卷积合成层可以为卷积合成单元。
[0054]
可选的,所述获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值,包括:
[0055]
获取修复音频和纯净音频并输入到预训练的第一语音模型中;
[0056]
基于多个所述非线性的第一修正线性单元激活函数对所述修复音频和所述纯净音频的差异值进行加权损失计算,得到逻辑回归激活值。
[0057]
在本实施例中,本发明中定义的损失为音频分类深度网络中不同层特征逻辑激活值之间差异的l1加权损失。具体公式如下所示:
[0058][0059]
其中,β代表的是纯净音频,g(x)代表的是待修复音频,m表示分类网络的某一层,不同的层数对应音频在不同时间分辨率上的特征,φ函数就是音频在每一层输出的激活值。通过每层卷积层的差异值进行加权计算,从而更好地确定了修复音频和纯净音频之间的差异值,使得第二语音模型的修复效果更好。
[0060]
在本实施例中,convolution(卷积单元):对特征进行进一步的深层提取以及对场景特征进行特征抽取,并且有效的降低了网络的计算复杂度。卷积层利用卷积操作对输入数据进行特征提取。对于一个输入特征图,输出特征图的大小由卷积核、步长和填充(padding)三个参数确定。其中,卷积核用于对输入特征进行提取,当一个卷积神经网络的卷积核越多,产生的特征图越多,网络的内部结构越复杂;步长是指在进行特征提取时,每一次卷积核在输入矩阵上移动的距离;相比于特征图中间的像素点,边缘的像素点在卷积中被计算的次数很少,会导致边缘的信息就易于丢失,而填充项则是通过对输入矩阵进行边缘填充,确保边缘的像素点信息也能够得到充分利用。卷积层最大的特点是其强大的特征学习能力,尽管在第一层卷积层只能从原始数据中获得一些简单的特征信息,但经过不断地训练和反向传播可以从原始特征中提取出高级特征信息,避免了复杂的特征工程。卷积核具有局部属性,它只关注局部特征,与特征在哪个位置无关,而局部的程度就由卷积核
的大小来决定。一般卷积核的大小远小于输入尺寸,使得卷积神经网络中很多的连接其实都是稀疏连接,需要存储的可训练参数较少,在效率上较普通神经网络模型提高了一大截。卷积神经网络另外一个最大的特点就是权值共享,权值共享是通过卷积核的滑动来实现的,目的是在模型输入的不同位置提取同一种特征,这也是卷积神经网络具有平移不变性的原因。
[0061]
dilated convolution(空洞卷积单元):空洞卷积也叫扩张卷积或者膨胀卷积,简单来说就是在卷积核元素之间加入一些空格(零)来扩大卷积核的过程。引入空洞卷积不得不提的是感受野,感受野就是卷积神经网络的每一层输出的特征图(feature map)上的像素点在原图像上映射的区域大小。空洞卷积主要为了解决图像分割中的一些问题而提出的,在fcn中通过pooling(池化)增大感受野缩小图像尺寸,然后通过upsampling(上采样)还原图像尺寸,但是这个过程中造成了精度的损失,那么为了减小这种损失理所当然想到的是去掉pooling层,然而这样就导致特征图感受野太小,因此空洞卷积应运而生。它的好处就是在不做pooling损失信息的情况下,加大了感受野,让每个卷积输出都包含较大范围的信息。在图像需要全局信息或者语音文本需要较长的sequence(序列)信息依赖的问题中,都能很好的应用dilated conv(空洞卷积层)。
[0062]
本发明设计的语音修复模型包含11层空洞卷积,卷积核大小为3*1,卷积层的激活函数为非线性的relu激活函数,卷积扩张率(dilation rate)第一层为2,此后每一层均乘2,最后一层的卷积扩张率为1024。
[0063]
通过实验结果以及说明进行进一步解释:实验结果显示经过修复后的语音相较于修复前的语音pesq(语音质量的感知评估)值有提升,初步达到预期效果。通过实验可以证明采用音频分类深度网络提取的特征可以很好的表征待修复语音和纯净语音,在语音修复领域有很大的发展前景;且采用空洞卷积可以在降低模型复杂度的前提下提升模型表现效果。
[0064]
可选的,所述将所述逻辑回归激活值作为损失值对所述预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型之前,所述方法还包括:
[0065]
获取第二训练样本,所述第二训练样本包括待修复语音样本;
[0066]
通过第二训练样本对预先创建的语音修复模型进行训练,得到所述第二语音模型,所述第二语音模型用于对所述待修复语音样本进行语音修复。
[0067]
在本实施例中,第二语音模型为语音修复模型,其中,首先获取未训练的语音修复模型,通过第二训练样本对取未训练的语音修复模型进行训练。具体地,第二训练样本包括大量待修复语音样本,其中该修复语音样本可以为包含噪声或者存在语音失真情况的音频。
[0068]
在通过大量第二训练样本对语音修复模型训练之后,不断更新其中参数,从而获得训练好的语音修复模型,并将该训练好的语音修复模型作为第二语音模型,输入待修复语音后,第二语音模型能输出修复完成的修复语音。
[0069]
可选的,所述第二语音模型包括按照预设顺序依次连接的多个空洞卷积单元,且所述多个空洞卷积单元的第二膨胀系数按照所述预设顺序依次增加,所述多个空洞卷积单元中每个空洞卷积单元均连接有一个非线性的第二修正线性单元激活函数且所述多个空洞卷积单元与一个卷积合成单元连接。
[0070]
在本实施例中,语音修复模型所使用的loss损失就是语音特征提取模型中待修复语音特征与纯净语音特征的区别,在本实施例中,语音修复模型中包括多个按预设顺序依次连接的空洞卷积单元,本发明设计的语音修复模型包含11层空洞卷积,卷积核大小为3*1,卷积层的激活函数为非线性的relu激活函数,卷积扩张率第一层为2,此后每一层均乘2,最后一层的卷积扩张率为1024。
[0071]
需要进行说明的是,空洞卷积也叫扩张卷积或者膨胀卷积,简单来说就是在卷积核元素之间加入一些空格(零)来扩大卷积核的过程。引入空洞卷积不得不提的是感受野,感受野就是卷积神经网络的每一层输出的特征图上的像素点在原图像上映射的区域大小。空洞卷积主要为了解决图像分割中的一些问题而提出的,在fcn中通过池化增大感受野缩小图像尺寸,然后通过上采样还原图像尺寸,但是这个过程中造成了精度的损失,那么为了减小这种损失理所当然想到的是去掉池化层,然而这样就导致特征图感受野太小,因此空洞卷积应运而生。它的好处就是在不做池化损失信息的情况下,加大了感受野,让每个卷积输出都包含较大范围的信息。在图像需要全局信息或者语音本需要较长的序列信息依赖的问题中,都能很好的应用空洞卷积层。
[0072]
通过采用空洞卷积可以在降低模型复杂度的前提下提升模型表现效果。
[0073]
可选的,所述将所述逻辑回归激活值作为损失值对预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型,包括:
[0074]
将所述逻辑回归激活值作为损失值对预训练的第二语音模型的损失函数进行更新,得到所述第二语音模型,其中,所述第二语音模型的模型精度满足预设精度要求,所述预设精度要求根据所述待修复语音的需求修复程度确定。
[0075]
在本实施例中,在逻辑回归激活值作为损失值对预训练的第二语音模型进行参数更新时,可以重复多次这个过程,直到第二语音模型的模型精度满足预设精度要求,其中,预设精度要求根据述待修复语音的需求修复程度确定,需求修复程度可以由用户或者使用人员自行输入。
[0076]
本发明提供一种语音修复方法,所述方法包括:获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值,所述逻辑回归激活值用于指示所述修复音频与所述纯净音频的差异值,所述修复音频通过将待修复音频输入到预训练的第二语音模型中获得;将所述逻辑回归激活值作为损失值对所述预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型;将待修复语音输入到所述更新后的第二语音模型进行语音修复,输出修复语音。本发明提供的一种语音修复方法,通过将修复音频和纯净音频输入到第一语音模型中输出修复音频与纯净音频之间的差异值,并将差异值作为损失值对第二语音模型进行更新,从而将修复语音输入到第二语音模型进行语音修复,提高了语音修复的效果。
[0077]
本发明还提供了一种语音修复装置,该装置200,如图3所示,该语音修复装置200包括:
[0078]
获取模块210,用于获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值,所述逻辑回归激活值用于指示所述修复音频与所述纯净音频的差异值,所述修复音频通过将待修复音频输入到预训练的第二语音模型中获得。
[0079]
更新模块220,用于将所述逻辑回归激活值作为损失值对所述预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型。
[0080]
修复模块230,用于将待修复语音输入到所述更新后的第二语音模型进行语音修复,输出修复语音。
[0081]
可选的,还包括:
[0082]
第一模型获取模块,用于获取第一训练样本,所述第一训练样本包括修复音频样本和纯净音频样本;
[0083]
第一模型训练模块,用于通过第一训练样本对预先创建的语音特征提取模型进行训练,得到所述第一语音模型,所述第一语音模型用于提取所述修复音频样本和所述纯净音频样本之间的差异值。
[0084]
可选的,还包括:
[0085]
所述第一语音模型包括按照预设顺序依次连接的多层卷积层,且所述多层卷积层的第一膨胀系数按照所述预设顺序依次增加,所述多层卷积层中每层卷积层均连接有一个非线性的第一修正线性单元激活函数。
[0086]
可选的,获取模块210包括:
[0087]
第一获取子模块,用于获取修复音频和纯净音频并输入到预训练的第一语音模型中;
[0088]
第一计算子模块,用基于多个所述非线性的第一修正线性单元激活函数对所述修复音频和所述纯净音频的差异值进行加权损失计算,得到所述第一语音模型输出的逻辑回归激活值逻辑回归激活值。
[0089]
可选的,还包括:
[0090]
第二模型获取模块,用于获取第二训练样本,所述第二训练样本包括待修复语音样本;
[0091]
第二模型训练模块,用于通过第二训练样本对预先创建的语音修复模型进行训练,得到所述第二语音模型,所述第二语音模型用于对所述待修复语音样本进行语音修复。
[0092]
可选的,所述第二语音模型包括按照预设顺序依次连接的多个空洞卷积单元,且所述多个空洞卷积单元的第二膨胀系数按照所述预设顺序依次增加,所述多个空洞卷积单元中每个空洞卷积单元均连接有一个非线性的第二修正线性单元激活函数。
[0093]
可选的,更新模块220,包括:
[0094]
更新子模块,用于将所述逻辑回归激活值作为损失值对预训练的第二语音模型的损失函数进行更新,得到所述第二语音模型,其中,所述第二语音模型的模型精度满足预设精度要求,所述预设精度要求根据所述待修复语音的需求修复程度确定。
[0095]
本发明提供的一种语音修复装置,通过将修复音频和纯净音频输入到第一语音模型中输出修复音频与纯净音频之间的差异值,并将差异值作为损失值对第二语音模型进行更新,从而将修复语音输入到第二语音模型进行语音修复,提高了语音修复的效果。
[0096]
图4为本发明实施例提供的一种电子设备的结构示意图,如图4所示,该电子设备300包括存储器310、处理器320,电子设备300中处理器320的数量可以是一个或多个,图4中以一个处理器320为例;服务器中的存储器310、处理器320可以通过总线或其他方式连接,图4中以通过总线连接为例。
[0097]
存储器310作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的标题的生成方法对应的程序指令/模块,处理器320通过运行存储在存储器310中的软件程序、指令以及模块,从而执行服务器/终端/服务器的各种功能应用以及数据处理,即实现上述的语音修复方法。
[0098]
其中,处理器320用于运行存储在存储器310中的计算机程序,实现如下步骤:
[0099]
获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值,所述逻辑回归激活值用于指示所述修复音频与所述纯净音频的差异值,所述修复音频通过将待修复音频输入到预训练的第二语音模型中获得;
[0100]
将所述逻辑回归激活值作为损失值对所述预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型;
[0101]
将待修复语音输入到所述更新后的第二语音模型进行语音修复,输出修复语音。
[0102]
可选的,所述获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值之前,所述方法还包括:
[0103]
获取第一训练样本,所述第一训练样本包括修复音频样本和纯净音频样本;
[0104]
通过第一训练样本对预先创建的语音特征提取模型进行训练,得到所述第一语音模型,所述第一语音模型用于提取所述修复音频样本和所述纯净音频样本之间的差异值。
[0105]
可选的,所述第一语音模型包括按照预设顺序依次连接的多层卷积层,且所述多层卷积层的第一膨胀系数按照所述预设顺序依次增加,所述多层卷积层中每层卷积层均连接有一个非线性的第一修正线性单元激活函数。
[0106]
可选的,所述获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值,包括:
[0107]
获取修复音频和纯净音频并输入到预训练的第一语音模型中;
[0108]
基于多个所述非线性的第一修正线性单元激活函数对所述修复音频和所述纯净音频的差异值进行加权损失计算,得到逻辑回归激活值。
[0109]
可选的,所述将所述逻辑回归激活值作为损失值对预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型之前,所述方法还包括:
[0110]
获取第二训练样本,所述第二训练样本包括待修复语音样本;
[0111]
通过第二训练样本对预先创建的语音修复模型进行训练,得到所述第二语音模型,所述第二语音模型用于对所述待修复语音样本进行语音修复。
[0112]
可选的,所述第二语音模型包括按照预设顺序依次连接的多个空洞卷积单元,且所述多个空洞卷积单元的第二膨胀系数按照所述预设顺序依次增加,所述多个空洞卷积单元中每个空洞卷积单元均连接有一个非线性的第二修正线性单元激活函数。
[0113]
可选的,所述将所述逻辑回归激活值作为损失值对预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型,包括:
[0114]
将所述逻辑回归激活值作为损失值对预训练的第二语音模型的损失函数进行更新,得到所述第二语音模型,其中,所述第二语音模型的模型精度满足预设精度要求,所述
预设精度要求根据所述待修复语音的需求修复程度确定。
[0115]
本发明通过将修复音频和纯净音频输入到第一语音模型中输出修复音频与纯净音频之间的差异值,并将差异值作为损失值对第二语音模型进行更新,从而将修复语音输入到第二语音模型进行语音修复,提高了语音修复的效果。
[0116]
存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至服务器/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0117]
本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种语音修复方法,该方法包括:
[0118]
获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值,所述逻辑回归激活值用于指示所述修复音频与所述纯净音频的差异值,所述修复音频通过将待修复音频输入到预训练的第二语音模型中获得;
[0119]
将所述逻辑回归激活值作为损失值对所述预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型;
[0120]
将待修复语音输入到所述更新后的第二语音模型进行语音修复,输出修复语音。
[0121]
可选的,所述获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值之前,所述方法还包括:
[0122]
获取第一训练样本,所述第一训练样本包括修复音频样本和纯净音频样本;
[0123]
通过第一训练样本对预先创建的语音特征提取模型进行训练,得到所述第一语音模型,所述第一语音模型用于提取所述修复音频样本和所述纯净音频样本之间的差异值。
[0124]
可选的,所述第一语音模型包括按照预设顺序依次连接的多层卷积层,且所述多层卷积层的第一膨胀系数按照所述预设顺序依次增加,所述多层卷积层中每层卷积层均连接有一个非线性的第一修正线性单元激活函数。
[0125]
可选的,所述获取修复音频和纯净音频,并将所述修复音频和所述纯净音频输入到预训练的第一语音模型进行特征提取,得到所述第一语音模型输出的逻辑回归激活值,包括:
[0126]
获取修复音频和纯净音频并输入到预训练的第一语音模型中;
[0127]
基于多个所述非线性的第一修正线性单元激活函数对所述修复音频和所述纯净音频的差异值进行加权损失计算,得到逻辑回归激活值。
[0128]
可选的,所述将所述逻辑回归激活值作为损失值对预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型之前,所述方法还包括:
[0129]
获取第二训练样本,所述第二训练样本包括待修复语音样本;
[0130]
通过第二训练样本对预先创建的语音修复模型进行训练,得到所述第二语音模型,所述第二语音模型用于对所述待修复语音样本进行语音修复。
[0131]
可选的,所述第二语音模型包括按照预设顺序依次连接的多个空洞卷积单元,且所述多个空洞卷积单元的第二膨胀系数按照所述预设顺序依次增加,所述多个空洞卷积单元中每个空洞卷积单元均连接有一个非线性的第二修正线性单元激活函数。
[0132]
可选的,所述将所述逻辑回归激活值作为损失值对预训练的第二语音模型的参数进行更新,得到更新后的第二语音模型,包括:
[0133]
将所述逻辑回归激活值作为损失值对预训练的第二语音模型的损失函数进行更新,得到所述第二语音模型,其中,所述第二语音模型的模型精度满足预设精度要求,所述预设精度要求根据所述待修复语音的需求修复程度确定。
[0134]
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的一种标题的生成方法中的相关操作。
[0135]
本发明通过将修复音频和纯净音频输入到第一语音模型中输出修复音频与纯净音频之间的差异值,并将差异值作为损失值对第二语音模型进行更新,从而将修复语音输入到第二语音模型进行语音修复,提高了语音修复的效果。
[0136]
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0137]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0138]
存储介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0139]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0140]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,
本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1