一种音色转换方法、装置、设备及存储介质与流程

文档序号：33556840发布日期：2023-03-22 12:17阅读：54来源：国知局

1.本技术实施例涉及音频处理技术领域，尤其涉及一种音色转换方法、装置、设备及存储介质。

背景技术：

2.随着音频处理技术的发展，对音频的处理方式也越来越丰富，例如对原始音频进行音色转换处理得到不同音色的音频。音色转换广泛运用于音频内容生成、娱乐音频制作和保密通话等场景。
3.音色转换是一种保持原始音频的内容信息不变的前提下，把其音色转换为目标音色的技术。音色转换技术的难点在于如何保持原始音频的内容信息从而进行音色变换，现有的音色转换技术能够保持音频的内容，但是会丢失原始音频中的语气信息，导致音色转换效果不佳。

技术实现要素：

4.本技术实施例提供一种音色转换方法、装置、设备及存储介质，以解决相关技术中音色转换技术会丢失原始音频中的语气信息，导致音色转换效果不佳的技术问题，在转换得到的语音信息中保留原始音频的语气信息，有效提高音色转换效果。
5.在第一方面，本技术实施例提供了一种音色转换方法，包括：
6.获取待转换语音信息；
7.将所述待转换语音信息输入至设定的音色转换模型，由所述音色转换模型将所述待转换语音信息的内容特征以及语气特征进行结合得到内容语气特征，并基于设定的音色特征对所述内容语气特征进行音色转换处理，以得到目标语音信息；
8.输出所述音色转换模型输出的所述目标语音信息。
9.在第二方面，本技术实施例提供了一种音色转换装置，包括语音获取模块、音色转换模块和语音输出模块，其中：
10.所述语音获取模块，配置为获取待转换语音信息；
11.所述音色转换模块，配置为将所述待转换语音信息输入至设定的音色转换模型，由所述音色转换模型将所述待转换语音信息的内容特征以及语气特征进行结合得到内容语气特征，并基于设定的音色特征对所述内容语气特征进行音色转换处理，以得到目标语音信息；
12.所述语音输出模块，配置为输出所述音色转换模型输出的所述目标语音信息。
13.在第三方面，本技术实施例提供了一种音色转换设备，包括：存储器以及一个或多个处理器；
14.所述存储器，用于存储一个或多个程序；
15.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的音色转换方法。
16.在第四方面，本技术实施例提供了一种存储计算机可执行指令的非易失性存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的音色转换方法。
17.在第五方面，本技术实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中，设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序，使得设备执行如第一方面所述的音色转换方法。
18.本技术实施例通过将待转换语音信息输入到音色转换模型中，由音色转换模型将待转换语音信息的内容特征以及语气特征进行结合得到内容语气特征，并基于设定的音色特征对内容语气特征进行音色转换处理，以得到目标语音信息，并输出音色转换模型输出的目标语音信息，在转换得到的目标语音信息中保留了原始的待转换语音信息的语气信息，有效提高音色转换效果。
附图说明
19.图1是本技术实施例提供的一种音色转换方法的流程图；
20.图2是本技术实施例提供的一种音色转换模型的结构示意图；
21.图3是本技术实施例提供的一种基于音色转换模型对待转换语音信息进行音色转换的流程示意图；
22.图4是本技术实施例提供的一种动态权重模型结构示意图；
23.图5是本技术实施例提供的一种基于音色转换模型对内容特征和语气补充特征的合并流程示意图；
24.图6是本技术实施例提供的一种音色转换装置的结构示意图；
25.图7是本技术实施例提供的一种音色转换设备的结构示意图。
具体实施方式
26.为了使本技术的目的、技术方案和优点更加清楚，下面结合附图对本技术具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本技术，而非对本技术的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本技术相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时上述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。上述处理可以对应于方法、函数、规程、子例程、子程序等等。
27.图1给出了本技术实施例提供的一种音色转换方法的流程图，本技术实施例提供的音色转换方法可以由音色转换装置来执行，该音色转换装置可以通过硬件和/或软件的方式实现，并集成在音色转换设备中。
28.下述以音色转换装置执行音色转换方法为例进行描述。参考图1，该音色转换方法包括：
29.s101：获取待转换语音信息。
30.示例性的，获取需要进行音色转换的待转换语音信息。本方案提供的待转换语音
信息可理解为需要进行音色转换的原始音频，待转换语音可以是通过音色转换设备进行声音采集得到、基于本地保存的音频文件进行选择得到，还可以是通过网络进行下载得到、通过实时采集音频流(例如在采集声音的同时输出转换音色后的声音)得到或者是从视频文件或视频流中提取音频信息得到。在一个可能的实施例中，待转换语音信息可以是原始音频对应的梅尔频谱(mel spectrogram)。
31.在相关技术中，对待转换语音信息的音色转换一般是通过基于asr(automatic speech recognition，自动语音识别技术)的方式进行。但是基于asr的音色转换是针对识别内容进行设计的，会忽略语音中的语气语调等非内容信息，音色转换后的音频会丢失语气信息(例如叹气、尖叫等语气语调信息)，音色转换效果一般。本方案通过音色转换模型将待转换语音信息的内容特征以及语气特征进行结合得到内容语气特征，并基于设定的音色特征对内容语气特征进行音色转换处理，以得到目标语音信息，并输出音色转换模型输出的目标语音信息，在转换得到的目标语音信息中保留了原始的待转换语音信息的语气信息，有效提高音色转换效果。
32.s102：将待转换语音信息输入至设定的音色转换模型，由音色转换模型将待转换语音信息的内容特征以及语气特征进行结合得到内容语气特征，并基于设定的音色特征对内容语气特征进行音色转换处理，以得到目标语音信息。
33.示例性的，在获取需要转换音色的待转换语音信息后，将待转换语音信息发送到预先设定的音色转换模型中，由音色转换模型对待转换语音信息进行音色转换处理得到目标语音信息。
34.其中，音色转换模型在对待转换语音信息进行音色转换处理时，先从待转换语音信息中提取内容特征以及语气特征，将内容特征以及语气特征进行结合得到包含内容和语气的内容语气特征，并基于设定的音色特征对内容语气特征进行音色转换处理得到目标语音信息。此时目标语音信息将包含有上述设定的音色特征对应的目标音色以及待转换语音信息对应的语气，即得到的目标语音信息的音色转换为目标音色，并且保留有待转换语音信息对应的语气的目标语音信息。其中，音色转换模型的训练可通过梯度下降调整网络参数的方式进行，使得音色转换模型的损失函数不断变小，从而使音色转换模型学习到变声并保留语气的能力。其中，不同的音色特征对应不同的音色，可根据对音色转换的需要确定对应的目标音色，并将该目标音色对应的音色特征确定为设定的音色特征。
35.在一个可能的实施例中，如图2提供的一种音色转换模型的结构示意图所示，本方案提供的音色转换模型包括语气补充网络、内容整合网络以及音色转换网络。音色转换模型通过语气补充网络、内容整合网络以及音色转换网络将上述获取的待转换语音信息的内容特征(asr-ppg)以及语气特征(nsp-ppg)进行结合得到内容语气特征，并基于设定的音色特征对内容语气特征进行音色转换处理得到目标语音信息。其中，ppg(phonetic posteriorgrams)即语音后验概率，ppg是一个时间对类别的矩阵，其表示对于一个话语的每个特定时间帧，每个语音类别的后验概率。其中，语气特征包括待转换语音信息中所反映的语气和语调对应的特征(ppg)。
36.在一个可能的实施例中，如图3提供的一种基于音色转换模型对待转换语音信息进行音色转换的流程示意图所示，本方案提供的音色转换模型在将待转换语音信息的内容特征以及语气特征进行结合得到内容语气特征，并基于设定的音色特征对内容语气特征进
行音色转换处理时，包括步骤s1021-s1023：
37.s1021：通过语气补充网络提取待转换语音信息的内容特征，以及提取待转换语音信息的语气特征，并将内容特征和语气特征相加得到语气补充特征。
38.示例性的，音色转换模型在接收到待转换语音信息时，将待转换语音信息传递给语气补充网络，由语气补充网络分别提取待转换语音信息的内容特征以及语气特征。
39.可选的，可在语气补充网络中分别设置语音内容识别模型和语音预训练模型，分别进行待转换语音信息的内容特征提取以及语气特征提取。例如，利用训练好的asr模型(可基于wenet架构搭建)作为语音内容识别模型，通过语音内容识别模型提取待转换语音信息的内容特征，并利用训练好的语音预训练模型提取待转换语音信息的语气特征。
40.在一个可能的实施例中，可在语音预训练模型中加入量化模块，即音色转换模型在通过语气补充网络提取待转换语音信息的语气特征时，具体为通过语气补充网络基于加入量化模块的语音预训练模型提取待转换语音信息的语气特征。其中，加入量化模块的语音预训练模型可以是vq-wav2vec k-means模型(其中vq，即vector quantization，向量量化)，vq-wav2vec k-means模型可无监督地学习音频的内容语气信息。即可利用大数据对加入量化模块的语音预训练模型进行无监督训练，并在训练完成后，可向语音预训练模型发送待转换语音信息，由语音预训练模型对待转换语音信息进行处理并输出待转换语音信息的语气特征。其中，输入到语音内容识别模型和语音预训练模型的待转换语音信息可以是需要转换音色的原始音频对应的梅尔频谱。
41.进一步的，在得到待转换语音信息的内容特征和语气特征后，将内容特征和语气特征进行相加得到语气补充特征(ppg)，此时，语气补充特征中包含了对应的内容特征和语气特征。
42.在一个可能的实施例中，本方案提供的音色转换模型在将内容特征和语气特征相加得到语气补充特征时，具体包括：
43.s10211：通过语气补充网络获取内容特征的第一权重以及语气特征的第二权重。
44.s10212：通过语气补充网络，基于第一权重和第二权重，对内容特征和语气特征进行加权求和处理得到语气补充特征。
45.示例性的，在得到待转换语音信息的内容特征和语气特征后，通过语气补充网络分别获取内容特征的第一权重和语气特征的第二权重，并基于上述第一权重和第二权，对内容特征和语气特征进行加权求和处理得到语气补充特征。可选的，在得到待转换语音信息的内容特征和语气特征后，可先分别利用一个卷积模块(conv1d模块)分别对内容特征和语气特征进行卷积处理后，再获取内容特征的第一权重以及语气特征的第二权重。
46.在一个可能的实施例中，本方案提供的音色转换模型在获取内容特征的第一权重以及语气特征的第二权重时，具体为：通过语气补充网络，基于动态权重调整策略获取内容特征的第一权重以及语气特征的第二权重。
47.需要进行解释的是，由于内容特征中主要包含待转换语音信息中音频的内容信息，而基于vq-wav2vec k-means架构得到的语气特征除了包含待转换语音信息中音频的内容信息之外，还包含较为丰富的pitch(音高)、energy(能量)等信息，本方案基于动态权重调整的策略来获取nsp-ppg的语气信息策略获取内容特征的第一权重以及语气特征的第二权重，更精确地结合内容特征和语气特征，在保证音色转换质量的同时，更大程度地保留了
原视频频的语气信息。
48.在一个可能的实施例中，如图4提供的一种动态权重模型结构示意图所示，本方案提供的语气补充网络通过动态权重(dwa，dynamic weight attention)模型，基于动态权重调整策略获取内容特征的第一权重以及语气特征的第二权重，以及将内容特征和语气特征相加得到语气补充特征。如图4所示，在动态权重模型中分别设置第一长短期记忆(lstm)网络模型和第二第一长短期记忆(lstm)网络模型，其中第一长短期记忆网络模型用于接收内容特征，并对内容特征进行处理得到内容特征的第一权重，其中第二长短期记忆网络模型用于接收语气特征，并对语气特征进行处理得到内容特征的第二权重。可选的，在将内容特征和语气特征输入到对应的长短期记忆网络模型中确定权重时，可分别先利用卷积模块(conv1d模块)对内容特征和语气特征进行卷积处理。
49.进一步的，语气补充网络将该内容特征和第一权重相乘得到内容加权特征，以及将该语气特征和第二权重相乘得到语气加权特征，并将内容加权特征和语气加权特征进行相加得到语气补充特征，并将语气补充特征传递给内容整合网络。
50.s1022：通过内容整合网络将内容特征和语气补充特征进行合并得到内容语气特征。
51.示例性的，语气补充网络将待转换语音信息的内容特征和语气特征相加得到语气补充特征后，向内容整合网络发送语气补充特征。同时，语气补充网络向内容整合网络发送(经卷积模块进行卷积处理后的)内容特征。内容整合网络在接收到语气补充特征和内容特征后，可将接收到内容特征和语气补充特征进行合并得到内容语气特征。
52.在一个可能的实施例中，如图5提供的一种基于音色转换模型对内容特征和语气补充特征的合并流程示意图所示，本方案提供的音色转换模型在通过内容整合网络将内容特征和语气补充特征进行合并得到内容语气特征时，包括：
53.s10221：通过内容整合网络，利用卷积模块将语气补充特征的维度转换到与内容特征的维度相同的维度。
54.s10222：通过内容整合网络将内容特征和语气补充特征相加得到内容语气特征。
55.示例性的，内容整合网络在接收到语气补充网络提供的语气补充特征后，将利用一个卷积模块对语气补充特征进行卷积处理，以使卷积处理后的语气补充特征的维度转换到与语气补充网络提供的内容特征的维度相同的维度。
56.进一步的，将卷积处理后的语气补充特征与语气补充网络提供的内容特征相加，形成卷积处理后的语气补充特征与语气补充网络提供的残差连接，得到语气信息和内容信息更完整的内容语气特征。
57.s1023：通过音色转换网络，基于设定的音色特征将内容语气特征进行音色转换处理。
58.示例性的，在得到内容语气特征后，语气补充网络将内容语气特征传递给音色转换网络，由音色转换网络基于目标音色(可以是默认的音色，也可以是用户选定的音色)对应的音色特征对内容语气特征进行音色转换处理，得到目标语音信息。
59.在一个可能的实施例中，本方案分别通过音色转换单元和声码输出单元对内容语气特征进行音色转换以及目标语音生成。基于此，本方案提供的音色转换模型在基于设定的音色特征对内容语气特征进行音色转换处理时，包括：
60.s10231：通过音色转换单元将设定的音色特征添加到内容语气特征中，以得到目标语音特征。
61.s10232：通过声码输出单元对目标语音特征进行上采样处理，以得到目标语音信息，目标语音信息包含有音色特征对应的目标音色以及待转换语音信息对应的语气。
62.示例性的，语气补充网络将内容语气特征发送给音色转换单元(am模型)，音色转换单元在接收到内容语气特征后，将设定的音色特征添加到内容语气特征中，以得到包含设定的音色特征、待转换语音信息对应的内容特征以及语气特征的目标语音特征。
63.可选的，音色转换单元可由16层卷积层以残差网络(resnet)的方式组成，每层卷积层的卷积核大小为3。音色转换单元需要在内容语气特征的基础上添加内音色特征，在音色转换单元内部还维护多个在内容语气特征对应的ppg向量，每个ppg向量表示一种音色。同时，在音色转换单元的每层卷积层的输出上添加向量映射网络(embedding网络)，以使音色转换模型的学习更加符合实际音色的信息，获得更加接近原始音色的音色转换效果。
64.进一步的，音色转换单元将目标语音特征发送给声码输出单元(基于hifigan框架构建的vocode模型)，由声码输出单元对目标语音特征进行上采样处理，即将音色转换单元输出的目标语音特征(隐向量信息z)转换转为音频信息(wav)，该音频信息即为包含有音色特征对应的目标音色以及待转换语音信息对应的语气的目标语音信息。
65.s103：输出音色转换模型输出的目标语音信息。
66.示例性的，在音色转换模型对待转换语音信息进行音色转换处理得到目标语音信息后，获取音色转换模型输出的目标语音信息，并输出该目标语音视频。
67.在输出目标语音信息后，可以是将目标语音信息保存为对应的音色转换后的变音语音信息，或者是保存目标语音信息后进行播放，还可以是将目标语音信息添加到对应的视频信息中。可以理解的是，在播放目标语音信息时，目标语音信息对应的声音的音色变换成了目标音色对应的音色，并且语气语调与待转换语音信息对应的语气语调一致或接近，相对传统的音色转换方案，本方案能很好的保留原始音频的语气和语调，转换后的目标语音信息更生动，音色转换质量更高。在给定一段源音频作为待转换语音信息时，可以保持源音频说话内容的前提下将其音色转换为某种音色的效果(即音频音色的any-to-many效果)。
68.上述，通过将待转换语音信息输入到音色转换模型中，由音色转换模型将待转换语音信息的内容特征以及语气特征进行结合得到内容语气特征，并基于设定的音色特征对内容语气特征进行音色转换处理，以得到目标语音信息，并输出音色转换模型输出的目标语音信息，在转换得到的目标语音信息中保留了原始的待转换语音信息的语气信息，有效提高音色转换效果。同时，分别通过音色转换模型中的语气补充网络、内容整合网络和音色转换网络进行内容特征以及语气特征的提取、结合以及音色转换处理，采用动态寻优的策略将内容和语气进行结合，更好地还原音频的语气语调，得到更佳的音色转换效果。
69.图6是本技术实施例提供的一种音色转换装置的结构示意图。参考图6，该音色转换装置包括语音获取模块61、音色转换模块62和语音输出模块63。
70.其中，语音获取模块61，配置为获取待转换语音信息；音色转换模块62，配置为将待转换语音信息输入至设定的音色转换模型，由音色转换模型将待转换语音信息的内容特征以及语气特征进行结合得到内容语气特征，并基于设定的音色特征对内容语气特征进行
音色转换处理，以得到目标语音信息；语音输出模块63，配置为输出音色转换模型输出的目标语音信息。
71.上述，通过将待转换语音信息输入到音色转换模型中，由音色转换模型将待转换语音信息的内容特征以及语气特征进行结合得到内容语气特征，并基于设定的音色特征对内容语气特征进行音色转换处理，以得到目标语音信息，并输出音色转换模型输出的目标语音信息，在转换得到的目标语音信息中保留了原始的待转换语音信息的语气信息，有效提高音色转换效果。
72.在上述实施例的基础上，音色转换模型包括语气补充网络、内容整合网络和音色转换网络，其中：
73.语气补充网络，配置为提取待转换语音信息的内容特征，以及提取待转换语音信息的语气特征，并将内容特征和语气特征相加得到语气补充特征；
74.内容整合网络，配置为将内容特征和语气补充特征进行合并得到内容语气特征；
75.音色转换网络，配置为基于设定的音色特征将内容语气特征进行音色转换处理。
76.在上述实施例的基础上，语气补充网络在提取待转换语音信息的语气特征时，配置为：
77.基于加入量化模块的语音预训练模型提取待转换语音信息的语气特征。
78.在上述实施例的基础上，语气补充网络在将内容特征和语气特征相加得到语气补充特征时，配置为：
79.获取内容特征的第一权重以及语气特征的第二权重；
80.基于第一权重和第二权重，对内容特征和语气特征进行加权求和处理得到语气补充特征。
81.在上述实施例的基础上，语气补充网络在获取内容特征的第一权重以及语气特征的第二权重时，配置为：
82.基于动态权重调整策略获取内容特征的第一权重以及语气特征的第二权重。
83.在上述实施例的基础上，内容整合网络在将内容特征和语气补充特征进行合并得到内容语气特征时，配置为：
84.利用卷积模块将语气补充特征的维度转换到与内容特征的维度相同的维度；
85.将内容特征和语气补充特征相加得到内容语气特征。
86.在上述实施例的基础上，音色转换网络包括音色转换单元和声码输出单元，其中：
87.音色转换单元，配置为将设定的音色特征添加到内容语气特征中，以得到目标语音特征；
88.声码输出单元，配置为对目标语音特征进行上采样处理，以得到目标语音信息，目标语音信息包含有音色特征对应的目标音色以及待转换语音信息对应的语气。
89.值得注意的是，上述音色转换装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。
90.本技术实施例还提供了一种音色转换设备，该音色转换设备可集成本技术实施例提供的音色转换装置。图7是本技术实施例提供的一种音色转换设备的结构示意图。参考图
7，该音色转换设备包括：输入装置73、输出装置74、存储器72以及一个或多个处理器71；存储器72，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器71执行，使得一个或多个处理器71实现如上述实施例提供的音色转换方法。上述提供的音色转换装置、设备和计算机可用于执行上述任意实施例提供的音色转换方法，具备相应的功能和有益效果。
91.本技术实施例还提供一种存储计算机可执行指令的非易失性存储介质，计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的音色转换方法。当然，本技术实施例所提供的一种存储计算机可执行指令的存储介质，其计算机可执行指令不限于如上提供的音色转换方法，还可以执行本技术任意实施例所提供的音色转换方法中的相关操作。上述实施例中提供的音色转换装置、设备及存储介质可执行本技术任意实施例所提供的音色转换方法，未在上述实施例中详尽描述的技术细节，可参见本技术任意实施例所提供的音色转换方法。
92.在一些可能的实施方式中，本公开提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当上述程序产品在计算机设备上运行时，程序代码用于使上述计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的方法中的步骤，例如，计算机设备可以执行本公开实施例所记载的音色转换方法。其中，程序产品可以采用一个或多个可读介质的任意组合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄家鸿马东鹏项伟
技术所有人：广州市百果园信息技术有限公司
我是此专利的发明人

上一篇：一种抗高温功率恒定电伴热带的制作方法
上一篇：一种亚分辨率辅助图形生成方法、生成装置及存储介质与流程