语音合成方法、装置、设备、介质及程序产品与流程

文档序号:44988525发布日期:2026-03-24 20:03阅读:5来源:国知局
技术简介:
现有语音合成技术存在音频音色差、推理效率低的问题,主要因仅关注幅度谱而忽略相位信息,且采用高维特征导致计算负担重。本方案通过分句处理降低延迟,利用相位增强音频数据训练模型提升梅尔频谱准确性,结合量化压缩与多适配器处理生成更自然的音频,实现音质与效率的双重优化。
关键词:语音合成,相位增强

本技术涉及数据处理,尤其涉及语音合成方法、装置、设备、介质及程序产品。


背景技术:

1、语音合成技术(text-to-speech,tts)是实现自然人机语音交互的核心关键技术,已广泛应用于智能客服、虚拟助手、有声阅读等众多领域。随着深度学习的发展,基于端到端神经网络的语音合成系统已成为主流,其典型架构通常包含文本前端、声学模型和声码器三个部分。在该架构下,声学模型负责将输入文本转换为声学特征,而后由声码器根据这些特征重建出时域音频波形。

2、目前的解决方案通过在声学模型中引入额外的控制信息(如说话人、情感等标识),来实现对合成语音风格的灵活控制。这类方案通常采用复杂的神经网络结构来学习并融合这些多维度信息,以生成符合目标风格的声学特征。

3、然而,现有的语音合成方法通常仅考虑了幅度谱,即仅聚焦于幅度谱的精确还原,因此会导致合成音频不自然、音色差等问题;并且,为了精确编码复杂的风格信息,模型普遍依赖于高维度、高复杂度的特征,导致模型在推理时计算负载重,合成速度缓慢。如此,现有的语音合成方法,存在合成音频效果差,且推理效率低下的问题。


技术实现思路

1、本技术提供一种语音合成方法、装置、设备、介质及程序产品,用于提高语音合成时的合成音频效果和推理效率。

2、第一方面,本技术提供一种语音合成方法,包括:对目标输入文本进行分句处理,得到句子列表;对句子列表中每个句子的文本相关数据进行多模态向量嵌入及融合,得到每个句子的融合嵌入向量;通过目标声学模型,对每个句子的融合嵌入向量进行编码和量化压缩处理,得到每个句子的量化特征,该目标声学模型通过采用相位增强的音频数据作为训练目标而训练得到;通过目标声学模型,对每个句子的量化特征进行处理,得到每个句子的持续时间权重向量、基频权重向量和场景权重向量;基于每个句子的量化特征、持续时间权重向量、基频权重向量和场景权重向量,生成每个句子的梅尔频谱;将每个句子的梅尔频谱转换为对应的音频波形,并按照句子列表中的句子顺序输出所有句子对应的音频波形,以生成目标输入文本的合成语音。

3、本技术提供的技术方案至少带来以下有益效果:通过对目标输入文本进行分句处理,将长文本合成任务分解为独立的句子级子任务,使得无需等待全文处理完毕即可开始合成与输出,降低了端到端的合成延迟;并且,所使用的声学模型通过采用相位增强的音频数据作为训练目标而训练得到,即模型在学习过程中接收到的监督信号包含了更完整、更鲁棒的时域结构信息,该特性引导模型学习生成在相位特性上更接近真实语音的梅尔频谱,从而使得后续能够重建出波形更精确、音色更饱满、自然度更高的语音,保障了语音的自然度与音色保真度。如此,通过句子级流式处理与高质量声学模型,提高语音合成时的合成音频效果和推理效率。

4、一种可能的实现方式,上述对目标输入文本进行分句处理,得到句子列表,包括:基于预设标点符号集合对目标输入文本进行初步分割,得到初始句子片段集合;遍历初始句子片段集合,若第一句子片段的长度大于预设长度阈值、且第一句子片段中不包含预设标点符号集合中的标点符号,则根据预设优先分割词列表,在第一句子片段中第一次出现的优先分割词之后的位置进行分割,得到更新后的句子片段集合;遍历更新后的句子片段集合,若第二句子片段的长度小于预设合并阈值,则将第二句子片段与之后的下一个句子片段进行合并;将最后得到的句子片段集合作为句子列表。

5、另一种可能的实现方式,上述通过目标声学模型,对每个句子的融合嵌入向量进行编码和量化压缩处理,得到每个句子的量化特征,包括:将每个句子的融合嵌入向量输入目标声学模型中的编码器进行编码,得到每个句子的高维编码特征;通过目标声学模型中的有限标量量化(finite scalar quantization,fsq)模块,对每个句子的高维编码特征进行量化压缩,得到每个句子的量化特征。

6、又一种可能的实现方式,上述通过目标声学模型中的fsq模块,对每个句子的高维编码特征进行量化压缩,得到每个句子的量化特征,包括:通过fsq模块,将每个句子的高维编码特征投影至低维空间,得到每个句子的低维特征,并将每个句子的低维特征划分为多个特征组;针对每个句子,通过fsq模块,基于一个句子的每个特征组对应的量化级别与步长,以及对应的特征数值范围,将一个句子的每个特征组内的每个连续特征值量化为离散值,得到一个句子的每个特征组的量化结果;对一个句子的所有特征组的量化结果拼接得到一个句子的量化特征,以得到每个句子的量化特征。

7、又一种可能的实现方式,上述通过目标声学模型,对每个句子的量化特征进行处理,得到每个句子的持续时间权重向量、基频权重向量和场景权重向量,包括:通过目标声学模型中的韵律适配器处理每个句子的量化特征,预测得到每个句子的持续时间权重向量;通过目标声学模型中的音调适配器处理每个句子的量化特征,预测得到每个句子的基频权重向量;通过目标声学模型中的场景适配器处理每个句子的量化特征,预测得到每个句子的场景权重向量。

8、又一种可能的实现方式,上述基于每个句子的量化特征、持续时间权重向量、基频权重向量和场景权重向量,生成每个句子的梅尔频谱,包括:将每个句子的量化特征、持续时间权重向量、基频权重向量和场景权重向量进行加权融合,得到每个句子的适配后特征;将每个句子的适配后特征输入目标声学模型的解码器,生成每个句子的梅尔频谱。

9、又一种可能的实现方式,上述方法还包括:获取训练数据,该训练数据包括文本样本的文本相关数据和对应的原始音频数据;对原始音频数据进行相位增强的数据预处理,得到增强后的音频数据;将文本样本的文本相关数据进行多模态向量嵌入及融合,得到文本样本的融合嵌入向量;对文本样本的融合嵌入向量进行编码和量化压缩处理,得到文本样本的量化特征;对文本样本的量化特征进行处理,得到文本样本的持续时间权重向量、基频权重向量和场景权重向量;基于文本样本的量化特征、持续时间权重向量、基频权重向量和场景权重向量,生成文本样本的预测梅尔频谱;根据预测梅尔频谱和从增强后的音频数据中提取的真实梅尔频谱之间的差异值,调整预设声学模型的参数,得到目标声学模型。

10、又一种可能的实现方式,上述对原始音频数据进行相位增强的数据预处理,得到增强后的音频数据,包括:对原始音频数据进行短时傅里叶变换(short time fouriertransform,stft),得到原始音频数据的频域表示,该频域表示包括幅度谱和原始相位谱;生成相位扰动信号,该相位扰动信号包括高斯噪声矩阵和均匀角度偏移;对高斯噪声矩阵进行低通滤波;基于均匀角度偏移和低通滤波后的高斯噪声矩阵,对原始相位谱进行扰动,生成增强后的相位谱;基于幅度谱和增强后的相位谱进行逆短时傅里叶变换(inverseshort time fourier transform,istft),得到增强后的音频数据。

11、第二方面,本技术提供一种语音合成装置,包括:处理模块和输出模块;处理模块,用于对目标输入文本进行分句处理,得到句子列表;处理模块,还用于对句子列表中每个句子的文本相关数据进行多模态向量嵌入及融合,得到每个句子的融合嵌入向量;处理模块,还用于通过目标声学模型,对每个句子的融合嵌入向量进行编码和量化压缩处理,得到每个句子的量化特征,该目标声学模型通过采用相位增强的音频数据作为训练目标而训练得到;处理模块,还用于通过目标声学模型,对每个句子的量化特征进行处理,得到每个句子的持续时间权重向量、基频权重向量和场景权重向量;处理模块,还用于基于每个句子的量化特征、持续时间权重向量、基频权重向量和场景权重向量,生成每个句子的梅尔频谱;处理模块,还用于将每个句子的梅尔频谱转换为对应的音频波形;输出模块,用于按照句子列表中的句子顺序输出所有句子对应的音频波形,以生成目标输入文本的合成语音。

12、一种可能的实现方式,上述处理模块,具体用于:基于预设标点符号集合对目标输入文本进行初步分割,得到初始句子片段集合;遍历初始句子片段集合,若第一句子片段的长度大于预设长度阈值、且第一句子片段中不包含预设标点符号集合中的标点符号,则根据预设优先分割词列表,在第一句子片段中第一次出现的优先分割词之后的位置进行分割,得到更新后的句子片段集合;遍历更新后的句子片段集合,若第二句子片段的长度小于预设合并阈值,则将第二句子片段与之后的下一个句子片段进行合并;将最后得到的句子片段集合作为句子列表。

13、另一种可能的实现方式,上述处理模块,具体用于:将每个句子的融合嵌入向量输入目标声学模型中的编码器进行编码,得到每个句子的高维编码特征;通过目标声学模型中的fsq模块,对每个句子的高维编码特征进行量化压缩,得到每个句子的量化特征。

14、又一种可能的实现方式,上述处理模块,具体用于:通过fsq模块,将每个句子的高维编码特征投影至低维空间,得到每个句子的低维特征,并将每个句子的低维特征划分为多个特征组;针对每个句子,通过fsq模块,基于一个句子的每个特征组对应的量化级别与步长,以及对应的特征数值范围,将一个句子的每个特征组内的每个连续特征值量化为离散值,得到一个句子的每个特征组的量化结果;对一个句子的所有特征组的量化结果拼接得到一个句子的量化特征,以得到每个句子的量化特征。

15、又一种可能的实现方式,上述处理模块,具体用于:通过目标声学模型中的韵律适配器处理每个句子的量化特征,预测得到每个句子的持续时间权重向量;通过目标声学模型中的音调适配器处理每个句子的量化特征,预测得到每个句子的基频权重向量;通过目标声学模型中的场景适配器处理每个句子的量化特征,预测得到每个句子的场景权重向量。

16、又一种可能的实现方式,上述处理模块,具体用于:将每个句子的量化特征、持续时间权重向量、基频权重向量和场景权重向量进行加权融合,得到每个句子的适配后特征;将每个句子的适配后特征输入目标声学模型的解码器,生成每个句子的梅尔频谱。

17、又一种可能的实现方式,上述装置还包括:获取模块;获取模块,用于获取训练数据,该训练数据包括文本样本的文本相关数据和对应的原始音频数据;上述处理模块,还用于对原始音频数据进行相位增强的数据预处理,得到增强后的音频数据;上述处理模块,还用于将文本样本的文本相关数据进行多模态向量嵌入及融合,得到文本样本的融合嵌入向量;对文本样本的融合嵌入向量进行编码和量化压缩处理,得到文本样本的量化特征;上述处理模块,还用于对文本样本的量化特征进行处理,得到文本样本的持续时间权重向量、基频权重向量和场景权重向量;上述处理模块,还用于基于文本样本的量化特征、持续时间权重向量、基频权重向量和场景权重向量,生成文本样本的预测梅尔频谱;上述处理模块,还用于根据预测梅尔频谱和从增强后的音频数据中提取的真实梅尔频谱之间的差异值,调整预设声学模型的参数,得到目标声学模型。

18、又一种可能的实现方式,上述处理模块,具体用于:对原始音频数据进行stft,得到原始音频数据的频域表示,该频域表示包括幅度谱和原始相位谱;生成相位扰动信号,该相位扰动信号包括高斯噪声矩阵和均匀角度偏移;对高斯噪声矩阵进行低通滤波;基于均匀角度偏移和低通滤波后的高斯噪声矩阵,对原始相位谱进行扰动,生成增强后的相位谱;基于幅度谱和增强后的相位谱进行istft,得到增强后的音频数据。

19、第三方面,本技术提供一种电子设备,该电子设备包括:处理器和存储器;存储器存储有处理器可执行的指令;处理器被配置为执行指令时,使得电子设备实现上述第一方面的方法。

20、第四方面,本技术提供一种计算机可读存储介质,该计算机可读存储介质包括:计算机软件指令;当计算机软件指令在电子设备中运行时,使得电子设备实现上述第一方面的方法。

21、第五方面,本技术提供一种计算机程序产品,该计算机程序产品包括计算机程序;当计算机程序在电子设备中运行时,使得所述电子设备实现上述第一方面的方法。

22、上述第二方面至第五方面的有益效果参考第一方面的对应描述,不再赘述。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!