语音合成方法、语音合成装置和可读存储介质与流程

文档序号：39293724发布日期：2024-09-06 01:08阅读：96来源：国知局

本申请涉及计算机，尤其涉及一种语音合成方法、语音合成装置和可读存储介质。

背景技术：

1、近年来，随着人工智能技术的进步，语音合成技术（text to speech）也得到了快速发展。语音合成技术可以根据用户所选择的音色、音调，以及身份、情感、口音等，将文本数据转化为语音数据。语音数据中包含了丰富且具有变化性的韵律信息。如何使得所合成的语音数据的韵律自然且富有变化性，是语音合成领域的一个重要任务。

技术实现思路

1、为了解决上述问题，本申请实施例提供了一种语音合成方法，能够提高所生成的语音信息的情感丰富度和自然度。具体地，本申请实施例公开了以下技术方案：

2、本申请实施例第一方面提供一种语音合成方法，该方法包括：对文本信息进行编码处理，得到上述文本信息对应的文本特征；基于韵律预测模型和局部韵律变化参数对上述文本特征进行处理，得到上述文本特征对应的随机韵律特征；其中，上述随机韵律特征包括随机基频特征、随机能量特征和随机时长特征；根据上述随机韵律特征和上述文本特征，生成上述文本信息对应的语音信息。

3、在一些实施例中，上述基于韵律预测模型和局部韵律变化参数对上述文本特征进行处理，得到上述文本特征对应的随机韵律特征，包括：基于上述韵律预测模型中的随机韵律预测器和上述局部韵律变化参数对上述文本特征进行处理，得到上述随机韵律特征；其中，上述随机韵律预测器包括随机基频预测器、随机能量预测器和随机时长预测器。

4、在一些实施例中，上述基于上述韵律预测模型中的随机韵律预测器和上述局部韵律变化参数对上述文本特征进行处理，得到上述随机韵律特征，包括：基于上述随机韵律预测器和上述局部韵律变化参数对上述文本特征进行加噪处理，得到加噪后的文本特征；基于上述随机韵律预测器和上述局部韵律变化参数对上述加噪后的文本特征进行降噪处理，得到上述随机韵律特征。

5、在一些实施例中，上述基于上述韵律预测模型中的随机韵律预测器和上述局部韵律变化参数对上述文本特征进行处理，得到上述随机韵律特征，包括：基于上述随机基频预测器和上述局部韵律变化参数对上述文本特征进行处理，得到上述随机基频特征；基于上述随机能量预测器和上述局部韵律变化参数对上述文本特征和上述随机基频特征进行处理，得到上述随机能量特征；基于上述随机时长预测器和上述局部韵律变化参数对上述文本特征、上述随机基频特征和上述随机能量特征进行处理，得到上述随机时长特征；基于上述随机基频特征、上述随机能量特征和上述随机时长特征，确定上述随机韵律特征。

6、在一些实施例中，上述方法还包括：基于上述韵律预测模型中的固定韵律预测器对上述文本特征进行处理，得到上述文本特征对应的固定韵律特征；其中，上述固定韵律预测器包括固定基频预测器、固定能量预测器和固定时长预测器；上述固定韵律特征包括固定基频特征、固定能量特征和固定时长特征；上述根据上述随机韵律特征和上述文本特征，生成上述文本信息对应的语音信息，包括：根据上述随机韵律特征、上述固定韵律特征和上述文本特征，生成上述语音信息。

7、在一些实施例中，上述根据上述随机韵律特征、上述固定韵律特征和上述文本特征，生成上述语音信息，包括：根据第一控制系数、第二控制系数、上述随机韵律特征和上述固定韵律特征，确定目标韵律特征；其中，上述第一控制系数用于确定上述随机韵律特征的权重，上述第二控制系数用于确定上述固定韵律特征的权重；根据上述目标韵律特征和上述文本特征，生成上述语音信息。

8、在一些实施例中，上述根据上述随机韵律特征、上述固定韵律特征和上述文本特征，生成上述语音信息，包括：根据上述随机韵律特征、上述固定韵律特征和上述文本特征，确定语音特征；根据上述语音特征生成上述语音信息。

9、在一些实施例中，上述方法还包括：获取样本语音信息；获取上述样本语音信息对应的样本基频信息、样本能量信息和样本时长信息，并对上述样本基频信息、上述样本能量信息和上述样本时长信息进行编码，得到样本韵律特征；其中，上述样本韵律特征包括样本基频特征、样本能量特征和样本时长特征；根据上述样本韵律特征和上述随机韵律特征，确定上述随机韵律预测器对应的随机韵律损失函数，并根据上述随机韵律损失函数的第一优化参数对上述随机韵律预测器进行优化；其中，上述随机韵律损失函数包括随机基频损失函数、随机能量损失函数和随机时长损失函数；根据上述样本韵律特征和上述固定韵律特征，确定上述固定韵律预测器对应的固定韵律损失函数，并根据上述固定韵律损失函数的第二优化参数对上述固定韵律预测器进行优化；其中，上述固定韵律损失函数包括固定基频损失函数、固定能量损失函数和固定时长损失函数。

10、在一些实施例中，上述对上述文本信息进行编码处理，得到上述文本信息对应的文本特征，包括：基于第一编码器对上述文本信息进行编码处理，得到上述文本信息对应的字符级特征；基于第二编码器对上述文本信息进行编码处理，得到上述文本信息对应的音素级特征；基于第三编码器对上述字符级特征和上述音素级特征相加后的特征进行编码，得到上述文本特征。

11、本申请实施例第二方面提供一种语音合成装置，该装置包括：编码模块，被配置为获取文本信息，并对上述文本信息进行编码处理，得到上述文本信息对应的文本特征；随机韵律预测模块，被配置为基于韵律预测模型和局部韵律变化参数对上述文本特征进行处理，得到上述文本特征对应的随机韵律特征；其中，上述随机韵律特征包括随机基频特征、随机能量特征和随机时长特征；生成模块，被配置为根据上述随机韵律特征和上述文本特征，生成上述文本信息对应的语音信息。

12、本申请实施例第三方面提供了一种计算机可读存储介质，所述存储介质存储有计算机程序指令，当计算机读取所述指令时，执行前述第一方面所述的语音合成方法。

13、本申请实施例第四方面提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述第一方面所述的语音合成方法。

14、本申请实施例提供的语音合成方法中，能够对文本信息进行编码处理，得到文本信息对应的文本特征，并基于韵律预测模型和局部韵律变化参数对文本特征进行处理，得到文本特征对应的随机韵律特征。其中，随机韵律特征包括随机基频特征、随机能量特征和随机时长特征。之后，根据随机韵律特征和文本特征，生成文本信息对应的语音信息。应用本申请提供的技术方案，能够对文本特征的随机基频特征、随机能量特征和随机时长特征进行预测，并基于随机基频特征、随机能量特征和随机时长特征生成文本信息对应的语音信息，从而能够提高所生成的应答语音的情感丰富度和自然度。

技术特征：

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于韵律预测模型和局部韵律变化参数对所述文本特征进行处理，得到所述文本特征对应的随机韵律特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述韵律预测模型中的随机韵律预测器和所述局部韵律变化参数对所述文本特征进行处理，得到所述随机韵律特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述韵律预测模型中的随机韵律预测器和所述局部韵律变化参数对所述文本特征进行处理，得到所述随机韵律特征，包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述随机韵律特征、所述固定韵律特征和所述文本特征，生成所述语音信息，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述随机韵律特征、所述固定韵律特征和所述文本特征，生成所述语音信息，包括：

8.根据权利要求5所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1-4中任一项所述的方法，其特征在于，所述对所述文本信息进行编码处理，得到所述文本信息对应的文本特征，包括：

10.一种语音合成装置，其特征在于，包括：

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现根据权利要求1-9中任一项所述的语音合成方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1-9中任一项所述的语音合成方法。

技术总结
本申请涉及计算机技术领域，公开了一种语音合成方法、语音合成装置和可读存储介质。该方法包括：对文本信息进行编码处理，得到文本信息对应的文本特征；基于韵律预测模型和局部韵律变化参数对文本特征进行处理，得到文本特征对应的随机韵律特征；其中，随机韵律特征包括随机基频特征、随机能量特征和随机时长特征；根据随机韵律特征和文本特征，生成文本信息对应的语音信息。本申请基于随机基频特征、随机能量特征和随机时长特征生成语音信息，从而能够提高所生成的语音信息的情感丰富度和自然度。

技术研发人员：司马华鹏,梅正焜,汤毅平
受保护的技术使用者：南京硅基智能科技有限公司
技术研发日：
技术公布日：2024/9/5

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：司马华鹏,梅正焜,汤毅平
技术所有人：南京硅基智能科技有限公司
我是此专利的发明人

上一篇：一种用于4G无线远距离传输的电磁水表的制作方法
下一篇：一种汽车前悬置托架的定位工装的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！