语音合成的输入音素的训练方法、装置及获得方法与流程

文档序号：22550572发布日期：2020-10-17 02:26阅读：来源：国知局

技术特征：

1.一种语音合成的输入音素的训练方法，其特征在于，包括：

将中文文本中的中文句子拆分成汉字；

将汉字转化成拼音，该拼音包括声调；

将拼音转化为音素；

将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量；

形成拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。

2.如权利要求1所述的训练方法，其特征在于，通过发音词典将拼音转化为音素。

3.如权利要求1所述的训练方法，其特征在于，词嵌入模型的输出中，汉字向量集与声调向量集之间存在一一对应关系。

4.如权利要求1所述的训练方法，其特征在于，根据音素间的关联关系形成单个拼音向量。

5.如权利要求4所述的训练方法，其特征在于，依据音素所在的拼音确定音素间的关联关系，并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。

6.一种基于权利要求1-5所述的训练方法的输入音素的获得方法，其特征在于，包括：

将中文文本中的中文句子拆分成汉字；

将汉字转化成拼音，该拼音包括声调；

将汉字、拼音以及声调输入词嵌入模型，获得汉字向量、声调向量以及单个拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。

7.如权利要求6所述的获得方法，其特征在于，将中文句子拆分成汉字时将中文句子中的相邻汉字间隔开。

8.如权利要求6所述的获得方法，其特征在于，根据音素间的关联关系形成单个拼音向量。

9.如权利要求8所述的获得方法，其特征在于，依据音素所在的拼音确定音素间的关联关系，并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。

10.一种语音合成的输入音素的训练装置，其特征在于，包括拆分模块、汉字转拼音模块、拼音转音素模块、词嵌入模块、拼音获得模块；

其中，拆分模块将中文文本中的中文句子拆分成汉字；

汉字转拼音模块将汉字转化成拼音，该拼音包括声调；

拼音转音素模块将拼音转化为音素；

词嵌入模块将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量；

拼音获得模块形成单个拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。

技术总结
本申请公开了语音合成的输入音素的训练方法、装置及获得方法，训练方法包括：将中文文本中的中文句子拆分成汉字；将汉字转化成拼音，该拼音包括声调；将拼音转化为音素；将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量；形成拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。本申请训练和获得的输入音素包含了汉字的信息和拼音的结构信息以及声调信息，作为语音合成模型的输入，因此语音合成模型无需对汉字、拼音和声调之间的对应关系进行训练。

技术研发人员：李小波;王少佳
受保护的技术使用者：恒信东方文化股份有限公司
技术研发日：2020.07.10
技术公布日：2020.10.16

完整全部详细技术资料下载

当前第2页1 2