1.一种语音合成的输入音素的训练方法,其特征在于,包括:
将中文文本中的中文句子拆分成汉字;
将汉字转化成拼音,该拼音包括声调;
将拼音转化为音素;
将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量;
形成拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。
2.如权利要求1所述的训练方法,其特征在于,通过发音词典将拼音转化为音素。
3.如权利要求1所述的训练方法,其特征在于,词嵌入模型的输出中,汉字向量集与声调向量集之间存在一一对应关系。
4.如权利要求1所述的训练方法,其特征在于,根据音素间的关联关系形成单个拼音向量。
5.如权利要求4所述的训练方法,其特征在于,依据音素所在的拼音确定音素间的关联关系,并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。
6.一种基于权利要求1-5所述的训练方法的输入音素的获得方法,其特征在于,包括:
将中文文本中的中文句子拆分成汉字;
将汉字转化成拼音,该拼音包括声调;
将汉字、拼音以及声调输入词嵌入模型,获得汉字向量、声调向量以及单个拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。
7.如权利要求6所述的获得方法,其特征在于,将中文句子拆分成汉字时将中文句子中的相邻汉字间隔开。
8.如权利要求6所述的获得方法,其特征在于,根据音素间的关联关系形成单个拼音向量。
9.如权利要求8所述的获得方法,其特征在于,依据音素所在的拼音确定音素间的关联关系,并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。
10.一种语音合成的输入音素的训练装置,其特征在于,包括拆分模块、汉字转拼音模块、拼音转音素模块、词嵌入模块、拼音获得模块;
其中,拆分模块将中文文本中的中文句子拆分成汉字;
汉字转拼音模块将汉字转化成拼音,该拼音包括声调;
拼音转音素模块将拼音转化为音素;
词嵌入模块将汉字、音素和声调输入词嵌入模型,获得汉字向量、音素序列向量和声调向量;
拼音获得模块形成单个拼音向量,单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。