一种声音转换方法及装置的制造方法_4

文档序号：9454203阅读：来源：国知局

数生成单元，用于利用目标发音人基频合成模型生成基频合成参数；
[0145] 频谱合成参数生成单元，用于利用目标发音人频谱合成模型生成频谱合成参数。
[0146] 本发明实施例提供的声音转换装置，首先接收待转换语音数据，然后对待转换语音数据进行语音识别，得到识别结果及其时长信息，最后利用目标发音人的语音合成模型及所述时长信息生成语音合成参数，利用该语音合成参数对所述识别结果进行语音合成，得到目标发音人音色合成语音数据。该方法及系统对待转换语音数据进行语音识别时，不仅获取识别结果，而且还要获取该识别结果的时长信息，利用该时长信息生成目标发音人的语音合成参数，有效保证了合成语音数据的时长与待转换语音数据的时长一致，提高了转换后语音的自然度。进一步地，可以将根据声学模型得到的语法单元序列作为所述识别结果，这样，在进行语音合成时，直接对待转换语音数据对应的语法单元序列进行语音合成，从而避免了将语音识别过程出现的错误带入到语音合成中，保证了合成后的语音数据的语义与待转换语音数据的语义的一致性。
[0147] 本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0148] 以上对本发明实施例进行了详细介绍，本文中应用了【具体实施方式】对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及装置；同时，对于本领域的一般技术人员，依据本发明的思想，在【具体实施方式】及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
【主权项】
1. 一种声音转换方法，其特征在于，包括：接收待转换语音数据；对所述待转换语音数据进行语音识别，得到识别结果及所述识别结果的时长信息；获取目标发音人的语音合成模型；利用所述语音合成模型及所述时长信息生成语音合成参数；利用所述语音合成参数对所述识别结果进行语音合成，得到目标发音人音色合成语音数据。2. 根据权利要求1所述的方法，其特征在于，所述对所述待转换语音数据进行语音识另IJ，得到识别结果及所述识别结果的时长信息包括：利用预先训练的声学模型及语言模型构建解码网络；提取所述待转换语音数据的特征参数；基于所述解码网络及所述特征参数对所述待转换语音数据进行解码，得到最优解码路径对应的文本序列及所述文本序列中各字和/或词的时长信息。3. 根据权利要求1所述的方法，其特征在于，所述对所述待转换语音数据进行语音识另IJ，得到识别结果及所述识别结果的时长信息包括：利用预先训练的声学模型及语言模型构建解码网络；提取所述待转换语音数据的特征参数；基于所述解码网络及所述特征参数对所述待转换语音数据进行解码，得到最优解码路径对应的语法单元序列及所述语法单元序列中各语法单元的时长信息。4. 根据权利要求1所述的方法，其特征在于，所述获取目标发音人的语音合成模型包括：向用户展现可选的目标发音人信息，并根据用户的选择确定目标发音人，然后获取所述目标发音人的语音合成模型；或者接收用户提供的目标发音人语音数据，并利用所述目标发音人语音数据训练得到目标发音人的语音合成模型。5. 根据权利要求1至4任一项所述的方法，其特征在于，所述目标发音人合成模型包括：时长合成模型、基频合成模型、频谱合成模型；所述利用所述语音合成模型及所述时长信息生成语音合成参数包括：利用所述时长信息及所述时长合成模型生成每个语法单元每个状态的时长合成参数；利用目标发音人基频合成模型生成基频合成参数；利用目标发音人频谱合成模型生成频谱合成参数。6. -种声音转换装置，其特征在于，包括：接收模块，用于接收待转换语音数据；语音识别模块，用于对所述待转换语音数据进行语音识别，得到识别结果及所述识别结果的时长信息；模型获取模块，用于获取目标发音人的语音合成模型；合成参数生成模块，用于利用所述语音合成模型及所述时长信息生成语音合成参数；语音合成模块，用于利用所述语音合成参数对所述识别结果进行语音合成，得到目标发音人音色合成语音数据。7. 根据权利要求6所述的装置，其特征在于，所述语音识别模块包括：第一解码网络构建单元，用于利用预先训练的声学模型及语言模型构建解码网络；特征提取单元，用于提取所述待转换语音数据的特征参数；第一解码单元，用于基于所述解码网络及所述特征参数对所述待转换语音数据进行解码，得到最优解码路径对应的文本序列及所述文本序列中各字和/或词的时长信息。8. 根据权利要求6所述的装置，其特征在于，所述语音识别模块包括：第二解码网络构建单元，用于利用预先训练的声学模型及语言模型构建解码网络；特征提取单元，用于提取所述待转换语音数据的特征参数；第二解码单元，用于基于所述解码网络及所述特征参数对所述待转换语音数据进行解码，得到最优解码路径对应的语法单元序列及所述语法单元序列中各语法单元的时长信息。9. 根据权利要求6所述的装置，其特征在于，所述模型获取模块包括：展现单元，用于向用户展现可选的目标发音人信息；目标发音人确定单元，用于根据用户的选择确定目标发音人；模型获取单元，用于获取所述目标发音人的语音合成模型；或者，所述目标发音人确定模块包括：接收单元，用于接收用户提供的目标发音人语音数据；模型训练单元，用于利用所述目标发音人语音数据训练得到目标发音人的语音合成模型。10. 根据权利要求6至9任一项所述的装置，其特征在于，所述目标发音人合成模型包括：时长合成模型、基频合成模型、频谱合成模型；所述合成参数生成模块包括：时长合成参数生成单元，用于利用所述时长信息及所述时长合成模型生成每个语法单元每个状态的时长合成参数；基频合成参数生成单元，用于利用目标发音人基频合成模型生成基频合成参数；频谱合成参数生成单元，用于利用目标发音人频谱合成模型生成频谱合成参数。
【专利摘要】本发明公开了一种声音转换方法及装置，该方法包括：接收待转换语音数据；对所述待转换语音数据进行语音识别，得到识别结果及所述识别结果的时长信息；获取目标发音人的语音合成模型；利用所述语音合成模型及所述时长信息生成语音合成参数；利用所述语音合成参数对所述识别结果进行语音合成，得到目标发音人音色合成语音数据。利用本发明，可以使转换后的语音数据的时长与待转换语音数据的时长一致，提高合成语音的自然度。
【IPC分类】G10L13/08, G10L13/02, G10L17/06, G10L17/14
【公开号】CN105206257
【申请号】CN201510673278
【发明人】陈凌辉, 江源, 李栋梁, 李啸, 张卫庆, 胡国平
【申请人】科大讯飞股份有限公司
【公开日】2015年12月30日
【申请日】2015年10月14日

完整全部详细技术资料下载

当前第4页1 2 3 4