技术特征:
1.一种多音字读音预测方法,其特征在于,包括:获取目标文本中各字符对应的各字符特征;利用多音字预测模型,根据各字符对应的各字符特征,预测并融合所述目标文本的全局信息和局部信息,获取各字符对应的各目标特征,并根据各字符对应的各目标特征,对所述目标文本中的多音字执行读音预测,获取所述目标文本的多音字读音预测结果。2.根据权利要求1所述的多音字读音预测方法,其特征在于,可通过以下方式获取所述目标文本中各字符对应的各字符特征:利用语言预测模型,对所述目标文本中的每一个字符执行特征提取,获取每一个字符的字符编码和位置编码。3.根据权利要求1所述的方法,其特征在于,所述根据各字符对应的各字符特征,预测并融合所述目标文本的全局信息和局部信息,获取各字符对应的各目标特征,包括:对各字符对应的各字符特征执行第一前馈处理,获取各字符对应的各第一前馈特征;根据各字符对应的各第一前馈特征,预测所述目标文本的全局信息和局部信息,并融合所述全局信息和局部信息,获取各字符对应的各融合特征;对各字符对应的各融合特征执行第二前馈处理,获取各字符对应的各第二前馈特征;对各字符对应的各第二前馈特征执行归一化处理,获取各字符对应的各目标特征。4.根据权利要求3所述的方法,其特征在于,所述多音字预测模型包括第一前馈单元和第二前馈单元;且其中,所述对各字符对应的各字符特征执行第一前馈处理,获取各字符对应的各第一前馈特征,包括:利用所述第一前馈单元,对各字符对应的各字符特征执行第一维度转换处理,获得各字符对应的各第一转换特征,并融合同一字符的字符特征和第一转换特征,获取各字符对应的各第一前馈特征;所述对各字符对应的各融合特征执行第二前馈处理,获取各字符对应的各第二前馈特征,包括:利用所述第二前馈单元,对各字符对应的各融合特征执行第二维度转换处理,获得各字符对应的各第二转换特征,并融合同一字符的融合特征和第二转换特征,获取各字符对应的各第二前馈特征。5.根据权利要求4所述的方法,其特征在于,所述第一前馈单元与所述第二前馈单元分别包括激活函数层和随机失活层。6.根据权利要求3所述的方法,其特征在于,所述多音字预测模型包括多头自注意力单元、卷积单元;且其中,所述根据各字符对应的各第一前馈特征,预测所述目标文本的全局信息和局部信息,并融合所述全局信息和局部信息,获取各字符对应的各融合特征,包括:利用所述多头自注意力单元,根据各字符对应的各第一前馈特征执行全局预测,获取各字符对应的各全局特征,并融合同一字符的第一前馈特征和全局特征,获取各字符对应的各中间特征;利用所述卷积单元,根据各字符对应的各中间特征执行局部预测,获取各字符对应的各局部特征,并融合同一字符的中间特征与局部特征,获取各字符对应的各融合特征。
7.根据权利要求1或3所述的方法,其特征在于,所述多音字预测模型包括条件随机场单元;且其中,所述根据各字符对应的各目标特征,对所述目标文本中的多音字执行读音预测,获取所述目标文本的多音字读音预测结果,包括:利用所述条件随机场单元,根据各字符对应的各目标特征,识别各字符中的多音字,并根据所述多音字的多个候选读音、所述多音字的目标特征,预测所述多音字对应于各候选读音的各读音概率值,且根据各候选读音对应的各读音概率值,将读音概率值最大的候选读音确定为所述多音字的预测读音。8.根据权利要求1所述的方法,其特征在于,所述多音字预测模型可通过以下方式训练获得:利用训练好的语言预测模型,对训练文本中的各字符执行特征提取,获取所述训练文本中各字符对应的各字符特征;利用所述多音字预测模型,根据各字符对应的各字符特征,对所述训练文本中的多音字执行读音预测,获取所述训练文本的多音字预测读音;比对所述训练文本的多音字标签读音和多音字预测读音,获取所述多音字预测模型的损失函数;根据所述损失函数更新所述多音字预测模型,直至所述多音字预测模型的当前训练结果满足给定的训练结束条件,以获得训练好的多音字预测模型。9.一种多音字读音预测装置,其特征在于,包括:获取模块,用于获取目标文本中各字符对应的各字符特征;多音字预测模型,用于根据各字符对应的各字符特征,预测所述目标文本的全局信息和局部信息,并融合所述目标文本的全局信息和局部信息,获取各字符对应的各目标特征,并根据各字符对应的各目标特征,对所述目标文本中的多音字执行读音预测,获取所述目标文本的多音字读音预测结果。10.一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至8中任一项所述的多音字读音预测方法。11.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法。
技术总结
本公开提供一种多音字读音预测方法、装置、电子设备及存储介质,包括:获取目标文本中各字符对应的各字符特征,利用利用多音字预测模型,根据各字符对应的各字符特征,对目标文本的全局信息和局部信息执行预测并融合,获取各字符对应的各目标特征,并根据各字符对应的各目标特征,对目标文本中的多音字执行读音预测,获取目标文本的多音字读音预测结果。借此,本公开可正确辨析多音字的读音,以提高语音合成的流畅性。成的流畅性。成的流畅性。
技术研发人员:陈帅婷 王知践 贺刚
受保护的技术使用者:北京世纪好未来教育科技有限公司
技术研发日:2022.09.19
技术公布日:2022/12/22