本发明涉及文本语音转换,并且更具体地,涉及一种基于多音字语境识别的文字语音转换方法及装置。
背景技术:
1、语音平台是将文章的文字与语音互相转换的一个平台,在使用过程中发现,多音字在语音和文字转换中存在差异,使用时会发生语音生成文字内容错误,文字生成语音时语调错误的情况;例如语音转文字:“的得地”不同环境,生成的文字不一样;文字转语音:“行”,需要根据不同情况发不同的音。但是目前并没有对多音字进行准确识别转换的方法,导致语音文字转换的准确率较低的技术问题。
技术实现思路
1、针对现有技术的不足,本发明提供一种基于多音字语境识别的文字语音转换方法及装置。
2、根据本发明的一个方面,提供了一种基于多音字语境识别的文字语音转换方法,包括:
3、采用多任务学习构建多音字识别模型和多音字预测模型;
4、采用多音字识别模型识别待转换任务中的多音字信息,其中待转换任务为待转换语音或待转换文字;
5、采用多音字预测模型,根据多音字信息以及待转换任务的语境进行多音字的读音或字体预测,确定多音字信息中每个多音字的读音或字体;
6、根据每个多音字的读音或字体进行待转换任务中的多音字识别,完成待转换任务的转换。
7、可选地,采用多任务学习构建多音字识别模型和多音字预测模型,包括:
8、构建包括多音字及其不同读音的多音字词典;
9、基于多音字词典进行机器模型识别,构建多音字识别模型;
10、根据预先构建的基于语境的多音字训练数据进行机器模型训练,构建多音字预测模型,其中机器模型为基于注意力机制的机器模型。
11、可选地,基于多音字词典进行机器模型识别,构建多音字识别模型,包括:
12、通过文本编码器对多音字词典中的文本进行特征编码,获取文本特征;
13、通过语音特征编码器对多音字词典中的语音进行特征编码,获取语音特征;
14、将文本特征和语音特征进行特征合并,获取合并特征;
15、根据合并特征进行多音字识别以及语音识别,输出多音字识别结果以及语音识别结果;
16、根据多音字识别结果和语音识别结果,构建多音字识别模型。
17、根据本发明的另一个方面,提供了一种基于多音字语境识别的文字语音转换装置,包括:
18、构建模块,用于采用多任务学习构建多音字识别模型和多音字预测模型;
19、识别模块,用于采用多音字识别模型识别待转换任务中的多音字信息,其中待转换任务为待转换语音或待转换文字;
20、预测模块,用于采用多音字预测模型,根据多音字信息以及待转换任务的语境进行多音字的读音或字体预测,确定多音字信息中每个多音字的读音或字体;
21、转换模块,用于根据每个多音字的读音或字体进行待转换任务中的多音字识别,完成待转换任务的转换。
22、根据本发明的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本发明上述任一方面所述的方法。
23、根据本发明的又一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本发明上述任一方面所述的方法。
24、从而,本发明通过多任务学习构建多音字识别模型和多音字预测模型,从而提高了语音与文字相互转换时的准确率,节省了人工校对的时间、提升了用户的体验效果。
1.一种基于多音字语境识别的文字语音转换方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,采用多任务学习构建多音字识别模型和多音字预测模型,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述多音字词典进行机器模型识别,构建所述多音字识别模型,包括:
4.一种基于多音字语境识别的文字语音转换装置,其特征在于,包括:
5.根据权利要求4所述的装置,其特征在于,构建模块,包括:
6.根据权利要求5所述的装置,其特征在于,第二构建子模块,包括:
7.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-3任一所述的方法。
8.一种电子设备,其特征在于,所述电子设备包括: