语音合成中预测基频帧的方法及系统的制作方法_3

文档序号：9912668阅读：来源：国知局

取辅助信息中的所有含基频信息音素，该查找子模块还接收预测判断模块22形成的语音特征帧序列，用于获取该语音特征帧序列中与含基频信息音素对应的所有语音特征帧，在查找子模块中设有音素信息序列中每个音素和语音特征帧序列中每个语音特征帧的对应关系，每个音素对应的语音特征帧的起始和结束的时间点，一个音素对应着多个语音特征帧。基频处理子模块用于对查找子模块获取的所有语音特征帧中的非基频帧依据辅助信息进行修正。对于语音特征帧中的基频帧不做处理，可以有效提高系统的预测效率，另外将非基频帧误判为基频帧，在合成语音后对自然度的影响较小，不会出现沙哑和不连续的现象。
[0061]基频修正模块还包括动态切分子模块，该动态切分子模块与查找子模块和基频处理子模块连接，动态切分子模块用于对每一含基频信息音素对应的语音特征帧所形成的语音特征帧范围进行位置划分，划分形成前部位置、中部位置、以及后部位置，该动态切分子模块基于动态切分算法，对与一个含基频信息音素对应的语音特征帧所形成的语音特征帧范围进行位置区域的划分。基频处理子模块基于该动态切分子模块所划分的位置对查找子模块所获取的语音特征帧中的非基频帧进行修正处理，先判断当前语音特征帧在对应的语音特征帧范围内的位置，若当前的语音特征帧在中部位置，则对当前的语音特征帧的基频帧预测结果不进行修正，也就是该当前的语音特征帧仍为非基频帧。若当前的语音特征帧在前部位置，基频处理子模块判断在音素信息序列中与当前的语音特征帧所在的音素相邻的前一音素是否为含基频信息音素，若前一音素是含基频信息音素，则将当前语音特征帧修正为基频帧，若前一音素不是含基频信息音素，则对语音特征帧的基频帧预测结果不做修正处理。若当前的语音特征帧在后部位置，基频处理子模块判断在音素信息序列中与当前的语音特征帧所在的音素相邻的后一音素是否为含基频信息音素，若后一音素是含基频信息音素，则将当前语音特征帧修正为基频帧，若后一音素不是含基频信息音素，则对语音特征帧的基频帧预测结果不做修正处理。
[0062]下面对本发明一种语音合成中预测基频帧的方法进行说明。
[0063]如图2所示，本发明语音合成中预测基频帧的方法，包括如下步骤:
[0064]执行步骤Sll，输入待合成语音的文本信息，接着执行步骤S12。
[0065]执行步骤S12，将文本信息转化为语音特征帧序列，语音特征帧的帧长一般为5ms。接着执行步骤SI 3。
[0066]执行步骤S13，预测每一语音特征帧是否为基频帧形成基频预测结果，通过计算每一语音特征帧是否是基频帧的概率，再根据设定阈值对语音特征帧判断为基频帧或者非基频帧。具体地包括如下步骤:计算每一语音特征帧是否为基频帧的概率，形成对应所述语音特征帧序列的概率序列；设定预测阈值，将概率序列中高于预测阈值的概率所对应的语音特征帧判断为基频帧，将所述概率序列中低于所述预测阈值的概率所对应的语音特征帧判断为非基频帧，从而形成了对应语音特征帧序列的基频预测结果。接着执行步骤S14。
[0067]执行步骤S14，将文本信息转化为音素信息序列，接着执行步骤S15。
[0068]执行步骤S15，判断每一音素是否为含基频信息音素形成辅助信息，将语言中所有音素以是否带基频进行分类，形成含基频信息音素集合和无基频信息音素集合;含基频信息音素集合中的音素包括:a、a1、an、ang、ao、e、e1、en、eng、er、1、ia、ian、iang、iao、ie、i1、ii1、in、ing、1、1ng、1u、1、m、n、o、ong、ou、r、u、ua、ua1、uan、uang、ue1、uen、ueng、uo、V、van、ve、vn。在无基频信息音素集合中的音素包括:sil、sp、b、c、ch、d、f、g、h、j、k、p、q、s、sh、t、x、z、zh。将音素信息序列中的每一音素与含基频信息音素集合和无基频信息音素集合进行比对，以得出所述音素是否为含基频信息音素，进而形成对应音素信息序列的辅助信息。接着执行步骤S16。
[0069]执行步骤S16，将音素与语音特征帧相对应，将音素信息序列中的每一音素与语音特征帧序列中的语音特征帧相对应，并根据辅助信息修正基频预测结果以形成基频识别结果。获取辅助信息中的所有含基频信息音素;获取所有含基频信息音素所对应的语音特征帧，对所获取的语音特征帧中为非基频帧的语音特征帧进行修正。包括:对每一含基频信息音素对应的语音特征帧所形成的语音特征帧范围进行位置划分，划分为前部位置、中部位置、以及后部位置，根据切分动态算法进行语音特征帧范围的切分;判断当前的语音特征帧在对应的语音特征帧范围内的位置，若当前的语音特征帧在所述中部位置，则对当前的语音特征帧的基频预测结果不进行修正;若当前的语音特征帧在所述前部位置，且在音素信息序列中与当前的语音特征帧所在的音素相邻的前一音素为含基频信息音素，则将当前语音特征帧修正为基频帧;若当前的语音特征帧在所述后部位置，且在音素信息序列中与当前的语音特征帧所在的音素相邻的后一音素为含基频信息音素，则将当前语音特征帧修正为基频帧。
[0070]在以辅助信息修正基频预测结果中，还可以通过以下方法来实现:
[0071]如图3所示，执行步骤S31，判断当前帧所在音素对应的状态位置，根据经切分的语音特征帧范围得到当前语音特征帧所在的位置，若当前语音特征帧在中部位置，则接着执行步骤S32。若当前语音特征帧在前部位置，则接着执行步骤S33。若当前语音特征帧在后部位置，则接着执行步骤S36。
[0072]执行步骤S32，对当前帧的预测结果不做处理。
[0073]执行步骤S33，判断当前帧所在音素是否带基频，即判断该音素是否为含基频信息音素，通过辅助信息可以知晓当前音素是否为含基频信息音素，若当前音素是含基频信息音素则接着执行步骤S34，若当前音素是无基频信息音素则接着执行步骤S32。
[0074]执行步骤S34，判断当前帧所在音素的前一音素是否带基频，若前一音素是含基频信息音素，则接着执行步骤S35，若前一音素是无基频信息音素，则接着执行步骤S32。
[0075]执行步骤S35，将当前帧修正为基频帧。
[0076]执行步骤S36，判断当前帧所在音素是否带基频，若当前的音素是含基频信息音素，则执行步骤S37，若当前的音素是无基频信息音素，则执行步骤S32。
[0077]执行步骤S37，判断当前帧所在音素的后一音素是否带基频，若后一音素是含基频信息音素，则接着执行步骤S38，若后一音素是无基频信息音素，则接着执行步骤S32。
[0078]执行步骤S38，将当前帧修正为基频帧。
[0079]本发明语音合成中预测基频帧的系统及方法的有益效果为:
[0080]采用提取文本信息中的音素信息序列，并获得音素信息序列中的音素是否带基频的信息，基于音素和语音特征帧的映射关系获得音素对应语音特征帧的边界点，基于音素是否带基频的信息(辅助信息)和边界点对基频预测结果做出修正，将基频预测结果中的被误判为非基频帧的基频帧修正，提高基频帧预测的准确率，进而提高合成后的语音的自然度，优化声音效果。
[0081]以上结合附图实施例对本发明进行了详细说明，本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而，实施例中的某些细节不应构成对本发明的限定，本发明将以所附权利要

完整全部详细技术资料下载

当前第3页1 2 3 4