一种基于小波包分解特征参数的语音转换方法

文档序号：32310960发布日期：2022-11-23 11:34阅读：来源：国知局

技术特征：
1.一种基于小波包分解特征参数的语音转换方法，其特征在于：采用小波包变换对长时基音频率f0
lt
分解后再进行训练与转换，其中包括训练步骤和转换步骤如下：训练步骤：s1提取训练样本的长时基音频率f0
lt
；s2对长时基音频率f0
lt
进行小波包分解，形成二维矩阵s
f
；s3提取训练样本的长时平均功率谱npow
lt
，对npow
lt
进行小波包分解，形成二维矩阵s
p
，把s
p
和s
f
拼接形成联合矩阵s
train_source
和联合矩阵s
train_target
；s4对矩阵s
train_source
和矩阵s
train_target
进行时间对齐后，输入高斯混合模型训练，得到长时基音频率f0
lt
的转换函数f
trained
；转换步骤：s5使用f0
lt
的转换函数f
trained
对需转换源说话人样本的联合矩阵s
conv_source
进行转换，得到转换后f0
lt
的联合矩阵s
conv_traget
；s6从矩阵s
conv_traget
中的分离出转换后的s'
f
，对s'
f
进行小波包逆变换得到转换的长时基音频率f0'
lt
；s7把f0'
lt
划分为以帧为单位的基音频率f0'，最后结合其余参数生成转换后的目标说话人语音。2.根据权利要求1所述的一种基于小波包分解特征参数的语音转换方法，其特征在于：所述步骤s1具体为：s1-1对源说话人的训练语音样本与目标说话人的训练语音样本均进行语音句长时间范围的限制，限制语音样本的句长时间范围在2～4秒，且每句样本中包含5～10个连续音节；s1-2对被限定句长范围的源说话人的训练样本和目标说话人的训练样本分别提取基音频率f0，以句为单位形成长时基音频率f0
lt
。3.根据权利要求1所述的一种基于小波包分解特征参数的语音转换方法，其特征在于：所述步骤s2具体如下：s2-1将长时基音频率f0
lt
序列进行n层小波包分解，得到第n层上所有2
n
个频率分量的一维向量s1,s2,...,s
z
(z的取值为2
n
)，标号的顺序为所分频段由低频到高频排列，其中s
i
视为n层小波包分解树中的叶子节点；s2-2将一维向量s1,s2,...,s
z
组成矩阵s
f
，s
f
＝[s
1 s
2 ... s
z
]
t
，小波包分解的层数n与语音句长时间范围存在对应关系。4.根据权利要求1所述的一种基于小波包分解特征参数的语音转换方法，其特征在于：所述步骤s3具体如下：s3-1从被限定句长范围的源说话人的训练样本和目标说话人的训练样本分别提取平均功率谱npow，以句为单位形成平均功率谱npow
lt
；s3-2对长时平均功率谱npow
lt
进行n层小波包分解，得到小波包分解后的二维矩阵s
p
；s3-3把矩阵s
f
和矩阵s
p
拼接形成联合矩阵s，s＝[s
f s
p
]；s3-4将从源说话人训练样本形成的联合矩阵标记为s
train_source
，将从目标说话人训练样本形成的联合矩阵标记为s
train_target
。5.根据权利要求1所述的一种基于小波包分解特征参数的语音转换方法，其特征在于：
所述步骤s4具体如下：s4-1使用动态时间规整方法对联合矩阵s
train_source
和联合矩阵s
train_target
进行时间对齐；s4-2对齐后输入高斯混合模型进行训练，得到f0
lt
的转换函数f
trained
。6.根据权利要求1所述的一种基于小波包分解特征参数的语音转换方法，其特征在于：所述步骤s5具体如下：s5-1对需转换的源说话人样本提取长时基音频率f0
lt
和长时平均功率谱npow
lt
；s5-2对长时基音频率f0
lt
进行n层小波包分解得到s
f
，对长时平均功率谱npow
lt
进行n层小波包分解得到s
p
，对s
f
和s
p
进行拼接形成联合矩阵s
conv_source
；s5-3将联合矩阵s
conv_source
输入f0
lt
的转换函数f
trained
，输出转换后的联合矩阵s
conv_traget
。7.根据权利要求1所述的一种基于小波包分解特征参数的语音转换方法，其特征在于：所述步骤s6具体如下：从转换后的联合矩阵s
conv_traget
＝[s
f
' s
p
']中分离出s
f
'＝[s1' s2' ... s
z
']
t
，将s
f
'中的各元素与n层小波包分解树的叶子节点相对应，进行小波包逆变换后得到转换的长时基音频率f0'
lt
。8.根据权利要求1所述的一种基于小波包分解特征参数的语音转换方法，其特征在于：所述步骤s7具体如下：对转换后的长时基音频率f0'
lt
，按先后顺序每帧对应向量中一个元素，得到每一帧转换后的基音频率f0'；最终结合频谱包络参数sp'和激励参数ap生成转换后的目标说话人语音。9.根据权利要求2所述的一种基于小波包分解特征参数的语音转换方法，其特征在于：所述步骤s1-2是：先以帧为单位提取短时基音频率f0，然后把每一帧的基音频率f0按时间先后顺序组成一维向量f0
lt
，作为长时基音频率。10.根据权利要求3所述的一种基于小波包分解特征参数的语音转换方法，其特征在于；所述小波包分解的层数n与语音句长时间范围存在对应关系是：句长时间范围2～4秒对应小波包分解的层数n取值为3。

技术总结
本发明公开一种基于小波包分解特征参数的语音转换方法，在训练阶段，对训练语音样本以句为单位提取长时基音频率F0

技术研发人员：何伟俊赵勇勇李亚林沛何宇欣
受保护的技术使用者：广东技术师范大学
技术研发日：2022.08.19
技术公布日：2022/11/22

完整全部详细技术资料下载

当前第2页1 2