一种基于lpc及rbf神经网络的声音转换的方法

文档序号：2829059阅读：482来源：国知局

专利名称：一种基于lpc及rbf神经网络的声音转换的方法
技术领域：
本发明涉及语音信号处理领域，尤其涉及一种基于LPC及RBF神经网络的声音转换的方法。
背景技术：
对语音信号的处理，主要有三种方案
I、基于矢量量化的码本映射技术实现方案
用矢量量化算法将源说话人和目标说话人的声学特征空间进行划分，用动态时间规整算法将源-目标特征矢量相关联，从而训练出一个源到目标说话人的映射码本。缺陷尽管计算量较低，但是由于矢量量化作用造成的频谱的不连续性，转换语音质量还很低。2、基于线性多变量回归的局部函数转换技术实现方案
说话人语音频谱空间由矢量量化划分成许多不同的子空间，每一个空间都训练一个局部函数，每个局部函数都表述了某一个声学空间源-目标说话人特征之间的关系，这样码本映射方案中的全局映射就被这些局部函数来近似。缺陷这种局部空间转换的方法可以产生无穷多目标特征量。然而由于选择单个局部转换函数的离散性还存在，不连贯性仍然出现在输出语音中。3、基于高斯混合模型的联合概率分布技术实现方案
通过概率的方法，采用高斯混合模型描述源-目标特征的联合概率分布，寻找转换函数来预测目标语音特征。这种技术比码本映射和局部函数变换有效性、鲁棒性也较好，理论上能使回归问题的混合成分得到更合理的配置。缺陷这种技术在进行运算时计算量较大，而且存在转换语音频谱过分光滑现象，影响了转换语音目标说话人特征的倾向性。

发明内容
本发明解决的技术问题是在已有的语音转换技术方案中，要么转换语音质量较低，要么计算量过大，本发明设计出一种高质量、计算量适中的语音转换技术方案。本发明解决现有技术中存在的问题所采用的技术方案为提供一种基于LPC及RBF神经网络的声音转换的方法，所述方法包括以下步骤
A、对语音进行预处理；
B、对浊音帧进行基频检测；
C、对基频检测后的浊音帧进行转换；
D、对转换后的基频进行浊音帧参量的提取；
E、对提取到的浊音帧参量进行计算，求得一帧浊音帧，然后对该一帧浊音帧进行合成，得到转换后的浊音帧。本发明的进一步技术方案是所述A步骤还包括以下分步骤
Al :从待转换语音中进行分帧；
A2:运用判断方法对该帧进行清音和浊音的判断。
本发明的进一步技术方案是所述A2步骤中，所述判断方法包括帧能量和帧过零率，帧能量的计算公式如下
权利要求
1.一种基于LPC及RBF神经网络的声音转换的方法，其特征在于包括以下步骤 A、对语音进行预处理； B、对浊音帧进行基频检测； C、对基频检测后的浊音帧进行转换； D、对转换后的基频进行浊音帧参量的提取； E、对提取到的浊音帧参量进行计算，求得一帧浊音帧，然后对该一帧浊音帧进行合成，得到转换后的浊音帧。
2.根据权利要求I所述的基于LPC及RBF神经网络的声音转换的方法，其特征在于所述A步骤还包括以下分步骤 Al :从待转换语音中进行分帧； A2:运用判断方法对该帧进行清音和浊音的判断。
3.据权利要求2所述的基于LPC及RBF神经网络的声音转换的方法，其特征在于所述A2步骤中，所述判断方法包括帧能量和帧过零率，帧能量的计算公式如下
4.根据权利要求I所述的基于LPC及RBF神经网络的声音转换的方法，其特征在于所述B步骤中，对浊音帧进行基频检测是运用平均幅度差函数AMDF来检测的，其计算公式为
5.根据权利要求I所述的基于LPC及RBF神经网络的声音转换的方法，其特征在于所述C步骤中，对基频检测后的浊音帧进行转换，转换规则采用基频转换规则。
6.根据权利要求I所述的基于LPC及RBF神经网络的声音转换的方法，其特征在于所述D步骤中，对浊音帧进行参量的提取，是用自相关法从最低价线性预测器开始，由低阶到高阶进行逐阶递推计算，求得浊音帧第P阶LPC系数，根据该浊音帧LPC系数求得该浊音帧LSF系数。
7.根据权利要求I至6任一项所述的基于LPC及RBF神经网络的声音转换的方法，其特征在于对源说话者与目标说话者的多个相同训练语音的浊音帧，分别提取出多组相对应LSF系数，获得转换后的LSF系数，再求得转换后的LPC系数。
8.根据权利要求7所述的，其特征在于在求解所述转换后LPC系数的过程中求得预测误差能量尽。
9.根据权利要求8所述的基于LPC及RBF神经网络的声音转换的方法，其特征在于用所述预测误差能量&进行开方
10.根据权利要求9所述的基于LPC及RBF神经网络的声音转换的方法，其特征在于根据所述转换后的LPC系数、所述增益仏对一帧浊音帧进行合成，计算公式如下
全文摘要
本发明涉及语音信号处理领域，尤其涉及一种基于LPC及RBF神经网络的声音转换的方法，包括以下步骤A、对语音进行预处理；B、对浊音帧进行基频检测；C、对基频检测后的浊音帧进行转换；D、对转换后的基频进行浊音帧参量的提取；E、对提取到的浊音帧参量进行计算，求得一帧浊音帧，然后对该一帧浊音帧进行合成，得到转换后的浊音帧。本发明的有益效果是设计出一种高质量、计算量适中语音转换技术方案，可用于保密通信中进行语音个性化的伪装，应用在多媒体娱乐中，用于语音增强系统，尤其对于声带等发音器官存在病变或者损伤。
文档编号G10L21/02GK102737628SQ201210229540
公开日2012年10月17日申请日期2012年7月4日优先权日2012年7月4日
发明者付东松, 张勇勇, 张钦宇, 林威, 潘振鹏, 王喆, 黄立伟申请人:哈尔滨工业大学深圳研究生院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张钦宇;潘振鹏;林威;王喆;付东松;张勇勇;黄立伟
技术所有人：哈尔滨工业大学深圳研究生院
我是此专利的发明人

上一篇：基于特征空间自适应投影的语音情感识别方法
上一篇：一种语音信号频域盲解卷积方法