基于一对多码书映射的语音转换方法

文档序号：2827276阅读：205来源：国知局

基于一对多码书映射的语音转换方法
【专利摘要】本发明公开了一种基于一对多码书映射的语音转换方法，对源语音码书与目标语音码书的一对多映射关系的建立，从平行数据库中随机提取一部分语音，对齐并提取声道参数后快速建立源与目标语音码书；估算用于训练的数据中源与目标特征参数对应于其各自码书的权重，通过统计与分析二者的关系来建立源与目标语音的权重映射关系，进而掌握个性特征的映射规则，实现高质量、快速的语音转换，能够解决实际环境中语音转换系统的实时性、转换后相似度的问题，最终在对语音转换实时性追求的过程中减小转换效果的代价，从而提高转换结果与目标语音的相似度，具有良好的应用前景。
【专利说明】基于一对多码书映射的语音转换方法
【技术领域】
[0001]本发明涉及一种基于一对多码书映射的语音转换方法，属于语音转换【技术领域】。【背景技术】
[0002]语音转换技术是将某人(称之为源)的语音作为输入，对其进行特征参数的修改，使其输出语义相同但具有另一说话人(称之为目标)声音个性的语音的技术。简单地说就是将一个说话人的声音，通过某种手段进行变换，使其听起来仿佛是另一个说话人说的话，语音转换是音信号处理领域一个较新的分支，属于交叉性的学科分支，其内容既涵盖语音的分析与合成、说话人识别、语音编码和增强等语音处理领域的各方面又涉及到语音学、语义学及心理声学等领域的知识。
[0003]近年来，语音转换技术在许多语音研究者的努力下已经初成一些体系，如隐马尔可夫模型、人工神经网络、统计映射法等，早年，Stylianou等人通过高斯混合模型实现了对特征参数的映射，继而该方法也成为了当前较为主流的方法之一，语音转换的最终目标是实时化、智能化，因此转换速度与转换效果是语音转换技术最主要的追求目标。然而，以高斯混合模型训练为代表的现阶段的转换技术需要对每一段输入的语音进行进行映射规则的训练，其计算量大、消耗时间较多，很难满足语音转换的实时性要求。
[0004]针对上述问题，目前已存在一些应对方案，例如，针对“训练过程的时间消耗”问题，早期有学者提出矢量量化算法:先对用于训练的平行数据进行线性预测分析，利用矢量量化运算将平行数据的的声道包络参数划分为若干码本，然后对数据进行动态时间规整对齐并计算统计直方图，最后将统计的直方图作为加权因子建立转换规则。针对矢量量化算法的转换结果两帧之间有间断性的缺点，Shikano等人提出模糊矢量量化算法，该算法在转换时考虑到了所有源和目标码字之间的关系，然后将其加权叠加，以达到对参数进行平滑的效果，但是语音转换后相似度低。除此之外，Arslan等人提出基于分段码书的说话人映射算法，他们对输入的语音帧首先按照所属的音素类别进行分类，并采用了线性谱频率作为特征参数建立源与目标语音一对一映射的码书，但此过程复杂，处理时间长。

【发明内容】

[0005]本发明的目的是克服现有技术存在的不足，本发明的基于一对多码书映射的语音转换方法，能够解决实际环境中语音转换系统的实时性、转换后相似度的问题，最终在对语音转换实时性追求的过程中减小转换效果的代价，从而提高转换结果与目标语音的相似度，具有良好的应用前景。
[0006]为了达到上述目的，本发明所采用的技术方案是:
[0007]基于一对多码书映射的语音转换方法，其特征在于:包括以下步骤，
[0008]步骤(1)，训练阶段，用于建立源码书与目标码书的一对多关系，包括以下步骤，
[0009](A)对平行的语音数据采用谐波随机模型进行语音分析；
[0010](B)从语音分析得到的模型参数中提取声道特征参数和基音频率；[0011](C)利用动态时间规整算法将源和目标的声道特征参数进行对齐；
[0012](D)从对齐的特征参数中随机提取部分数据作为码书，码书包括源语音码书和目标码书；
[0013](E)将剩余与码书不重叠的对齐数据作为训练数据，分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重，分析统计源语音与对应目标语音的权重的映身寸关系;
[0014](F)通过分析统计的权重关系，建立源语音与目标码书的一对多映射关系；
[0015]步骤(2)，转换阶段，用于实现语音特征的映射，合成转换后的语音，以下步骤，
[0016](H)根据建立源语音与目标码书的一对多映射关系，实现对语音特征的映射；
[0017](G)进行参数内插和相位补偿，合成转换后的语音。
[0018]前述的基于一对多码书映射的语音转换方法，其特征在于:(A)对平行的语音数据采用谐波随机模型进行语音分析的方法，包括如下步骤，
[0019](Al)，对语音数据进行固定时长的分帧，用互相关法对基音频率进行估计并根据基音频率划分清音信号帧与浊音信号帧；
[0020](A2)，在浊音信号帧部分设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域，再利用最小二乘算法估计得到离散的谐波幅度值和相位值；
[0021](A3)，在清音信号帧部分，利用经典的线性预测分析法对其进行分析，得到线性预测系数。
[0022]前述的基于一对多码书映射的语音转换方法，其特征在于:(B)从语音分析得到的模型参数中提取声道特征参数和基音频率的方法，包括以下步骤，
[0023](BI)，对(A2)得到的离散的谐波幅度值求取平方；
[0024](B2)，根据功率谱密度函数和自相关函数的一一对应关系，得到(A3)线性预测系数的托普里茨矩阵方程，求解该方程，将线性预测系数转换为线性谱频率系数。
[0025]前述的基于一对多码书映射的语音转换方法，其特征在于:(C)利用动态时间规整算法将源和目标的声道特征参数进行对齐，对齐准则为:对于两个不等长的特征参数序列，利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上，实现一一对应的匹配关系；在现参数集合的对齐过程中，通过迭代优化，最终获得时间匹配函数。
[0026]前述的基于一对多码书映射的语音转换方法，其特征在于:(D)从对齐的特征参数中随机提取部分数据作为目标码书的过程是从对齐后的特征参数对中随机提取出特征参数对，将其中每一个源语音特征参数的矢量作为一个源语音码字，组合成源语音码书；其对应的目标语音特征参数组合成目标码书。
[0027]前述的基于一对多码书映射的语音转换方法，其特征在于:(E)将剩余与码书不重叠的对齐数据作为训练数据，分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重，分析统计源语音与对应目标语音的权重的映射关系的方法，包括以下步骤，
[0028](E1)，分别估算源语音与目标语音的线性谱频率参数矢量与其对应码书中每个码字的距离；
[0029](E2)，根据其与码书中每个码字的距离，计算出其对应于码书中各码字的权重；
[0030](E3)，分析统计源语音与对应目标语音的权重的映射关系。[0031]前述的基于一对多码书映射的语音转换方法，其特征在于:(G)进行参数内插和相位补偿，合成转换后的语音的方法，包括以下步骤，
[0032](G1)，根据浊音信号帧部分转换后的线性谱频率参数估算其谐波参数；
[0033](G2)，将浊音信号帧部分的离散谐波幅度值和相位值用作正弦信号的幅度值和相位值，并进行叠加，运用内插和相位进行补偿，得到补偿后浊音信号帧部分；
[0034](G3)，将清音信号帧部分的白噪声信号通过全极点滤波器，得到滤波后清音信号中贞部分；
[0035](G4)，将补偿后浊音信号帧部分和滤波后清音信号帧部分进行叠加，得到合成转换的重构语音信号。
[0036]本发明的有益效果是:本发明的基于一对多码书映射的语音转换方法，对源语音码书与目标语音码书的一对多映射关系的建立，从平行数据库中随机提取一部分语音，对齐并提取声道参数后快速建立源与目标语音码书；然后，估算用于训练的数据中源与目标特征参数对应于其各自码书的权重，通过统计与分析二者的关系来建立源与目标语音的权重映射关系，进而掌握个性特征的映射规则，实现高质量、快速的语音转换，能够解决实际环境中语音转换系统的实时性、转换后相似度的问题，最终在对语音转换实时性追求的过程中减小转换效果的代价，从而提高转换结果与目标语音的相似度，具有良好的应用前景。
【专利附图】

【附图说明】
[0037]图1是本发明的训练阶段的流程示意图。
[0038]图2是本发明的转换阶段的流程示意图。
【具体实施方式】
[0039]下面将结合说明书附图，对本发明作进一步的说明。
[0040]本发明的基于一对多码书映射的语音转换方法，包括训练阶段和转换阶段，训练阶段，首先，利用已建立的源与目标码书对平行数据分别进行权重估算并统计分析，然后通过源与目标的权重关系建立源码书与目标码书的一对多关系。转换阶段，首先，获得待转换的源语音的权重，然后由源语音码书与目标码书的一对多关系获得映射的特征参数，具体包括如下步骤:
[0041]步骤(1)，如图1所示，训练阶段，用于建立源码书与目标码书的一对多关系，包括以下步骤，
[0042](A)对平行的语音数据采用谐波随机模型进行语音分析，包括如下步骤，
[0043]Al)，对语音数据进行固定时长的分帧，用互相关法对基音频率进行估计并根据基音频率划分清音信号帧与浊音信号帧；
[0044]A2)，在浊音信号帧部分设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域，再利用最小二乘算法估计得到离散的谐波幅度值和相位值；
[0045]A3)，在清音信号帧部分，利用经典的线性预测分析法对其进行分析，得到线性预测系数；
[0046](B)从语音分析得到的模型参数中提取声道特征参数和基音频率，包括如下步骤，;[0047]BI)，对A2)得到的离散的谐波幅度值求取平方；
[0048]B2)，根据功率谱密度函数和自相关函数的一一对应关系，得到A3)线性预测系数的托普里茨矩阵方程，求解该方程，将线性预测系数转换为线性谱频率系数；
[0049]C)利用动态时间规整算法将源和目标的声道特征参数进行对齐，对齐准则为:对于两个不等长的特征参数序列，利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上，实现一一对应的匹配关系；在现参数集合的对齐过程中，通过迭代优化一个预设的累积失真函数，并限制搜索区域，最终获得时间匹配函数；
[0050](D)从对齐的特征参数中随机提取部分数据作为码书，码书包括源语音码书和目标码书，过程是从对齐后的特征参数对中随机提取出特征参数对，将其中每一个源语音特征参数的矢量作为一个源语音码字，组合成源语音码书；其对应的目标语音特征参数组合成目标码书；
[0051](E)将剩余与码书不重叠的对齐数据作为训练数据，分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重，分析统计源语音与对应目标语音的权重的映射关系，包括以下步骤，
[0052]E1)，分别估算源语音与目标语音的线性谱频率参数矢量与其对应码书中每个码字的距离；
[0053]E2)，根据其与码书中每个码字的距离，计算出其对应于码书中各码字的权重；
[0054]E3)，分析统计源语音与对应目标语音的权重的映射关系；
[0055](F)通过分析统计的权重关系，建立源语音与目标码书的一对多映射关系；
[0056]步骤(2)，如图2所示，转换阶段，用于实现语音特征的映射，合成转换后的语音，以下步骤，
[0057](H)根据建立源语音与目标码书的一对多映射关系，实现对语音特征的映射；
[0058](G)进行参数内插和相位补偿，合成转换后的语音，包括以下步骤，
[0059]G1)，根据浊音信号帧部分转换后的线性谱频率参数估算其谐波参数；
[0060]G2)，将浊音信号帧部分的离散谐波幅度值和相位值用作正弦信号的幅度值和相位值，并进行叠加，运用内插和相位进行补偿，得到补偿后浊音信号帧部分；
[0061]G3)，将清音信号帧部分的白噪声信号通过全极点滤波器，得到滤波后清音信号帧部分；
[0062]G4)，将补偿后浊音信号帧部分和滤波后清音信号帧部分进行叠加，得到合成转换的重构语音信号。
[0063]下面介绍按照本发明的语音转换方法的一具体实施例，具体如下，
[0064]步骤(I )，训练阶段:
[0065](A)源和目标人的语音通过谐波加随机模型进行分解，得到基音频率轨迹和谐波声道谱参数的幅度值和相位值。具体细节描述如下:
[0066]Al)对语音信号进行分巾贞,巾贞长20ms,巾贞重叠间隔IOms,在每巾贞中，用自相关法估计基频，若该帧为清音帧，则设置基频等于零；
[0067]A2)对于浊音帧(即基频不为零的帧)，假设语音信号Sh(η)可以由一系列的正弦波叠加而成:[0068]
【权利要求】
1.基于一对多码书映射的语音转换方法，其特征在于:包括以下步骤，步骤(1)，训练阶段，用于建立源码书与目标码书的一对多关系，包括以下步骤， (A)对平行的语音数据采用谐波随机模型进行语音分析； (B)从语音分析得到的模型参数中提取声道特征参数和基音频率； (C)利用动态时间规整算法将源和目标的声道特征参数进行对齐； (D)从对齐的特征参数中随机提取部分数据作为码书，码书包括源语音码书和目标码书; (E)将剩余与码书不重叠的对齐数据作为训练数据，分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重，分析统计源语音与对应目标语音的权重的映射关系; (F)通过分析统计的权重关系，建立源语音与目标码书的一对多映射关系；步骤(2)，转换阶段，用于实现语音特征的映射，合成转换后的语音，以下步骤， (H)根据建立源语音与目标码书的一对多映射关系，实现对语音特征的映射； (G)进行参数内插和相位补偿，合成转换后的语音。
2.根据权利要求1所述的基于一对多码书映射的语音转换方法，其特征在于:(A)对平行的语音数据采用谐波随机模型进行语音分析的方法，包括如下步骤， (Al)，对语音数据进行固定时`长的分帧，用互相关法对基音频率进行估计并根据基音频率划分清音信号帧与浊音信号帧； (A2)，在浊音信号帧部分设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域，再利用最小二乘算法估计得到离散的谐波幅度值和相位值； (A3)，在清音信号帧部分，利用经典的线性预测分析法对其进行分析，得到线性预测系数。
3.根据权利要求1或2所述的基于一对多码书映射的语音转换方法，其特征在于:(B)从语音分析得到的模型参数中提取声道特征参数和基音频率的方法，包括以下步骤， (BI)，对(A2)得到的离散的谐波幅度值求取平方； (B2)，根据功率谱密度函数和自相关函数的一一对应关系，得到(A3)线性预测系数的托普里茨矩阵方程，求解该方程，将线性预测系数转换为线性谱频率系数。
4.根据权利要求1所述的基于一对多码书映射的语音转换方法，其特征在于:(C)利用动态时间规整算法将源和目标的声道特征参数进行对齐，对齐准则为:对于两个不等长的特征参数序列，利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上，实现一一对应的匹配关系；在现参数集合的对齐过程中，通过迭代优化，最终获得时间匹配函数。
5.根据权利要求1所述的基于一对多码书映射的语音转换方法，其特征在于:(D)从对齐的特征参数中随机提取部分数据作为目标码书的过程是从对齐后的特征参数对中随机提取出特征参数对，将其中每一个源语音特征参数的矢量作为一个源语音码字，组合成源语音码书；其对应的目标语音特征参数组合成目标码书。
6.根据权利要求1所述的基于一对多码书映射的语音转换方法，其特征在于:(E)将剩余与码书不重叠的对齐数据作为训练数据，分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重，分析统计源语音与对应目标语音的权重的映射关系的方法，包括以下步骤， (E1)，分别估算源语音与目标语音的线性谱频率参数矢量与其对应码书中每个码字的距离； (E2)，根据其与码书中每个码字的距离，计算出其对应于码书中各码字的权重； (E3)，分析统计源语音与对应目标语音的权重的映射关系。
7.根据权利要求1所述的基于一对多码书映射的语音转换方法，其特征在于:(G)进行参数内插和相位补偿，合成转换后的语音的方法，包括以下步骤， (G1)，根据浊音信号帧部分转换后的线性谱频率参数估算其谐波参数； (G2)，将浊音信号帧部分的离散谐波幅度值和相位值用作正弦信号的幅度值和相位值，并进行叠加，运用内插和相位进行补偿，得到补偿后浊音信号帧部分； (G3)，将清音信号帧部分的白噪声信号通过全极点滤波器，得到滤波后清音信号帧部分； (G4)，将补偿后浊音信号帧部分和滤波后清音信号帧部分进行叠加，得到合成转换的重构语音信号。`
【文档编号】G10L25/93GK103886859SQ201410050758
【公开日】2014年6月25日申请日期:2014年2月14日优先权日:2014年2月14日
【发明者】徐宁, 胡芳, 鲍静益, 刘小峰, 汤一彬, 蒋爱民申请人:河海大学常州校区

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐宁;胡芳;鲍静益;刘小峰;汤一彬;蒋爱民
技术所有人：河海大学常州校区
我是此专利的发明人