一种语音转换方法

文档序号：9454205阅读：423来源：国知局

一种语音转换方法
【技术领域】
[0001] 本发明涉及语音转换技术，特别是一种结合语音识别和语音合成技术的语音转换方法。
【背景技术】
[0002] 语音转换技术是语音信号处理领域近年来新兴的研究分支，涵盖了语音识别和语音合成等领域的内容，拟在保持语义内容不变的情况下，通过改变一个特定说话人（被称为源说话人）的话音个性特征，使他（或她）说的话被听者认为是另一个特定说话人（被称为目标说话人）说的话。语音转换的主要任务包括提取代表说话人个性的特征参数并进行数学变换，然后将变换后的参数重构成语音。在这过程中，既要保持重构语音的听觉质量，又要兼顾转换后的个性特征是否准确。
[0003] 经过多年的发展，语音转换领域已经涌现出一些高效实用的算法，其中以高斯混合模型为代表的统计转换方法目前已俨然成为了该领域公认的标准。但是这类算法亦存在某些弊端，例如：高斯混合模型作为映射函数时考虑全局变量，通过迭代训练数据，导致计算量增大，不适用于资源有限的设备，如嵌入式系统或移动设备。
[0004] 针对上述问题，目前已存在一些应对方案。例如，基于混合码书映射的转换方法，根据不同的训练数据量状况建立不同的码书映射关系，在训练数据量充足的情况下，源与目标码书之间采用一对一映射关系以节省训练时间；在训练数据量匮乏的情况下，建立一对多码书映射关系提高转换精确度。一定程度上解决了其他算法耗时长，不适用于内存较小的设备的缺陷。

【发明内容】

[0005] 针对现有技术中存在的问题，本发明提供了一种充分结合嵌入式系统、移动设备等自身资源有限的特点，提出一种高效，耗时短，计算简单，能耗小，适用于内存较小的设备的语音转换方法。
[0006] 本发明的目的通过以下技术方案实现。
[0007] 一种语音转换方法，包括如下步骤：
[0008] 1)采用语音分析模型对原始语音信号进行分析；
[0009] 2)固定Mel频率，作为采样频率对分析得到的STRAIGHT谱进行采样；
[0010] 3)从采样得到的频谱中计算出标准差作为高斯混合模型的带宽；
[0011] 4)通过混合高斯模型对STRAIGHT谱作近似处理，得到特征参数，即高斯混合模型的权重；
[0012] 5)将得到的特征参数进行数学统计计算条件分布函数建立条件分布直方图得到映射函数；
[0013]6)将训练好的条件分布函数作为映射函数，基于特征参数映射方法的映射任意的语音信号参数。
[0014] 进一步的，所述步骤1)中的语音分析模型的工作过程包括如下步骤：
[0015] al)利用STRAIGHT模型对语音信号进行STRAIGHT谱分析。
[0016] 3、根据权利要求1所述的一种语音转换方法，其特征在于：所述步骤2)包括采固定Mel频率，对STRAIGHT谱进行采样的过程如下：
[0017] bl)采用Mel滤波器组的中心频率作为固定Mel频率；
[0018] b2)将该Mel频率作为采样频率对STRAIGHT谱进行采样得到Mel频率对数谱；
[0019] b3)该Mel频率对数谱也作为混合高斯的均值用于步骤4)处理过程。
[0020] 进一步的，所述步骤3)中实现对混合高斯的标准差计算，采用自适应调整标准差的方法实现。
[0021] 进一步的，所述步骤4)中的特征参数提取方法包括如下步骤：
[0022] cl)利用均值、方差和幅度对混合高斯进行加权求和；
[0023] c2)利用加权混合高斯函数对STRAIGHT谱进行近似处理，得到特征参数权重。
[0024] 进一步的，所述步骤5)中的特征参数映射方法包括如下步骤：
[0025] dl)将步骤c2)得到的权重进行数学统计，计算源语音和目标语音特征参数的联合分布；
[0026] d2)在已知源与目标语音联合分布的情况下，计算已知目标语音条件下的条件分布函数。
[0027] d3)根据步骤d2)得到的条件分布函数，绘制条件分布直方图，得到映射函数。
[0028] 进一步的，所述步骤6)中的特征参数转换方法包括如下步骤：
[0029]el)利用步骤dl)得到的特征参数通过条件分布函数，转换语音的特征参数；
[0030] e 2)对步骤d2)得到的转换语音特征参数进行语音重构，得到转换语音。
[0031] 相比于现有技术，本发明的优点在于：本发明提供的基于经验条件分布的资源有限情形的语音转换方法，采用一种数据驱动的非参数映射方法，通过建立条件直方图，近似估计目标语音的条件分布，实现语音转换，充分结合嵌入式系统、移动设备等自身资源有限的特点，提出一种高效，耗时短，计算简单，能耗小的语音转换方法。
【附图说明】
[0032] 图1为本发明涉及的系统训练框图；
[0033] 图2为本发明涉及的系统转换框图。
【具体实施方式】
[0034] 下面结合说明书附图和具体的实施例，对本发明作详细描述。
[0035] 本发明通过STRAIGHT模型提取语音信号的STRAIGHT谱，通过混合高斯模型对 STRAIGHT谱进行近似处理，得到特征参数权重，利用特征参数建立源和目标语音之间的条件分布函数，转换时，利用条件分布函数及源语音特征参数，实现语音转换。具体包括如下步骤：
[0036] (1)采用语音分析模型对原始语音信号进行分析；
[0037] (2)固定Mel频率，作为采样频率对分析得到的STRAIGHT谱进行采样；
[0038] (3)从采样得到的频谱中计算出标准差作为高斯混合模型的带宽；
[0039] (4)通过混合高斯模型对STRAIGHT谱作近似处理，得到特征参数，即STRAIGHT谱经高斯混合模型处理后的权重；
[0040] (5)将得到的特征参数进行数学统计计算条件分布函数建立条件分布直方图得到映射函数；
[0041] (6)将训练好的条件分布函数作为映射函数，基于特征参数映射方法的映射任意的语音信号参数；
[0042] 上述步骤中，步骤（1)~（5)为训练步骤，步骤（6)为转换步骤；所述条件分布函数是一种数据驱动的非参数分布函数。通过对源与目标语音的分析，将其STRAIGHT谱经过高斯混合后得到的权重作为特征参数，建立源与目标语音的联合分布函数，进而在已知目标语音条件下得到条件分布。
[0043] 本案是针对现有模型在语音转换中存在的问题，提出一种新的解决方案，本案有两个关键点：一是利用混合高斯模型对语音信号STRAIGHT谱进行近似处理，得到数据驱动的非参数特征；二是对得到的数据进行数学统计计算联合概率分布，进而得到目标语音条件下的条件分布。
[0044] 本发明的创新之处在于：映射函数采用非语音特征参数的数据，建立源与目标语音的条件分布作为转换规则，计算量小，适用于资源有限的设备，具体的操作步骤如下：
[0045] 给定{Xq，Yq}，q= 1,2, ???，〇,其中Q表示音类总数，={；%，???,…，和 I= }表示在第q个

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：鲍静益;徐宁;
技术所有人：常州工学院;
我是此专利的发明人