构建个性化歌唱风格频谱合成模型的方法及装置的制造方法

文档序号：8446543阅读：167来源：国知局

构建个性化歌唱风格频谱合成模型的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及语音合成技术领域，具体涉及一种构建个性化歌唱风格频谱合成模型的方法及装置。
【背景技术】
[0002] 近年来，歌唱合成系统得到了广泛的研究和应用，其中基于隐马尔可夫模型 (Hidden Markov Model, HMM)的参数合成系统以及基于波形拼接合成系统达到了实用标准。相比于基于波形拼接合成系统，基于HMM的参数合成方法对训练数据量要求较少且系统规模较小，因而具有较好的实用价值。
[0003] 基于参数合成的歌唱合成系统首先分别确定各基本合成单元(如音节，音素等）的时长参数序列、基频参数序列以及频谱参数序列，随后再根据合成参数序列利用参数合成器得到连续歌唱信号。
[0004] 传统歌唱合成系统的构建通常是由固定发音人预先录制歌曲语音，并据此训练得到时长、基频及频谱的合成模型，并通过语音合成器构建歌唱合成系统。基于固定发音人数据构建的歌唱合成系统合成音色较为单一，而很多情况下用户则希望用自己的音色或其指定的音色来合成歌曲，即希望合成歌曲具有个性化的音色特点。在个性化歌唱合成模型构建时，由于普通用户很难收集到大量的歌唱数据且即使获得了少量的歌曲数据，由于受演唱水平的影响、以及演唱者在演唱时或多或少会加入一些演绎成分，也很难获得准确的标注信息(如下文所述的音素序列、韵律词、韵律短语、音高和时值等信息)，对此，传统的基于语音数据训练得到的合成模型往往不够正确，直接影响了合成效果。
[0005] 针对个性化歌唱合成的应用需求，以及存在的训练歌唱数据不足及标注不够准确的问题，有研究人员提出直接采用个性化朗读风格的频谱模型作为歌唱频谱合成模型。由于语音数据最重要的控制参数基频和频谱具有较强的相关性，如果将一种风格语音的基频与另一种风格语音的频谱共同合成语音，则会由于基频与频谱不搭配而导致生成的语音不自然。显然，朗读风格语音与歌唱风格语音存在较大的差别，其中歌唱风格语音基频范围跨度很大，而朗读风格语音基频范围跨度相对较小，如果使用朗读风格合成模型生成频谱，而根据歌曲简谱得到基频，则会引入较明显的基频和频谱搭配性问题，使得合成的语音听起来自然度较低。显然合理解决基频参数和频谱参数匹配的问题，获得歌唱风格的个性化频谱合成模型是提高歌唱合成效果的关键。

【发明内容】

[0006] 本发明提供一种构建个性化歌唱风格频谱合成模型的方法及装置，以解决歌唱风格的个性化频谱合成模型构建中存在的训练歌唱数据不足及标注不够准确的问题，满足个性化歌唱合成的应用需求。
[0007] 为此，本发明提供如下技术方案：
[0008] -种构建个性化歌唱风格频谱合成模型的方法，包括：
[0009] 训练源发音人朗读风格频谱合成模型和歌唱风格频谱合成模型；
[0010] 获取目标发音人朗读风格数据；
[0011] 根据所述源发音人朗读风格频谱合成模型及所述目标发音人朗读风格数据，确定源发音人与目标发明人的音色转换关系；
[0012] 根据所述音色转换关系对所述源发音人歌唱风格频谱合成模型进行模型转换，得到目标发音人歌唱风格频谱合成模型。
[0013] 优选地，所述训练源发音人的朗读风格频谱合成模型和歌唱风格频谱合成模型包括：
[0014] 获取源发音人的朗读风格语音数据和歌唱风格语音数据，并对所述语音数据进行标注；
[0015] 提取所述语音数据对应的频谱参数；
[0016] 利用源发音人的朗读风格语音数据对应的频谱参数和标注信息训练源发音人的朗读风格频谱合成模型；
[0017] 利用源发音人的歌唱风格语音数据对应的声学参数和标注信息训练源发音人的歌唱风格频谱合成模型。
[0018] 优选地，所述朗读风格语音数据标注的信息包括音素序列、音段切分、韵律词和韵律短语；所述歌唱风格语音数据的标注信息包括音素序列、音段切分、韵律词、韵律短语、以及与音乐相关的音高和时值信息。
[0019] 优选地，所述确定所述源发音人的朗读风格频谱合成模型与所述目标发音人的朗读风格数据的转换关系包括：
[0020] 从所述源发音人朗读风格频谱合成模型中选择执行自适应的模型；
[0021] 从所述目标发音人的朗读风格数据中选择所述自适应模型所对应的训练数据；
[0022] 根据所述训练数据对选择执行自适应的模型进行自适应，得到频谱转换矩阵。
[0023] 优选地，所述根据所述音色转换关系对所述源发音人歌唱风格频谱合成模型进行模型转换，得到目标发音人歌唱风格频谱合成模型包括：
[0024] 根据以下公式获得目标发音人歌唱风格频谱合成模型：
【主权项】
1. 一种构建个性化歌唱风格频谱合成模型的方法，其特征在于，包括：训练源发音人朗读风格频谱合成模型和歌唱风格频谱合成模型；获取目标发音人朗读风格数据；根据所述源发音人朗读风格频谱合成模型及所述目标发音人朗读风格数据，确定源发音人与目标发明人的音色转换关系；根据所述音色转换关系对所述源发音人歌唱风格频谱合成模型进行模型转换，得到目标发音人歌唱风格频谱合成模型。
2. 根据权利要求1所述的方法，其特征在于，所述训练源发音人的朗读风格频谱合成模型和歌唱风格频谱合成模型包括：获取源发音人的朗读风格语音数据和歌唱风格语音数据，并对所述语音数据进行标注；提取所述语音数据对应的频谱参数；利用源发音人的朗读风格语音数据对应的频谱参数和标注信息训练源发音人的朗读风格频谱合成模型；利用源发音人的歌唱风格语音数据对应的声学参数和标注信息训练源发音人的歌唱风格频谱合成模型。
3. 根据权利要求2所述的方法，其特征在于，所述朗读风格语音数据标注的信息包括音素序列、音段切分、韵律词和韵律短语；所述歌唱风格语音数据的标注信息包括音素序列、音段切分、韵律词、韵律短语、以及与音乐相关的音高和时值信息。
4. 根据权利要求1所述的方法，其特征在于，所述确定所述源发音人的朗读风格频谱合成模型与所述目标发音人的朗读风格数据的转换关系包括：从所述源发音人朗读风格频谱合成模型中选择执行自适应的模型；从所述目标发音人的朗读风格数据中选择所述自适应模型所对应的训练数据；根据所述训练数据对选择执行自适应的模型进行自适应，得到频谱转换矩阵。
5. 根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述音色转换关系对所述源发音人歌唱风格频谱合成模型进行模型转换，得到目标发音人歌唱风格频谱合成模型包括：根据以下公式获得目标发咅人歌唱风格频谱合成模型：
Σ ^1=A At 其中，μ和Σ为源发音人歌唱风格频谱合成模型的均值和方差，々和t为转换后的频谱合成模型的均值和方差，即为目标发音人歌唱风格频谱合成模型的均值和方差，[Φ，B] 和H为均值和方差的全局转换矩阵，A表示所述方差的分解矩阵。
6. -种构建个性化歌唱风格频谱合成模型的装置，其特征在于，包括：模型训练模块，用于训练源发音人朗读风格频谱合成模型和歌唱风格频谱合成模型；数据获取模块，用于获取目标发音人朗读风格数据；转换关系确定模块，用于根据所述源发音人朗读风格频谱合成模型及所述目标发音人朗读风格数据，确定源发音人与目标发明人的音色转换关系；转换模块，用于根据所述音色转换关系对所述源发音人歌唱风格频谱合成模型进行模型转换，得到目标发音人歌唱风格频谱合成模型。
7. 根据权利要求6所述的装置，其特征在于，所述模型训练模块包括：数据获取单元，用于获取源发音人的朗读风格语音数据和歌唱风格语音数据，并对所述语音数据进行标注；参数提取单元，用于提取所述语音数据对应的频谱参数；第一训练单元，用于利用源发音人的朗读风格语音数据对应的频谱参数和标注信息训练源发音人的朗读风格频谱合成模型；第二训练单元，用于利用源发音人的歌唱风格语音数据对应的声学参数和标注信息训练源发音人的歌唱风格频谱合成模型。
8. 根据权利要求7所述的装置，其特征在于，所述朗读风格语音数据标注的信息包括音素序列、音段切分、韵律词和韵律短语；所述歌唱风格语音数据的标注信息包括音素序列、音段切分、韵律词、韵律短语、以及与音乐相关的音高和时值信息。
9. 根据权利要求6所述的装置，其特征在于，所述转换关系确定模块包括：自适应模型选择单元，用于从所述源发音人朗读风格频谱合成模型中选择执行自适应的模型；训练数据选择单元，用于从所述目标发音人的朗读风格数据中选择所述自适应模型所对应的训练数据；自适应单元，用于根据所述训练数据对选择执行自适应的模型进行自适应，得到频谱转换矩阵。
10. 根据权利要求6至9任一项所述的装置，其特征在于，所述转换模块，具体用于根据以下公式获得目标发音人歌唱风格频谱合成模型：
Σ ^1=A At 其中，μ和Σ为源发音人歌唱风格频谱合成模型的均值和方差，和t为转换后的频谱合成模型的均值和方差，即为目标发音人歌唱风格频谱合成模型的均值和方差，[Φ，B] 和H为均值和方差的全局转换矩阵，A表示所述方差的分解矩阵。
【专利摘要】本发明公开了一种构建个性化歌唱风格频谱合成模型的方法及装置，该方法包括：训练源发音人朗读风格频谱合成模型和歌唱风格频谱合成模型；获取目标发音人朗读风格数据；根据所述源发音人朗读风格频谱合成模型及所述目标发音人朗读风格数据，确定源发音人与目标发明人的音色转换关系；根据所述音色转换关系对所述源发音人歌唱风格频谱合成模型进行模型转换，得到目标发音人歌唱风格频谱合成模型。本发明通过目标发音人少量朗读风格数据即可得到其歌唱风格合成模型，大大降低了一般用户构建歌唱合成模型的难度，进而有效地提高了个性化歌唱合成效果。
【IPC分类】G10L13-02
【公开号】CN104766603
【申请号】CN201410005753
【发明人】孙见青, 王影, 江源, 凌震华, 胡国平, 胡郁
【申请人】安徽科大讯飞信息科技股份有限公司
【公开日】2015年7月8日
【申请日】2014年1月6日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙见青;王影;江源;凌震华;胡国平;胡郁;
技术所有人：安徽科大讯飞信息科技股份有限公司;
我是此专利的发明人

上一篇：语音数据的标记方法及装置的制造方法
上一篇：歌唱合成系统中基频合成参数生成方法及系统的制作方法