一种模拟人声基频的优化方法与流程

文档序号：37218039发布日期：2024-03-05 15:10阅读：18来源：国知局

本发明歌声合成领域，尤其涉及歌声合成中基频的优化方法。

背景技术：

1、歌声合成是将静态符号记录的歌词、曲谱转化成音频，尤其是模拟人声歌唱的技术。歌声合成的核心之一是基频的生成和优化。基频的效果直接决定了最终歌声合成的效果。从静态曲谱中提取基频已经为现有技术，例如另一类方式是利用曲谱中记载的音高、节奏等信息，依据一定的转换规则直接生成基频。该方式成本低，但生成的基频“电子音”明显，与人声的相似度很低。

2、利用机器学习技术，用大量曲谱训练生成模型，然后将待合成歌声的曲谱转入模型，获得该曲谱对应的基频，再对基频进行后续处理获得合成歌声。该方法需要大量曲谱信息，无论是金钱还是时间成本都很高，且受限于算法性能、数据质量等，生成的基频与真实人声的差距较为也明显。

技术实现思路

1、鉴于以上所述现有技术的缺点，本发明旨在提供一种模拟人声基频的优化方法，其特征在于，包括：根据曲谱生成基频；在所述基频上确定主颤区；在所述基频上确定音符起止点；在所述基频上确定颤音区；在所述颤音区内附加颤音。

2、优选地，上述模拟人声基频的优化方法中，在所述基频上确定主颤区的方法包括：利用所述曲谱中的清音音素位置对应的基频归零的步骤。

3、优选地，上述模拟人声基频的优化方法中，所述确定音符起止点的方法包括：判断将当前帧的基频数值与下一帧基频数值对比，如果相等，则两帧属于同一音符，并将所述音符的持续帧数累加；如不相等，将所述下一帧判定为新音符的开始。

4、优选地，上述模拟人声基频的优化方法中，在所述基频上确定颤音区的方法包括：识别长音；在所述长音的时值范围内确定所述颤音区的起点和终点。

5、优选地，上述模拟人声基频的优化方法中，所述颤音区的起点和终点确定方法包括：最小音符时长与所述长音总时长的1/3二者中取较小值作为延时t；将所述长音起点向后所述延时区域的t/5位置确定为所述颤音区起点；将所述长间结束位置向前所述延时区域的t/5。

6、优选地，上述模拟人声基频的优化方法中，还包括：识别中音；在所述中音时值范围内确定颤音区的起点和终点。

7、优选地，上述模拟人声基频的优化方法中，还包括在所述基频中加入扰动的步骤。

8、优选地，上述模拟人声基频的优化方法中，所述加入扰动的方法包括：设定在50～500hz范围内选择基础音，并在当前音符半音程范围内生成半音随机数；如果所述当前音符基频大于所述基础音，则计算所述当前音符与所述半音随机数的比值，取所述比值与所述基础音的较大值作为当前帧随机基频；如果所述当前音符基频小于等于所述基础音，计算所述当前音符与所述半音随机数的积，取所述积与所述基础音较小值为当前随机基频。

9、优选地，上述模拟人声基频的优化方法中，还包括过渡音处理步骤。

10、优选地，上述模拟人声基频的优化方法中所述过渡音处理的方法包括：将所述音符起止与所述颤音起止不同的点识别为过渡音处理点；如果所述过渡音处理点所在音符的前一个音符基频为零，则在所述过渡音处理点所在音符与所述颤音峰值之间取随机数作为过渡音，并在所述过渡音处理点所在音符开始与颤音开始之间补入所述过渡音。

11、优选地，上述模拟人声基频的优化方法中，所述附加颤音的方法包括：以正弦函数为基础，以当前音符半章程作为颤音振幅；以当前音符时长计算颤音频率。如上述所述，本发明将机械、呆板的电子音基频转换成更贴近人声的基频，从而使歌声合成技术不完全依赖大量曲谱、人声音频样本，降低了歌声合成的成本。

技术特征：

1.一种模拟人声基频的优化方法，其特征在于，包括：

2.根据权利要求1所述的模拟人声基频的优化方法，其特征在于，在所述基频上确定主颤区的方法包括：利用所述曲谱中的清音音素位置对应的基频归零的步骤。

3.根据权利要求1所述的模拟人声基频的优化方法，其特征在于，所述确定音符起止点的方法包括：判断将当前帧的基频数值与下一帧基频数值对比，如果相等，则两帧属于同一音符，并将所述音符的持续帧数累加；如不相等，将所述下一帧判定为新音符的开始。

4.根据权利要求1所述的模拟人声基频的优化方法，其特征在于，在所述基频上确定颤音区的方法包括：识别长音；在所述长音的时值范围内确定所述颤音区的起点和终点。

5.根据权利要求4所述的模拟人声基频的优化方法，其特征在于，所述颤音区的起点和终点确定方法包括：

6.根据权利要求4所述的模拟人声基频的优化方法，其特征在于，还包括：识别中音；在所述中音时值范围内确定颤音区的起点和终点。

7.根据权利要求1所述的模拟人声基频的优化方法，其特征在于，还包括在所述基频中加入扰动的步骤。

8.根据权利要求7所述的模拟人声基频的优化方法，其特征在于，所述加入扰动的方法包括：

9.根据权利要求1所述的模拟人声基频的优化方法，其特征在于，还包括过渡音处理步骤。

10.根据权利要9所述的模拟人声基频的优化方法，其特征在于，所述过渡音处理的方法包括：

11.根据权利要求1所述的模拟人声基频的优化方法，其特征在于，所述附加颤音的方法包括：以正弦函数为基础，以当前音符的乐音音高及其半章程范围内指定颤音振幅；以当前音符时长计算颤音频率。

技术总结
本发明旨在提供一种模拟人声基频的优化方法包括：根据曲谱生成基频；在所述基频上确定主颤区；在所述基频上确定音符起止点；所述基频上确定颤音区；在所述基频中加入扰动；在所述颤音区内附加颤音。本发明的将机械、呆板的电子音基频转换成更贴近人声的基频，从而使歌声合成技术不完全依赖大量曲谱、人声音频样本，降低了歌声合成的成本。

技术研发人员：孙士茹,解奉龙
受保护的技术使用者：书行科技（北京）有限公司
技术研发日：
技术公布日：2024/3/4

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙士茹,解奉龙
技术所有人：书行科技（北京）有限公司
我是此专利的发明人

上一篇：一种洛铂中间体含量的检测方法与流程
上一篇：补肾填精制剂中生物碱的测定方法与流程