基于性别预判与多频段参数映射的语音基音频率估计方法

文档序号：9434120阅读：386来源：国知局

基于性别预判与多频段参数映射的语音基音频率估计方法
【技术领域】
[0001] 本发明涉及语音信号处理方法技术领域，尤其涉及一种基于性别预判与多频段参数映射的语音基音频率估计方法。
【背景技术】
[0002] 语音信号的基音频率是最重要的声学特征之一。传统的自相关法提取语音的基音频率，具有计算量小的优点。但是由于语音信号的非平稳特性，其频率估计的精度有限，特别是在高频段和低频段的精度受到分帧和自相关运算精度的影响。
[0003] 从发音器官的生理构造上看，基音频率直接受到声带构造的影响，其性别差异显著。从基音频率的统计值范围可以进行发音人性别的判断，一般男性的基音频率在 70Hz-200Hz之间，女性的基音频率在200Hz-450Hz之间。基音频率的个体差异也较为明显，不同的个体具有相对固定的频率分布范围，在以往的基音频率估计算法中，很少利用发音器官的生理特点进行频率范围的搜索。

【发明内容】

[0004] 本发明所要解决的技术问题是提供一种基于性别预判与多频段参数映射的语音基音频率估计方法，所述方法具有计算量小，精度高的优点。
[0005] 为解决上述技术问题，本发明所采取的技术方案是：一种基于性别预判与多频段参数映射的语音基音频率估计方法，其特征在于所述方法包括如下步骤：
[0006] 1)采用判决反馈的方式进行语音基音频率的估计，对发音人的性别进行判断；
[0007] 2)根据发音人性别的判断结果进行参数的优化；
[0008] 3)对优化后的参数采用迭代循环的方式，进行参数预测和频率重估，得到语音基音频率。
[0009] 进一步的技术方案在于：所述步骤1)包括：
[0010] (1)利用标准的自相关算法对语音信号进行基音频率的估计，利用基音频率的范围进行性别的预判断；
[0011] (2)将性别预判断的结果反馈给基音频率提取模块，进行参数的自适应优化。
[0012] 进一步的技术方案在于：所述步骤2)包括：
[0013] (1)对性别判断的结果进行校准，当基于自相关算法获得的基音频率的均值在 200Hz的性别临界频率附近时，不进行硬判决，跳转到步骤3)进行迭代循环优化频率估计的精度；
[0014] (2)依据基音的均值范围，进行性别的判断，当发音人性别被判断为男性时，选择较长的时间序列长度进行自相关值序列的计算，并且选择较低频段范围进行自相关值序列的峰值的搜索。
[0015] 进一步的技术方案在于：所述步骤3)包括：
[0016] (1)参数预测：根据上一次循环获得的频率值，或者根据系统初始化给出的频率值，进行参数的隐射，获得自相关序列的最合适长度，以及搜索峰值的最适合范围；
[0017] ⑵频率重估：依据步骤⑴中所获得的自相关序列的最合适长度，以及搜索峰值的最适合范围，进行语音基音频率估计。
[0018] 进一步的技术方案在于：发音人性别的判断方法如下：
[0019] 对不同的男女发音人，提取其基音频率的均值Pniean，当频率超过200Hz的性别临界频率F。足够偏移量F。"时，所对应的发音人性别标签G判断为女性，其中G = 1 ;当频率低于200Hz的性别临界频率F。足够偏移量Fciff时，则判断为男性，其中G = -1 ;否则不进行性别标签的硬判决，将标签赋值为似然概率L，如式（1)和式（2)所示，
[0020] IF Pnean>Fc+Foff G = 1
[0021] ELSEIF Pnean<Fc+Foff G = -I
[0022] ELSE G = L (I)
[0023] 其中，
[0024] L= (Pnean-200)/Foff (2)。
[0025] 进一步的技术方案在于：基音频率的估计方法如下：
[0026] 1)中心削波法
[0027] 设一段时间内一帧语音数据为：S(t)，t = 0，1，2，...，T，其前半部分的最大值为：
[0028] Smaxl= max {S(t)，t = 0,1，2, ···，Τ/2} (3)
[0029] 其后半部分的最大值为：
[0030] Smax2= max {S(t)，t = 0,1，2, ···，T/2} (4)
[0031] 选取前半部分局部最大值和后半部分局部最大值中较小的一个，记为：
[0032] Snax= min {Snaxl, SnaxJ (5)
[0033] 以阈值Th进行中性削波处理，阈值Th的计算如下：
[0034] Th = C*S_ (6)
[0035] 其中可取常数C = 0· 618 ;
[0036] 削波处理后的一帧语音信号如下：
[0037] S(t) = S(t)-Th, S(t)>Th
[0038] S(t) = 0, S(t)彡 Th (7)
[0039] 2)自相关序列的计算
[0040] 设自相关序列的长度参数为Lr，S (t)的自相关序列值为：
[0042] 3)峰值搜索
[0043] 根据搜索范围的区域参数Rg = (LB，UB)，搜索峰值位置，获得基音频率估计值：
[0044] P = Fs/max{R(t)，LB〈t〈UB} (9)
[0045] 其中Fs为采样频率。
[0046] 采用上述技术方案所产生的有益效果在于：所述方法能够利用发音人个体的特点，进行自相关算法参数的优化，从而提高基音频率估计的精度；利用迭代循环中的频率重估，在提高频率估计的精度的同时，提高了性别判断的可靠性，降低了计算量。
【附图说明】
[0047] 下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0048] 图1是男女基音频率分布图；
[0049] 图2是本发明中基音频率估计的流程图；
[0050] 图3是迭代循环中频率重估的误差收敛方向图。
【具体实施方式】
[0051] 下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0052] 在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。
[0053] 总体的，本发明公开了一种基于性别预判与多频段参数映射的语音基音频率估计方法，所述方法包括如下步骤：
[0054] 1)采用判决反馈的方式进行语音基音频率的估计，对发音人的性别进行判断；
[0055] 具体的，所述步骤1)包括：（1)利用标准的自相关算法对语音信号进行基音频率的估计，利用基音频率的范围进行性别的预判断；（2)将性别预判断的结果反馈给基音频率提取模块，进行参数的自适应优化。
[0056] 2)根据发音人性别的判断结果进行参数的优化；
[0057] 具体的，所述步骤2)包括：（1)对性别判断的结果进行校准，当基于自相关算法获得的基音频率的均值在200Hz的性别临界频率附近时，不进行硬判决，跳转到步骤3)进行迭代循环优化频率估计的精度；(2)依据基音的均值范围，进行性别的判断，当发音人性别被判断为男性时，选择较长的时间序列长度进行自相关值序列的计算，并且选择较低频段范围进行自相关值序列的峰值的搜索。
[0058] 3)对优化后的参数采用迭代循环的方式，进行参数预测和频率重估，得到语音基音频率：
[0059] 具体的，所述步骤3)包括：（1)参数预测：根据上一次循环获得的频率值，或者根据系统初始化给出的频率值，进行参数的隐射，获得自相关序列的最合适长度，以及搜索峰值的最适合范围；(2)频率重估：依据步骤（1)中所获得的自相关序列的最合适长度，以及搜索峰值的最适合范围，进行语音基音频率估计。
[0060] 具体的，本发明所述方法包括如下步骤：
[0061] (1)发音人性别的判断
[0062]

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄程韦;于拾全;朱晓明;
技术所有人：东莞市凡豆信息科技有限公司;
我是此专利的发明人

上一篇：基于两步排列熵的语音活动检测方法
上一篇：用于存在可理解语音时部分保留音乐的方法