一种多基频提取方法及装置的制造方法

文档序号:9709488阅读:491来源:国知局
一种多基频提取方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数字信号处理经验模式分解、语音信号滤波器组分析、语音信号基音 频率提取、隐马尔可夫模型似然概率及转移概率的构建。
【背景技术】
[0002] 基音频率(pitch)的提取及其轨迹的追踪对诸多语音及音频信号处理技术都有重 要意义,比如音频检索及分类、汉语语调识别以及单通道语音分离技术等。现在已经存在一 些性能很好的用于检测纯净或有少量噪声的语音中的单一基频的基频提取算法。但单一基 频的假设使得这类算法无法在语音中同时存在多个基频的情况下使用,比如两个说话人同 时说话的情况或者说话人背景中有音乐存在的情况,而在致力于解决鸡尾酒会问题的计算 听觉场景分析(CASA)技术中,多基频提取和追踪常常更是有效地进行语音分割和组织的重 要基础。
[0003] 隐马尔科夫模型很早就被用于追踪基音轨迹的连续性。HMM模型在80年代就曾被 利用来判决混合语音中每帧的基频个数;2003年,真实基音周期与自相关函数的峰值之间 的距离被用于基频状态的似然函数建模并出现了一个基于隐马尔可夫模型的多基音提取 算法。2013年,自相关函数峰值的高度信息被直接用于构建基频分布的势函数,多基频提取 算法的性能得以进一步提升。上述算法的共同特点是多基频追踪过程中使用的中层表达特 征都基于听觉谱图(cochleagram),具体来讲,基频状态的似然概率函数都是从自相关谱图 (correlogram)上提取的,并且他们使用的主要是峰值附近的局部特征。
[0004] 听觉谱图的主要特点是低频分辨率较高,高频分辨率较低,听觉滤波器组的高频 通道通常同时响应语音中的多次谐波,因此高频通道的响应通常会受到幅度调制效应(AM) 的影响。在单基频提取的情形下,高频通道中的幅度调制效应产生的幅度包络以及包络的 峰值都提供了原基音频率的信息。但是,在多基频提取的情形下,一个时频单元中却可能同 时存在着能量相近但分属于不同基音频率的高次谐波,这样就会造成其幅度调制率不属于 任何一个基音频率的谐波的情况,这将使得相应自相关函数的峰值高度和峰值位置发生错 误的偏移,从而对多基音频率的提取产生消极的影响。

【发明内容】

[0005] 有鉴于此,为了克服基频提取过程中经常发生的倍周期错误问题以及上述提及的 其他问题,本发明提出了一种基于经验模式分解和隐马尔可夫模型的多基频提取方法。
[0006] 根据本发明一方面,提供了一种基于经验模式分解和隐马尔可夫模型的多基频提 取方法,其特征在于,包括下列步骤:
[0007] 步骤1:用听觉滤波器组对语音信号进行滤波,对滤波后的信号进行分帧,得到语 音信号的二维时频表达即听觉谱;
[0008] 步骤2:在听觉谱的各时频单元上计算自相关函数;
[0009] 步骤3:对各时频单元的自相关函数进行经验模式分解,并在经验模式分解得到的 本质模态函数的基础上计算各时频单元主导声源的瞬时频率;
[0010] 步骤4:在各瞬时频率的基础上计算频率匹配函数;
[0011] 步骤5:用频率匹配函数构建各基频状态的似然概率,并使用语料库统计各基频状 态和基频数值之间的转移概率;所述各基频状态包括单基频状态和双基频状态;
[0012] 步骤6:将所述各基频状态的似然概率进行增强,然后将增强后的所述似然概率与 对应的转移概率结合,并使用隐马尔可夫模型对所述语音信号的多基频轨迹进行提取。
[0013] 根据本发明另一方面,提供了一种基于经验模式分解和隐马尔可夫模型的多基频 提取装置,其特征在于,包括:
[0014] 预处理模块,其用听觉滤波器组对语音信号进行滤波,对滤波后的信号进行分帧, 得到语音信号的二维时频表达即听觉谱;
[0015] 自相关函数计算模块,其在听觉谱的各时频单元上计算自相关函数;
[0016] 瞬时频率计算模块,其对各时频单元的自相关函数进行经验模式分解,并在经验 模式分解得到的本质模态函数的基础上计算各时频单元主导声源的瞬时频率;
[0017] 频率匹配函数计算模块,其在各瞬时频率的基础上计算频率匹配函数;
[0018] 似然概率和转移概率计算模块,其用频率匹配函数构建各基频状态的似然概率, 并使用语料库统计各基频状态和基频数值之间的转移概率;所述各基频状态包括单基频状 态和双基频状态;
[0019] 轨迹提取模块,其将所述各基频状态的似然概率进行增强,然后将增强后的所述 似然概率与对应的转移概率结合,并使用隐马尔可夫模型对所述语音信号的多基频轨迹进 行提取。
[0020] 本发明提出的上述方案为了抑制多基频提取过程中gammatone滤波器组的高频通 道中发生的不利幅度调制效应,在计算隐马尔可夫模型中的基音状态似然概率的过程中用 频率匹配函数代替了自相关函数。另一方面,与自相关函数的峰值位置和峰值高度相比,时 频单元的平均瞬时频率更不易受到噪声以及幅度调制效应的影响,本发明在平均瞬时频率 基础上提取的频率匹配函数在多基音频率的提取过程中表现得更加可靠,最终使得多基频 提取算法的得到提升。
[0021] 此外,倍周期错误是基频提取过程中经常遇到的一种错误,针对这个问题,本发明 提出的上述方法通过一种增强过程来降低频率匹配函数在倍周期位置处的峰值高度,使得 倍周期候选点的似然概率降低,从而降低倍周期错误发生的概率。
[0022] 总之,本发明通过对不利幅度调制效应和倍周期错误概率的抑制,结合在语料库 上统计得到的基音状态转移概率,采用隐马尔可夫模型解码的方式得到了双基音频率的轨 迹。
【附图说明】
[0023] 本发明进一步的特色和优点将参考说明性的附图在下面描述。
[0024] 图1是本发明提出的基于经验模式分解和隐马尔科夫模型的多基频提取方法的流 程图;
[0025] 图2是现有技术中一个计算各时频单元的自相关函数的流程图;
[0026] 图3是本发明中一个计算各时频单元的频率匹配函数的流程图;
[0027] 图4是一个利用频率匹配函数构建基频状态似然概率的流程图;
[0028] 图5是一个对基频状态似然函数进行增强的流程图;
[0029] 图6是一个利用隐马尔可夫模型进行多基频提取的流程图。
【具体实施方式】
[0030] 应当理解,不同示例以及附图的下列详细说明不是意在把本发明限制于特殊的说 明性实施例;被描述的说明性实施例仅仅是例证本发明的各个步骤,其范围由附加的权利 要求来定义。
[0031] 本发明通过对语音二维听觉谱图中时频单元的自相关函数进行经验模式分解,得 到主导瞬时频率,并在其基础上计算频率匹配函数。与自相关函数相比,频率匹配函数可以 克服多基频提取时高频gammatone滤波器组通道中不利的幅度调制效应,因此在频率匹配 函数基础上构建的基频状态似然函数更加稳定和可靠。利用构建的基频状态似然函数和基 频语料库中统计得到的基频状态转移函数,可以通过Viterbi解码的方式,通过隐马尔可夫 模型进行多基频轨迹提取。
[0032] 如图1所述,本发明提出了一种基于经验模式分解和隐马尔可夫模型的多基频提 取方法,该方法的具体步骤如下:
[0033] 步骤1:用听觉滤波器组对语音信号进行滤波,并对滤波后的语音信号进行分帧得 到语音信号的二维时频表达即听觉谱;
[0034] 步骤2:在听觉谱的各时频单元上计
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1