一种汉语耳语音的基频估计方法

文档序号：2828070阅读：372来源：国知局

一种汉语耳语音的基频估计方法
【专利摘要】本发明公开了一种汉语耳语音的基频估计方法，具体步骤包括：建立一个语料一致的耳语音和正常语音数据库；分别提取耳语音的LPCC参数Lw、正常语音的LPCC参数Ln和基频参数F0，并按照Lw和Ln进行DTW对齐；将正常语音的F0在100～300Hz之间按照5Hz一个间隔划分，共产生40个区间；将所有对齐后的矢量按照正常语音F0的大小归属到每个区间中，将每个区间中的所有耳语音LPCC矢量训练为一个GMM模型，同时将该区间中所有耳语音LPCC矢量与正常语音F0参数构成的联合矢量训练为一个GMM模型并得到一个估计函数，共40个估计函数；提取耳语音的LPCC参数，将其与每一个GMM模型匹配，搜索最佳匹配的模型，然后采用该模型的估计函数估计耳语音的F0值。本发明能够估计耳语音的基频，有效解决汉语耳语音由于基频信息缺失带来的困难。
【专利说明】一种汉语耳语音的基频估计方法

【技术领域】
[0001] 本发明涉及一种语音信号处理技术，具体涉及一种汉语耳语音的基频估计方法。

【背景技术】
[0002] 汉语是一种声调语言，说话人的语义、情感主要通过声调来表达。而耳语发音时声带不振动，也就失去了声调最为重要的载体--基音频率，因此关于耳语音是否有声调，以及如何感知其声调一度成为研究的热点。耳语声调感知的研究对于耳语音的处理如增强、识别等具有重要意义。1972年，Abramson对耳语声调总结了两个相反的观点：第一种观点的代表人物是Panconcelli-calzia，认为对于有声调语言，连续的耳语音根据上下文可以理解，而孤立字是不可理解的；第二种观点的代表人物是Giet，认为耳语的声调信息被其他非基频特征所替代，例如空气流的增加或降低，所以耳语音中依然保留有声调信息。第二种观点的支持者们为了能够更好的感知耳语的声调，采用主观视听和客观测试的手段进行耳语声调感知，通过主、客观实验证明了耳语音声调是可感知的。
[0003] 在传统的语音分析系统中，往往认为语音的激励和声道系统是相互独立的，但是 Assmann在他的研究中指出语音的激励和声道信息存在制约关系，只有两者谐和，才会产生自然悦耳的音色。实验是这样设计的，分别提取自然语音的基频和共振峰参数，当其中一组参数改变时，另一组保持不变，请参与测试的听众对合成语音进行评价，选出听起来最自然的语音。实验结果表明人们选出的最自然的声音，其基频与共振峰的组合是最接近于原来的语音的。表明激励和声道之间确实存在着约束关系。这提示我们，原本因基频信息缺失而不能解释的耳语音声调问题可以用声道参数来解释，声调信息可以隐藏在声道参数中。

【发明内容】

[0004] 本发明的发明目的是提供一种汉语耳语音的基频估计方法，能够解决汉语耳语音由于基频信息缺失带来的困难。
[0005] 为达到上述发明目的，本发明采用的技术方案是：一种汉语耳语音的基频估计方法，包括如下步骤： (1) 建立一个语料一致的耳语音和正常语音数据库，使得数据库中，耳语音和正常语音的说话人、语音内容、语序完全一致； (2) 分别提取耳语音的线性预测倒谱参数Lw、正常语音的线性预测倒谱参数Ln和基频参数H)，并按照Lw和Ln进行动态时间规整对齐； (3) 将正常语音的R)在100?300Hz之间按照5Hz-个间隔划分，共产生40个区间； (4) 将所有对齐后的矢量按照正常语音R)的大小归属到每个区间中，将每个区间中的所有耳语音线性预测倒谱矢量训练为一个高斯混合模型，同时将该区间中所有耳语音线性预测倒谱矢量与正常语音参数构成的联合矢量训练为一个高斯混合模型并得到一个估计函数，共40个估计函数； (5) 提取耳语音的线性预测倒谱参数，将其与每一个高斯混合模型匹配，搜索最佳匹配的模型，然后采用该模型的估计函数估计耳语音的Η)值。
[0006] 由于上述技术方案运用，本发明与现有技术相比具有下列优点：本发明通过建立耳语音和正常语音数据库，再提取耳语音的LPCC参数、正常语音的LPCC参数和R)参数，并对耳语音的LPCC参数和正常语音的LPCC参数进行对齐，将正常语音的FO参数等间隔划分区间，将所有对齐后的矢量按照正常语音R)的大小归属到每个区间中，将每个区间中的所有耳语音线性预测倒谱矢量训练为一个高斯混合模型，同时将该区间中所有耳语音线性预测倒谱矢量与正常语音Η)参数构成的联合矢量训练为一个高斯混合模型并得到一个估计函数，共40个估计函数，提取耳语音的线性预测倒谱参数，将其与每一个高斯混合模型匹配，搜索最佳匹配的模型，然后采用该模型的估计函数实现对耳语音的Η)值的估计，能够有效解决汉语耳语音由于基频信息缺失带来的困难。

【专利附图】

【附图说明】
[0007] 图1是实施例一中本发明的基频估计方法的流程图。
[0008]图2是实施例二中采用Afe模型估计的基频轨迹与目标基频轨迹图谱。
[0009]图3是实施例二中采用Aicr模型估计的基频轨迹与目标基频轨迹图谱。

【具体实施方式】
[0010] 下面结合附图及实施例对本发明作进一步描述：实施例一：参见图1所示，一种汉语耳语音的基频估计方法，包括如下步骤： (1) 建立一个语料一致的耳语音和正常语音数据库，使得数据库中，耳语音和正常语音的说话人、语音内容、语序完全一致； (2) 分别提取耳语音的线性预测倒谱参数Lw、正常语音的线性预测倒谱参数Ln和基频参数Η)，并按照Lw和Ln进行动态时间规整（DTW)对齐； (3) 将正常语音的R)在100?300Hz之间按照5Hz-个间隔划分，共产生40个区间； (4) 将所有对齐后的矢量按照正常语音R)的大小归属到每个区间中，将每个区间中的所有耳语音线性预测倒谱矢量训练为一个高斯混合模型，同时将该区间中所有耳语音线性预测倒谱矢量与正常语音参数构成的联合矢量训练为一个高斯混合模型并得到一个估计函数，共40个估计函数； (5) 提取耳语音的线性预测倒谱参数，将其与每一个高斯混合模型匹配，搜索最佳匹配的模型，然后采用该模型的估计函数估计耳语音的值。
[0011] 实施例二：选取80个说话人参与录音，其中包括40名男性和40名女性，年龄范围从儿童到老人，分布较均衡。录音环境安静，话筒为手持式话筒，采样率为16KHz，量化位为 16bits。为保证儿童能够顺利参与录音，录音文本采集自小学语文课本，包含了汉语21个声母与35个韵母组合成的所有汉语有声调音节，语料内容经过筛选保证音素分布均衡。
[0012] 每一个说话人将相同的语料分别用耳语音和正常语音发音一遍。由于耳语音发音的特殊性，难免存在发音方式不正确的情况，因此，所有耳语音的语料数据都经过主观频谱观察确保没有基频轨迹。不符合的地方被标注出来，经重新补录后插入语料集中。
[0013]采用STRAIGHT工具包提取语音的基频与线性预测倒谱参数（LPCC)，LPCC阶数为产=24,帧长25ms,帧移10ms。
[0014]基频信息仅存在于浊音部分，提取正常语音浊音段的LPCC和基频参数同时提取耳语音相应音段的LPCC特征矢量。考虑耳语音的语速比正常语音的语速要慢，因此依据正常语音和耳语音的LPCC参数进行DTW对齐，然后保留对齐后的正常语音的R)与耳语音的 LPCC参数，构成联合矢量。
[0015] 高斯混合模型参数m由均值向量、协方差矩阵和混合权重组成，表示为 m= {ω,μ,Ε)。ρ阶高斯混合模型（GMM)可表示为（1)式：

【权利要求】
1. 一种汉语耳语音的基频估计方法，其特征在于，包括如下步骤： (1) 建立一个语料一致的耳语音和正常语音数据库，使得数据库中，耳语音和正常语音的说话人、语音内容、语序完全一致； (2) 分别提取耳语音的线性预测倒谱参数Lw、正常语音的线性预测倒谱参数Ln和基频参数H)，并按照Lw和Ln进行动态时间规整对齐； (3)将正常语音的R)在100?300Hz之间按照5Hz-个间隔划分，共产生40个区间； (4)将所有对齐后的矢量按照正常语音R)的大小归属到每个区间中，将每个区间中的所有耳语音线性预测倒谱矢量训练为一个高斯混合模型，同时将该区间中所有耳语音线性预测倒谱矢量与正常语音参数构成的联合矢量训练为一个高斯混合模型并得到一个估计函数，共40个估计函数； (5)提取耳语音的线性预测倒谱参数，将其与每一个高斯混合模型匹配，搜索最佳匹配的模型，然后采用该模型的估计函数估计耳语音的F0值。
【文档编号】G10L15/06GK104376850SQ201410705012
【公开日】2015年2月25日申请日期:2014年11月28日优先权日:2014年11月28日
【发明者】陈雪勤, 刘正, 赵鹤鸣, 俞一彪申请人:苏州大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈雪勤;刘正;赵鹤鸣;俞一彪;
技术所有人：苏州大学;
我是此专利的发明人

上一篇：一种基于多说话人模型的噪声与说话人联合补偿方法
上一篇：一种智能服务机器人语音交互方法