语音基音频率检测方法和装置制造方法

文档序号：2825498阅读：266来源：国知局

语音基音频率检测方法和装置制造方法
【专利摘要】本发明公开一种语音基音频率检测方法和装置。其中在语音基音频率检测方法中，检测语音信号帧中的单调分量，利用频谱幅值最大的M个单调分量的频率确定候选基频，并将候选基频放置在候选基频集合中，计算候选基频集合中每个候选基频的和谐判据，将具有最大和谐判据的候选基频作为所述语音信号帧的基频。通过利用具有较大能量的单调分量作为基音检测的基础，从而提高了基音检测在有噪环境下的准确率。
【专利说明】语音基音频率检测方法和装置
【技术领域】
[0001]本发明涉及通信领域，特别是涉及一种语音基音频率检测方法和装置。
【背景技术】
[0002]人类语音由清音和浊音构成。清音是气流通过口径缩小的声门，气流高速冲过产生湍流引起的摩擦音，这种音在语音中占的比例较少，发声时声带不振动，因此没有周期性，类似于宽带噪音；浊音呼气使声带靠拢发声颤动时发出的具有周期性的声音，这种声音在频率构成上由一个基音和一系列谐音构成，基音的频率就是声音周期的倒数。音频频率在语音信号处理中是最基本的参数之一，它在语音信号的分析、合成、编码、识别等各项应用中起着非常重要的作用。
[0003]在语音的基音频率检测方面，已经有很多相关研究成果，这些成果大多基于相关性的检测，即通过时域、频域或者信号的预测残差的自相关函数来得到相关性峰值所在的延迟采样数或者离散频率数。基于自相关的方法有以下几个缺陷，首先是自相关的计算量较大；其次检测出的周期采样数是整数，其对应的频率便是一组离散数，精度不足，这在基音频率较高时问题突出；三，自相关函数的峰值判断困难，多数情况下会有多个峰对应着基频、谐频或干扰噪声，这常常导致基频判断错误。

【发明内容】

[0004]本发明要解决的技术问题是提供一种语音基音频率检测方法和装置。通过利用具有较大能量的单调分量作为基音检测的基础，能够提高基音检测在有噪环境下的准确率。
[0005]根据本发明的一个方面，提供一种语音基音频率检测方法，包括:
[0006]检测语音信号帧中的单调分量；
[0007]利用频谱幅值最大的M个单调分量的频率确定候选基频，并将候选基频放置在候选基频集合中；
[0008]计算候选基频集合中每个候选基频的和谐判据；
[0009]将具有最大和谐判据的候选基频作为所述语音信号帧的基频。
[0010]优选的，检测语音信号帧中的单调分量的步骤包括:
[0011 ] 针对语音信号巾贞中的每一个频谱幅值Xa[k],若Xa[k]同时大于Xa[k_l]和XA[k+l]，则将XA[k]作为单调分量，其中k为频谱序号索引。
[0012]优选的，若Xa [k]同时大于XA[k_l]和XA[k+l]，进一步判断XA[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值；
[0013]若XA[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值，则执行将Xa[k]作为单调分量的步骤。
[0014]优选的，频谱序号索引k的取值范围为大于索引下限int [flOTN/fs]，小于索引上限int[fhighN/fs]，其中函数int[]表示向下舍入取整函数，N为语音信号帧长度，fs为语音信号的采样频率，flow为频率下限，fhigh为频率上限。[0015]优选的，利用频谱幅值最大的M个单调分量的频率确定候选基频，并将候选基频放置在候选基频集合中的步骤包括:
[0016]选择频谱幅值最大的M个单调分量；
[0017]对于所述M个单调分量中的每一个单调分量XA[k]，分别计算相应的分频频率Tf[k]/mdiv，其中Tf[k]为单调分量XA[k]对应的频率，mdiv为正整数；
[0018]将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中。
[0019]优选的，将属于基频范围内的分频频率Tf [k]/mdiv作为候选基频放置到候选基频集合中的步骤之后，还包括:
[0020]将候选基频集合中数值接近的候选基频合并。
[0021]优选的，将候选基频集合中数值接近的候选基频合并的步骤包括:
[0022]对于候选基频集合中的包含Kg个元素的子集合{Feandidate[gi}，i=l, 2，..., Kg，若满足
【权利要求】
1.一种语音基音频率检测方法，其特征在于，包括: 检测语音信号帧中的单调分量；利用频谱幅值最大的M个单调分量的频率确定候选基频，并将候选基频放置在候选基频集合中；计算候选基频集合中每个候选基频的和谐判据；将具有最大和谐判据的候选基频作为所述语音信号帧的基频。
2.根据权利要求1所述的方法，其特征在于: 检测语音信号帧中的单调分量的步骤包括: 针对语音信号帧中的每一个频谱幅值XA[k]，若XA[k]同时大于XA[k-l]和XA[k+l]，则将XA[k]作为单调分量，其中k为频谱序号索引。
3.根据权利要求2所述的方法，其特征在于: 若XA[k]同时大于XA[k-l]和XA[k+l]，进一步判断XA[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值；若xA[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值，则执行将XA[k]作为单调分量的步骤。
4.根据权利要求2或3所述的方法，其特征在于: 频谱序号索引k的取值范围为大于索引下限int[flOTN/fs]，小于索引上限int[fhighN/fs]，其中函数int[]表示向下舍入取整函数，N为语音信号帧长度，fs为语音信号的采样频率，flow为频率下限，fhigh为频率上限。
5.根据权利要求1所述的方法，其特征在于: 利用频谱幅值最大的M个单调分量的频率确定候选基频，并将候选基频放置在候选基频集合中的步骤包括: 选择频谱幅值最大的M个单调分量；对于所述M个单调分量中的每一个单调分量Xa[k]，分别计算相应的分频频率Tf [k] /mdiv，其中Tf [k]为单调分量XA[k]对应的频率，mdiv为正整数；将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中。
6.根据权利要求5所述的方法，其特征在于: 将属于基频范围内的分频频率Tf [k]/mdiv作为候选基频放置到候选基频集合中的步骤之后，还包括: 将候选基频集合中数值接近的候选基频合并。
7.根据权利要求6所述的方法，其特征在于: 将候选基频集合中数值接近的候选基频合并的步骤包括: 对于候选基频集合中的包含Kg个元素的子集合{F—[gi]}，i=l，2，...，&，若满足
8.根据权利要求5-7中任一项所述的方法,其特征在于: 单调分量Xa[k]对应的频率Tf [k]为kfs/N，其中N为语音信号帧长度，fs为语音信号的采样频率。
9.根据权利要求5-7中任一项所述的方法，其特征在于: 单调分量XA[k]对应的频率Tf [k]为kffs/N，其中，
10.根据权利要求5-7中任一项所述的方法，其特征在于: 单调分量XA[k]对应的频率Tf [k]为kffs/N，其中，
若
11.根据权利要求5-7中任一项所述的方法，其特征在于: 单调分量XA[k]对应的频率Tf [k]为
12.根据权利要求1所述的方法，其特征在于: 计算候选基频集合中每个候选基频的和谐判据的步骤包括: 对于候选基频集合中的每个候选基频F_didate[g]，如果在单调分量集合中存在一个包括K。个单调分量的子集合，所述子集合对应的频率集合为{Tf [C1]，…，Tf[cKc]}，同时满足
13.根据权利要求12所述的方法，其特征在于: 若候选基频Feandidate[g]的第m次谐音Ag[m]不存在,且m关O,则设定Ag[m]的幅度为第m-1次谐音Ag [m-1]的幅度的β倍；若候选基频FcandidatJg]的第O次谐音Ag[0]不存在，则设定Ag[0]的幅度为O。
14.根据权利要求12或13所述的方法，其特征在于: 利用候选基频F—[g]的各次谐音计算候选基频F—[g]的和谐判据Jh[g]的步骤之后，还包括: 判断候选基频F_didate[g]相对于前一语音信号帧的基频。1(1的偏差是否满足延续性条件，即:
15.一种语音基音频率检测装置，其特征在于，包括: 检测单元，用于检测语音信号帧中的单调分量；候选基频确定单元，用于利用频谱幅值最大的M个单调分量的频率确定候选基频，并将候选基频放置在候选基频集合中；和谐判据计算单元，用于计算候选基频集合中每个候选基频的和谐判据；基频选择单元，用于将具有最大和谐判据的候选基频作为所述语音信号帧的基频。
16.根据权利要求15所述的装置，其特征在于: 检测单元具体针对语音信号帧中的每一个频谱幅值XA[k]，若XA[k]同时大于XA[k-l]和XA[k+l]，则将XA[k]作为单调分量，其中k为频谱序号索引。
17.根据权利要求16所述的装置，其特征在于: 检测单元还用于在XA[k]同时大于XA[k-l]和XA[k+l]时，进一步判断XA[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值，若XA[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值，则执行将Xa [k]作为单调分量的操作。
18.根据权利要求16或17所述的装置，其特征在于: 频谱序号索引k的取值范围为大于索引下限int[flOTN/fs]，小于索引上限int[fhighN/fs]，其中函数int[]表示向下舍入取整函数，N为语音信号帧长度，fs为语音信号的采样频率，flow为频率下限，fhigh为频率上限。
19.根据权利要求15所述的装置，其特征在于:候选基频确定单元包括第一选择模块、分频频率计算模块和第二选择模块，其中: 第一选择模块，用于选择频谱幅值最大的M个单调分量；分频频率计算模块，用于对于所述M个单调分量中的每一个单调分量Xa [k]，分别计算相应的分频频率Tf [k]/mdiv，其中Tf [k]为单调分量XA[k]对应的频率，mdiv为正整数；第二选择模块，用于将属于基频范围内的分频频率Tf [k]/mdiv作为候选基频放置到候选基频集合中。
20.根据权利要求19所述的装置，其特征在于: 候选基频确定单元还包括合并模块，用于将候选基频集合中数值接近的候选基频合并。
21.根据权利要求20所述的装置，其特征在于: 合并模块具体针对候选基频集合中的包含Kg个元素的子集合{F_didate; [gj}, i =l，2，...，Kg，若满足
22.根据权利要求15所述的装置，其特征在于: 和谐判据计算单元具体包括谐音选择模块、判据计算模块，其中: 谐音选择模块，用于针对候选基频集合中的每个候选基频F_didate[g]，如果在单调分量集合中存在一个包括K。个单调分量的子集合，所述子集合对应的频率集合为{Tf[Cl]，...，Tf[CK。]}，同时满足
23.根据权利要求22所述的装置，其特征在于: 谐音选择模块具体在候选基频Feandidate [g]的第m次谐音Ag[m]不存在时,且m古O,则设定Ag[m]的幅度为第m-1次谐音Ag[m-1]的幅度的β倍；在候选基频F_didat』g]的第O次谐音Ag[0]不存在时，则设定~[0]的幅度为O。
24.根据权利要求22或23所述的装置，其特征在于: 和谐判据计算单元还包括加权模块，用于在判据计算模块利用候选基频F_didatJg]的各次谐音计算候选基频Fcandidate [g]的和谐判据Jh[g]的步骤之后，判断候选基频F_didate [g]相对于前一语音信号帧的基频fo—。1(1的偏差是否满足延续性条件，即:
【文档编号】G10L25/90GK103794222SQ201210427486
【公开日】2014年5月14日申请日期:2012年10月31日优先权日:2012年10月31日
【发明者】吴晟, 林福辉, 徐晶明, 蒋斌申请人:展讯通信（上海）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴晟;林福辉;徐晶明;蒋斌
技术所有人：展讯通信(上海)有限公司
我是此专利的发明人