语音基音周期检测方法和装置制造方法

文档序号：2825592阅读：212来源：国知局

语音基音周期检测方法和装置制造方法
【专利摘要】本发明提出一种语音基音周期检测方法和装置，其中所述方法包括以下步骤：对语音输入信号进行预处理；获得每帧语音信号对应的先验信噪比；根据每帧语音信号的先验信噪比获得权重值；提取多帧语音信号中的多个基音候选项；根据多个基音候选项和先验信噪比按照预设周期对多帧语音信号进行第一次动态规划以获得多个第一基音路径及第一基音路径对应的代价信息；根据第一基音路径对应的代价信息对多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径；以及根据至少一个第二基音路径检测语音基音周期。根据本发明实施例的方法可以有效增加抗噪的效果。
【专利说明】语音基音周期检测方法和装置
【技术领域】
[0001]本发明涉及信息处理【技术领域】，特别涉及一种语音基音周期检测方法和装置。
【背景技术】
[0002]语音基音周期是语音信号的一个重要特征，语音基音周期经常应用于语音识别、语音合成、说话人识别等。目前，对语音基音周期的估计技术通常包括两个基本步骤，一是利用语音信号的相关性，逐帧估计出语音基音周期的可能的基音候选项，二是利用语音基音周期在短时间内不可能发生突变的特性，在相邻帧内对各个基音候选项进行局部平滑，得到最终的语音基音周期的估计结果。其中，采用不同的相关性算法和不同的平滑算法，可以构成很多不同的语音基音周期估计方法。
[0003]目前存在的问题是，这种语音基音周期检测技术相对于纯净语音信号的效果理想，但在噪音环境下性能下降特别明显。

【发明内容】

[0004]本发明的目的旨在至少解决所述技术缺陷之一。
[0005]为此，本发明的第一个目的在于提出一种语音基音周期检测方法，该方法可以有效增加抗噪的效果。
[0006]本发明的第二个目的在于提出一种语音基音周期检测装置。
[0007]为达到所述目的，本发明第一方面的实施例公开了一种语音基音周期检测方法，包括以下步骤:接收语音输入信号并对所述语音输入信号进行预处理，其中，所述语音输入信号包括多帧语音信号；对所述语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比；根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值；提取所述多帧语音信号中的多个基音候选项；根据所述多个基音候选项和先验信噪比按照预设周期对所述多帧语音信号进行第一次动态规划以获得多个第一基音路径及所述第一基音路径对应的代价信息；根据所述第一基音路径对应的代价信息对所述多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径；以及根据所述至少一个第二基音路径检测所述语音基音周期。
[0008]为达到所述目的，本发明第二方面的实施例公开了一种语音基音周期检测装置，包括:预处理模块，用于接收语音输入信号并对所述语音输入信号进行预处理，其中，所述语音输入信号包括多巾贞语音信号；第一获取模块，用于对所述语音输入信号中的每巾贞语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比；第二获取模块，用于根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值；提取模块，用于提取所述多帧语音信号中的多个基音候选项；第一动态规划模块，用于根据所述多个基音候选项和先验信噪比按照预设周期对所述多帧语音信号进行第一次动态规划以获得多个第一基音路径及所述第一基音路径对应的代价信息；第二动态规划模块，用于根据所述第一基音路径对应的代价信息对所述多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径；以及检测模块，用于根据所述至少一个第二基音路径检测所述语音基音周期。
[0009]根据本发明实施例的语音基音周期检测装置，一方面在估计先验信噪比时，逐帧对输入的语音信号进行先验信噪比追踪，并对每帧语音信号赋予不同的权重，可以使得先验信噪比较高的语音信号在后续的动态规划中发挥更主要的作用，增加抗噪的效果，另一方面利用二次规划，可以对噪声造成的偏差进行补偿，进一步增加抗噪的效果。
[0010]本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【专利附图】

【附图说明】
[0011]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中:
[0012]图1为根据本发明一个实施例的语音基音周期检测方法的流程图；
[0013]图2为根据本发明另一个实施例的语音基音周期检测方法的流程图；
[0014]图3为根据本发明一个具体实施例的语音基音周期检测方法的流程图；
[0015]图4为根据本发明另一个具体实施例的语音基音周期检测方法的流程图；
[0016]图5为根据本发明再一个具体实施例的语音基音周期检测方法的流程图；
[0017]图6为根据本发明一个实施例的语音基音周期检测装置的结构框图；以及
[0018]图7为根据本发明另一个实施例的语音基音周期检测装置的结构框图。
【具体实施方式】
[0019]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。
[0020]下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。此夕卜，本发明提供了的各种特定的工艺和材料的例子，但是本领域普通技术人员可以意识到其他工艺的可应用于性和/或其他材料的使用。另外，以下描述的第一特征在第二特征之“上”的结构可以包括第一和第二特征形成为直接接触的实施例，也可以包括另外的特征形成在第一和第二特征之间的实施例，这样第一和第二特征可能不是直接接触。
[0021]在本发明的描述中，需要说明的是，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。
[0022]参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。[0023]下面参考附图描述根据本发明实施例的语音基音周期检测方法和装置。
[0024]现有的语音基音周期检测方法，一方面，环境中的噪声破坏了语音信号的短时周期性和相关性，从而影响到基音候选项的检测精度；另一方面，现有的局部平滑方法中，每一帧的基音候选项在整个平滑过程中贡献的作用是相同的，导致了错误的基音候选项在参与平滑的过程中极有可能影响到一些原本正确的基音候选项的估计，从而影响语音基音周期的估计结果。
[0025]为此，一种语音基音周期检测方法，包括以下步骤:接收语音输入信号并对语音输入信号进行预处理，其中，语音输入信号包括多帧语音信号；对语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比；根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值；提取多帧语音信号中的多个基音候选项；根据多个基音候选项和先验信噪比按照预设周期对多帧语音信号进行第一次动态规划以获得多个第一基音路径及第一基音路径对应的代价信息；根据第一基音路径对应的代价信息对多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径；以及根据至少一个第二基音路径检测语音基音周期。
[0026]图1为根据本发明一个实施例的语音基音周期检测方法的流程图。
[0027]如图1所示，语音基音周期检测方法包括下述步骤。
[0028]步骤SlOl，接收语音输入信号并对语音输入信号进行预处理，其中，语音输入信号包括多帧语音信号。
[0029]步骤S102，对语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比。
[0030]在本发明的一个实施例中，通过以下公式获得每帧语音信号对应的先验信噪比:
[0031 ]
【权利要求】
1.一种语音基音周期检测方法，其特征在于，包括以下步骤: 接收语音输入信号并对所述语音输入信号进行预处理，其中，所述语音输入信号包括多中贞语音信号；对所述语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比；根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值；提取所述多帧语音信号中的多个基音候选项；根据所述多个基音候选项和先验信噪比按照预设周期对所述多帧语音信号进行第一次动态规划以获得多个第一基音路径及所述第一基音路径对应的代价信息；根据所述第一基音路径对应的代价信息对所述多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径；以及根据所述至少一个第二基音路径检测所述语音基音周期。
2.如权利要求1所述的语音基音周期检测方法，其特征在于，对所述语音输入信号进行预处理进一步包括: 对所述语音输入信号进行分帧处理，并对所述语音输入信号进行噪声估计以获得当前噪声估计信息。
3.如权利要求2所述的语音基音周期检测方法，其特征在于，对所述语音输入信号进行预处理还包括: 对所述语音输入信号进行预加重、加窗及FFT处理。
4.如权利要求1-3任一项所述的语音基音周期检测方法，其特征在于，通过以下公式获得每帧语音信号对应的先验信噪比:

5.如权利要求4所述的语音基音周期检测方法，其特征在于，通过以下公式获得每帧语音信号对应的权重值:
6.如权利要求1所述的语音基音周期检测方法，其特征在于，根据相关性检测方法提取所述多帧语音信号中的多个基音候选项。
7.如权利要求5所述的语音基音周期检测方法，其特征在于，所述根据多个基音候选项和先验信噪比按照预设周期对所述多帧语音信号进行第一次动态规划以获得多个第一基音路径及所述第一基音路径对应的代价信息进一步包括:获得所述多个基音候选项中每个基音候选项对应的权重值，所述权重值包括第一权重值和第二权重值，其中，所述第一权重值与所述基音候选项对应的先验信噪比相关，所述第二权重值与相关函数的峰值强度相关。
8.如权利要求7所述的语音基音周期检测方法，其特征在于，所述根据第一基音路径对应的代价信息对所述多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径进一步包括: 对所述语音输入信号进行分段以生成多个语音段，其中，每个语音段包括多个第一基首路径；根据代价信息对所述每个语音段中的多个第一基音路径进行排序；选取所述每个语音段中前N个第一基音路径，N为正整数；以及对多个语音段中每个语音段中选择的前N个第一基音路径进行第二次动态规划以生成至少一个第二基音路径。
9.如权利要求1所述的语音基音周期检测方法，其特征在于，还包括: 对所述至少一个第二基音路径进行平滑处理。
10.一种语音基音周期检测装置，其特征在于，包括: 预处理模块，用于接收语音输入信号并对所述语音输入信号进行预处理，其中，所述语音输入信号包括多帧语音信号；第一获取模块，用于对所述语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比；第二获取模块，用于根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值；提取模块，用于提取所述多帧语音信号中的多个基音候选项；第一动态规划模块，用于根据所述多个基音候选项和先验信噪比按照预设周期对所述多帧语音信号进行第一次动态规划以获得多个第一基音路径及所述第一基音路径对应的代价信息；第二动态规划模块，用于根据所述第一基音路径对应的代价信息对所述多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径；以及检测模块，用于根据所述至少一个第二基音路径检测所述语音基音周期。
11.如权利要求10所述的语音基音周期检测装置，其特征在于，所述预处理模块包括: 分帧单元，用于对所述语音输入信号进行分帧处理，并对所述语音输入信号进行噪声估计以获得当前噪声估计信息。
12.如权利要求11所述的语音基音周期检测装置，其特征在于，所述预处理模块还包括: 预加重单元，用于对所述语音输入信号进行预加重、加窗及FFT处理。
13.如权利要求10-12任一项所述的语音基音周期检测装置，其特征在于，所述第一获取模块通过以下公式获得每帧语音信号对应的先验信噪比:
14.如权利要求13所述的语音基音周期检测装置，其特征在于，所述第二获取模块通过以下公式获得每帧语音信号对应的权重值:

15.如权利要求10所述的语音基音周期检测装置，其特征在于，所述提取模块还用于根据相关性检测方法提取所述多帧语音信号中的多个基音候选项。
16.如权利要求14所述的语音基音周期检测装置，其特征在于，所述第一规划模块还用于: 获得所述多个基音候选项中每个基音候选项对应的权重值，所述权重值包括第一权重值和第二权重值，其中，所述第一权重值与所述基音候选项对应的先验信噪比相关，所述第二权重值与相关函数的峰值强度相关。
17.如权利要求16所述的语音基音周期检测装置，其特征在于，所述第二动态规划模块包括: 分段单元，用于对所述语音输入信号进行分段以生成多个语音段，其中，每个语音段包括多个第一基音路径；排序单元，用于根据代价信息对所述每个语音段中的多个第一基音路径进行排序；选择单元，用于选取所述每个语音段中前N个第一基音路径，N为正整数；以及动态规划单元，用于对多个语音段中每个语音段中选择的前N个第一基音路径进行第二次动态规划以生成至少一个第二基音路径。
18.如权利要求10所述的语音基音周期检测装置，其特征在于，还包括: 平滑模块，用于对所述至少一个第二基音路径进行平滑处理。
【文档编号】G10L19/09GK103915099SQ201210592093
【公开日】2014年7月9日申请日期:2012年12月29日优先权日:2012年12月29日
【发明者】宋辉申请人:北京百度网讯科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋辉
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：信号带宽扩展方法和用户设备的制作方法
上一篇：一种实现语音歌唱化的方法和装置制造方法