基于先验清浊知识的基频提取方法及系统的制作方法

文档序号：2823730阅读：212来源：国知局

专利名称：基于先验清浊知识的基频提取方法及系统的制作方法
技术领域：
本发明属于一种语音信号处理方法，尤其涉及一种基频提取方法；具体涉及一种基于先验清浊知识的基频提取方法；此外，本发明还涉及一种基于先验清浊知识的基频提取系统。
背景技术：
在当前的中文语音信号处理中，经常会碰到需要提取基频参数的情况，而现在许多的基频提取算法，在清浊判决的时候或多或少存在问题，特别是在待处理语音的发音不是很饱满、发音比较低沉的情况下，清浊判决的错误率很高，常常导致后面的相关处理受到很大的影响。在当前的语音合成的研究中，参数化的语音合成算法已被证明可以获得高质量的稳定的合成语音，但是基频提取的好坏能对最终的合成效果产生直接的影响，基频提取的好坏，很大程度上影响着合成语音的质量。同样，在语音识别和语音评测中，基频的重要性也越来越高，基频参数提取的好坏会对最终结果产生直接的影响。现有的绝大多数基频提取算法，首先根据输入的语音数据统计相关的统计量，如自相关系数等，然后根据相关的统计量分布来做清浊判决，最后根据清浊判决结果结合相关统计量做基频轨迹平滑，最后输出基频。现有绝大多数基频提取算法的清浊判决模块都是基于数据统计的，由于人类发音的多样性，统计数据并不能很好的处理所有的发音情况。

发明内容
本发明要解决的技术问题是提供一种基于先验清浊知识的基频提取方法，该方法利用清浊切分边界作为先验知识输入到基频提取算法中的清浊判决模块来辅助清浊判决，将原先的自动清浊判决和现有的清浊切分边界融合，就可以得到理想的清浊判决结果，从而提高清浊判决的正确率。为此，本发明还提供一种基于先验清浊知识的基频提取系统。为解决上述技术问题，本发明一种基于先验清浊知识的基频提取方法，包括如下步骤第一步，获取清浊切分边界；第二步，对待提取数据进行统计量计算；第三步，将第二步获得的统计量和对应的第一步获得的清浊切分边界结合进行清浊判决；第四步，动态规划与基频轨迹平滑；第五步，输出高质量的基频提取结果。第一步具体包括如下步骤步骤1，选取训练数据中的一小部分来做人工标注切分，标注出每个音素的边界作为下个模块的输入；
步骤2，基频及相关参数提取；步骤3，模型训练；步骤4，音素切分利用统计模型和训练数据的参数来进行切分；步骤5，将音素切分的结果转化为清浊切分边界。在第一步的步骤1中，所述训练数据表示用于相关语音算法的语音数据，此数据的数据量规模巨大；所述相关语音算法是语音合成、语音识别或语音评测。在第一步的步骤2中，所述基频提取采用第二步至第五步的基频提取算法，所述相关参数是频谱参数。在第一步的步骤3中，所述模型训练用于统计参数的分布情况。在第一步的步骤4中，先对所有训练数据进行参数分析，该步骤对于基频参数采用传统的基频提取算法。在第二步中，所述待提取数据指需要进行基频提取的训练数据；所述统计量计算指根据输入的语音信号分帧来计算每帧数据的统计量。此外，本发明还提供一种基于先验清浊知识的基频提取系统，包括统计量计算模块、动态规划与基频平滑模块、清浊判决模块和清浊切分边界获取模块；该统计量计算模块用于待提取的训练数据进行统计量计算；该清浊判决模块用于将统计量计算模块获得的统计量和清浊切分边界获取模块获得的对应的清浊切分边界结合进行清浊判决；该动态规划与基频平滑模块用于对清浊判决模块的数据进行动态规划以获得平滑的基频轨迹，并输出基频提取结果。所述清浊切分边界获取模块包括少量人工标注模块、基频及相关参数提取模块、模型训练模块和音素切分模块；该少量人工标注模块用于选取训练数据中的一小部分来做人工标注切分，标注出每个音素的边界作为基频及相关参数提取模块的输入；该模型训练模块用于对基频及相关参数提取模块提取的参数进行统计分布情况；该音素切分模块利用模型训练模块统计的参数来进行切分，并将音素切分的结果转化为清浊切分边界。所述音素切分模块对所有训练数据进行参数分析，该模块对于基频参数采用传统的基频提取算法。所述统计量计算模块根据输入的语音信号分帧来计算每帧数据的统计量。本发明的有益效果在于本发明采用自动切分的方法获得清浊边界的切分信息，然后将清浊切分边界作为先验知识输入给基频提取算法的清浊判决模块，将原来的清浊判决和现有的先验知识结合起来，从而提高了基频提取的正确率，为后面的语音算法研究提供了高质量的基频参数。此外，在获得音素切分边界的处理上，提出了利用参数化合成系统来获得自动的音素切分边界，可有有效的减少人工切分的工作量，大大提高了工作效率。

图1是本发明获取清浊切分边界的流程示意图；图2是本发明基于先验清浊知识的基频提取算法的流程示意图；图3是本发明基于先验清浊知识的基频提取系统的模块示意图。
具体实施方式
本发明在中文语音基频提取过程中，引入音素切分边界来指导清浊判决以达到提高清浊判决正确率最终提高基频提取正确率的方法是行之有效的，通过将音素切分边界转化为清浊切分边界作为先验知识与原有清浊判决融合能有效的提高清浊判决的正确率。音素的切分边界可以通过人工标注来获得，也可以通过音素自动切分的方法来获得，通过人工标注可以获得更加准确的音素切分边界。一、音素切分边界准确音素切分边界可以很好的辅助清浊判决，而不好的音素切分边界则会带来毁灭性的影响，这里音素切分边界可以由人工来完成，也可以通过自动化的手段自动获得，当然，人工的音素切分边界更加可信，而自动获得的音素切分边界也可以有效的提高清浊判决的正确率。1.人工音素切分边界顾名思义，此方法是通过人工校对的方法来对输入的语音数据进行切分，人工切分的工作量很大，对于当前的语音算法研究来说，训练数据量往往是非常巨大的，所以人工音素边界的标注具有非常巨大的工作量，往往是不切实际的，所以，可以通过自动化的方法来获得音素切分边界2.自动音素切分边界自动音素边界切分方法源自参数化的合成系统，参数化的合成系统是将语音信号参数化，然后根据标注的韵律信息对参数进行统计建模，最后通过模型恢复出参数来合成最终的合成语音的方法。本发明在这里将用到参数化合成系统中的模型来对语音信号进行自动切分来获取音素切分边界，这里采用模型切分的方法原因有(1)模型参数反映的是语音信号的实际分布特征，可以通过相关的对齐方法方便的获得音素切分边界；(2)参数模型容易构建，通过很少量的人工参与就可以构建一个比较好的切分模型从而获得音素切分边界；(3)此方法已被证明能获得高质量的合成语音，也可以获得高质量和高一致性的音素切分边界。二、自动音素切分方法任何的系统都或多或少需要人工的参与，本发明的目标是将最少量的人工参与来获取最大化的效果，这里自动音素切分方法按照如下步骤进行(注这里的数据都是语音合成的标准数据，所以包含韵律标注，但不包含人工音素切分)1.将所有语音数据随机选出100句做人工音素切分(因为模型的训练需要原始的切分数据)，作为系统的最原始的输入；2.将这100句作为模型训练数据进行模型训练，具体训练流程为本领域公知的隐马尔可夫模型的训练过程(可参考=http://hts. sp. nitech. ac. ip)，该训练流程步骤为:(1)首先进行单音素模型的训练；(2)其次对训练好的单音素模型扩展到上下文相关的模型；(3)再次对扩展后的上下文相关模型参数进行基于最大似然的优化；(4)最后对参数优化后的上下文相关模型进行决策树聚类，就得到了训练好的模型。
6
3.将训练好的模型对所有的训练数据进行切分，将切分的结果输入成音素边界的形式。经过上面的流程之后，只需要100句的人工切分数据就可以获得任意数据量的音素切分边界，音素切分边界文件内容如下(文本沙和尚，时间边界的单位为秒)0. 564100 0. 652100sh0. 652100 0. 850000a0. 850000 0. 965100h0. 965100 1. 098000e1. 098000 1. 241000sh1. 241000 1. 392500ang在清浊判决模块，本发明需要的是清浊切分边界，所以可以根据中文相关音素的清浊特性，将其转化为清浊切分边界(U表示清音，V表示浊音，比如一些清辅音是清音，浊辅音则是浊音，而所有的元音都是浊音，以此来将音素切分边界转化为清浊切分边界)0. 564100 0. 652100U0. 652100 0. 850000V0. 850000 0. 965100U0. 965100 1. 098000V1. 098000 1. 241000U1. 241000 1. 392500V将以上结果输入到清浊判决模块就可以获得正确的清浊输出。三、本发明改进后基频提取算法改进后的基频提取算法在统计量计算，基频值确定模块不作改变，只是对清浊判决模块进行改进，在原有输入中加入清浊切分边界，将清浊切分边界和原有清浊判决做一个软结合在浊音段内部，硬性判决为浊音，而在浊音段的边界，预留几帧作为缓冲帧，这些帧的清浊结果由原有的清浊判决模块根据相关统计量做出判决，这样即使清浊切分边界不准确也能获得比较好的结果，也可以获得平滑的清浊过渡。此方法尤其适用于发音不是很饱满或者基频比较低的情况，对于理想情况，基频提取算法本身的清浊判决模块就能做出很好的判决，用这种方法效果提升不大，而对于以上提到的情况，在清浊判决模块本身不能做出很好判决的时候，利用此方法能获得很好的效果。如图1所示，本发明获取清浊切分边界的步骤包括如下1.训练数据表示用于相关语音算法如语音合成，语音识别，语音评测等的语音数据，此数据的数据量规模巨大；2.少量人工标注选取训练数据中的一小部分来做人工标注切分，标注出每个音素的边界作为下个模块的输入；3.基频及相关参数提取这个模块包括基频提取算法和其他参数如频谱参数等的提取算法，对于基频提取算法，用改进的基频提取算法(见图幻，因为用于提取参数的语音数据已经有人工的音素切分边界数据(来自步骤幻，该人工的音素切分边界数据可以转化为清浊切分边界，从而用于如图2所示的改进的基频提取算法中；
4.模型训练用于统计参数的分布情况；5.音素切分此模块利用统计模型和训练数据的参数来进行切分，此模块中，先对所有训练数据进行参数分析，这里对于基频参数因为没有音素切分边界，所以采用原有的基频提取算法，因为模型具有比较高的容错性，所以在基频参数提取不是很准确的情况下也能获得比较准确的音素切分结果；6.最后将音素切分的结果转化为清浊切分边界，从而通过改进后的基频提取算法就能获得高质量的基频参数。如图2所示，本发明改进的基频提取算法的步骤如下1.待提取数据指需要进行基频提取的训练数据；2.统计量计算任何基频提取算法都会根据输入的语音信号分帧来计算每帧数据的统计量；3.清浊判决在清浊判决模块，输入统计量和对应的清浊切分边界(即图1所示获得的清浊切分边界)，清浊切分边界用于和原始的清浊判决结合，提高清浊判决的准确度；4.动态规划与基频平滑任何高质量的基频提取算法，为了获得平滑的基频轨迹，都需要进行动态规划来获得平滑的基频轨迹；5.最后输出高质量的基频提取结果。本发明的基频提取算法不止适合语音合成，语音识别和语音评测的研究，在其他任何涉及到基频提取算法的地方此方法都适用，此外，此方法不止适合中文，对于英文，日文，韩文等都适用，只要将音素切分边界归纳为清浊切分边界就可以使用本方法。如图3所示，本发明一种基于先验清浊知识的基频提取系统，包括统计量计算模块、动态规划与基频平滑模块、清浊判决模块和清浊切分边界获取模块；该统计量计算模块用于待提取的训练数据进行统计量计算；该清浊判决模块用于将统计量计算模块获得的统计量和清浊切分边界获取模块获得的对应的清浊切分边界结合进行清浊判决；该动态规划与基频平滑模块用于对清浊判决模块的数据进行动态规划以获得平滑的基频轨迹，并输出基频提取结果。该清浊切分边界获取模块包括少量人工标注模块、基频及相关参数提取模块、模型训练模块和音素切分模块；该少量人工标注模块用于选取训练数据中的一小部分来做人工标注切分，标注出每个音素的边界作为基频及相关参数提取模块的输入；该模型训练模块用于对基频及相关参数提取模块提取的参数进行统计分布情况；该音素切分模块利用模型训练模块统计的参数来进行切分，并将音素切分的结果转化为清浊切分边界。本发明提出了利用清浊切分边界作为先验知识输入到基频提取算法中的清浊判决模块来辅助清浊判决，将原先的自动清浊判决和现有的清浊切分边界融合，就可以得到理想的清浊判决结果，从而提高清浊判决的正确率。
权利要求
1.一种基于先验清浊知识的基频提取方法，其特征在于，包括如下步骤第一步，获取清浊切分边界；第二步，对待提取数据进行统计量计算；第三步，将第二步获得的统计量和对应的第一步获得的清浊切分边界结合进行清浊判决；第四步，动态规划与基频轨迹平滑；第五步，输出高质量的基频提取结果。
2.如权利要求1所述的基于先验清浊知识的基频提取方法，其特征在于，第一步具体包括如下步骤步骤1，选取训练数据中的一小部分来做人工标注切分，标注出每个音素的边界作为下个模块的输入；步骤2，基频及相关参数提取；步骤3，模型训练；步骤4，音素切分利用统计模型和训练数据的参数来进行切分；步骤5，将音素切分的结果转化为清浊切分边界。
3.如权利要求2所述的基于先验清浊知识的基频提取方法，其特征在于，在第一步的步骤1中，所述训练数据表示用于相关语音算法的语音数据，此数据的数据量规模巨大；所述相关语音算法是语音合成、语音识别或语音评测。
4.如权利要求2所述的基于先验清浊知识的基频提取方法，其特征在于，在第一步的步骤2中，所述基频提取采用第二步至第五步的基频提取算法，所述相关参数是频谱参数。
5.如权利要求2所述的基于先验清浊知识的基频提取方法，其特征在于，在第一步的步骤3中，所述模型训练用于统计参数的分布情况。
6.如权利要求2所述的基于先验清浊知识的基频提取方法，其特征在于，在第一步的步骤4中，先对所有训练数据进行参数分析，该步骤对于基频参数采用传统的基频提取算法。
7.如权利要求1所述的基于先验清浊知识的基频提取方法，其特征在于，在第二步中，所述待提取数据指需要进行基频提取的训练数据；所述统计量计算指根据输入的语音信号分帧来计算每帧数据的统计量。
8.一种基于先验清浊知识的基频提取系统，其特征在于，包括统计量计算模块、动态规划与基频平滑模块、清浊判决模块和清浊切分边界获取模块；该统计量计算模块用于待提取的训练数据进行统计量计算；该清浊判决模块用于将统计量计算模块获得的统计量和清浊切分边界获取模块获得的对应的清浊切分边界结合进行清浊判决；该动态规划与基频平滑模块用于对清浊判决模块的数据进行动态规划以获得平滑的基频轨迹，并输出基频提取结果。
9.如权利要求8所述的基于先验清浊知识的基频提取系统，其特征在于，所述清浊切分边界获取模块包括少量人工标注模块、基频及相关参数提取模块、模型训练模块和音素切分模块；该少量人工标注模块用于选取训练数据中的一小部分来做人工标注切分，标注出每个音素的边界作为基频及相关参数提取模块的输入；该模型训练模块用于对基频及相关参数提取模块提取的参数进行统计分布情况；该音素切分模块利用模型训练模块统计的参数来进行切分，并将音素切分的结果转化为清浊切分边界。
10.如权利要求9所述的基于先验清浊知识的基频提取系统，其特征在于，所述音素切分模块对所有训练数据进行参数分析，该模块对于基频参数采用传统的基频提取算法。
11.如权利要求8所述的基于先验清浊知识的基频提取系统，其特征在于，所述统计量计算模块根据输入的语音信号分帧来计算每帧数据的统计量。
全文摘要
本发明公开了一种基于先验清浊知识的基频提取方法，包括如下步骤第一步，获取清浊切分边界；第二步，对待提取数据进行统计量计算；第三步，将第二步获得的统计量和对应的第一步获得的清浊切分边界结合进行清浊判决；第四步，动态规划与基频轨迹平滑；第五步，输出高质量的基频提取结果。此外，本发明还公开了一种基于先验清浊知识的基频提取系统，包括统计量计算模块、动态规划与基频平滑模块、清浊判决模块和清浊切分边界获取模块。本发明提出了利用清浊切分边界作为先验知识输入到基频提取算法中的清浊判决模块来辅助清浊判决，将原先的自动清浊判决和现有的清浊切分边界融合，就可以得到理想的清浊判决结果，从而提高清浊判决的正确率。
文档编号G10L15/14GK102339605SQ20101023362
公开日2012年2月1日申请日期2010年7月22日优先权日2010年7月22日
发明者王玉平申请人:盛乐信息技术(上海)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王玉平
技术所有人：盛乐信息技术(上海)有限公司
我是此专利的发明人

上一篇：声音处理设备、声音处理方法和程序的制作方法
上一篇：机顶盒语音提示系统及播放方法