语音信号区间估计装置与语音信号区间估计方法及其程序与记录介质的制作方法

文档序号：2818932阅读：355来源：国知局

专利名称：语音信号区间估计装置与语音信号区间估计方法及其程序与记录介质的制作方法
技术领域：
本发明涉及从包含多个声音信号的信号中，估计语音信号存在的区间的语音信号区间估计装置与语音信号区间估计方法以及在计算机中实施该装置的程序与记录了该程序的记录介质。
背景技术：
在实际环境中利用自动语音识别技术的情况下，需要从包含作为处理对象的语音信号以外的噪声的声音信号中，估计作为处理对象的语音信号存在的区间，并进一步去除噪声。图22作为以往的语音信号区间估计装置900而表示用于实施在非专利文献1公开的以往的语音信号区间估计方法的功能结构，简单说明其动作。语音信号区间估计装置 900包括声音信号分析单元90、语音/非语音状态概率比计算单元95、语音信号区间估计单元96。声音信号分析单元90进一步由声音特征量提取单元91、概率估计单元92、参数存储单元93、GMM(高斯混合模型(Gaussian Mixture Model)混合正态分布模型)存储单元 94构成。参数存储单元93由初始噪声概率模型估计用缓冲器931与噪声概率模型估计用缓冲器931构成。GMM存储单元94由分别存储了预先生成的无声GMM与去噪语音GMM的无声GMM存储单元940与去噪语音(clean speech) GMM存储单元941构成。声音特征量提取单元91提取包括语音信号与噪声信号的声音数字信号At的声音特征量0t。作为声音特征量，例如能够利用对数梅尔谱(mel spectrum)或倒普(c印strum) 等。概率估计单元92利用无声GMM与去噪语音GMM生成适应了噪声环境的非语音GMM与语音GMM，并计算相对于输入的声音特征量Qt的非语音GMM内的全部的正态分布的非语音输出概率以及语音GMM内的全部的正态分布的语音输出概率。语音/非语音状态概率比计算单元95利用该非语音输出概率与语音输出概率，计算语音/非语音状态概率比。语音信号区间估计单元96根据语音/非语音状态概率比判断输入声音信号是语音状态还是非语音状态，从而仅输出例如语音状态的声音信号Ds。这样，以往的语音信号区间的估计方法利用GMM内的全部的概率分布模型而估计语音区间。利用全部的概率模型是因为认为其全部都重要。这种想法在非专利文献2中作为语音信号区间检测与噪声抑制的方法而公开。利用全部的概率分布的想法从非专利文献 2所示的计算噪声抑制滤波器以及滤波器增益的下式(1)也可以明白。[数1]
权利要求
1.一种语音信号区间估计装置，包括声音信号分析单元，以包含语音信号与噪声信号的声音数字信号作为输入，利用对该声音数字信号的每个帧预先生成的无声混合正态分布模型与去噪语音GMM，生成适合噪声环境的非语音GMM与语音GMM，计算从各GMM中除去了最小输出概率的一个以上的正态分布的剩余的正态分布的非语音输出概率与语音输出概率，其中GMM表示混合正态分布模型；以及区间估计信息生成单元，利用上述非语音输出概率与语音输出概率，算出基于语音状态/非语音状态的状态转移模型的语音/非语音状态概率比，并基于算出的上述概率比，生成有关语音区间的信息，并作为语音区间估计信息来输出。
2.如权利要求1所述的语音信号区间估计装置，其中，上述声音信号分析单元包括初始噪声概率模型估计处理单元，估计初始的噪声概率模型参数；参数预测处理单元，根据一个帧之前的噪声概率模型参数的估计结果，通过随机游走过程，预测当前帧的噪声概率模型参数；参数更新处理单元，以当前帧的噪声概率模型参数作为输入，更新在无声GMM与去噪语音GMM中包含的全部的正态分布的参数；概率模型参数生成估计处理单元，利用更新后的正态分布的参数、无声GMM以及去噪语音GMM的多个正态分布的参数，生成适合当前帧的噪声环境的非语音GMM与语音GMM ；输出概率计算处理单元，计算在上述帧GMM中包含的各正态分布的输出概率；概率权重计算处理单元，以高次统计量将上述各正态分布的输出概率的分散程度进行参数化，从而计算用于将非语音状态与语音状态各自的上述各正态分布的输出概率进行加权的概率权重；必要分布决定处理单元，去除上述输出概率的值成为微小的正态分布，仅提取具有充分大的输出概率的正态分布；第1加权平均处理单元，利用概率权重计算单元算出的概率权重，对在上述参数预测处理单元中预测的当前帧的噪声概率模型参数进行加权平均；以及第2加权平均处理单元，将在第1加权平均处理单元中加权平均后的噪声概率模型参数，仅针对上述必要分布决定处理单元提取的正态分布进行加权平均。
3.如权利要求1所述的语音信号区间估计装置，其中上述声音信号分析单元包括概率权重计算处理单元，计算上述非语音输出概率以及语音输出概率的分散程度，并分别计算用于校正该非语音输出概率以及语音输出概率的概率权重，使得分散程度越小，该正态分布的输出概率越大。
4.如权利要求1所述的语音信号区间估计装置，其中上述语音信号分析单元包括必要分布决定处理的与，将上述输出概率按照由大到小的顺序依次算出累计和，并将产生超过规定值的累计和的输出概率的正态分布决定为应除去的上述最小输出概率的一个以上的正态分布。
5.如权利要求1所述的语音信号区间估计装置，进一步包括信号平均单元，针对每个帧，将多声道的上述声音数字信号平均化；以及第2声音信号分析单元，利用周期分量功率与非周期分量功率，求出语音概率与非语音概率，上述区间估计信息生成单元将上述语音信号分析单元与上述第2语音信号分析单元输出的语音概率与非语音概率的对应的概率分别进行乘法运算，并利用乘法运算结果算出上述语音/非语音状态概率比。
6.如权利要求1至5的任一项所述的语音信号区间估计装置，上述区间估计信息生成单元包括语音/非语音状态概率比计算单元，算出上述语音/非语音状态概率比；以及语音信号区间估计单元，根据上述语音/非语音状态概率比，判定该帧的声音信号是语音状态还是非语音状态，并基于判定结果来生成上述语音区间估计信息。
7.如权利要求1至5的任一项所述的语音信号区间估计装置，进一步包括噪声抑制单元，以上述区间估计信息生成单元输出的概率比以及上述声音信号分析单元输出的输出概率作为输入，生成噪声抑制滤波器，并抑制上述声音数字信号的噪声。
8.一种语音信号区间估计方法，包括声音信号分析过程，以包含语音信号与噪声信号的声音数字信号作为输入，利用对该声音数字信号的每个帧预先生成的无声混合正态分布模型与去噪语音GMM，生成适合噪声环境的非语音GMM与语音GMM的概率模型，计算从各GMM中除去了最小输出概率的一个以上的正态分布的剩余的正态分布的非语音输出概率与语音输出概率，其中GMM表示混合正态分布模型；以及区间估计信息生成过程，利用上述非语音输出概率与语音输出概率，算出基于语音状态/非语音状态的状态转移模型的概率比，并基于算出的上述概率比，生成有关语音区间的信息，并作为语音区间估计信息来输出。
9.如权利要求8所述的语音信号区间估计方法，上述声音信号分析过程包括初始噪声概率模型估计处理步骤，估计初始的噪声概率模型参数；参数预测处理步骤，根据一个帧之前的噪声概率模型参数的估计结果，通过随机游走过程，预测当前帧的噪声概率模型参数；参数更新处理步骤，以当前帧的噪声概率模型参数作为输入，更新在无声GMM与去噪语音GMM中包含的全部的正态分布的参数；概率模型参数生成估计处理步骤，利用更新后的正态分布的参数、无声GMM以及去噪语音GMM的多个正态分布的参数，生成适合当前帧的噪声环境的非语音GMM与语音GMM ；输出概率计算处理步骤，计算在上述帧GMM中包含的各正态分布的输出概率；概率权重计算处理步骤，以高次统计量将上述各正态分布的输出概率的分散程度进行参数化，从而计算用于将非语音状态与语音状态各自的上述各正态分布的输出概率进行加权的概率权重；必要分布决定处理步骤，去除上述输出概率的值成为微小的正态分布，仅提取具有充分大的输出概率的正态分布；第1加权平均处理步骤，利用概率权重计算单元算出的概率权重，对在上述参数预测处理单元中预测的当前帧的噪声概率模型参数进行加权平均；以及第2加权平均处理步骤，将在第1加权平均处理部中加权平均后的噪声概率模型参数，仅针对上述必要分布决定处理单元提取的正态分布进行加权平均。
10.如权利要求8所述的语音信号区间估计方法，上述声音信号分析过程包括以下过程计算上述非语音输出概率以及语音输出概率的分散程度，并校正上述非语音输出概率以及语音输出概率，使得分散程度越小，该正态分布的输出概率越大。
11.如权利要求8所述的语音信号区间估计方法，上述语音信号分析过程包括以下过程将上述输出概率按照由大到小的顺序依次算出累计和，并将产生超过规定值的累计和的输出概率的正态分布决定为应除去的上述最小输出概率的一个以上的正态分布。
12.如权利要求8所述的语音信号区间估计方法，进一步包括信号平均过程，信号平均单元针对每个帧，将多声道的上述声音数字信号平均化；以及第2声音信号分析过程，利用周期分量功率与非周期分量功率，求出语音概率与非语音概率，上述区间估计信息生成过程将上述语音信号分析单元与上述第2语音信号分析单元输出的语音概率与非语音概率的对应的概率分别进行乘法运算，并利用乘法运算结果算出上述语音/非语音状态概率比。
13.如权利要求8至12的任一项所述的语音信号区间估计方法，上述区间估计信息生成过程包括语音状态/非语音状态概率比计算过程，利用上述必要的分布的输出概率，算出基于语音/非语音状态的状态转移模型的概率比；以及语音信号区间估计过程，语音信号区间估计单元根据上述概率比，判定该帧的声音信号是语音状态还是非语音状态，并基于判定结果来生成上述语音区间估计信息。
14.如权利要求8至12的任一项所述的语音信号区间估计方法，进一步包括噪声抑制过程，以上述区间估计信息生成过程输出的概率比以及上述声音信号分析单元输出的输出概率作为输入，生成噪声抑制滤波器抑制上述声音数字信号的噪声。
15.一种程序，使计算机起到权利要求1所述的装置的作用。
16.一种记录介质，记录了用于使计算机起到权利要求1所述的装置的作用的程序。
全文摘要
提高语音信号区间估计装置的处理效率与估计精度。声音信号分析单元以包含语音信号与噪声信号的声音数字信号作为输入，针对该声音数字信号的每个帧，利用无声GMM与去噪语音GMM生成适合噪声环境的非语音GMM与语音GMM，并从各GMM中仅计算必要的正态分布的输出概率。然后，语音/非语音状态概率比计算单元利用该输出概率，算出基于语音状态/非语音状态的状态转移模型的语音/非语音状态概率比，语音信号区间估计单元根据语音/非语音状态概率比，判定该帧的声音信号是语音状态还是非语音状态，从而仅输出语音状态的声音信号。
文档编号G10L15/20GK102473412SQ20108003274
公开日2012年5月23日申请日期2010年7月15日优先权日2009年7月21日
发明者中谷智广, 藤本雅清申请人:日本电信电话株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：藤本雅清;中谷智广
技术所有人：日本电信电话株式会社
我是此专利的发明人

上一篇：复杂度可缩放的感知节拍估计的制作方法
上一篇：自适应地检测输入音频信号中的话音活动的方法和设备的制作方法