提取语音信号的韵律特征的方法和装置的制作方法

文档序号：2832314阅读：276来源：国知局

专利名称：提取语音信号的韵律特征的方法和装置的制作方法
技术领域：
本发明涉及语音信号处理领域，更具体地涉及一种提取语音信号的韵律特征的方法和装置。此外，本发明还涉及一种将所述韵律特征与传统声学特征结合使用的方法。
背景技术：
韵律特征又叫“超音质特征”或“超音段特征”，发音人的声调、语调、重音、音长、音强和音高，说话风格、口音等韵律特征都是超音段方面的特征成分。目前在语言学和语音合成方面的研究居多，主要集中在重音、音长、音高方面，通常采用基频，时长来进行描述。例如，李晓庆等人所著的“重读与信息结构对语篇理解加工的影响”(心理学报， 2005年01期)和杨玉芳等人所著的“韵律特征研究”(心理科学进展，2006年第14卷，第 04期)从知觉、认知和语料库的角度对汉语韵律特征进行了一系列的研究。在知觉方面，用实验心理学和知觉标注的语料库分析方法，分析知觉可以区分的韵律层级及相关的声学线索，研究结果证明语篇中知觉可以区分的韵律边界是小句、句子和段落，及其知觉相关的声学线索；在认知方面，研究了韵律特征在语篇理解中的作用，用实验心理学方法和脑电指标研究韵律对语篇信息整合和指代理解的影响，揭示其作用的认知和神经机制；在语料库方面，在标注的语料库的基础上，用常规统计方法研究语句常规重音分布规律、语篇信息结构与重音的关系、并用决策树方法研究根据文本信息确定韵律短语边界和焦点的规则。因此，该研究证明了韵律特征在感知层的影响，但是该研究是从语言学文法分析出发，因此不但受被研究语种的限制，而且没有对如何提取韵律特征这一方面进行描述。此外，田岚等人所著的“一种数据驱动的汉语成句语音韵律特征产生模型的研究”(控制与决策，2003年18卷6期)针对汉语发音特点，从基频角度进行研究，对大量自然汉语语句基频轮廓数据进行了统计和分析，辅以时长和增益参数，研究了韵律在汉语的语气、短语节奏、韵律词声调及轻重音等方面的信息。该研究可以按语言知识分类训练和标注各种参数。但是得到的节奏、轻重、语气等信息很难和目前语音信号处理中主流的声学特征，如 MFCC (Mel Frequency Cepstral Coeff icient，美尔倒谱系数)、LPCC (Linear Prediction Cepstrum Coefficient,线性予页测倒谱系数)、LSF (Line Spectrum Frequency, 线谱频率)等很好地结合起来。另外，蔡莲红等人所著的“汉语韵律特征的可计算性研究”(第五届全国现代语音学术会议论文集，2001年)研究了基频的量化表示，基频均值和基频调域的感知试验，研究结果表明，改变调域对听感的影响没有改变均值的效果明显；同时，还采用基频、时长、调域作为评价一个音节的基本参数，对重音进行了较为详细的研究。研究虽然也尝试了韵律的可计算性研究，但是试验还是建立在语言学分析的基础上的，而且仅仅用基频、时长和信号幅度对重音方面进行了分析，因此，这样的重音表征需要人工的标注数据，不能自动生成，而且也不能和MFCC、LPCC、LSF等声学特征结合使用。如何对韵律特征进行表征，而且自动计算，并能够和目前语音信号处理中主流的声学特征，如MFCC、LPCC、LSF等参数很好地结合起来，是目前韵律研究的一个难点，也是目前迫切需要解决的一个问题。

发明内容
在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。但是，应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分，也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念，以此作为稍后给出的更详细描述的前序。鉴于现有技术的上述情形，本发明的目的是提供一种提取语音信号的韵律特征的方法和装置、以及将所述韵律特征与传统声学特征结合使用的方法，其从不同频段给人们的不同听觉感受方面出发，针对不同频段提取相应的韵律特征。所述韵律特征无需人工标注，能够自动生成，并能够和语音信号处理中主流的声学特征，如MFCC、LPCC、LSF等参数很好地结合使用，并应用到语音信号处理的各个领域中，如说话人识别、说话人聚类等。为了实现上述目的，根据本发明的一个方面，提供了一种提取语音信号的韵律特征的方法，其包括对语音信号进行分帧；对语音帧进行时域到频域的变换；以及针对不同的频段，计算相应的韵律特征。根据本发明的另一个方面，还提供了一种提取语音信号的韵律特征的装置，其包括分帧单元，用于对语音信号进行分帧；时域到频域变换单元，用于对语音帧进行时域到频域的变换；以及韵律特征计算单元，用于针对不同的频段，计算相应的韵律特征。根据本发明的另一个方面，还提供了一种将所述韵律特征与传统声学特征结合使用的方法，其包括对每一帧提取传统声学特征；针对所述韵律特征，分别计算当前帧特征、当前帧特征与前一帧特征的差值以及当前帧特征与当前帧所在段特征均值的差值；提取每一帧的基频、该基频与前一帧基频的差值、该基频与当前帧所在段基频均值的差值；以及将上述各个特征相结合并应用于说话人识别中。根据本发明的另一个方面，还提供了用于实现上述提取语音信号的韵律特征的方法和/或将所述韵律特征与传统声学特征结合使用的方法的计算机程序产品。根据本发明的另一个方面，还提供了计算机可读介质，其上记录有用于实现上述上述提取语音信号的韵律特征的方法和/或将所述韵律特征与传统声学特征结合使用的方法的计算机程序代码。根据本发明的上述技术方案，可以有效地提取能够与传统声学特征无障碍结合的韵律特征。

本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中图1示出了根据本发明实施例的提取语音信号的韵律特征的方法的总体流程图；图2示出了根据本发明的一个具体实施例的计算厚度特征的过程的流程图；图3示出了根据本发明的一个具体实施例的计算力度特征的过程的流程图4示出了根据本发明的一个具体实施例的计算层次特征的过程的流程图；图5示出了根据本发明实施例的将本发明的韵律特征与传统声学特征结合使用的方法的流程图；图6示出了根据本发明实施例的提取语音信号的韵律特征的装置的总体框图；以及图7示出了在其中可以实现根据本发明实施例的提取语音信号的韵律特征的方法和/或装置的信息处理设备的示例性结构的框图。本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其它元件放大了，以便有助于提高对本发明实施例的理解。
具体实施例方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其它细节。首先将参考附图详细描述根据本发明实施例的提取语音信号的韵律特征的方法。图1示出了根据本发明实施例的提取语音信号的韵律特征的方法的总体流程图。如图1所示，根据本发明实施例的韵律特征提取方法包括分帧步骤S110、时域到频域变换步骤S120、以及韵律特征计算步骤S130。首先，在分帧步骤S110，对语音信号进行分帧，以便在后续处理中以语音帧为单位进行处理。在此，优选地，帧长可以为20ms，帧移可以为10ms。可选地，在分帧之前可以对输入的语音数据进行有声段检测，然后以每个有声段作为处理对象进行分帧。此外，优选地，在分帧之后，还可以对所得到的语音帧进行加窗处理，以便在后续处理中以经过加窗的语音帧为处理对象。接下来，在时域到频域变换步骤S120，对经过分帧所得到的语音帧进行时域到频域的变换。优选地，可以通过傅立叶变换对语音帧进行时域到频域的变换。最后，针对不同的频段，计算相应的韵律特征。优选地，针对不同的频段计算相应的韵律特征可以包括以下处理中的一项或多项针对第一频段如低于150Hz的低音段，计算语音信号的厚度特征，其中所述厚度特征基于在第一频段的频域能量；针对第二频段如 150Hz到500Hz的中低音段，计算语音信号的力度特征，其中所述力度特征基于在第二频段的时域能量；以及针对第三频段如500Hz到5KHz的中高音段，计算语音信号的层次特征，其中所述层次特征基于在第三频段的时域包络。图2示出了根据本发明的一个具体实施例的计算厚度特征的过程的流程图。其中，所述厚度特征的计算是针对第一频段进行的。如图2所示，首先，在步骤S210，针对经过时域到频域变换所得到的信号，确定第一频段所对应的谱单元。例如，在第一频段为0-150HZ的情况下，若信号采样率为16KHz，作512点傅立叶变换，则所对应的谱单元数P = 150/(800(V256)，约为5，则第一频段所对应的谱单元为[1，5]。然后，在步骤S220，基于第一频段上各个谱单元对应的幅度谱来计算厚度特征。例
如，可以使用公式五二 log⑶I2来计算所述厚度特征，其中η为对数的底，可以取值
为2、4、10等，P为第一频段上所有谱单元的个数，ρ为各个谱单元的索引，|Χ(ρ) I为谱单元
P的幅度谱。可替选地，也可以使用公式
权利要求
1. 一种提取语音信号的韵律特征的方法，包括对语音信号进行分帧；对语音帧进行时域到频域的变换；针对不同的频段，计算相应的韵律特征；以及其中，针对不同的频段计算相应的韵律特征包括以下处理中的一项或多项针对第一频段计算语音信号的厚度特征，其中所述厚度特征基于在第一频段的频域能量；针对第二频段计算语音信号的力度特征，其中所述力度特征基于在第二频段的时域能量；以及针对第三频段计算语音信号的层次特征，其中所述层次特征基于在第三频段的时域包
2.根据权利要求1所述的方法，其中，针对第一频段计算语音信号的厚度特征进一步包括基于第一频段上所有谱单元对应的幅度谱来计算所述厚度特征。
3.根据权利要求1所述的方法，其中，针对第二频段计算语音信号的力度特征进一步包括针对第二频段，通过逆滤波得到该频段的时域信号；以及基于所述时域信号的各个采样点的振幅来计算所述力度特征。
4.根据权利要求1所述的方法，其中，针对第三频段计算语音信号的层次特征进一步包括针对第三频段，通过逆滤波得到该频段的时域信号；对逆滤波之后得到的时域信号进行希尔波特变换，以得到对应的希尔波特变换信号；以及基于所述时域信号和所述希尔波特变换信号来计算所述层次特征。
5.根据权利要求1所述的方法，其中，所述第一频段的范围为0-150HZ，所述第二频段的范围为150-500HZ，所述第三频段的范围为500Hz-5KHz。
6.根据权利要求1所述的方法，其中对语音帧进行时域到频域的变换是通过傅立叶变换来实现的。
7.根据权利要求1所述的方法，其中，针对不同的频段计算相应的韵律特征是以每帧为基础进行的；以及所述方法进一步包括针对每个韵律特征，计算当前帧特征、当前帧特征与前一帧特征的差值以及当前帧特征与当前帧所在段特征均值的差值。
8.一种将根据权利要求1所述的方法提取的韵律特征与传统声学特征结合使用的方法，包括对每一帧提取传统声学特征；针对所述韵律特征，分别计算当前帧特征、当前帧特征与前一帧特征的差值以及当前帧特征与当前帧所在段特征均值的差值；提取每一帧的基频、该基频与前一帧基频的差值、该基频与当前帧所在段基频均值的差值；以及将上述各个特征相结合并应用于说话人识别中。
9.根据权利要求8所述的方法，其中所述传统声学特征包括美儿倒谱系数、线性预测倒谱系数和线谱频率中的一种或多种。
10.一种提取语音信号的韵律特征的装置，包括分帧单元，用于对语音信号进行分帧；时域到频域变换单元，用于对语音帧进行时域到频域的变换；韵律特征计算单元，用于针对不同的频段，计算相应的韵律特征；以及其中，韵律特征计算单元进一步包括以下单元中的一个或多个厚度特征计算单元，用于针对第一频段计算语音信号的厚度特征，其中所述厚度特征基于在第一频段的频域能量；力度特征计算单元，用于针对第二频段计算语音信号的力度特征，其中所述力度特征基于在第二频段的时域能量；以及层次特征计算单元，用于针对第三频段计算语音信号的层次特征，其中所述层次特征基于在第三频段的时域包络。
11.根据权利要求10所述的装置，其中，所述厚度特征计算单元基于第一频段上所有谱单元对应的幅度谱来计算所述厚度特征。
12.根据权利要求10所述的装置，其中，所述力度特征计算单元针对第二频段，通过逆滤波得到该频段的时域信号，并且基于所述时域信号的各个采样点的振幅来计算所述力度特征。
13.根据权利要求10所述的装置，其中，所述层次特征计算单元针对第三频段，通过逆滤波得到该频段的时域信号，对所述时域信号进行希尔波特变换以得到对应的希尔波特变换信号，并且基于所述时域信号和所述希尔波特变换信号来计算所述层次特征。
14.根据权利要求10所述的装置，其中，所述第一频段的范围为0-150HZ，所述第二频段的范围为150-500HZ，所述第三频段的范围为500Hz-5KHz。
15.根据权利要求10所述的装置，其中所述时域到频域变换单元通过傅立叶变换来对语音帧进行时域到频域的变换。
16.根据权利要求10所述的装置，其中，所述韵律特征计算单元逐帧地计算所述韵律特征，以及所述韵律特征计算单元针对每个韵律特征，计算当前帧特征、当前帧特征与前一帧特征的差值以及当前帧特征与当前帧所在段特征均值的差值。
全文摘要
本发明公开了一种提取语音信号的韵律特征的方法和装置，其中该方法包括对语音信号进行分帧；对语音帧进行时域到频域的变换；以及针对不同的频段，提取相应的韵律特征。根据本发明的上述技术方案，可以有效地提取能够与传统声学特征无障碍结合的韵律特征。
文档编号G10L15/02GK101996628SQ20091016851
公开日2011年3月30日申请日期2009年8月21日优先权日2009年8月21日
发明者刘昆, 吴伟国申请人:索尼株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘昆;吴伟国
技术所有人：索尼株式会社
我是此专利的发明人

上一篇：用于对齐文本的方法和装置的制作方法
上一篇：语音控制装置、语音控制方法及相关显示装置的制作方法