婴儿哭声的辩识方法及其系统与流程

文档序号：11097706阅读：来源：国知局

技术特征：

1.一种婴儿哭声的辩识方法，其特征在于，包括以下步骤：

a获取婴儿哭声音频的多段训练数据，每个训练数据对应一个已知啼哭原因；

b对每一段训练数据进行特征提取，得到每一段训练数据的特征参数向量；

c对所述多段训练数据的特征参数向量进行主成分分析，得到多个主成分；

d计算每一种啼哭原因对应的训练数据在各主成分上投影分值的均值和方差，根据该方差在所述多个主成分中选择P个主成分，P为大于1的整数；

e获取婴儿哭声音频的待辩识数据，并在所述P个主成分上计算该待辩识数据的投影分值；

f根据该待辩识数据的投影分值和所述均值和方差计算该待辩识数据对应于各个原因的概率。

2.根据权利要求1所述的婴儿哭声的辩识方法，其特征在于，所述步骤c包括以下子步骤：

所述多段训练数据包括N个哭声信号样本，对该N个哭声信号样本分别提取K个特征参数，其中，第n个哭声信号提取出的K个特征参数记为特征参数向量s_n＝[s_n1,s_n2,…,sn_K]^T；

对所述N个哭声信号样本，计算所述K个特征参数所对应的协方差矩阵，记为C，其中，C为K乘K的矩阵；

对所述协方差阵进行特征值分解，得到K个特征值和相应于该K个特征值的特征向量。

3.根据权利要求2所述的婴儿哭声的辩识方法，其特征在于，所述步骤d包括以下子步骤：

对所述协方差矩阵C进行特征值分解，把特征值按从大到小进行排列，得到{λ₁,λ₂,…,λ_K}，从中取特征值最大的Q个特征值及其对应的特征向量，构成一个Q维的特征子空间，其中Q的值取的解，g为0.9至0.99之间的一个预设置；

在这Q个主成分中，取其中的第k个主成分，该主成分的特征值记为λ_k，λ_k对应的特征向量记为u_k，计算第n个哭声信号的特征参数向量s_n在第k个特征向量上的投影分值；

求N个哭声信号中属于第j类哭声原因的哭声信号，记为N_j，的K个特征参数向量在第k个特征向量上投影分值的均值

和方差σ_jk

然后计算

$<mrow> <msub> <mi>L</mi> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>X</mi> <mi>k</mi> </msub> <msub> <mi>Y</mi> <mi>k</mi> </msub> </mfrac> <mo>,</mo> </mrow>$

其中

$<mrow> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>=</mo> <msubsup> <mi>C</mi> <mi>J</mi> <mn>2</mn> </msubsup> <msqrt> <mrow> <msubsup> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>J</mi> </msubsup> <msubsup> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>J</mi> </msubsup> <msup> <mrow> <mo>|</mo> <mrow> <msub> <mi>μ</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>μ</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>,</mo> </mrow>$

$<mrow> <msub> <mi>Y</mi> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>J</mi> </mfrac> <mrow> <mo>|</mo> <mrow> <msubsup> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>J</mi> </msubsup> <msub> <mi>σ</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mo>|</mo> </mrow> <mo>.</mo> </mrow>$

上述各式中，J表示哭声原因的总类型个数，X_k表示哭声信号的特征参数向量在第k个主成分的投影分值的分离度，而Y_k表示哭声信号的特征参数向量在第k个主成分的投影分值的集中度，L_k代表各个主成分在对哭声原因的辨别能力，L_k越大意味着其辨别能力越强；

按顺序对Q个主成分进行排列，选取L_k值最大的P个主成分用于后续的哭声原因辨识，其中P取Q和M中较小的值，而h为取值在2％-0.5％之间的一个预设值。

4.根据权利要求3所述的婴儿哭声的辩识方法，其特征在于，所述步骤f中，通过以下方式计算

第j种原因的概率

5.根据权利要求1所述的婴儿哭声的辩识方法，其特征在于，还包括以下步骤：

对选定的一组训练数据执行所述步骤a、b、c和d，得到P个主成分；

根据所得的P个主成分，对该组训练数据中的每一个训练数据，分别执行所述步骤e和f以得到该训练数据对应于各个原因的概率，并计算该训练数据所对应的概率最大原因，并将该概率最大原因与该训练数据所对应的已知啼哭原因进行比较；

将概率最大原因与已知啼哭原因不相同的训练数据从所述选定的一组训练数据中剔除，将剩余的训练数据作为新选定的一组训练数据再次执行上述各步骤，如此循环直至满足预定的退出条件。

6.根据权利要求1至5中任一项所述的婴儿哭声的辩识方法，其特征在于，在所述步骤f之后还包括以下步骤：

在移动终端上显示概率最大的至少两个原因。

7.根据权利要求1至5中任一项所述的婴儿哭声的辩识方法，其特征在于，所述啼哭原因包括以下原因中的任意两种或更多种：

饥饿，想睡觉，不适，尿布湿。

8.根据权利要求1至5中任一项所述的婴儿哭声的辩识方法，其特征在于，所述特征提取的步骤中提取的特征包括以下特征的任意两种或更多种：

平均哭声持续时间、哭声持续时间方差、平均哭声能量、哭声能量方差、基音频率、基音频率的平均值、基音频率的最大值、基音频率的最小值、基音频率的动态范围、基音频率的平均变化率、第一共振峰频率、第一共振峰频率平均变化率、第一共振峰频率平均值、第一共振峰频率的最大值、第一共振峰频率的最小值、第一共振峰频率的动态范围、第二共振峰频率、第二共振峰频率平均变化率、第二共振峰频率平均值、第二共振峰频率的最大值、第二共振峰频率的最小值、第二共振峰频率的动态范围、Mel频率倒谱参数、翻转的Mel频率倒谱参数。

9.根据权利要求1至5中任一项所述的婴儿哭声的辩识方法，其特征在于，在所述步骤b之前，还包括以下步骤：

对所述训练数据中的哭声信号进行降噪，检测并剔取噪声大于预定门限的数据段。

10.一种婴儿哭声的辩识系统，其特征在于，包括：

训练数据获取单元，用于获取婴儿哭声音频的多段训练数据，每个训练数据对应一个已知啼哭原因；

特征提取单元，用于对每一段训练数据进行特征提取，得到每一段训练数据的特征参数向量；

主成分分析单元，用于对所述多段训练数据的特征参数向量进行主成分分析，得到多个主成分；

主成分选择单元，用于计算每一种啼哭原因对应的训练数据在各主成分上投影分值的均值和方差，根据该方差在所述多个主成分中选择P个主成分，P为大于1的整数；

待辩识数据获取单元，用于获取婴儿哭声音频的待辩识数据；

投影计算单元，用于在所述P个主成分上计算该待辩识数据的投影分值；

原因辩识单元，用于根据该待辩识数据的投影分值和所述均值和方差计算该待辩识数据对应于各个原因的概率。

完整全部详细技术资料下载

当前第2页1 2 3