一种语音控制家庭智能终端的系统的制作方法

文档序号：12724093阅读：来源：国知局

技术特征：

1.一种语音控制家庭智能终端的系统，其特征在于，包括语音数据单元、预处理单元、提取特征参数单元、VQ模型训练单元、VQ码本匹配计算单元、码本库单元、识别输出单元；所述语音数据单元输出数据到预处理单元；所述预处理单元输出数据到提取特征参数单元；

在训练阶段，对每一个说话者的语音信息通过语音数据单元和预处理单元提取语音数据特征参数，所提取的语音数据特征参数进行分类，通过VQ模型训练单元产生不同码字所组成的码本；在识别或匹配阶段，通过VQ码本匹配计算单元，根据码本库单元的信息，用VQ方法计算平均失真测度，判断说话的人；其中的矢量量化起着双重作用。

2.根据权利要求1所述的语音控制家庭智能终端的系统，其特征在于，所述语音控制家庭智能终端的系统通过语音实现家庭智能终端控制的方法包括以下步骤：

S1，在家庭智能物联网端通过语音设定自己个性化设备联动及智能场景；

S2，平台端根据语音识别或暗号来具体细分每一个使用者的设定及信息指令；

S3，使用者发送具体指令，平台端识别其语音；

S4，根据语音对比，确定具体发送信息者，来反馈具体信息给设备，执行其特定个性化场景。

3.根据权利要求1所述的语音控制家庭智能终端的系统，其特征在于，所述步骤S1还包括特征参数的提取、用矢量量化聚类法生成码本及VQ的说话人识别。

4.根据权利要求3所述的语音控制家庭智能终端的系统，其特征在于，所述的特征参数的提取具体为采用NFCC的方法来提取，具体提取过程如下：

S11，对输入的语音信号进行分帧、加窗，然后作离散傅立叶变换，获得频谱分布信息：

设语音信号的DFT为：

$<mrow> <msub> <mi>X</mi> <mi>a</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>x</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <mrow> <mi>j</mi> <mn>2</mn> <mi>π</mi> <mi>n</mi> <mi>k</mi> </mrow> <mi>N</mi> </mfrac> </mrow> </msup> <mo>,</mo> <mn>0</mn> <mo>≤</mo> <mi>k</mi> <mo>≤</mo> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow>$

其中式中x(n)为输入的语音信号，N表示傅立叶变换的点数；

S12，再求频谱幅度的平方，得到能量谱；

S13，将能量谱通过一组Mel尺度的三角形滤波器组：

定义一个有M个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,3,···，M本系统取M＝100；

S14，计算每个滤波器组输出的对数能量：

$<mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <munderover> <mo>Σ</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mo>|</mo> <msub> <mi>X</mi> <mi>a</mi> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <msub> <mi>H</mi> <mi>m</mi> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow>$

0≤m≤M-1

其中mH(k)为三角滤波器的频率响应；

S15，经过离散弦变换DCT得到MFCC系数：

$<mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>M</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>S</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>π</mi> <mi>n</mi> <mo>(</mo> <mrow> <mi>m</mi> <mo>-</mo> <mn>0.5</mn> <mo>/</mo> <mi>m</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

0≤n≤N-1

MFCC系数个数通常取20—30，本系统选取20阶倒谱系数。

5.根据权利要求3所述的语音控制家庭智能终端的系统，其特征在于，所述的用矢量量化聚类法生成码是将每个待识的说话人看作是一个信源，用一个码本来表征；码本是从该说话人的训练序列中提取的MFCC特征矢量聚类而生成；只要训练的序列足够长，认为这个码本有效地包含了说话人的个人特征，而与讲话的内容无关；

本系统采用基于分裂的LBG的算法设计VQ码本，X_k(k＝1,2,…,K)为训练序列，B为码本；具体实现过程如下：

S21,取提取出来的所有帧的特征矢量的型心作为第一个码字矢量B1；

S22,将当前的码本Bm根据以下规则分裂，形成2m个码字；

$<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msubsup> <mi>B</mi> <mi>m</mi> <mo>+</mo> </msubsup> <mo>=</mo> <msub> <mi>B</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>+</mo> <mi>ϵ</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msubsup> <mi>B</mi> <mi>m</mi> <mo>-</mo> </msubsup> <mo>=</mo> <msub> <mi>B</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mi>ϵ</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>$

其中m从1变化到当前的码本的码字数，ε是分裂时的参数，此处取ε＝0.01；

S23,根据得到的码本把所有的训练序列(特征矢量)进行分类，然后按照下面两个公式计算训练矢量量化失真量的总和D^[n]以及相对失真(n为迭代次数，初始n＝0，D^[-1]＝∞，B为当前的码书)，若相对失真小于某一阈值ε，迭代结束，当前的码书就是设计好的2m个码字的码书，转到相对失真计算；否则，转下一步；

量化失真量和：

$<mrow> <msup> <mi>D</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <munderover> <mo>Σ</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>min</mi> <mi> </mi> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>,</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow>$

相对失真：

$<mrow> <mo>|</mo> <mfrac> <mrow> <msup> <mi>D</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>-</mo> <msup> <mi>D</mi> <mi>n</mi> </msup> </mrow> <msup> <mi>D</mi> <mi>n</mi> </msup> </mfrac> <mo>|</mo> <mo>;</mo> </mrow>$

S24,重新计算各个区域的新型心，得到新的码书，转步骤S23；

S25,重复S22，S23和S24步骤，直到形成有M个码字的码书，其中D0＝10000。

6.根据权利要求1所述的语音控制家庭智能终端的系统，其特征在于，所述VQ的说话人识别具体为：

设未知的说话人的特征矢量{X₁,...,X_T}，共有T帧是训练阶段形成的码书，表示码书第m个码字，每一个码书有M个码字；再计算测试者的平均量化失真D，并设置一个阈值，若D小于此阈值，则是原训练者，反之则认为不是原训练者；

$<mrow> <mi>D</mi> <mo>=</mo> <mn>1</mn> <mo>/</mo> <mi>T</mi> <munder> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> </munder> <mi>min</mi> <munder> <mrow> <mo>[</mo> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>B</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mo>]</mo> </mrow> <mrow> <mn>1</mn> <mo>≤</mo> <mi>m</mi> <mo>≤</mo> <mi>M</mi> </mrow> </munder> <mo>.</mo> </mrow>$

完整全部详细技术资料下载

当前第2页1 2 3