一种语音控制家庭智能终端的系统的制作方法

文档序号：12724093阅读：249来源：国知局

本发明涉及智能家居，具体涉及一种语音控制家庭智能终端的系统。

背景技术：

现在技术大部分是通过手机APP手动操作，选择产品联动，通过手机上的产品APP手动操作，体验交互不佳，步骤繁琐而不高效。

技术实现要素：

本发明的目的是通过识别各自语音来进行家庭智能端物联网平台上的产品实现有效联动，给具体发送需求的人就行，精准操控，提高其操控体验，提供一种语音控制家庭智能终端的系统。

本发明采用的技术方案是：一种语音控制家庭智能终端的系统，包括语音数据单元、预处理单元、提取特征参数单元、VQ模型训练单元、VQ码本匹配计算单元、码本库单元、识别输出单元；所述语音数据单元输出数据到预处理单元；所述预处理单元输出数据到提取特征参数单元；

在训练阶段，对每一个说话者的语音信息通过语音数据单元和预处理单元提取语音数据特征参数，所提取的语音数据特征参数进行分类，通过VQ模型训练单元产生不同码字所组成的码本；在识别或匹配阶段，通过VQ码本匹配计算单元，根据码本库单元的信息，用VQ方法计算平均失真测度，判断说话的人；其中的矢量量化起着双重作用。

进一步地，所述语音控制家庭智能终端的系统通过语音实现家庭智能终端控制的方法包括以下步骤：

S1，在家庭智能物联网端通过语音设定自己个性化设备联动及智能场景；

S2，平台端根据语音识别或暗号来具体细分每一个使用者的设定及信息指令；

S3，使用者发送具体指令，平台端识别其语音；

S4，根据语音对比，确定具体发送信息者，来反馈具体信息给设备，执行其特定个性化场景。

更进一步地，所述步骤S1还包括特征参数的提取、用矢量量化聚类法生成码本及VQ的说话人识别。

更进一步地，所述的特征参数的提取具体为采用NFCC的方法来提取，具体提取过程如下：

S11，对输入的语音信号进行分帧、加窗，然后作离散傅立叶变换，获得频谱分布信息：

设语音信号的DFT为：

其中式中x(n)为输入的语音信号，N表示傅立叶变换的点数；

S12，再求频谱幅度的平方，得到能量谱；

S13，将能量谱通过一组Mel尺度的三角形滤波器组：

定义一个有M个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,3,···，M本系统取M＝100；

S14，计算每个滤波器组输出的对数能量：

0≤m≤M-1

其中mH(k)为三角滤波器的频率响应；

S15，经过离散弦变换DCT得到MFCC系数：

0≤n≤N-1

MFCC系数个数通常取20—30，本系统选取20阶倒谱系数。

更进一步地，所述的用矢量量化聚类法生成码是将每个待识的说话人看作是一个信源，用一个码本来表征；码本是从该说话人的训练序列中提取的MFCC特征矢量聚类而生成；只要训练的序列足够长，认为这个码本有效地包含了说话人的个人特征，而与讲话的内容无关；

本系统采用基于分裂的LBG的算法设计VQ码本，X_k(k＝1,2,…,K)为训练序列，B为码本；具体实现过程如下：

S21,取提取出来的所有帧的特征矢量的型心作为第一个码字矢量B1；

S22,将当前的码本Bm根据以下规则分裂，形成2m个码字；

其中m从1变化到当前的码本的码字数，ε是分裂时的参数，此处取ε＝0.01；

S23,根据得到的码本把所有的训练序列(特征矢量)进行分类，然后按照下面两个公式计算训练矢量量化失真量的总和D^[n]以及相对失真(n为迭代次数，初始n＝0，D^[-1]＝∞，B为当前的码书)，若相对失真小于某一阈值ε，迭代结束，当前的码书就是设计好的2m个码字的码书，转到相对失真计算；否则，转下一步；

量化失真量和：

相对失真：

S24,重新计算各个区域的新型心，得到新的码书，转步骤S23；

S25,重复S22，S23和S24步骤，直到形成有M个码字的码书，其中D0＝10000。

更进一步地，所述VQ的说话人识别具体为：

设未知的说话人的特征矢量{X₁,...,X_T}，共有T帧是训练阶段形成的码书，表示码书第m个码字，每一个码书有M个码字；再计算测试者的平均量化失真D，并设置一个阈值，若D小于此阈值，则是原训练者，反之则认为不是原训练者；

本发明的优点：

本发明通过语音实现家庭智能终端控制的方法使智能家居交互体验更好，个性化场景设定来满足家庭每个人的特定需求，通过识别各自语音来进行家庭智能端物联网平台上的产品实现有效联动，通过语音控制，采用手机依赖，提高其操控体验。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明的一种语音控制家庭智能终端的系统结构框图；

图2是本发明的一种语音控制家庭智能终端的系统的控制方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1，如图1所示的一种语音控制家庭智能终端的系统，包括语音数据单元、预处理单元、提取特征参数单元、VQ模型训练单元、VQ码本匹配计算单元、码本库单元、识别输出单元；所述语音数据单元输出数据到预处理单元；所述预处理单元输出数据到提取特征参数单元；

在训练阶段，对每一个说话者的语音信息通过语音数据单元和预处理单元提取语音数据特征参数，所提取的语音数据特征参数进行分类，通过VQ模型训练单元产生不同码字所组成的码本；在识别或匹配阶段，通过VQ码本匹配计算单元，根据码本库单元的信息，用VQ方法计算平均失真测度(本系统在计算距离d时，采用欧氏距离测度)，判断说话的人；其中的矢量量化起着双重作用。

所述语音控制家庭智能终端的系统通过语音实现家庭智能终端控制的方法包括以下步骤：

S1，在家庭智能物联网端通过语音设定自己个性化设备联动及智能场景；

S2，平台端根据语音识别或暗号来具体细分每一个使用者的设定及信息指令；

S3，使用者发送具体指令，平台端识别其语音；

S4，根据语音对比，确定具体发送信息者，来反馈具体信息给设备，执行其特定个性化场景。

所述步骤S1还包括特征参数的提取、用矢量量化聚类法生成码本及VQ的说话人识别。

所述的特征参数的提取具体为采用NFCC的方法来提取，具体提取过程如下：

S11，对输入的语音信号进行分帧、加窗，然后作离散傅立叶变换，获得频谱分布信息：

设语音信号的DFT为：

其中式中x(n)为输入的语音信号，N表示傅立叶变换的点数；

S12，再求频谱幅度的平方，得到能量谱；

S13，将能量谱通过一组Mel尺度的三角形滤波器组：

定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,3,···，M本系统取M＝100；

S14，计算每个滤波器组输出的对数能量：

0≤m≤M-1

其中mH(k)为三角滤波器的频率响应；

S15，经过离散弦变换DCT得到MFCC系数：

0≤n≤N-1

MFCC系数个数通常取20—30，常常不用0阶倒谱系数，因为它反映的是频谱能量，故在一般识别系统中，将称为能量系数，并不作为倒谱系数，本系统选取20阶倒谱系数。

所述的用矢量量化聚类法生成码是将每个待识的说话人看作是一个信源，用一个码本来表征；码本是从该说话人的训练序列中提取的MFCC特征矢量聚类而生成；只要训练的序列足够长，认为这个码本有效地包含了说话人的个人特征，而与讲话的内容无关；

本系统采用基于分裂的LBG的算法设计VQ码本，X_k(k＝1,2,…,K)为训练序列，B为码本；具体实现过程如下：

S21,取提取出来的所有帧的特征矢量的型心作为第一个码字矢量B1；

S22,将当前的码本Bm根据以下规则分裂，形成2m个码字；

其中m从1变化到当前的码本的码字数，ε是分裂时的参数，此处取ε＝0.01；

量化失真量和：

相对失真：

S24,重新计算各个区域的新型心，得到新的码书，转步骤S23；

S25,重复S22，S23和S24步骤，直到形成有M个码字的码书，其中D0＝10000。

更进一步地，所述VQ的说话人识别具体为：

一种语音控制家庭智能终端的系统，包括语音数据单元、预处理单元、提取特征参数单元、VQ模型训练单元、VQ码本匹配计算单元、码本库单元、识别输出单元；所述语音数据单元输出数据到预处理单元；所述预处理单元输出数据到提取特征参数单元；

所述矢量量化起着双重作用具体为：

在训练阶段，把每一个说话者所提取的特征参数进行分类，产生不同码字所组成的码本。

在识别(匹配)阶段，我们用VQ方法计算平均失真测度(本系统在计算距离d时，采用欧氏距离测度)，从而判断说话人是谁。

VQ方法为：在语音识别过程中,语音采样序列经过加窗处理,成为若干短时段(约10ms)的有序组合,再进行谱分析(LPC、倒频谱等),就得到了表征此语音的特征向量。

VQ模型为：为了提高运算速度和节约存储空间必须对大量的训练向量进行压缩.利用矢量量化的原理,我们可将大量的特征向量用码字数较少的码本来表示,在尽可能保留特征向量中的有效信息的前提下,去掉多余或无用的信息的模型。

参考图2，如图2所示，所述通过语音实现家庭智能终端控制的系统通过语音实现家庭智能终端控制的方法包括以下步骤：

S1，在家庭智能物联网端通过语音设定自己个性化设备联动及智能场景；

S2，平台端根据语音识别或暗号来具体细分每一个使用者的设定及信息指令；

S3，使用者发送具体指令，平台端识别其语音；

S4，根据语音对比，确定具体发送信息者，来反馈具体信息给设备，执行其特定个性化场景。

其中的平台端为语音云端服务器。

所述步骤S1还包括特征参数的提取和用矢量量化聚类法生成码本。

所述的特征参数的提取具体为采用mfcc的方法来提取，具体提取过程如下：

S11，对输入的语音信号进行分帧、加窗，然后作离散傅立叶变换，获得频谱分布信息：

设语音信号的DFT为：

10,)()(1

Nke

nxkXNnN

nkja

其中式中x(n)为输入的语音信号，N表示傅立叶变换的点数；

S12，再求频谱幅度的平方，得到能量谱；

S13，将能量谱通过一组Mel尺度的三角形滤波器组：

定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,3,···，M本系统取M＝100；

S14，计算每个滤波器组输出的对数能量：

amk1

S(m)ln(|(k)|H(k)),

0mM1

其中mH(k)为三角滤波器的频率响应；

S15，经过离散弦变换DCT得到MFCC系数：

C(n)()cos((0.5/)),(3)

MmS

mnmmnN

MFCC系数个数选取20阶倒谱系数。

MFCC参数是基于人的听觉特性利用人听觉的屏蔽效应，在Mel标度频率域提取出来的倒谱特征参数。

本系统采用基于分裂的LBG的算法设计VQ码本，其中(1,2,,)kXkK为训练序列，B为码本；具体实现过程如下：

S21,取提取出来的所有帧的特征矢量的型心(均值)作为第一个码字矢量B1；

S22,将当前的码本Bm根据以下规则分裂，形成2m个码字；其中m从1变化到当前的码本的码字数，ε是分裂时的参数，本文ε＝0.01；

S23,根据得到的码本把所有的训练序列(特征矢量)进行分类，然后按照下面两个公式计算训练矢量量化失真量的总和[]nD以及相对失真(n为迭代次数，初始n＝0，[1]D＝∞，B为当前的码书)，若相对失真小于某一阈值ε，迭代结束，当前的码书就是设计好的2m个码字的码书，转到S25,否则，转下一步；

其中的量化失真量和：

()

min(,)

dX；

其中的相对失真：

(1)

||nn

D；

S24,重新计算各个区域的新型心，得到新的码书，转步骤S23；

S25,重复S22，S23和S24步骤，直到形成有M个码字的码书(M是所要求的码字数)，其中D0＝10000。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢锋
技术所有人：深圳市丰巨泰科电子有限公司
我是此专利的发明人

上一篇：一种窑炉用冷水循环烧嘴的制作方法与工艺
上一篇：空气能空气清新机的制作方法与工艺