结合视频通道的智能家居语音控制系统及其控制方法

文档序号:6558306阅读:312来源:国知局
专利名称:结合视频通道的智能家居语音控制系统及其控制方法
技术领域
本发明涉及视频语音识别技术,尤其涉及结合视频通道的智能家居语音控制系统及其控制方法。
背景技术
目前,大部分复杂的家电都是通过遥控器的键盘输入方式进行遥控的,随着家居的智能化以及包含内容的多样化,为了优化操作方式、增强操作的舒适性,用户需要更加易于操作的遥控器。语言是人类最直接最方便的交流和表达方式,如果采用语音识别技术,可以将原来的被动静止结构转变为具有主动识别语音执行的智慧工具,从而满足人们日益增长的需求。近年来,语音识别技术发展十分迅速,目前已出现了许多自动语音识别类的产品, 例如IBM开发的ViaVoice语音系统等。但是这些系统仍然缺乏较强的抗干扰能力,原因是它只能单一地从语音信道中获取信息,当这些系统应用到真实环境中时,一旦有背景噪声或多人交叉说话,它们的性能将大大下降,并且这样的应用环境十分常见,如办公室、汽车、工厂或机场等,就连家庭环境也是如此。

发明内容
为解决现有技术存在的缺点和不足,本发明提供结合视频通道的智能家居语音控制系统及其控制方法,相比现有技术所采用的控制方式,本发明抗干扰能力强,能够克服家庭环境中由于噪音干扰所带来的无法识别的技术问题。本发明的目的通过下述技术方案实现结合视频通道的智能家居语音控制系统,包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。所述识别系统模块包括唇语部分和语音部分,所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块;所述语音部分包括依次连接的语音输入模块、语音识别模块。结合视频通道的智能家居语音控制系统的识别方法,可通过如下步骤实现(1)手势检测手势检测模块采用haar小波变换,以及LBP特征提取,选取Adaboost分类器对固定手势进行检测,判断用户是否获得控制权;⑵人脸检测人脸检测模块采用haar小波变换,选取Adaboost分类器对人脸进行检测,判断操作空间内是否有人,如果检测到人脸,则同时开启识别系统模块的唇语和语音两部分;(3)人脸跟踪与定位人脸跟踪与定位模块结合人脸检测模块输出的参数,按照人脸的大小以及位置, 调整摄像头焦距和光轴,使人脸图像足够清晰,同时控制人脸处于图像中央位置,使人脸至少占图像的三分之二面积以上;(4)唇语视频输入唇语视频输入模块将从人脸中提取出嘴唇部分,实现嘴唇的分割与模型建立,获得嘴唇运动序列;(5)唇语识别唇语识别模块将相应的嘴唇运动序列翻译成为一定语义的指令,其中包括唇部特征提取和模式识别;(6)语音输入语音输入模块通过语音接收设备,接收音频输入,系统采用麦克风将语音输入给计算机,声卡以一定频率机型数据采样,然后进行A/D转换;为减少不利影响,此模块将对输入的语音信号进行高频补偿。(7)语音识别语音识别模块将检测到的语音数据,翻译成对应的语义指令,包括语音特征提取和语音识别。(8)指令判断指令判断模块将语音识别模块的输出结果和唇语识别模块的输出结果进行匹配, 通过概率分析,判断该指令是否有效,指令集为C= [C1, c2,... cn]唇语识别模块输出各指令概率为P = [Pl,p2, . . . pn],语音识别模块输出各指令概率为Q = [Ql, q2, . . . Qn],则认为唇语和语音结合判断的指令概率D =[屯,d2,. . . dn],其中
权利要求
1.结合视频通道的智能家居语音控制系统,其特征在于包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。
2.根据权利要求1所述的结合视频通道的智能家居语音控制系统,其特征在于所述识别系统模块包括唇语部分和语音部分,所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块;所述语音部分包括依次连接的语音输入模块、语音识别模块。
3.结合视频通道的智能家居语音控制系统的识别方法,其特征在于如下步骤(1)手势检测手势检测模块采用haar小波变换,以及LBP特征提取,选取Adaboost分类器对固定手势进行检测,判断用户是否获得控制权;(2)人脸检测人脸检测模块采用haar小波变换,选取Adaboost分类器对人脸进行检测,判断操作空间内是否有人,如果检测到人脸,则同时开启识别系统模块的唇语和语音两部分;(3)人脸跟踪与定位人脸跟踪与定位模块结合人脸检测模块输出的参数,按照人脸的大小以及位置,调整摄像头焦距和光轴,使人脸图像足够清晰,同时控制人脸处于图像中央位置,使人脸至少占图像的三分之二面积以上;(4)唇语视频输入唇语视频输入模块将从人脸中提取出嘴唇部分,实现嘴唇的分割与模型建立,获得嘴唇运动序列;(5)唇语识别唇语识别模块将相应的嘴唇运动序列翻译成为一定语义的指令,其中包括唇部特征提取和模式识别;(6)语音输入语音输入模块通过语音接收设备,接收音频输入,系统采用麦克风将语音输入给计算机,声卡以一定频率机型数据采样,然后进行A/D转换;为减少不利影响,此模块将对输入的语音信号进行高频补偿。(7)语音识别语音识别模块将检测到的语音数据,翻译成对应的语义指令,包括语音特征提取和语音识别。(8)指令判断指令判断模块将语音识别模块的输出结果和唇语识别模块的输出结果进行匹配,通过概率分析,判断该指令是否有效,指令集为 C = [ci; C2, ... cn ]唇语识别模块输出各指令概率为P = [Pl,P2, . . . Pj,语音识别模块输出各指令概率为Q = [Q1, Q2, ... Qn ],则认为唇语和语音结合判断的指令概率D = W1, d2,. . . dn],其中
4.根据权利要求3所述结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述步骤(4)唇语视频输入具体如下(1)嘴唇分割使用改善的FCMS算法,将图像的颜色信息与空间信息结合起来,再把嘴唇的形状信息嵌入到聚类算法中的相似性判别函数中,实现嘴唇的有效分割;(2)在嘴唇模型建立方法上,采用14点主动形状模型。在ASM中将外形相似的嘴唇轮廓通过14个关键的特征点的坐标串接成原始的形状向量。
5.根据权利要求3所述结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述步骤(5)唇语识别具体如下(1)唇部的形状特征提取,将选取14点ASM模型的长和宽,即6点和14点之间以及3 点和10点之间的距离W和H作为特征,并在计算过程中引入两点间距离公式D = ^(xl-x2)2+(yl-y2)2为消除由于说话人坐姿等带来的干扰因素,要对W,H进行归一化,特征向量记为fra = {W,H};另外几何特征提取将通过14点ASM模型进行曲线拟合,然后把说话人嘴唇划分为三段曲线,即1-6点和14点,6-10点,10-14点分别进行二次曲线拟合Y = ax2+bx+c曲线内核所得到参数a,b,c,经过归一化后可作为独立的特征向量,此特征向量可记为fCur — ‘ b” C1J a2,b2,c2,a3,b3,c3}其中相关特征提取将采取一阶差分、二阶差分获取运动图像相关特征Vf = f (n) -f (n-1),结果记为 Vfwa, VfcurV2f = f (n) +f (n-2) -2f (n-1),结果记为 V2fra, V2fcur(2)模式识别部分将前述的各种特征组合作为输入向量输入HMM,通过这种方式识别唇语。紧接着将识别的内容与事先设置好的指令集进行匹配。匹配后,指令集中的每个子集概率都会不一样,将所有子集对应的概率输入指令判断模块。
6.根据权利要求3所述的结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述步骤(7)语音特征提取和语音识别具体如下(1)语音特征提取使用线性预测倒谱系数来表征短时语音信号,由线性预测系数直接推导
7.根据权利要求3所述的结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述步骤(9)指令显示与确认具体如下当检测到用户的手势,若表示确认该指令, 指令将会输出到相应的设备中执行;当检测到用户的手势,若表示否定该指令,系统将返回至人脸检测模块重新开始。
全文摘要
本发明公开了结合视频通道的智能家居语音控制系统及其方法,系统包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。识别系统模块包括唇语部分和语音部分,所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块;所述语音部分包括依次连接的语音输入模块、语音识别模块。其能够通过检测控制手势、识别人脸和唇语信息,对已识别到的语音信息加以补充,从而提高控制指令的准确度,增加利用语音控制智能家居的可行性。本发明具有很强的抗干扰能力,可广泛应用于多种复杂环境模式,尤其适用于克服家庭环境中人多有噪音的情况下。
文档编号G06K9/62GK102298443SQ20111017407
公开日2011年12月28日 申请日期2011年6月24日 优先权日2011年6月24日
发明者徐向民, 梁卓锐, 王玥 申请人:华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1