一种人机交互装置及方法

文档序号:9631330阅读:761来源:国知局
一种人机交互装置及方法
【技术领域】
[0001]本发明涉及电子信息领域,更具体涉及到一种人机交互装置及方法。
【背景技术】
[0002]随着移动终端设备的多样化、智能化发展,人机交互方式也呈现多样化趋势,从传统的按键输入到触摸输入,以及指纹、语音、手势等多形态的生物特征能被智能终端有效识别,人机交互技术也得到广泛研究和应用。
[0003]但是,现有人机交互装置对于噪声干扰并没有十分有效的解决方案。

【发明内容】

[0004]本发明所要解决的技术问题是提供一种人机交互装置及方法,以解决噪声干扰的环境中语音识别可靠性低的问题。
[0005]为了解决上述技术问题,本发明公开了一种人机交互方法,该方法包括:
[0006]人机交互装置中的麦克风获取语音信号的过程中,如果检测到有效的语音输入,则启动所述人机交互装置中的摄像头实时获取唇读图像;
[0007]所述人机交互装置对所获取的唇读图像形成的序列进行处理,得到唇动特征数据;
[0008]所述人机交互装置将所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合,识别输入的语音。
[0009]可选地,上述方法中,所述检测到有效的语音输入指:
[0010]所述麦克风探测声源,将探测到的声源的自然语音转换成电信号,当转换后的电信号超过设定门限值,则判断有有效的语音输入,其中,所述电信号包括电压信号或电流信号。
[0011]可选地,上述方法中启动所述人机交互装置中的摄像头实时获取唇读图像后,还包括:
[0012]所述麦克风获取到语音信号的同时,如果从所述摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据,则所述人机交互装置控制所述麦克风进入侦听状态,控制所述摄像头停止工作,直到所述麦克风再次检测到有效的语音输入,再启动所述摄像头正常工作。
[0013]本发明还公开了一种人机交互方法,包括:
[0014]人机交互装置中的麦克风获取语音信号,摄像头实时获取唇读图像;
[0015]所述人机交互装置对所获取的唇读图像形成的序列进行处理,得到唇动特征数据,
[0016]所述人机交互装置将所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合识别输入的语音,其中,所述麦克风获取到语音信号,但从所述摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据时,控制所述麦克风进入侦听状态,控制所述摄像头停止工作。
[0017]可选地,上述方法中控制所述麦克风进入侦听状态,控制所述摄像头停止工作后,还包括:
[0018]所述麦克风进入侦听状态时,如果检测到有效的语音输入,则进入工作状态,并启动所述摄像头实时获取唇读图像。
[0019]本发明还公开了一种人机交互装置,包括麦克风、摄像头、唇读图像处理模块和融合识别模块,其中:
[0020]所述麦克风,获取语音信号,并在检测到有效的语音输入时,启动所述摄像头;
[0021]所述摄像头,按照所述麦克风的控制,实时获取唇读图像;
[0022]所述唇读图像处理模块,对所获取的唇读图像形成的序列进行处理,得到唇动特征数据;
[0023]所述融合识别模块,对所述唇动特征数据和从所述语音信号中提取的语音特征数据进行融合识别输入的语音。
[0024]可选地,上述装置中,所述麦克风检测到有效的语音输入指:
[0025]所述麦克风探测声源,将探测到的声源的自然语音转换成电信号,当转换后的电信号超过设定门限值,则判断有有效的语音输入,其中,所述电信号包括电压信号或电流信号。
[0026]可选地,上述装置还包括:
[0027]控制模块,在所述麦克风获取到语音信号,但所述唇读图像处理模块从获取的唇读图像形成的序列中得到无效的唇动特征数据时,控制所述麦克风进入侦听状态,控制摄像头停止工作,直到所述麦克风再次检测到有效的语音输入,再启动所述摄像头正常工作。
[0028]可选地,上述装置装配在如下任一种设备中:
[0029]可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备。
[0030]本发明还公开了一种人机交互装置,包括麦克风、摄像头、唇读图像处理模块、融合识别模块和控制模块,其中:
[0031]所述唇读图像处理模块,对所述摄像头获取的唇读图像形成的序列进行处理,得到唇动特征数据;
[0032]所述融合识别模块,对所述唇动特征数据和从所述麦克风获取的语音信号中提取的语音特征数据进行融合识别输入的语音;
[0033]控制模块,在所述麦克风获取到语音信号,但所述唇读图像处理模块从获取的唇读图像形成的序列中得到无效的唇动特征数据时,控制所述麦克风进入侦听状态,控制摄像头停止工作。
[0034]可选地,上述装置中,所述麦克风,按照所述控制模块的控制进入侦听状态后,如果检测到有效的语音输入,则进入工作状态,并启动所述摄像头实时获取唇读图像。
[0035]可选地,上述装置装配在如下任一种设备中:
[0036]可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备。
[0037]本申请技术方案,在噪声环境下将唇读和语音进行融合,与传统的采用单一语音特征数据进行识别的技术相比,有效改善了语音识别,提高机器识别率,并且在确认有有效的语音输入时,才启动摄像头工作,也大大降低了设备功耗。还有优选方案提出将此方案应用于可穿戴智能设备中,以增强机器对用户输入的识别能力,便于用户使用,提升了用户体验。
【附图说明】
[0038]图1为本发明实现的交互装置结构图。
【具体实施方式】
[0039]为使本发明的目的、技术方案和优点更加清楚明白,下文将结合附图对本发明技术方案作进一步详细说明。需要说明的是,在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
[0040]实施例1
[0041]本实施例提供一种人机交互方法,在噪声环境下将唇读和语音进行融合以进行语音识别。该方法主要包括如下操作:
[0042]人机交互装置中的麦克风获取语音信号的过程中,如果检测到有效的语音输入,则启动人机交互装置中的摄像头实时获取唇读图像;
[0043]人机交互装置对所获取的唇读图像形成的序列进行处理,得到唇动特征数据,
[0044]人机交互装置对上述唇动特征数据和从语音信号中提取的语音特征数据进行融合,识别输入的语音。
[0045]其中,麦克风获取语音信号的过程中,检测有效的语音输入的过程如下:
[0046]麦克风探测声源,将探测到的声源的自然语音转换成电信号,当转换后的电信号超过设定门限值,则判断有有效的语音输入。本实施例中,所涉及的电信号包括电流信号或电压信号。
[0047]另外,一些优选方案中,还提出一种唇读处理的反馈机制,即当麦克风获取到语音信号的同时,从摄像头获取的唇读图像形成的序列中得到无效的唇动特征数据(此时即认为用户的唇部没有任何动作,用户可能没有说话),则人机交互装置控制麦克风进入侦听状态,控制摄像头停止工作,直到麦克风再次检测到有效的语音输入,再启动摄像头正常工作。这种机制,主要针对噪声影响大的情况,结合用户的唇动特征,准确地辩识是用户语音还
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1