一种基于鼠标的语音识别人机交互装置及其方法

文档序号:8412297阅读:376来源:国知局
一种基于鼠标的语音识别人机交互装置及其方法
【技术领域】
[0001]本发明涉及计算机输入输出设备,尤其涉及一种基于鼠标的语音识别人机交互装置及其方法。
【背景技术】
[0002]鼠标发明到现在已经有几十年历史,其作为一种计算机的人机交互设备被广泛应用,现在市场上的鼠标基本功能是用来控制光标移动,和实现一些简单按键功能,例如左键、右键、滚轮等,这些严重限制了鼠标的人机交互能力,所以人们开始设计一些具备更多功能的鼠标。具备语音识别能力的鼠标一直是人们梦想的,在很多发明专利里面也提出相关设计方案。主要概况起来有三大类:一是利用语音识别技术来实现鼠标的功能,解决一些残疾人无法用手操作鼠标的问题,该方案不是提升鼠标功能,是替代鼠标操作方式。二是在鼠标上集成语音识别处理模块,依赖鼠标上的语音识别处理模块实现语音识别,从而达到语音控制计算机和鼠标的目的,由于语音识别模块本身计算能力限制,不能实现复杂的语音识别算法,在识别准确率率和识别范围方面都受到严重限制,在识别结果的二次处理方面也未提及,这也严重限制了用户的语音交互效果。三是利用语音识别技术跟其它交互技术融合解决人机交互问题,例如:基于视觉跟踪和语音识别结合的方案(专利号:ZL200710039996.7),在该专利里重点提到了如何利用视觉跟踪和语音识别结合实现鼠标控制的功能,语音识别也仅限制于“左键单机”、“右键单机”、“左键双击”等基本的功能,语音识别率也不是很高,只有86%,其在语音识别方面的研宄不够深入,具体如何应用语音识别方面更没有详细介绍。

【发明内容】

[0003]本发明要解决的技术问题是现有的鼠标集成语音技术功能单一、识别准确率低、识别范围窄、人机交互的复杂度较高,交互效率较低,为此提供一种基于鼠标的语音识别人机交互装置及其方法。
[0004]本发明的技术方案是:一种基于鼠标的语音识别人机交互装置,它包括语音采集功能的鼠标和集成语音识别处理能力的鼠标驱动程序,所述鼠标内集成有鼠标芯片、语音识别按键、麦克风、语音编解码模块和LED指示灯,所述鼠标芯片和语音编解码模块通过USB HUB芯片/RF芯片与计算机内的鼠标驱动程序通信,所述鼠标驱动程序包括离线命令词语音识别模块、离线随意语音转写模块、在线随意语音转写模块、语音识别引擎自动选择模块、语义理解模块和计算机操作控制模块。
[0005]一种基于鼠标的语音识别人机交互的方法,它包括以下步骤:(1)、在鼠标内集成的麦克风实时采集语音信息,采集到的语音通过语音编解码模块处理后上传至计算机,计算机内安装的鼠标驱动程序实时接收语音信息;(2)、鼠标驱动程序同时检测鼠标上的语音识别按键,当按键按下时,鼠标驱动程序启动录音功能,LED指不灯壳,松开语音识别按键时,录音结束;(3)、在启动录音功能同时启动语音识别引擎自动选择模块,根据特定的逻辑完成离线命令词模块、离线随意语音转写识别模块、在线随意语音转写模块之间的自动选择,具体选择逻辑如下:首先判断是否有文本输入的光标聚焦,如无,则直接启动离线命令词识别模块,如有,判断是否计算机在线,离线时,启动离线随意语音转写模块,在线时,启动在线随意语音转写模块;如果有文本输入光标聚焦时,启动离线命令词语音识别模块,同时启动在线或者离线随意语音转写模块,获得两个识别结果返回值,再判断离线命令词语音识别模块返回的置信度,根据置信度判断,当置信度高于设定的预值时,则将离线命令词语音识别模块返回值作为我们的结果,并完成计算机控制操作;当置信度低于设定的预值时,则将在线或者离线随意语音转写作为我们的结果,并完成文本输入;(4)、在完成录音和语音识别引擎自动选择模块选择后,将录音信息提交给离线命令词语音识别模块,返回识别结果,LED灯熄灭;(5)、对识别结果进行置信度判断,判断置信度是否达到我们设置的门限,如果高于门限值,启动语义理解模块对识别结果进行分析处理,根据分析结果启动计算机控制模块完成计算机控制操作;(6)、如果低于设置的门限值,启动文本输入功能,完成信息输入,如果没有文本输入光标聚焦,放弃识别结果,不做任何操作。
[0006]上述方案中鼠标和计算机之间是有线或无线连接。
[0007]本发明的有益效果是提供了既具备传统鼠标功能又实现高性能语音识别功能的鼠标产品。集成了多种语音识别功能,通过语音命令词控制计算机,识别准确率达到95%以上,通过在线语音识别实现随意文本输入,识别范围大幅扩大,识别准确率平均超过85%。通过该发明可以大大降低语音识别应用的使用门槛,并成为计算机输入输出方式的重要补充。通过本发明可以充分发挥语音识别交互技术的优势特点,降低人机交互的复杂度,提高人机交互效率。
【附图说明】
[0008]图1是本发明整体示意图;
图2是本发明硬件框图;
图3是本发明鼠标驱动程序框图;
图4是本发明鼠标驱动程序流程图。
【具体实施方式】
[0009]下面结合附图对本发明做进一步说明。
[0010]如图1所示,本发明包括鼠标和鼠标驱动程序两大部分,首先鼠标和鼠标驱动程序保留传统鼠标要求的构成和功能,鼠标和计算机之间可以是有线或无线连接。在此基础上,本发明对其进行了创新设计。鼠标上,本发明增加了语音控制按键、声音采集麦克风、音频编解码模块以及LED指示灯。在鼠标驱动程序上,本发明增加了离线命令词语音识别模块、离线随意语音转写模块、在线随意语音转写模块、语音识别引擎自动选择模块、语义理解模块和计算机操作控制模块等。
[0011]如图2所示,本发明硬件包括语音按键、鼠标芯片、LED指示灯、鼠标其它功能键、采集语音麦克风、语音编解码芯片、USB HUB芯片/RF芯片等部分组成。
[0012]语音按键:用来启动语音识别的专用按键,按下该按键,开始采集语音,松开按键结束语音采集。
[0013]鼠标芯片:主要用来实现鼠标传统功能,检测鼠标移动,检查各按键,控制指示灯,并跟驱动程序之间进行数据交互。
[0014]LED指示灯:主要功能是指示识别状态,开始语音采集,指示灯亮,返回识别结果,指示灯灭。
[0015]鼠标其它功能键:主要指左键、右键、滚轮等。
[0016]采集语音麦克风:本方案中可以采用驻极体麦克风或者硅麦作为采集语音麦克风。
[0017]音频编解码模块:主要用来实现音频模数转换和压缩编码功能。
[0018]USB HUB芯片/RF芯片:根据鼠标是USB有线鼠标还是RF无线鼠标进行适当选择,实现鼠标跟计算机之间的通讯问题。
[0019]如果3所示,本发明的鼠标驱动程序处理语音数据框图,鼠标收到音频数据后,首先启动识别引擎自动选择模块,判断启动哪个语音识别模块最合适用户的需求,再启动语义理解模块分析用户意图,最后启动计算机控制模块完成计算机控制或文本输入。
[0020]离线命令词识别模块:指针对预置的特点词语的语音识别。离线命令词识别的优点是:占用资源低,识别速度快,识别准确率高,不依赖网络。缺点是:识别范围小,要求用户严格按照命令词说语音。
[0021]离线随意语音转写模块:指针对特定范围的随意语音识别转写,不依赖网络工作。优点是,不依赖网络,用户可以随意说口语,不限制用户
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1