一种面向多任务交互的手持式语音交互装置及交互方法

文档序号：10654534阅读：208来源：国知局

一种面向多任务交互的手持式语音交互装置及交互方法
【专利摘要】一种面向多任务交互的手持式语音交互装置，包括可手持的壳体，所述壳体中包括以下模块：实现语音命令识别的语音识别模块，实现识别出的语音命令编码与主机间通讯的射频发送模块，给各模块供电及对电池进行充电的电源管理模块，存储语音命令的存储模块，实现语音命令输入的语音输入模块，驱动多任务的语音命令分组输入控制及反馈硬件界面，实现整个装置管理控制的控制模块，实现提示功能的指示灯，实现语音交互应用程序控制和语音命令编辑的主机。本发明还涉及上述语音交互装置所采用的交互方法。本发明中的交互装置克服了目前很多语音交互助手的弊端，使用方便，适用性广。
【专利说明】
一种面向多任务交互的手持式语音交互装置及交互方法
技术领域
[0001]本发明属于人机交互领域，特别涉及一种面向多任务交互的手持式无线语音交互装置;本发明还涉及上述交互装置的交互方法。【背景技术】
[0002]语音交互作为一种新型的人机交互方式，提供了一种脱离键盘、鼠标、触摸屏等传统图形用户界面元素的交互方式，改变了人与计算机的传统互动模式，用户只需动动口，就能打开或关闭程序、改变工作界面、控制交互进程。这种使电脑人性化的结果的目的是使每个具有语言能力的个体都能方便直接地操作和应用计算机。
[0003]目前，语音交互依照其使用情境主要可分为下面几类:
[0004](1)面向智能家电的语音交互装置:这类装置具有简单的用户界面接口，基本做到用户拿起就能使用的程度，但其能支持的语音命令种类少，且语音控制命令已被固化在装置内，不能被用户编辑修改，尤其不能直接与计算机通讯，因此无法支持以计算机为支撑的交互应用。
[0005](2)面向移动平台的语音交互应用:顾名思义，这类应用的主要特点在于其“移动性”，其涵盖范围可从汽车终端等快速移动物体到用户手持终端，如智能手机。目前在市场上占有主要地位的包括苹果公司推出的Sir1、g〇〇gle语音平台及其延伸应用和一些基于第三方语音识别引擎的语音识别应用。这类应用具有便携、开机即可用的优势，但往往需要云计算平台的支持，尤其是对语音输入的识别响应具有一定的延迟，因此难以直接支持实时交互的需求。此外，移动交互场景的背景噪声也往往导致语音命令识别率的下降。
[0006](3)面向计算机人机交互的语音识别技术:这类技术主要依赖于第三方的软件开发包，如美国IBM ViaVoice、美国微软公司、美国Nuance公司、国内科大讯飞公司等开发的语音识别应用程序开发工具包。目前这类技术虽已成为语音交互的主流，但其缺点亦显而易见:首先，对开发人员而言，往往需要耗费大量劳动进行复杂的二次开发;其次，对用户而言，往往需要在正常使用前进行一定训练，因此增加了使用上的不便。
[0007]仔细考察人机语音交互的现状不难发现，其交互界面正面临着下述因素的严重制约:
[0008](1)对于多任务交互情境的支持能力不足，用户从一个应用切换到另一个应用往往需要经历较为复杂的过程。我们认为，语音命令具有很好的单个独立存在的特性，如果能提供一定的方式由用户按其需求进行命令的分类组织，语音命令将尤其适合于多任务情境交互应用中。
[0009](2)绝大多数语音识别应用均基于特定人声设计，需要用户进行或短或长的事前训练，才能达到相对满意的识别率。
[0010](3)语音命令的识别过程在计算机终端上完成，占有了本来就比较稀缺的计算资源。
[0011](4)用户编写语音交互应用程序时首先要进行复杂的函数库的初始化，在结束时同样需要对称性地进行相应的去初始化调用；具体识别过程所涉及的库函数调用也比较复杂。
[0012](5)语音输入借助市面上的麦克风完成，缺乏独立的便携装置，这对于多任务情境应用中用户的移动往往造成一定的限制。[0〇13]本发明针对以上问题进行了研究和改进。
【发明内容】

[0014]针对现有技术中的不足，本发明的目的之一是提供一种面向多任务交互的手持式语音交互装置，目的之二是提供一种用于上述语音交互装置的交互方法，从语音命令层面实现多任务交互情境中人与计算机的自由、流畅的交流。
[0015]本发明的目的之一通过以下技术方案实现:[〇〇16] 一种面向多任务交互的手持式语音交互装置，包括可手持的壳体，所述壳体中包括以下模块:
[0017]实现语音命令识别的语音识别模块:进行非特定人声的语音命令识别，其功能主要由基于非特定人语音识别技术的商用语音识别芯片完成；
[0018]实现识别出的语音命令编码与主机间通讯的射频发送模块:完成所识别出的语音命令编号与计算机之间的无线通讯；
[0019]给各模块供电及对电池进行充电的电源管理模块:利用USB 口通过主机或其他充电器对电池进行充电，并为其余模块供电；
[0020]存储语音命令的存储模块:用于存储用户设定的适用于多任务交互的多组语音命令；[〇〇21]实现语音命令输入的语音输入模块:采用固定于电路板的咪头进行语音命令信号采集，完成音频输入；
[0022]驱动多任务的语音命令分组输入控制及反馈硬件界面:利用按键长按机制，实现语音命令集的分组切换。利用LED指示灯的多种状态组合提供当前语音命令集的分组反馈； [〇〇23]实现整个装置管理控制的控制模块:采用单片机作为主控制芯片，完成整个装置的管理和控制；
[0024]实现提示功能的指示灯:采用LED指示灯；[〇〇25]实现语音交互应用程序控制和语音命令编辑的主机。
[0026]以上模块结构使得本发明中的语音交互装置具有很好的便携性，可以独立使用，语音识别的适应性广。
[0027]本发明的目的之二通过以下技术方案实现:[〇〇28] 一种面向多任务交互的手持式语音交互装置的交互方法，包括以下步骤:[〇〇29](1)用户根据多任务交互情境应用的任务确定所需采用的语音交互命令集，并经由驱动多任务的语言命令分组输入控制及反馈硬件界面进行语音命令集的分组切换；
[0030](2)用户根据装置上指示灯的闪烁提示发出语音命令；[〇〇31](3)采用装置自动捕获的方式完成语音命令信号输入；[〇〇32](4)利用语音识别模块，实现语音的在线识别；[〇〇33](5)识别结果编码通过无线传输给主机，用于控制语音交互应用；
[0034](6)交互应用程序接受到语音命令指令后导致的应用程序状态变化经由视觉和/ 或听觉通道反馈给用户，并刺激用户产生新的交互意图，从而继续语音交互流程。
[0035]作为优选，步骤(3)中的自动捕获方式为:在指示灯出现闪烁时表示用户可以输入语言命令，装置即开始自动采集语言命令信号。
[0036]作为优选，步骤(4)中的语音在线识别采用一种基于非特定人声的语音识别技术的在线识别方法，利用现有的商用非特定人声的语音识别芯片实现语音在线识别，达到语音命令识别的高识别率和鲁棒性。
[0037]作为优选，以上方法中还包括一种语音命令的分组策略及对应于该分组策略的控制反馈机制，该分组策略及控制反馈机制用于多任务交互情境应用，包括以下步骤:
[0038]a.根据多任务交互情境应用的需求确定语音命令集的分组，形成多组语音命令集；
[0039]b.利用一种支持用户定制的语音命令编辑图形界面对多组语音命令集进行编辑，并存储至语音交互装置中的存储模块，用于在线语音命令识别；
[0040]c.利用驱动多任务的语言命令分组输入控制及反馈硬件界面实现语音命令集的分组切换和语音命令集的分组反馈提示。
[0041]作为优选，以上步骤b中，支持用户定制的语音命令编辑图形界面中的待识别的语音命令集由用户定制编辑，定制编辑方式为:通过USB连接方式将语音交互装置与主机连接，在主机端利用图形用户界面实现编辑定制。[〇〇42]作为优选，以上步骤c中，所述的驱动多任务的语音命令分组输入控制采用按键长按机制实现语音命令集的分组切换;反馈硬件界面采用LED指示灯的多种状态组合提供当前语音命令集的分组反馈。
[0043]以上方法中，装置与主机之间的通讯采用两种方式:无线数据通信方式和USB数据传输方式。在进行在线语音命令识别时，利用无线数据通讯方式将识别到的语音命令结果发送给主机;而在离线阶段，当装置与主机通过USB接口连接时，将自动对装置内置的电池进行充电，同时，支持用户在主机上编辑定制的多组语音命令集，并将语音命令集通过USB 接口传输到装置的存储模块，供在线识别阶段访问。
[0044]与现有技术相比，本发明具有以下有益效果:
[0045]本发明的有益效果:1)高效支持多任务交互情境中用户自然、流畅的语音命令交互;2)利用装置的手持便携性特点、驱动多任务的语言命令分组输入控制及反馈硬件界面支持用户在多任务交互情境中自由运动;3)支持非特定人声语音命令，使所研发的装置适应更广泛人群，而且无需对用户进行事先训练，即真正做到“拿起就能用”；4)利用支持用户定制的语音命令编辑图形界面对多组语音命令集进行编辑，使语音命令集能由用户定制而非固化;5)语音命令识别过程在装置中直接完成，识别结果无线传输至计算机，简化了编程人员的二次开发工作量。【附图说明】
[0046]图1为语音交互装置的硬件框架结构图。[〇〇47]图2为语音交互装置的语音交互流程。[〇〇48]图3为交互任务1语音命令集示例。
[0049]图4为交互任务2语音命令集示例。[〇〇5〇]图5为交互任务3语音命令集示例。[〇〇51]图6为交互任务4语音命令集示例。【具体实施方式】[〇〇52]下面结合附图与【具体实施方式】，对本发明作进一步描述。[〇〇53]见图1与图2,一种面向多任务交互的手持式语音交互装置，包括可手持的壳体，所述壳体中包括以下模块:实现语音命令识别的语音识别模块，实现识别出的语音命令编码与主机间通讯的射频发送模块，给各模块供电及对电池进行充电的电源管理模块，存储语音命令的存储模块，实现语音命令输入的语音输入模块，驱动多任务的语音命令分组输入控制及反馈硬件界面，实现整个装置管理控制的控制模块，实现提示功能的指示灯，实现语音交互应用程序控制和语音命令编辑的主机。[〇〇54]以上手持式语音交互装置的交互方法，包括以下步骤:(1)用户根据多任务交互情境应用的任务确定所需采用的语音交互命令集，并经由驱动多任务的语言命令分组输入控制及反馈硬件界面进行语音命令集的分组切换；(2)用户根据装置上指示灯的闪烁提示发出语音命令；(3)采用装置自动捕获的方式完成语音命令信号输入，自动捕获方式为:在指示灯出现闪烁时表示用户可以输入语言命令，装置即开始自动采集语言命令信号；(4)利用语音识别模块，实现语音的在线识别，其中语音在线识别采用一种基于非特定人声的语音识别技术的在线识别方法，利用现有的商用非特定人声的语音识别芯片实现语音在线识另IJ，达到语音命令识别的高识别率和鲁棒性；(5)识别结果编码通过无线传输给主机，用于控制语音交互应用；(6)交互应用程序接受到语音命令指令后导致的应用程序状态变化经由视觉和/或听觉通道反馈给用户，并刺激用户产生新的交互意图，从而继续语音交互流程。
[0055]以上方法中，还包括一种语音命令的分组策略及对应于该分组策略的控制反馈机制，该分组策略及控制反馈机制用于多任务交互情境应用，包括以下步骤:a.根据多任务交互情境应用的需求确定语音命令集的分组，形成多组语音命令集;b.利用一种支持用户定制的语音命令编辑图形界面对多组语音命令集进行编辑，并存储至语音交互装置中的存储模块，用于在线语音命令识别，其中，支持用户定制的语音命令编辑图形界面中的待识别的语音命令集由用户定制编辑，定制编辑方式为:通过USB连接方式将语音交互装置与主机连接，在主机端利用图形用户界面实现编辑定制；c.利用驱动多任务的语言命令分组输入控制及反馈硬件界面实现语音命令集的分组切换和语音命令集的分组反馈提示，所述的驱动多任务的语音命令分组输入控制采用按键长按机制实现语音命令集的分组切换;反馈硬件界面采用LED指示灯的多种状态组合提供当前语音命令集的分组反馈。[〇〇56]具体的，本发明中，根据面向多任务交互的手持式语音交互装置的硬件框架结构图进行设计和组装，其中，基于ICRoute公司生产的商用语音识别芯片LD3320A用于实现语音识别模块;HC05模块作为蓝牙无线射频模块;EMC5754、线性稳压芯片和锂电池构成电源管理模块;AT91SAM7S64AU芯片构成管理控制模块;SD卡用于实现存储模块;咪头用于实现语音命令采集，构成语音输入模块;4个按键、4个LED指示灯和相关元器件构成驱动多任务的语言命令分组输入控制及反馈硬件界面。
[0057]本实施例中的语音交互装置支持4组语音命令集(每组命令集支持多达50条语音命令)，因此，可用于同时支持4种不同任务的语音交互情境。为支持非特定人声语音命令，使所研发的装置适应更广泛人群，采用了拼音对语音命令进行逼近编码。将装置通过USB接口与主机连接，利用主机上的语音命令编辑图形界面可对这4组语音命令集进行编辑并以文本文件的方式存储至装置的SD卡中。
[0058]本实施例中，存储语音命令集的文本文件具体规范如下，参考图3至图6:[〇〇59]每组命令集支持多达50条语音命令，存储在一个独立的文本文件中，文件不能大于2048字节，除注释外都是西文字符。
[0060]每个语音命令条目占一行，以字符‘:’开始，然后是该语音命令id，id固定为3个字符，不足3个字符的以0补齐。id以字符‘，’结束，然后是语音命令关键字拼音编码，该拼音编码字符串只能由小写字母和空格组成，每个文字中间都有空格。例如“你好”可以编码为“ni hao”。关键字拼音编码字符串最长是32个字节，并以字符‘；’结束，然后是注释。[0061 ]4个按键SI，S2，S3，S4分别用于控制4组语音命令集的切换。例如，长按S1键3秒钟以上(含3秒)可将语音命令集切换到第一组，其余类似。之所以采用长按机制(按住按键3秒钟以上)而不是采用按键触碰机制是为了避免用户由于不小心误碰到某个按键而导致语音命令的错误切换，而且，根据我们的用户调查，3秒钟的长按时间是用户普遍能够接受的。 [〇〇62]4个LED灯用于给用户进行装置的工作状态反馈。LED1常亮，表示装置正常工作；如LED1灯灭，则表示装置需要充电或装置坏了。LED2和LED3的亮灭状态组合表示当前语音命令集的编号。LED2和LED3均灭表示当前语音命令集是第一组;LED2亮和LED3灭表示当前语音命令集是第二组;LED2灭和LED3亮表示当前语音命令集是第三组;LED2和LED3均亮表示当前语音命令集是第四组。LED4用于提示用户可以口述语音命令，当装置可以接受语音命令时，LED4灯闪烁；当用户口述某一语音命令并为装置所接受后，装置启动识别过程，此时 LED4灭；当装置把识别到的语音命令发送个主机后，又重新恢复到可以接受语音命令的状态，此时，LED灯又进入闪烁状态。
[0063]以下为本发明的一个模拟使用场景:
[0064]假设用户A是一位新数字媒体从业者。有时候，她需要向观众演示一个数字娱乐软件，其中需要与一个虚拟娃娃进行互动(交互任务1);另一些时候，她又需要面对来自军方的代表，向他们演示一个战场仿真软件，其中涉及到对主坦克的运动控制(交互任务2);偶尔，她还会化身为汽车销售人员，通过汽车推销软件向客户介绍不同汽车的特性(交互任务 3);在紧张的工作之余，她也想在电脑上看看电视放松自己，她需要在不同的电视台之间进行转换(交互任务4)。[〇〇65]面对如此复杂的多任务交互应用，这位新数字媒体从业者不免发愁。然而，借助于本实施案例，她可以轻松地胜任所有这些任务。她所要的做的，仅仅只是针对每个交互任务提炼出语音命令集并采用拼音进行编码(图3?图6)，并以本装置所要求的文件格式把这4 个命令集存储到SD卡上，之后她就可以轻松地利用S1?S4四个按键在这四个命令集之间进行快速切换，并借助LED1?LED4四个灯的状态获得对装置工作状态的了解，实现单一命令集控制单一交互应用的目标，从而轻松应对复杂的多任务交互应用。[〇〇66]值得说明的是，上述针对交互任务2的语音命令集2较之于其他三个语音命令集有更多的语音命令冗余。这主要是因为，交互任务2是一个严肃应用，不出错或者以极低的概率出错是其基本要求。通过采用类似于语音命令集2所采用的简单冗余策略，可以在很大程度上进一步提高装置的容错性。而对于类似于交互任务1、交互任务3和交互任务4这样的普通应用，类似于语音命令集1、语音命令集3、语音命令集4这样的设置已经可以较好地胜任，一般就无需进行额外的冗余处理了。
[0067]本发明的保护范围包括但不限于以上实施方式，本发明的保护范围以权利要求书为准，任何对本技术做出的本领域的技术人员容易想到的替换、变形、改进均落入本发明的保护范围。
【主权项】
1.一种面向多任务交互的手持式语音交互装置，包括可手持的壳体，其特征在于，所述壳体中包括以下模块:实现语音命令识别的语音识别模块，实现识别出的语音命令编码与主机间通讯的射频发送模块，给各模块供电及对电池进行充电的电源管理模块，存储语音命令的存储模块，实现语音命令输入的语音输入模块，驱动多任务的语音命令分组输入控制及反馈硬件界面，实现整个装置管理控制的控制模块，实现提示功能的指示灯，实现语音交互应用程序控制和语音命令编辑的主机。2.权利要求1所述的一种面向多任务交互的手持式语音交互装置的交互方法，其特征在于，包括以下步骤:(1)用户根据多任务交互情境应用的任务确定所需采用的语音交互命令集，并经由驱动多任务的语言命令分组输入控制及反馈硬件界面进行语音命令集的分组切换；(2)用户根据装置上指示灯的闪烁提示发出语音命令；(3)采用装置自动捕获的方式完成语音命令信号输入；(4)利用语音识别模块，实现语音的在线识别；(5)识别结果编码通过无线传输给主机，用于控制语音交互应用；(6)交互应用程序接受到语音命令指令后导致的应用程序状态变化经由视觉和/或听觉通道反馈给用户，并刺激用户产生新的交互意图，从而继续语音交互流程。3.根据权利要求2所述的一种面向多任务交互的手持式语音交互装置的交互方法，其特征在于，步骤(3)中的自动捕获方式为:在指示灯出现闪烁时表示用户可以输入语言命令，装置即开始自动采集语言命令信号。4.根据权利要求2所述的一种面向多任务交互的手持式语音交互装置的交互方法，其特征在于，步骤(4)中的语音在线识别采用一种基于非特定人声的语音识别技术的在线识别方法，利用现有的商用非特定人声的语音识别芯片实现语音在线识别，达到语音命令识别的高识别率和鲁棒性。5.根据权利要求2所述的一种面向多任务交互的手持式语音交互装置的交互方法，其特征在于，该方法中还包括一种语音命令的分组策略及对应于该分组策略的控制反馈机制，该分组策略及控制反馈机制用于多任务交互情境应用，包括以下步骤:a.根据多任务交互情境应用的需求确定语音命令集的分组，形成多组语音命令集；b.利用一种支持用户定制的语音命令编辑图形界面对多组语音命令集进行编辑，并存储至语音交互装置中的存储模块，用于在线语音命令识别；c.利用驱动多任务的语言命令分组输入控制及反馈硬件界面实现语音命令集的分组切换和语音命令集的分组反馈提示。6.根据权利要求5所述的一种面向多任务交互的手持式语音交互装置的交互方法，其特征在于，步骤b中，支持用户定制的语音命令编辑图形界面中的待识别的语音命令集由用户定制编辑，定制编辑方式为:通过USB连接方式将语音交互装置与主机连接，在主机端利用图形用户界面实现编辑定制。7.根据权利要求5所述的一种面向多任务交互的手持式语音交互装置的交互方法，其特征在于，步骤c中，所述的驱动多任务的语音命令分组输入控制采用按键长按机制实现语音命令集的分组切换;反馈硬件界面采用LED指示灯的多种状态组合提供当前语音命令集的分组反馈。
【文档编号】G10L15/28GK106023991SQ201610344503
【公开日】2016年10月12日
【申请日】2016年5月23日
【发明人】潘巧明, 沈伟华, 胡伟俭, 万华根
【申请人】丽水学院, 丽水市派讯科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘巧明;沈伟华;胡伟俭;万华根;
技术所有人：丽水学院;丽水市派讯科技有限公司;
我是此专利的发明人

上一篇：家用电器的语音控制方法及系统的制作方法
上一篇：一种基于投影设备的语音控制方法及装置的制造方法