基于语音识别的索引菜单的方法、装置及其终端的制作方法

文档序号：6397350阅读：176来源：国知局

专利名称：基于语音识别的索引菜单的方法、装置及其终端的制作方法
技术领域：
本发明涉及移动通讯领域，特别涉及一种基于语音识别的索引菜单的方法、装置及其终端。
背景技术：
随着移动通信领域技术的不断发展和成熟，在日益普及的移动终端中，特别是智能终端中软件功能越来越丰富，用户的个性化需求越来越多。但随着移动操作系统和硬件平台的日趋统一，软件功能的同质化也日趋严重。不断创新引入语音识别等新的交互方式成为保持终端产品竞争力的重要途径。语音识别作为一种新的、重要的用户交互技术在移动终端中的应用越来越广泛。随着语音识别技术的不断发展和云端语音服务器的引入，语音识别率有了很大提升，但从目前移动终端中已推出的语音产品的实际性能看，使用效果并不理想，技术还没有完全成熟。语音识别技术的应用主要包括两种方式本地化的直接命令式语音和依靠云端服务器的自然语言解析两种方式。直接命令式语音存在可扩展性差问题，需要提前预设固定范围的词汇库。也存在因为用户使用习惯、地域的不同，语言发音不用，国别不同等识别误差范围较大，准确率不高的问题。用户需要记忆每个命令式，命令长度相对较长，没有统一的格式，没有通用的规则可以助记。依靠云端语音服务器的自然语言解析方式，接近用户的使用习惯，但该功能依赖于网络，需要大量的数据交互操作，会引起用户网络流量的费用问题。同时当网络状态不好时，识别率会很低，用户使用场景受限。还有因为用户使用习惯、地域的不同，语言发音不用，国别不同等使得语音识别误差范围较大，识别准确率不足。此外，语音识别需要大量的计算，所以语音识别的速度和设备的能耗也会受语音命令的长度影响。

发明内容
为克服现有技术中的问题，本发明提供一种基于语音识别的索引菜单的方法、装置及其终端，以解决直接命令式的语音识别存在可扩展性差的问题。本发明解决上述技术问题所采用的技术方案如下根据本发明的一个方面，提供的一种基于语音识别的索引菜单的方法包括以下步骤A、启动语音识别引擎服务；B、接收用户语音，并根据接收的语音遍历体感动作特征库，获取与接收的语音相匹配的语音特征文件，通过语音特征文件将接收的语音转译成文本字符；C、通过预设的索引菜单映射表查找到文本字符对应的菜单项；
D、调用菜单项对应的接口函数执行菜单操作。优选地，上述方法之后还包括步骤E、判断是否还进行下一级索引操作，如果是，则转到步骤B继续执行索引菜单操作，否则结束流程。优选地，启动语音识别引擎服务包括在开机过程中或者接收到用户通过快捷方式的命令后启动语音识别引擎服务；启动语音识别引擎服务之后还包括将语音识别服务当前的状态通过状态栏图标或者通知栏通知消息提示用户。优选地，语音特征库包含各个基本字符的语音特征文件，基本字符包括字母A-Z、数字O 9、和/或特殊符号*、#、+。优选地，索引菜单映射表包括预设应用索引菜单映射表和/或第三方应用索引菜单映射表，其中预设应用索引菜单映射表中设置为从菜单的树状逻辑结构的根节点到叶节点中，每一个层级对应一个索引菜单映射表，每一个节点对应一个菜单项，通过脚本语言进行配置；第三方应用索引菜单映射表设置为对应第三方应用程序的一级索引菜单映射表，通过第三方应用程序安装和卸载时进行配置管理。根据本发明的另一个方面，提供的一种基于语音识别的索引菜单的装置包括以下模块启动模块，用于启动语音识别引擎服务；语音识别引擎服务，用于接收用户语音，并根据接收的语音遍历体感动作特征库，获取与接收的语音相匹配的语音特征文件，通过语音特征文件将接收的语音转译成文本字符;查找模块，用于通过预设的索引菜单映射表查找到文本字符对应的菜单项；执行模块，用于调用菜单项对应的接口函数执行菜单操作。优选地，索引菜单映射表包括预设应用索引菜单映射表和/或第三方应用索引菜单映射表，其中预设应用索引菜单映射表设置为从菜单的树状逻辑结构的根节点到叶节点中，每一个层级对应一个索引菜单映射表，每一个节点对应一个菜单项，通过脚本语言进行配置；第三方应用索引菜单映射表设置为对应第三方应用程序的一级索引菜单映射表，通过应用程序安装和卸载时进行配置管理。优选地，启动模块具体用于在开机过程中或者接收到用户通过快捷方式的命令后启动语音识别引擎服务；还用于启动语音识别引擎服务后，将语音识别服务当前的状态通过状态栏图标或者通知栏通知消息提示用户。优选地，上述装置还包括休眠模块，休眠模块用于当菜单被操作后超过预定的时间没有接收到下一次操作时，休眠或关闭语音识别引擎服务。根据本发明的再一个方面，还提供了一种终端，该终端包括上述技术方案中的基于语音识别的索引菜单的装置。根据本发明的实施例，利用语音识别技术中对各个语言基本字符的识别高效、准确和多种语言通用化的特点，利用语音识别技术识别出用户读出的各个基本字符组合的语音，进而转译成基本字符组合文本，并通过查找预设规则索引菜单映射表，实现语音识别索引菜单操作，使得语音特征库只需要提供基本字符的语音特征文件，通过自由组合可以实现所有菜单操作命令，满足复杂的语音识别才能完成的菜单操作，提高了灵活性和可扩展性。

图1为本发明提供的一种基于语音识别的索引菜单的方法流程图；图2为本发明实施例提供的一种菜单的逻辑结构示意图；图3为本发明实施例提供的一种索引菜单映射表的数据结构示意图；图4为本发明提供的一种基于语音识别的索引菜单的装置模块结构图；图5为本发明实施例提供的应用于号码查找的方法流程图。
具体实施例方式以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。实施例一如图1所示是本发明提供一种基于语音识别的索引菜单实现方法，该方法包括以下步骤S101、启动语音识别引擎服务；具体来说，该步骤中启动语音识别引擎服务的方式包括但不限于在开机过程中或者接收到用户通过快捷方式的命令后启动；优选地，为了让用户确认当前是否支持语音识别索引菜单的功能，在启动语音识别引擎服务之后，可以通过将语音识别服务当前的状态状态栏图标或者通知栏通知消息提不用户。S102、接收用户语音，并根据接收的语音遍历体感动作特征库，获取与接收的语音相匹配的语音特征文件，通过语音特征文件将接收的语音转译成文本字符；具体来说，语音特征库包含基本字符集中各个基本字符的语音特征文件，其中基本字符集包括字母A-Z、数字O 9、和/或特殊符号*、#、+。语音特征文件中包含能够识别语音的特征信息。比如A字符的特征信息，当接收到用户语音后，会将用户语音与特征文件中的信息进行匹配，并会依据匹配的相似度，输出相应的一个或多个候选字符集。优选地，基本字符集同当前选择的语言相对应，由当前语言包含的基本字符集决定，用户可以根据实际需求配置裁剪。组成基本字符组合的字符个数理论上不受限制，但为了保证索引菜单命令的简单性，组成索引菜单的基本字符的个数最好小于或者等于3个。特殊符号可以用于通用菜单操作命令的定义。比如返回操作、选择操作、返回待机操作等。S103、通过预设的索引菜单映射表查找到上述文本字符对应的菜单项；具体来说，索引菜单映射表是通过一定的预设规则建立基本字符组合和各个菜单操作的映射关系配置表，基本字符组合作为映射的菜单操作的索引。
索引菜单映射表包括预设应用索引菜单映射表和/或第三方应用索引菜单映射表，其中预设应用索引菜单映射表设置为从菜单的树状逻辑结构的根节点到叶节点中，每一个层级对应一个索引菜单映射表，每一个节点对应一个菜单项，通过脚本语言进行配置；第三方应用索引菜单映射表设置为对应第三方应用程序的一级索引菜单映射表，通过第三方应用程序安装和卸载时进行配置管理。为了克服索引映射表方式不是用户习惯的自然语言交互方式，需要依据预设规则记忆命令集，语音识别菜单的索引不能太多太复杂，层级不能太深，建议层级小于或等于3个。S104、调用菜单项对应的接口函数执行菜单操作。具体来说，接口函数就是指菜单对应执行相应动作的命令函数，同一类别的菜单操作有相同的命令函数。在同一类别的菜单操作命令中，通过输入参数来区分不同的执行方式或状态。比如电话本应用创建，可以通过输入参数来区分是否支持后台启动，或者目标界面的区分等。输入参数默认为0，就是默认的方式。优选地，当菜单项还有下一级操作时，该方法之后还包括判断是否还进行下一级索引操作，如果是，则转到步骤S102继续执行索引菜单操作，否则结束流程。优选地，语音识别引擎服务会对能耗造成影响，为了节省能耗，还可以考虑使用场景的设定和超时处理。该方法之后还包括步骤当超过预定的时间没有接收到下一次索引操作时，休眠或关闭语音识别引擎服务，类似屏幕背光的处理，时间长度可以由用户根据实际需求分等级设定。实施例二如图2和图3所示分别为本实施例的索引菜单的逻辑结构图和索引菜单映射表的数据结构示意图，图中菜单的逻辑结构为树状结构，从树状结构的根节点到叶节点，每一个层级对应一级索引，每一级索引对应一个索引菜单映射表，每一个节点对应一个菜单项。下一级子节点索引菜单的操作取决于上一级父节点索引菜单的作用域范围。根索引映射为待机的菜单操作，一级索引映射为从待机进入某个功能界面的菜单操作，其数据结构包括一级索引菜单名称、应用ID和应用名称、参数信息；二级索引映射为某个应用内部的菜单操作或者启动/返回其他非待机应用的操作，其数据结构包括二级索引菜单名称、应用ID、应用动作和参数信息；低级别索引对应更细化的菜单操作任务。其中，参数信息用于在同一类别的菜单操作命令中区分不同的执行方式或状态，参数默认为0，即默认的启动方式。同级别的索引可以同名，高级别的同名索引在低级别同名索引的作用域内不可见。当上一级父索引无效时，下一级的所有子索引均无效。优选地，为了满足编译时的可配置性，索引菜单映射表的配置可以通过脚本语言定义实现。优选地，索引菜单名称生成的预设规则是预设应用名称的首字母。当首字母冲突时，索引菜单定位为前两个字母。如果前三个字母都相同，则加数字编号。由于是基本字符范围内的语音识别，所以通用性相对较好，比如在只有英文字母的语音特征库时，同样可以实现对汉语中拼音的识别和使用。这对实现基于语音识别的查找或排序也提供了便利。优选地，为了保证简单易用性，索引菜单映射表的建立可包含预设应用和第三方应用两种方式。两种方式的索引菜单映射表是相互独立的，其中预设应用的方式可以定义多级的索引菜单操作；第三方应用的方式只能定义一级索引菜单操作，其索引菜单映射表在第三方应用程序安装和卸载时进行配置管理。通过本实施例中索引映射表的引入，使得语音特征库只需要提供基本字符的语音特征文件，用户通过基本字符的自由组合作为菜单操作命令集的索引，满足复杂的语音识别才能完成的菜单操作，提高了灵活性，祢补了直接命令式语音操作的可扩展性差的问题。实施例三如图4所示为本发明提供的一种基于语音识别的索引菜单的装置模块结构图。图中该装置包括启动模块410，语音识别引擎服务420，查找模块430，执行模块440，其中启动模块410，用于启动语音识别引擎服务420;该模块具体可以在开机过程中或者接收到用户通过快捷方式的命令后启动语音识别弓I擎服务420。优选的，为了让用户确认当前是否支持语音识别索引菜单的功能，该模块还用于启动语音识别引擎服务420后，将语音识别服务420当前的状态通过状态栏图标或者通知栏通知消息提示用户。语音识别引擎服务420，用于接收用户语音，并根据接收的语音遍历体感动作特征库，获取与接收的语音相匹配的语音特征文件，通过语音特征文件将接收的语音转译成文本字符；查找模块430，用于通过预设的索引菜单映射表查找到文本字符对应的菜单项；具体来说，索引菜单映射表包括预设应用索引菜单映射表和/或第三方应用索引菜单映射表，其中预设应用索引菜单映射表设置为从菜单的树状逻辑结构的根节点到叶节点中，每一个层级对应一个索引菜单映射表，每一个节点对应一个菜单项，通过脚本语言进行配置；第三方应用索引菜单映射表设置为对应第三方应用程序的一级索引菜单映射表，通过应用程序安装和卸载时进行配置管理。执行模块440，用于调用菜单项对应的接口函数执行菜单操作。优选地，上述装置中还包括休眠模块450，休眠模块用于当索引菜单被操作后超过预定的时间没有接收到下一次操作时，休眠或关闭语音识别引擎服务420。此外，本发明还提供了一种终端，该终端上包括了上述基于语音识别的索引菜单的装置。比如移动终端、游戏机和电脑。在移动终端中各级索引对应的菜单操作类别描述说明如下根索引映射为返回待机的菜单操作。一级索引映射为从待机进入某个功能界面的菜单操作。二级索引映射为某个应用内部的菜单操作或者启动/返回其他非待机应用的操作。低级别索引对应更细化的菜单操作任务。
在其他应用领域以此类推。应用实例下面结合图3和图5以电话本应用的号码查找BCB的联系人为例进一步说明索引菜单的分级索引。图3中示出了电话本的索引菜单映射表的数据结构，电话本的一级索引菜单对应的索引字符为“C”，“查找”为二级索引菜单中对应的索引字符“B”。图5中为该联系人的号码查找方法流程图，该方法包括S501、接收并识别出用户通过语音输入的C，进入电话本界面；S502、接收并识别出用户通过语音输入的B ；S503、索引菜单成功后，进入电话本联系人列表界面；S504、接收并识别出用户通过语音输入的B ；S505、输出经过模糊匹配的首字母为B的联系人列表；S506、接收并识别出用户通过语音输入的C ；S507、输出经过模糊匹配的前两个字母为BC的联系人列表，S508、接收并识别出用户通过语音再次输入的C ；S509、输出经过模糊匹配的第三个字母为C的联系人列表，查找到名字为BCB的联系人，执行其他的操作。需要说明的是，在电话本列表操作界面下，电话本的一级索引菜单C作为当前界面二级索引菜单查找联系人的前缀，所有的索引操作都是在C菜单作用域内的。以上参照

了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，如作为一个实施例的特征可用于另一实施例以得到又一实施例。凡运用本发明说明书及附图内容所作的等效变化，均应在本发明的权利范围之内。
权利要求
1.一种基于语音识别的索引菜单的方法，其特征在于，所述方法包括以下步骤A、启动语音识别引擎服务；B、接收用户语音，并根据所述语音遍历体感动作特征库，获取与所述语音相匹配的语音特征文件，通过所述语音特征文件将接收的语音转译成文本字符；C、通过预设的索引菜单映射表查找到所述文本字符对应的菜单项；D、调用所述菜单项对应的接口函数执行菜单操作。
2.根据权利要求1所述的方法，其特征在于，所述方法之后还包括步骤E、判断是否还进行下一级索引操作，如果是，则转到步骤B继续执行索引菜单操作，否则结束流程。
3.根据权利要求1所述的方法，其特征在于，所述启动语音识别引擎服务包括在开机过程中或者接收到用户通过快捷方式的命令后启动语音识别引擎服务；所述启动语音识别引擎服务之后还包括将所述语音识别服务当前的状态通过状态栏图标或者通知栏通知消息提示用户。
4.根据权利要求1所述的方法，其特征在于，所述语音特征库包含各个基本字符的语音特征文件，所述基本字符包括字母A-Z、数字O 9、和/或特殊符号*、#、+。
5.根据权利要求1所述的方法，其特征在于，所述索引菜单映射表包括预设应用索引菜单映射表和/或第三方应用索引菜单映射表，其中所述预设应用索引菜单映射表中设置为从菜单的树状逻辑结构的根节点到叶节点中，每一个层级对应一个索引菜单映射表，每一个节点对应一个菜单项，通过脚本语言进行配置；所述第三方应用索引菜单映射表设置为对应所述第三方应用程序的一级索引菜单映射表，通过所述第三方应用程序安装和卸载时进行配置管理。
6.一种基于语音识别的索引菜单的装置，其特征在于，所述装置包括启动模块，用于启动语音识别引擎服务；语音识别引擎服务，接收用户语音，并根据所述语音遍历体感动作特征库，获取与所述语音相匹配的语音特征文件，通过所述语音特征文件将接收的语音转译成文本字符；查找模块，用于通过预设的索引菜单映射表查找到所述文本字符对应的菜单项；执行模块，用于调用所述菜单项对应的接口函数执行菜单操作。
7.根据权利要求6所述的装置，其特征在于，所述索引菜单映射表包括预设应用索引菜单映射表和/或第三方应用索引菜单映射表，其中所述预设应用索引菜单映射表设置为从菜单的树状逻辑结构的根节点到叶节点中，每一个层级对应一个索引菜单映射表，每一个节点对应一个菜单项，通过脚本语言进行配置；所述第三方应用索引菜单映射表设置为对应所述第三方应用程序的一级索引菜单映射表，通过所述应用程序安装和卸载时进行配置管理。
8.根据权利要求6所述的装置，其特征在于，所述启动模块具体用于在开机过程中或者接收到用户通过快捷方式的命令后启动语音识别引擎服务；还用于启动语音识别引擎服务后，将所述语音识别服务当前的状态通过状态栏图标或者通知栏通知消息提示用户。
9.根据权利要求6所述的装置，其特征在于，所述装置还包括休眠模块，所述休眠模块用于当所述菜单被操作后超过预定的时间没有接收到下一次操作时，休眠或关闭所述语音识别引擎服务。
10.一种终端，其特征在于，所述终端包括如权利要求6-9任意一项权利要求所述的装置。
全文摘要
本发明公开了一种基于语音识别的索引菜单的方法、装置及其终端，属于移动通信领域。所述方法包括以下步骤启动语音识别引擎服务；接收用户语音，并根据接收的语音遍历体感动作特征库，获取与接收的语音相匹配的语音特征文件，通过语音特征文件将接收的语音转译成文本字符；通过预设的索引菜单映射表查找到文本字符对应的菜单项；调用菜单项对应的接口函数执行菜单操作。通过本发明，利用语音识别技术中对各个语言基本字符的识别高效、准确和多种语言通用化的特点，使得语音特征库只需要提供基本字符的语音特征文件，通过自由组合可以实现所有菜单操作命令，满足复杂的语音识别才能完成的菜单操作，提高了灵活性和可扩展性。
文档编号G06F17/30GK103049571SQ201310000639
公开日2013年4月17日申请日期2013年1月4日优先权日2013年1月4日
发明者柏凤佳, 海茜, 潘启蒙申请人:深圳市中兴移动通信有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：柏凤佳;海茜;潘启蒙
技术所有人：深圳市中兴移动通信有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。