语音识别方法及装置、终端及计算机可读存储介质与流程

文档序号：13474192阅读：270来源：国知局

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法及装置、终端及计算机可读存储介质。

背景技术：

本部分旨在为权利要求书及具体实施方式中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

当前语音识别技术已经比较成熟，在生活中得到了广泛的应用，例如语音拨号、语音导航、语音唤醒设备、文本输入等。然而，目前的语音识别技术只能机械地识别语音识别库中已有的信息，无法准确识别一些口音不准、模糊或者不完整的语音命令，因此容易出现误操作或者误识别或者无法识别，从而限制了语音技术的广泛应用，用户体验效果不佳。

技术实现要素：

鉴于此，有必要提供一种语音识别方法及装置、终端及计算机可读存储介质，能够在语音识别不全的情况下，通过语音识别结果的局部关键词作为线索来对相关联的系统功能模块的运行情况进行检测，并根据检测结果预判用户的意图以及产生相应的控制指令，以使语音助手的语音识别功能更加智能、交互效率更高。

本发明实施例一方面提供一种语音识别方法，应用于终端。所述语音识别方法包括：

通过终端的声音采集模块采集语音信息；

识别所述语音信息以获得语音识别结果；

若在预设语音识别库中没有查询到与所述语音识别结果匹配的指令，则从所述语音识别结果中提取关键词，并对与所述关键词相关联的所述终端的功能模块的运行状态进行检测；以及

根据对所述功能模块的运行状态的检测结果产生控制指令，并根据所述控制指令调整所述功能模块的运行状态。

进一步的，本发明实施例提供的上述语音识别方法中，所述根据对所述功能模块的运行状态的检测结果产生控制指令包括：

根据对所述功能模块的运行状态的检测结果来输出对应的提示信息；

接收根据所述提示信息输入的操作，并根据所述操作产生相应的控制指令。

进一步的，本发明实施例提供的上述语音识别方法中，所述对与所述关键词相关联的所述终端的功能模块的运行状态进行检测包括：

查询与所述关键词相关联的所述终端的功能模块的运行状态；

根据所述终端的当前系统状态判断与所述关键词相关联的所述功能模块的运行状态是否发生异常。

进一步的，本发明实施例提供的上述语音识别方法中，所述根据对所述功能模块的运行状态的检测结果产生控制指令包括：

若与所述关键词相关联的所述功能模块的运行状态发生异常，则根据所述终端的当前系统状态确定对发生异常的所述功能模块的处理方式；以及

根据所述处理方式匹配出对应的控制指令。

进一步的，本发明实施例提供的上述语音识别方法中还包括：

将采集到的所述语音信息以及所述控制指令对应存储在所述预设语音识别库中。

本发明实施例另一方面还提供一种语音识别装置，应用于终端。所述语音识别装置包括：

采集模块，用于通过终端的声音采集模块采集语音信息；

语音识别模块，用于识别所述语音信息以获得语音识别结果；

指令匹配模块，用于在预设语音识别库中查询与所述语音识别结果匹配的指令；

解析模块，用于当在所述预设语音识别库中没有查询到与所述语音识别结果匹配的指令时，从所述语音识别结果中提取关键词；

检测模块，用于对与所述关键词相关联的所述终端的功能模块的运行状态进行检测；

所述指令匹配模块还用于根据对所述功能模块的运行状态的检测结果产生控制指令；

控制模块，用于根据所述控制指令调整所述功能模块的运行状态。

进一步的，在本发明实施例提供的上述语音识别装置中，所述指令匹配模块具体用于根据对所述功能模块的运行状态的检测结果来输出对应的提示信息，以及接收根据所述提示信息输入的操作，并根据所述操作产生相应的控制指令。

进一步的，在本发明实施例提供的上述语音识别装置中，所述检测模块具体用于查询与所述关键词相关联的所述终端的功能模块的运行状态；

所述语音识别装置还包括分析模块，所述分析模块用于根据所述终端当前的系统状态判断与所述关键词相关联的所述功能模块的运行状态是否发生异常。

进一步的，在本发明实施例提供的上述语音识别装置中，所述分析模块还用于在判断与所述关键词相关联的所述功能模块的运行状态发生异常时，根据所述终端当前的系统状态确定对发生异常的所述功能模块的处理方式；

所述指令匹配模块还用于根据所述处理方式匹配出对应的控制指令。

进一步的，在本发明实施例提供的上述语音识别装置中，所述控制模块还用于将采集到的所述语音信息以及所述控制指令对应存储在所述预设语音识别库中。

本发明实施例再一方面还提供一种终端，所述终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现上述任一所述语音识别方法的步骤。

本发明实施例又一方面还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述语音识别方法的步骤。

本发明提供的所述语音识别方法能够在语音识别不全的情况下，通过语音识别结果的局部关键词作为线索来对相关联的系统功能模块的运行情况进行检测，并根据检测结果预判用户的意图以及产生相应的控制指令，从而允许用户仅输入较少或较抽象的语音信息，并使语音助手的语音识别功能更加智能、交互效率更高。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施方式提供的语音识别方法的流程图；

图2是本发明一实施方式提供的语音识别装置的结构示意图；

图3是本发明一实施方式提供的终端的结构示意图。

主要元件符号说明

终端1

语音识别装置10

采集模块11

语音识别模块12

指令匹配模块13

解析模块14

检测模块15

分析模块16

控制模块17

处理器20

存储器30

计算机程序40

声音采集模块50

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施方式及实施方式中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本发明。

图1是本发明一实施方式提供的语音识别方法的流程图，所述语音识别方法应用于终端。所述终端可以是例如智能手机、笔记本电脑、台式/平板电脑、个人数字助理等具有语音识别功能的计算机设备。应说明的是，本发明实施方式的所述语音识别方法并不限于图1所示的流程图中的步骤及顺序。根据不同的需求，所示流程图中的步骤可以增加、移除、或者改变顺序。

在一实施方式中，若终端的语音助手处于启动状态，可通过所述终端的声音采集模块采集语音信息。

如图1所示，所述语音识别方法可以包括以下步骤：

步骤101，通过终端的声音采集模块采集语音信息。

步骤102，识别所述语音信息以获得语音识别结果。

步骤103，若在预设语音识别库中没有查询到与所述语音识别结果匹配的指令，则从所述语音识别结果中提取关键词，并对与所述关键词相关联的所述终端的功能模块的运行状态进行检测。

在本实施方式中，所述对与所述关键词相关联的所述终端的功能模块的运行状态进行检测包括：

查询与所述关键词相关联的所述终端的功能模块的运行状态；

根据所述终端的当前系统状态判断与所述关键词相关联的所述功能模块的运行状态是否发生异常。

例如，当用户开启语音助手并输入“你好，请帮我关闭便携式热点”的语音信息时，由于外界环境等因素的影响，语音助手可能仅仅识别到局部词汇，例如“你x，xxx便携xx”(x代表的是未识别出来的内容)，所述语音识别方法则可以局部关键词，例如“你”、“便携”，对系统的功能模块进行搜索，并找到“便携式热点”的设置项。当发现“便携式热点”的开关为打开状态(通常情况下次开关处于关闭状态)时，则判断“便携式热点”的开关状态发生异常。

步骤104，根据对所述功能模块的运行状态的检测结果产生控制指令，并根据所述控制指令调整所述功能模块的运行状态。

在本实施方式中，所述根据对所述功能模块的运行状态的检测结果产生控制指令包括：

根据对所述功能模块的运行状态的检测结果来输出对应的提示信息；

接收根据所述提示信息输入的操作，并根据所述操作产生相应的控制指令。

其中，所述提示信息可以是包含有对所述功能模块的运行状态的一种或多种调整方式的信息，所述操作可以是对所述提示信息的应答信号，例如在所述提示信息中选择或确认一种调整方式，所述应答信号包括但不限于：语音输入信号、触摸输入信号、按键输入信号。

例如，所述语音识别方法在发现“便携式热点”的开关为打开状态时，可判断用户的意图是需要关闭“便携式热点”，因此可输出提示信息“请问是要关闭便携式热点吗？”当用户输入“是的”的应答信号时，所述语音识别方法获得一次准确的判断，并根据该判断产生相应的控制指令。

如此，通过对系统运行情况的检测来对用户的意图进行猜想，运用到语音助手上面就是允许用户仅输入较少或较抽象的语音，并通过反向检查系统状态来对语音识别结果的关键词进行匹配，从而提高对用户意图的理解。

此外，通过输出提示信息以供用户选择或确认对所述功能模块的运行状态的调整方式，并根据用户的选择或确认操作产生相应的控制指令，可进一步提高产生的控制指令的精准度，有效防止产生的控制指令不准确而带来的误操作。

在本实施方式中，所述根据对所述功能模块的运行状态的检测结果产生控制指令还可包括：

若与所述关键词相关联的所述功能模块的运行状态发生异常，则根据所述终端的当前系统状态确定对发生异常的所述功能模块的处理方式；以及

根据所述处理方式匹配出对应的控制指令。

可以理解的是，所述功能模块包括软件程序模块与硬件模块，对发生异常的所述功能模块的处理方式包括但不限于：开启异常的系统模块、关闭异常的系统模块。

在本实施方式中，所述语音识别方法还包括：

将采集到的所述语音信息以及所述控制指令对应存储在所述预设语音识别库中。

例如，将所述语音信息以及所述控制指令建立映射关系后存储在所述预设语音识别库中，以供后续根据相同或相似的语音信息快速地匹配出相应的指令，从而优化语音识别效率。

可以理解的是，所述语音识别方法还可包括步骤：

若在预设语音识别库中查询到与所述语音识别结果匹配的指令，则控制所述终端执行与所述匹配的指令对应的操作。

图2是本发明一实施方式提供的语音识别装置的结构示意图，所述语音识别装置应用于终端。所述语音识别装置可以包括一个或多个模块，所述一个或多个模块被存储在终端的存储器中并被配置成由一个或多个处理器(本实施方式为一个处理器)执行，以完成本发明。例如，参阅图2所示，语音识别装置10可以包括采集模块11、语音识别模块12、指令匹配模块13、解析模块14、检测模块15、分析模块16、以及控制模块17。本发明实施例所称的模块可以是完成一特定功能的程序段，比程序更适合于描述软件在处理器中的执行过程。

可以理解的是，对应于上述语音识别方法中的各实施方式，所述语音识别装置10可以包括图2中所示的各功能模块中的一部分或全部，各模块11～17的功能将在以下具体介绍。需要说明的是，以上语音识别方法的各实施方式中相同的名词相关名词及其具体的解释说明也可以适用于以下对各模块11～17的功能介绍。为节省篇幅及避免重复起见，在此就不再赘述。

在本实施方式中，若终端的语音助手处于启动状态，可通过所述终端的声音采集模块采集语音信息。

所述采集模块11用于通过所述终端的声音采集模块采集语音信息。

所述语音识别模块12用于识别所述语音信息以获得语音识别结果。

所述指令匹配模块13用于在预设语音识别库中查询与所述语音识别结果匹配的指令。

所述解析模块14用于当在所述预设语音识别库中没有查询到与所述语音识别结果匹配的指令时，从所述语音识别结果中提取关键词。

所述检测模块15用于对与所述关键词相关联的所述终端的功能模块的运行状态进行检测。

在本实施方式中，所述检测模块15具体用于查询与所述关键词相关联的所述终端的功能模块的运行状态。

所述分析模块16用于根据所述终端当前的系统状态判断与所述关键词相关联的所述功能模块的运行状态是否发生异常。

例如，当用户开启语音助手并输入“你好，请帮我关闭便携式热点”的语音信息时，由于外界环境等因素的影响，语音助手可能仅仅识别到局部词汇，例如“你x，xxx便携xx”(x代表的是未识别出来的内容)，所述检测模块15则可以局部关键词，例如“你”、“便携”，对系统的功能模块进行搜索，并找到“便携式热点”的设置项。当发现“便携式热点”的开关为打开状态(通常情况下次开关处于关闭状态)时，则所述分析模块16判断“便携式热点”的开关状态发生异常。

在本实施方式中，所述指令匹配模块13还用于根据对所述功能模块的运行状态的检测结果产生控制指令。

在本实施方式中，所述指令匹配模块13具体用于根据对所述功能模块的运行状态的检测结果来输出对应的提示信息，以及接收根据所述提示信息输入的操作，并根据所述操作产生相应的控制指令。

例如，所述指令匹配模块13在发现“便携式热点”的开关为打开状态时，可判断用户的意图是需要关闭“便携式热点”，因此可输出提示信息“请问是要关闭便携式热点吗？”当用户输入“是的”的应答信号时，所述指令匹配模块13获得一次准确的判断，并根据该判断产生相应的控制指令。

在本实施方式中，所述分析模块16还用于在判断与所述关键词相关联的所述功能模块的运行状态发生异常时，根据所述终端当前的系统状态确定对发生异常的所述功能模块的处理方式。

所述指令匹配模块13具体还用于根据所述处理方式匹配出对应的控制指令。

在本实施方式中，所述控制模块17用于根据所述控制指令调整所述功能模块的运行状态。

在本实施方式中，所述控制模块17还可用于将采集到的所述语音信息以及所述控制指令对应存储在所述预设语音识别库中。

可以理解的是，所述控制模块17还可用于当在预设语音识别库中查询到与所述语音识别结果匹配的指令时，控制所述终端执行与所述匹配的指令对应的操作。

本发明提供的所述语音识别装置能够在语音识别不全的情况下，通过语音识别结果的局部关键词作为线索来对相关联的系统功能模块的运行情况进行检测，并根据检测结果预判用户的意图以及产生相应的控制指令，从而允许用户仅输入较少或较抽象的语音信息，并使语音助手的语音识别功能更加智能、交互效率更高。

本发明实施例还提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施方式中所述的语音识别方法的步骤。

图3是本发明一实施方式提供的终端的示意图。如图3所示，终端1包括：处理器20、存储器30、存储在所述存储器30中并可在所述处理器20上运行的计算机程序40(例如语音识别程序)、以及声音采集模块50。所述处理器20执行所述计算机程序40时实现上述语音识别方法实施方式中的步骤，例如图1所示的步骤101～104。所述处理器20执行所述计算机程序40时实现上述各装置实施方式中各模块/单元，例如模块11～17的功能。

示例性的，所述计算机程序40可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器30中，并由所述处理器20执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，所述指令段用于描述所述计算机程序40在所述终端1中的执行过程。例如，所述计算机程序40可以被分割成图2中的采集模块11、语音识别模块12、指令匹配模块13、解析模块14、检测模块15、分析模块16、以及控制模块17，各模块11～17的具体功能请参见前面的具体介绍，为节省篇幅及避免重复起见，在此就不再赘述。

所述声音采集模块50可以是声音传感器、话筒、扬声器等。

所述终端1可以是智能手机、笔记本电脑、台式/平板电脑、个人数字助理等具有语音识别功能的计算机设备。本领域技术人员可以理解，所述示意图3仅仅是终端1的示例，并不构成对终端1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器20可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器20也可以是任何常规的处理器等，所述处理器20是所述语音识别装置10/所述终端1的控制中心，利用各种接口和线路连接整个语音识别装置10/终端1的各个部分。

所述存储器30用于存储所述计算机程序40和/或模块/单元，所述处理器20通过运行或执行存储在所述存储器30内的计算机程序和/或模块/单元，以及调用存储在所述存储器30内的数据，实现所述语音识别装置10/终端1的各种功能。所述存储器30可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端1的使用所创建的数据(比如音频数据，电话本，应用上述语音识别方法而设置、获取的数据等)等。此外，所述存储器30可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施方式中所述的语音识别方法的步骤。

所述语音识别装置10/终端1/计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施方式方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，所述计算机程序在被处理器执行时，可实现上述各个方法实施方式的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个具体实施方式中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的终端实施方式仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能模块可以集成在相同处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在相同模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明实施例不限于上述示范性实施例的细节，而且在不背离本发明实施例的精神或基本特征的情况下，能够以其他的具体形式实现本发明实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施方式仅用以说明本发明实施例的技术方案而非限制，尽管参照以上较佳实施方式对本发明实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖伟健
技术所有人：珠海市魅族科技有限公司
我是此专利的发明人