语音识别方法、装置、设备及计算机可读介质与流程

文档序号：14217168阅读：265来源：国知局

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法及装置、设备和计算机可读介质。

背景技术：

随着语音识别的能力的增强，越来越多的场景也应用到了语音识别。而对于语音识别的输入，需要先开启语音输入的功能。常规的开启方式为，在语音设备上设置开启按钮，通过点击该按钮，启动语音识别功能。由于通过点击按钮的方式启动语音识别功能的方式，需要用户额外进行手动操作，这给用户带来不好的体验。

对此，现有技术提供了采用使用固定唤醒词进行启动语音识别的方式。例如，以固定名称“小度小度”等。通过使用对应的唤醒词，进入语音对话。

然而，现有技术都需要使用唤醒词的方案进行语音识别能力开启，虽然不用按钮唤醒语音了，但是仍然需要多说一些特定唤醒词告知语音识别能力开始工作。

技术实现要素：

本发明实施例提供一种语音识别方法、装置、设备及计算机可读介质，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种语音识别方法，包括以下步骤：

指令获取步骤：获取与当前页面的业务信息相关联的指令；

指令匹配步骤：接收用户输入的语音信息，判断所述语音信息是否与所述指令相匹配；

指令执行步骤：若所述语音信息与所述指令相匹配，则显示指令执行结果，同时启动语音交互模式。

结合第一方面，本发明在第一方面的第一种实现方式中，所述指令获取步骤具体为：接收由服务器生成的与当前页面的业务信息相关联的指令。

结合第一方面，本发明在第一方面的第二种实现方式中，所述指令获取步骤具体为：生成与当前页面的业务信息相关联的指令，并将所述指令发送至服务器。

结合第一方面，本发明在第一方面的第三种实现方式中，所述指令匹配步骤具体为：将接收的语音信息发送至服务器进行比对判断。

结合第一方面，本发明在第一方面的第四种实现方式中，所述指令匹配步骤具体为：对接收的语音信息进行比对判断，并将判断结果发送至服务器。

结合第一方面，本发明在第一方面的第五种实现方式中，所述指令执行步骤之后还包括语音解析步骤：对用户输入的语音解析为对应的指令请求，并将所述指令请求发送给服务器。

结合第一方面第五种实现方式，本发明在第一方面的第六种实现方式中，所述语音解析步骤具体包括：

获取当前页面参数，所述页面参数包括：当前页面展示内容、当前页面x、y坐标以及当前屏幕大小；

对页面展示的内容进行分词；

根据所述页面参数和分词结果，将用户输入的语音转化为对应的指令。

第二方面，本发明实施例提供了一种语音识别方法，包括以下步骤：

指令获取步骤：获取与当前页面的业务信息相关联的指令；

指令匹配步骤：接收由客户端发送的语音信息，并将该语音信息与所述指令进行匹配判断；

指令执行步骤：若所述语音信息与所述指令相匹配，则执行所述指令操作，将指令执行结果发送至客户端显示。

结合第二方面，本发明在第二方面的第一种实现方式中，所述指令获取步骤具体为：生成与当前页面的业务信息相关联的指令，并将所述指令发送至客户端。

结合第二方面，本发明在第二方面的第二种实现方式中，所述指令获取步骤具体为：接收由客户端生成的与当前页面业务相关联的指令。

第三方面，本发明实施例提供了一种语音识别装置，包括：

第一指令获取单元，用于获取与当前页面的业务信息相关联的指令；

第一指令匹配单元，用于接收用户输入的语音信息，判断所述语音信息是否与所述指令相匹配；

第一指令执行单元，用于若所述语音信息与所述指令相匹配，则显示指令执行结果，同时启动语音交互模式。

结合第三方面，本发明在第三方面的第一种实现方式中，所述第一指令获取单元具体用于接收由服务器生成的与当前页面的业务信息相关联的指令。

结合第三方面，本发明在第三方面的第二种实现方式中，所述第一指令匹配单元具体用于将接收的语音信息发送至服务器进行比对判断。

结合第三方面，本发明在第三方面的第三种实现方式中，所述装置还包括：语音解析单元，用于对用户输入的语音解析为对应的指令请求，并将所述指令请求发送服务器。

结合第三方面的第三种实现方式，本发明在第三方面的第四种实现方式中，所述语音解析单元具体包括：

页面参数获取模块，用于获取当前页面参数，所述页面参数包括：当前页面展示内容、当前页面x、y坐标以及当前屏幕大小；

分词模块，用于对页面展示的内容进行分词；

指令转化模块，用于根据所述页面参数和分词结果，将用户输入的语音转化为对应的指令。

第四方面，本发明实施例提供一种语音识别装置，包括：

第二指令获取单元，用于获取与当前页面的业务信息相关联的指令；

第二指令判断单元，用于接收由客户端发送的语音信息，并将该语音信息与所述指令进行匹配判断；

第二指令匹配单元，用于若所述语音信息与所述指令相匹配，则执行所述指令操作，将指令执行结果发送至客户端显示。

结合第四方面，本发明在第四方面的第一种实现方式为：所述指令获取单元生成与当前页面的业务信息相关联的指令，并将所述指令发送至客户端。

结合第四方面，本发明在第四方面的第一种实现方式为：所述指令获取单元接收由客户端生成的与当前页面业务相关联的指令。

所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，语音识别装置的结构中包括处理器和存储器，所述存储器用于存储支持语音识别装置执行上述第一方面和第二方面中语音识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述语音识别装置还可以包括通信接口，用于语音识别装置与其他设备或通信网络通信。

第五方面，本发明实施例提供了一种计算机可读介质，用于存储语音识别装置所用的计算机软件指令，其包括用于执行上述第一方面中的语音识别方法为语音识别装置所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：通过采用动态生成的唤醒词，可以和具体的业务紧密结合，不需要用户特地用固定唤醒词开启语音业务，从而提高用户的体验。

上述技术方案中的另一个技术方案具有如下优点或有益效果：可以实现全程语音操作，不用用户手动参与，操作上更加方便。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例一的语音识别方法流程示意图；

图2为本发明实施例一的步骤s140中具体步骤流程图；

图3为本发明实施例四的语音识别方法流程示意图；

图4为本发明实施例五的语音识别装置的连接框图；

图5为本发明实施例五的语音解析单元内部连接框图；

图6为本发明实施例六的语音识别装置的组成结构示意图；

图7为本发明实施例七的语音识别设备的组成结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

本发明实施例旨在解决现有技术中需要使用按钮或者固定唤醒词的方式开启语音识别功能。本发明实施例主要通过采用了动态生成唤醒词的方式，并结合当前页面业务情况，解决现有技术中存在的问题和缺陷。下面分别通过以下实施例进行技术方案的展开描述。

实施例一

如图1所示，本发明实施例一提供了一种语音识别方法，应用于客户端中，包括以下步骤：

s110：指令获取步骤，获取与当前页面的业务信息相关联的指令。具体的，在本实施例中由客户端接收由服务器生成的与当前页面的业务信息相关联的指令。

例如：假设当前页面是一个具备多条检索结果的页面，此时跟页面相关联的指令可以包括：向下翻页、向上翻页、前进、后退、跳转至第几页、进入第几条检索结果等等，也即是动态生成与本页面业务信息相关的指令。关于指令形式可以多种多样，比如：可以“搜索a”，或者“a，搜索”等。所述“a”代表当前页面上的词、或字、或词组等。

结合一个具体例子进行说明，比如说当前页面的内容包括文字：

“就是它啦，萌死人不偿命的设特兰矮马。

设特兰矮马被宠友们又亲切的成为柯基马，原因吗？看看那小短腿，你还不懂。

设特兰矮马集萌、好脾气和好身体于一身，是特别适合作为宠物饲养的马类品种之一。”

那么，先对当前页面的内容进行分词，生成可以发起搜索的关键字或关键词作为语音唤醒词。当用户输入的语音为：“设特兰矮马，是什么马”“设特兰是什么”，“设特兰是什么品种的马”等，则这个“设特兰矮马”则作为当前页面的关键词进行唤醒，并执行对应的搜索操作。

另外，假设当用户仅仅提起“设特兰矮马”，此时启动语音功能，并可以回复“想执行什么操作”。

假设当前页面上有“设特兰矮马”的照片，当用户的语音提到“设特兰矮马”时，也可以进行语音唤醒。也即是可以以“设特兰矮马”作为关键唤醒词，然后再发起后续动作，比如：搜索、翻译、tts播报等。

进一步，所述指令可以是本地指令，也可以是需要服务器执行的指令。比如，“放大当前字体”，或者“显示当前页面参数”等等，属于可以在本地直接执行的指令。

s120：指令匹配步骤，接收并判断用户输入的语音信息是否与所述指令相匹配。具体的，在本实施例中将接收的语音信息发送至服务器进行比对判断。

例如：客户端收到了“下一页”的这样一条语音信息，则将该语音信息发送至服务器中进行比对判断。当服务器接收到所述语音信息后，与在服务器中动态生成的指令中进行匹配。

s130：指令执行步骤，若所述语音信息与所述指令相匹配，则显示指令执行结果，同时启动语音交互模式。

如果接收的语音信息与生成的指令相匹配，则证明该语音输入的指令为有效指令，则相应由服务器执行该指令内容，同时启动语音交互模式。例如：当接收到的语音信息为“下一页”时，服务器经过比对，发送当前页面的动态生成的指令中包含这样一条指令，则由所述服务器发送下一页的数据至客户端中进行数据显示。同时，客户端也开启语音交互模式，启动语音功能。而如果接收到类似“你好”这样的语音，经过匹配后没有对应的指令，则认为是无效指令，不需要执行任何操作。

所述指令包括需要服务器参与的指令，也包括本地的指令。比如，“搜索a”，则需要向服务器请求数据，然后再将返回的数据进行显示。若“放大当前页面”，则属于本地指令，可以直接由客户端执行，不需要向服务器请求。

s140：语音解析步骤，对用户输入的语音解析为对应的指令请求，并将所述指令请求发送给服务器。

当语音交互功能启动后，此时需要对语音指令进行解析。如果当前访问的服务器内部有对应的语音解析功能，则直接将该语音指令发送至服务器中，由服务器执行对应操作。如果服务器中没有对应的语音解析功能，则需要由客户端将该语音指令转化为可操作的指令请求，并将该指令请求发送至服务器中。

请参阅图2，其为本实施例一的步骤s140中具体步骤流程图。本步骤s140中具体包括以下步骤：

s141：获取当前页面参数，所述页面参数包括：当前页面展示内容、当前页面x、y坐标以及当前屏幕大小；

s142：对页面展示的内容进行分词；

s143：根据所述页面参数和分词结果，将用户输入的语音转化为对应的指令。

例如，当前用户访问的是某个网站页面，假设而此时用户输入的语音指令是“打开第三行的链接”。如果此时服务器有对应的语音解析系统，则客户端将该语音指令发送至服务器中，直接由服务器执行该语音指令。

而如果此时服务器中没有对应语音识别系统，则需要由客户端根据当前页面的参数将该语音指令转化为操作指令。即：此时客户端对当前页面显示的内容进行识别，找出第三行的链接位置。然后，再发送该链接请求至服务器，由服务器发送对应的数据至客户端进行显示。

又例如接收的语音为“打开体育频道”，则根据页面内容的词语信息，找到包含“体育”对应的链接，然后再请求服务器返回相应的数据。

实施例二

在实施例二中，其与实施例一的区别仅在于步骤s110中获取与当前页面的业务信息相关联的指令的具体实现方式不同，在本实施例二中具体为：在客户端中生成与当前页面的业务信息相关联的指令，并将所述指令发送至服务器，由服务器对所述指令进行匹配。

实施例三

在实施例三中，其与实施例一的区别仅在于步骤s120中接收并判断用户语音输入是否与所述指令相匹配的具体实现方式不同，在本实施例三中具体为：在客户端中对接收的语音信息进行比对判断，并将判断结果发送至服务器，由服务器根据该判断结果执行对应的操作。

实施例四

请参阅图3，其为本实施例四的语音识别方法流程示意图。与实施例一的语音识别方法相对应，本实施例四中，提供了一种应用于服务器的语音识别方法，其具体包括以下步骤：

s210：指令获取步骤，获取与当前页面的业务信息相关联的指令。

具体的，在本实施例四中，所述步骤s210可以在服务器中生成指令，即：在服务器中生成与当前页面的业务信息相关联的指令，并将所述指令发送至客户端。

另外，作为本实施例四的一种变形实施方式，也可以在客户端中生成指令，即：服务器接收由客户端生成的与当前页面业务相关联的指令。

s220：指令匹配步骤，接收由客户端发送的语音信息，并将该语音信息与所述指令进行匹配判断。

s230：指令执行步骤，若所述语音信息与所述指令相匹配，则执行所述指令操作，将指令执行结果发送至客户端显示。

具体的，在本实施例四中的原理和应用过程与实施例一相同，故不再赘述。

实施例五

本实施例五对应实施例一的语音识别方法，提供了一种语音识别装置，具体的方案如下：

请参阅图4，其为本实施例五的语音识别装置的连接框图。本实施例五提供了一种语音识别装置，包括：第一指令获取单元110、第一指令匹配单元120、第一指令执行单元130和语音解析单元140。

所述第一指令获取单元110，用于获取与当前页面的业务信息相关联的指令。

具体的，所述第一指令获取单元110具体用于接收由服务器生成的与当前页面的业务信息相关联的指令。

作为本实施五的一种变形方式，所述第一指令获取单元110具体用于生成与当前页面的业务信息相关联的指令，并将所述指令发送至服务器。

所述第一指令匹配单元120，用于接收并判断用户输入的语音信息是否与所述指令相匹配。

具体的，所述第一指令匹配单元120具体用于将接收的语音信息发送至服务器进行比对判断。

作为本实施例五的另一种变形方式，所述第一指令匹配单元120具体用于对接收的语音信息进行比对判断，并将判断结果发送至服务器。

所述第一指令执行单元130，用于若所述语音信息与所述指令相匹配，则接收并显示服务器的指令执行结果，同时启动语音交互模式。

所述语音解析单元140，用于对用户输入的语音解析为对应的指令请求，并将所述指令请求发送给服务器。

具体的请参阅图5，其为语音解析单元内部连接框图。所述语音解析单元140具体包括：页面参数获取模块141、分词模块142和指令转化模块143。

所述页面参数获取模块141，用于获取当前页面参数。其中，所述页面参数包括：当前页面展示内容、当前页面x、y坐标以及当前屏幕大小。

所述分词模块142，用于对页面展示的内容进行分词。

所述指令转化模块143，用于根据页面参数和分词结果，将用户输入的语音转化为对应的指令。

本发明实施例所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

实施例六

本实施例六对应实施例四的语音识别方法，提供了一种语音识别装置，具体的方案如下：

请参阅图6，其为本实施例六的语音识别装置的组成结构示意图。本实施例六提供了一种语音识别装置，包括第二指令获取单元210、第二指令判断单元220和第二指令匹配单元230。

所述第二指令获取单元210，用于获取与当前页面的业务信息相关联的指令；

具体的，所述第二指令获取单元210具体用于生成与当前页面业务相关联的指令，并将所述指令发送至客户端。

作为本实施例六的一种变形实施方式，所述第二指令获取单元210具体用于接收由客户端生成的与当前页面业务相关联的指令。

所述第二指令判断单元220，用于接收由客户端发送的语音信息，并将该语音信息与所述指令进行匹配判断。

所述第二指令匹配单元230，用于若所述语音信息与所述指令相匹配，则执行所述指令操作，将指令执行结果发送至客户端显示。

本发明实施例所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

实施例七

本发明实施例七提供一种语音识别设备，如图7所示，该设备包括：存储器31和处理器32，存储器31内存储有可在处理器32上运行的计算机程序。处理器32执行所述计算机程序时实现上述实施例中的语音识别方法。存储器31和处理器32的数量可以为一个或多个。

该设备还包括：

通信接口33，用于与外界设备进行通信，进行数据交互传输。

存储器31可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器31、处理器32和通信接口33独立实现，则存储器31、处理器32和通信接口33可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(isa，industrystandardarchitecture)总线、外部设备互连(pci，peripheralcomponent)总线或扩展工业标准体系结构(eisa，extendedindustrystandardcomponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器31、处理器32及通信接口33集成在一块芯片上，则存储器31、处理器32及通信接口33可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式只读存储器(cdrom)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本发明实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(radiofrequency，rf)等等，或者上述的任意合适的组合。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

综上所述，通过实施本发明实施例的方案，通过采用动态生成的唤醒词，可以和具体的业务紧密结合，不需要用户特地用固定唤醒词开启语音业务，从而提高用户的体验。

另外，本发明实施例还可以实现全程语音操作，不用用户手动参与，操作上更加方便。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘俊启;王磊
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种可快速拆分闸板的锁紧装置的制作方法
上一篇：导电框架及功率半导体串联结构的制作方法