一种语音控制方法、装置、设备及存储介质与流程

文档序号：17652052发布日期：2019-05-15 21:31阅读：158来源：国知局

本发明涉及语音交互技术领域，尤其涉及一种语音控制方法、装置、设备及存储介质。

背景技术：

现有的语音交互技术中，用户在使用语音交互设备时，需要首先说出固定的唤醒词来唤醒设备，等待设备播报唤醒成功的提示后，再说出包含需求的语音指令。

例如，某语音交互设备的唤醒词为“小a小a”。当用户需要语音交互设备播放音乐时，首先说出“小a小a”，等待语音交互设备播放“我来了”的语音信息。之后，用户再说出“我要听音乐”，语音交互设备对接收的语音信息进行语音识别，得到对应的文本信息，并针对该文本信息执行相应的操作。

可见，现有的语音交互方式中，用户每发出一次指令都需要两轮交互。并且，用户需要掌握唤醒词并了解语音交互设备何时被唤醒成功，在等待唤醒成功的提示之后再说出相应的指令。这种方式费时费力，导致用户体验较差。

技术实现要素：

本发明实施例提供一种语音控制方法及装置，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种语音控制方法，包括：

检测语音信息的前多个音节中是否包含唤醒关键词；

如果包含，则对所述语音信息进行语音识别，得到所述语音信息对应的文本信息；

针对所述文本信息执行对应的操作。

在一种实施方式中，所述检测语音信息的前多个音节中是否包含唤醒关键词，包括：

采用预先设置的针对多个唤醒关键词的语音唤醒模型，检测所述语音信息的前多个音节中是否包含所述多个唤醒关键词中的任意一个唤醒关键词，如果是，则判定所述语音信息的前多个音节中包含唤醒关键词。

在一种实施方式中，所述针对所述文本信息执行相应的处理，包括：

判断所述文本信息是否为指令信息；

如果是，则针对所述文本信息执行对应的操作。

在一种实施方式中，所述判断所述文本信息是否为指令信息，包括：

根据预设的唤醒关键词与指令判断策略的对应关系，获取所述语音信息中包含的唤醒关键词所对应的指令判断策略；

采用获取的指令判断策略判断所述文本信息是否为指令信息。

在一种实施方式中，所述语音唤醒模型设置于本地装置。

在一种实施方式中，所述对所述语音信息进行语音识别，包括：采用设置于本地装置的语音识别模型对所述语音信息进行语音识别；或者，将所述语音信息发送至云端服务器，采用设置于云端服务器的语音识别模型对所述语音信息进行语音识别。

第二方面，本发明实施例还提出一种语音控制装置，包括：

检测模块，用于检测语音信息的前多个音节中是否包含唤醒关键词；如果包含，则指示识别模块进行识别；

所述识别模块，用于根据所述检测模块的指示，对所述语音信息进行语音识别，得到所述语音信息对应的文本信息；

操作模块，用于针对所述文本信息执行对应的操作。

在一种实施方式中，所述检测模块用于，采用预先设置的针对多个唤醒关键词的语音唤醒模型，检测所述语音信息的前多个音节中是否包含所述多个唤醒关键词中的任意一个唤醒关键词，如果是，则判定所述语音信息的前多个音节中包含唤醒关键词。

在一种实施方式中，所述操作模块包括：

判断子模块，用于判断所述文本信息是否为指令信息；如果是，则指示执行子模块进行执行；

所述执行子模块，用于根据所述判断子模块的指示，针对所述文本信息执行对应的操作。

在一种实施方式中，所述判断子模块，用于根据预设的唤醒关键词与指令判断策略的对应关系，获取所述语音信息中包含的唤醒关键词所对应的指令判断策略；采用获取的指令判断策略判断所述文本信息是否为指令信息。

在一种实施方式中，所述检测模块用于，采用设置于本地装置的语音唤醒模型进行检测。

在一种实施方式中，所述识别模块用于，采用设置于本地装置的语音识别模型对所述语音信息进行语音识别；或者，将所述语音信息发送至云端服务器，采用设置于云端服务器的语音识别模型对所述语音信息进行语音识别。

第三方面，本发明实施例提供了一种语音控制设备，所述设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述设备的结构中包括处理器和存储器，所述存储器用于存储支持所述设备执行上述语音控制方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储语音控制设备所用的计算机软件指令，其包括用于执行上述语音控制方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明实施例提出的语音控制方法和装置，检测用户发出的语音信息的前多个音节中是否包含唤醒关键词，如果包含，则直接对语音信息的全部内容进行语音识别，并针对识别结果执行相应的操作。可见，采用本发明实施例，用户在说出作为指令的语音信息之前不需要单独说出唤醒词，也不需要等待唤醒成功，而是可以直接说出语音信息。因此本发明实施例可以简化与语音交互设备的交互流程，提高用户体验。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例的一种语音控制方法实现流程图；

图2为本发明实施例的一种语音控制方法中步骤s13的实现流程图；

图3为本发明实施例的一种语音控制方法的应用实例一的流程图；

图4为本发明实施例的一种语音控制方法的应用实例二的流程图；

图5为本发明实施例的一种语音控制方法的应用实例三的流程图；

图6为本发明实施例的一种语音控制装置的结构示意图；

图7为本发明实施例的一种语音控制装置的结构示意图；

图8为本发明实施例的一种语音控制设备的结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

本发明实施例主要提供了语音控制方法和装置，下面分别通过以下实施例进行技术方案的展开描述。

本发明实施例提出的语音控制方法可以应用于语音交互设备，并且语音交互设备在执行该方法之前，可以处于任意状态。当语音交互设备接收到用户发出的语音信息时，执行本发明实施例提出的语音控制方法。

如图1为本发明实施例的一种语音控制方法实现流程图，该方法包括：

s11：检测语音信息的前多个音节中是否包含唤醒关键词；如果包含，则执行步骤s12；

s12：对语音信息进行语音识别，得到语音信息对应的文本信息；

s13：针对文本信息执行对应的操作。

在一种可能的实施方式中，上述唤醒关键词可以针对不同的应用场景，并根据用户在不同应用场景下语音指令的前几个惯用字进行设置。例如，针对导航场景，可以设置唤醒关键词为“导航到”或“我要去”；针对音频播放场景，可以设置唤醒关键词为“我要听”；针对拨打电话场景，可以设置唤醒关键词为“打电话给”。

语音交互设备接收到语音信息之后，如果检测到语音信息中的前几个音节中包含唤醒关键词，则继续对该语音信息的全部内容进行语音识别，得到对应的文本信息。可见，唤醒关键词起到了将语音交互设备唤醒的作用。但是，本发明实施例中的唤醒关键词不同于现有技术中的唤醒词。其原因是：用户在发出语音信息时，并不需要了解唤醒关键词的具体内容，而只需要按照一般的语言习惯发出语音信息。并且，语音交互设备被唤醒之后，也不需要发出已被唤醒的提示音，而是直接对语音信息进行识别。由于这些特点，用户不会感知到语音交互设备被唤醒的过程。

在一种可能的实施方式中，上述步骤s11中检测语音信息的前多个音节中是否包含唤醒关键词，包括：

采用预先设置的针对多个唤醒关键词的语音唤醒模型，检测所述语音信息的前多个音节中是否包含所述多个唤醒关键词中的任意一个唤醒关键词，如果是，则判定所述语音信息的前多个音节中包含唤醒关键词。其中，前多个音节可以指在一个自然语句或一句话中的前几个音节，具体长度可以由唤醒关键词的长度决定。

例如，预先设置四个唤醒关键词，包括“导航到”、“我要去”、“我要听”和“打电话给”。针对这四个唤醒关键词设置语音唤醒模型。当接收到语音信息时，采用该语音唤醒模型检测语音信息的前几个音节中是否包含前述四个唤醒关键词中的任意一个。如果是，则判定语音信息中包含唤醒关键词，继续对语音信息进行语音识别。在本实施例中，检测的前几个音节的长度应该等于或大于这四个唤醒关键词中最长的唤醒关键词所对应的音节长度。汉语中一般一个汉字的读音为一个音节，上述四个唤醒关键词中最长的包括4个汉字，因此，可以检测语音信息中从第一个音节开始的前4个音节中是否包含前述四个唤醒关键词中的任意一个。

在一种可能的实施方式中，语音唤醒模型可以采用多个语音样本训练得到。例如，针对“导航到”，采集不同声调、不同方言及发音相近的语音样本，利用采集的语音样本对语音唤醒模型进行训练，使其能够检测出接收到的语音信息中是否包含“导航到”这一唤醒关键词。针对其他的唤醒关键词，也采用同样的方式训练语音唤醒模型。

此外，针对各个唤醒关键词，还可以在语音唤醒模型中预先存储对应该唤醒关键词的不同声调、不同方言的语音样本。在检测时，分别计算接收到的语音信息中的内容与各个语音样本的相似度，只要与其中一个语音样本的相似度大于预设的门限，则判定该语音信息中包含该唤醒关键词。

如图2所示，在一种可能的实施方式中，上述步骤s13可以包括：

s131：判断文本信息是否为指令信息；如果是，则执行步骤s132；否则，结束当前流程，即对该文本信息不做处理。

s132：针对文本信息执行对应的操作。

其中，判断文本信息是否为指令信息的方式可以包括：

根据预设的唤醒关键词与指令判断策略的对应关系，获取所述语音信息中包含的唤醒关键词所对应的指令判断策略；采用获取的指令判断策略判断所述文本信息是否为指令信息。

由于一个唤醒关键词对应一定的应用场景，而每个应用场景中的指令信息又具备不同的特点。因此，可以根据该特点设置针对不同唤醒关键词的指令判断策略，并存储唤醒关键词与指令判断策略的对应关系。

如下表1显示了应用场景、唤醒关键词及常见的指令信息的对应关系。

表1

以表1所示的对应关系为例。针对导航场景，设置两个唤醒关键词，即“我要去”和“导航到”。在导航场景中，常见的指令信息中包含地名或场所类型，并且该地名或场所类型与语音交互设备当前所在的位置有关。一般情况下，该地名或场所类型位于当前位置的导航范围内。根据前述指令信息的特点，可以设置相应的指令判断策略。例如，将唤醒关键词“我要去”和“导航到”对应的指令判断策略设置为：当文本信息中包含地名或场所类型，并且该地名或场所类型在导航的范围内时，判定该文本信息为指令信息。

针对音频播放场景，设置一个唤醒关键词，即“我要听”。在音频播放场景中，常见的指令信息中包含表演者名称、歌曲名称、专辑名称、节目名称或音频类型等信息。根据前述指令信息的特点，可以设置相应的指令判断策略。例如，将唤醒关键词“我要听”对应的指令判断策略设置为：当文本信息中包含表演者名称、歌曲名称、专辑名称、节目名称或音频类型时，判定该文本信息为指令信息。

针对拨打电话场景，设置一个唤醒关键词，即“打电话给”。在拨打电话场景中，常见的指令信息中包含联系人名称、电话号码或黄页内容等信息。根据前述指令信息的特点，可以设置相应的指令判断策略。例如，将唤醒关键词“打电话给”对应的指令判断策略设置为：当文本信息中包含联系人名称、电话号码或黄页内容时，判定该文本信息为指令信息。

以上介绍了针对不同应用场景的唤醒关键词、以及唤醒关键词对应的指令判断策略。以上内容仅为举例，本发明实施例适用的应用场景不限于以上三种，并且各个应用场景对应的唤醒关键词、以及唤醒关键词所对应的指令判断策略也不限于以上内容。本发明实施例还可以根据需求更新唤醒关键词及对应的指令判断策略。

以下采用具体的实施例，详细介绍本发明实施例的一种语音控制方法的应用实例，如图3为应用实例一的流程图，包括：

s31：语音交互设备处于音频播放状态。

s32：接收到用户发出的语音信息，该语音信息为“我要去旅游”。

s33：采用语音唤醒模型，识别出该语音信息的前多个音节中包含唤醒关键词“我要去”，语音交互设备被唤醒。

s34：对用户发出的语音信息进行语音识别，得到对应的文本信息“我要去旅游”。

s35：获取唤醒关键词“我要去”对应的指令判断策略，根据该指令判断策略对文本信息“我要去旅游”进行判断，发现文本信息“我要去旅游”中不包含地名或场所类型，因此不属于“我要去”所对应的导航场景中的指令信息。因此，语音交互设备忽略该文本信息，仍然处于音频播放状态。

如图4为应用实例二的流程图，包括：

s41：语音交互设备处于音频播放状态。

s42：接收到用户发出的语音信息，该语音信息为“导航到儿童医院”。

s43：采用语音唤醒模型，识别出该语音信息的前多个音节中包含唤醒关键词“导航到”，语音交互设备被唤醒。

s44：对用户发出的语音信息进行语音识别，得到对应的文本信息“导航到儿童医院”。

s45：获取唤醒关键词“导航到”对应的指令判断策略，根据该指令判断策略对文本信息“导航到儿童医院”进行判断，发现文本信息“导航到儿童医院”属于“导航到”所对应的导航场景中的指令信息。

s46：语音交互设备停止音频播放。如果语音交互设备带有显示屏幕，可以将文本信息“导航到儿童医院”显示在屏幕上。并且，语音交互设备切换至导航应用，并将儿童医院作为导航的目的地。

如图5为应用实例三的流程图，包括：

s51：语音交互设备处于待机状态、音频播放状态或正在播放语音提示。

s52：接收到用户发出的语音信息，该语音信息为“我要听fm100”。

s53：采用语音唤醒模型，识别出该语音信息的前多个音节中包含唤醒关键词“我要听”，语音交互设备被唤醒。

s54：对用户发出的语音信息进行语音识别，得到对应的文本信息“我要听fm100”。

s55：获取唤醒关键词“我要听”对应的指令判断策略，根据该指令判断策略对文本信息“我要听fm100”进行判断，发现文本信息“我要听fm100”中包含音频类型，因此属于“我要听”所对应的音频播放场景中的指令信息。

s56：语音交互设备播放语音提示“为您打开fm100”，并开启广播设备。如果语音交互设备带有显示屏幕，可以将文本信息“我要听fm100”在屏幕上显示。

本发明实施例可以应用于车载语音交互设备。在一种可能的实施方式中，本发明实施例支持离线唤醒及在线唤醒，并支持离线识别及在线识别。本发明实施例支持语音交互设备向云端服务器上传电话通讯录以及本地存储的音频信息。

在一种可能的实施方式中，上述语音唤醒模型可以设置于本地装置，以支持在线唤醒。

此外，在一种可能的实施方式中，上述步骤s12中的对语音信息进行语音识别可以为离线识别和在线识别两种方式，具体包括：

采用设置于本地装置的语音识别模型对语音信息进行语音识别；

或者，将语音信息发送至云端服务器，采用设置于云端服务器的语音识别模型对语音信息进行语音识别。

离线识别可以支持上述实施例中的拨打电话及音频播放场景，在线识别可以支持上述实施例中的拨打电话、音频播放及导航场景。

本发明实施例还提出一种语音控制装置。参见图6，图6为本发明实施例的一种语音控制装置结构示意图，包括：

检测模块610，用于检测语音信息的前多个音节中是否包含唤醒关键词；如果包含，则指示识别模块620进行识别；

所述识别模块620，用于根据检测模块610的指示，对所述语音信息进行语音识别，得到所述语音信息对应的文本信息；

操作模块630，用于针对所述文本信息执行对应的操作。

本发明实施例还提出一种语音控制装置。参见图7，图7为本发明实施例的一种语音控制装置结构示意图，包括：

检测模块610、识别模块620和操作模块630，前述三个模块与上述实施例中的对应模块相同，不再赘述。

在一种可能的实施方式中，所述检测模块610用于，采用预先设置的针对多个唤醒关键词的语音唤醒模型，检测所述语音信息的前多个音节中是否包含所述多个唤醒关键词中的任意一个唤醒关键词，如果是，则判定所述语音信息的前多个音节中包含唤醒关键词。

在一种可能的实施方式中，所述操作模块630包括：

判断子模块631，用于判断所述文本信息是否为指令信息；如果是，则指示执行子模块632进行执行；

所述执行子模块632，用于根据所述判断子模块的指示，针对所述文本信息执行对应的操作。

在一种可能的实施方式中，所述判断子模块631，用于根据预设的唤醒关键词与指令判断策略的对应关系，获取所述语音信息中包含的唤醒关键词所对应的指令判断策略；采用获取的指令判断策略判断所述文本信息是否为指令信息。

在一种可能的实施方式中，所述检测模块610用于，采用设置于本地装置的语音唤醒模型进行检测。

在一种可能的实施方式中，所述识别模块620用于，采用设置于本地装置的语音识别模型对所述语音信息进行语音识别；或者，将所述语音信息发送至云端服务器，采用设置于云端服务器的语音识别模型对所述语音信息进行语音识别。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

本发明实施例还提出一种语音控制设备，如图8为本发明实施例的语音控制设备结构示意图，包括：

存储器11和处理器12，存储器11存储有可在处理器12上运行的计算机程序。所述处理器12执行所述计算机程序时实现上述实施例中的语音控制方法。所述存储器11和处理器12的数量可以为一个或多个。

所述设备还可以包括：

通信接口13，用于与外界设备进行通信，进行数据交换传输。

存储器11可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器11、处理器12和通信接口13独立实现，则存储器11、处理器12和通信接口13可以通过总线相互连接并完成相互之间的通信。所述总线可以是工业标准体系结构(isa，industrystandardarchitecture)总线，外部设备互连(pci，peripheralcomponentinterconnect)总线或扩展工业标准体系结构(eisa，extendedindustrystandardarchitecture)等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器11、处理器12和通信接口13集成在一块芯片上，则存储器11、处理器12和通信接口13可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

综上所述，本发明实施例提出的语音控制方法和装置，当接收到用户发出的语音信息时，检测语音信息的前多个音节中是否包含唤醒关键词，如果包含，则直接对语音信息的全部内容进行语音识别，并针对识别结果执行相应的操作。可见，采用本发明实施例，用户在发出作为指令的语音信息之前不需要单独说出唤醒词，也不需要等待唤醒成功，而是可以直接说出语音信息。因此本发明实施例可以简化交互流程，提高用户体验。为降低误唤醒的可能性，本发明实施例还可以判断语音识别后得到的文本信息是否为指令信息，并在是指令信息的情况下执行对应的操作。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐丹丹
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人