语音处理方法及装置与流程

文档序号：12907175阅读：195来源：国知局

本发明涉及语音识别技术领域，尤其涉及一种语音处理方法及装置。

背景技术：

图1示出了常规对话的对话方式，如图1所示，常规对话方式的缺点在于：1)压迫感：在设备提示用户可以说话之后，用户必须尽快想好要说的句子，在vad超时之前及时说出来，同时中间不能有停顿。因为一旦有停顿的话有可能就会被设备判断为说话结束，后面再说的话就不能被设备听到和解析了。压迫感是语音交互中用户感受最糟糕的一个点，也是用户使用语音功能时学习成本最高的一个点。2)被迫等待：在对话过程中，即使用户想好了要说什么，也必须要等待设备说完才能说话。比如图1例子里用户早就看到了第一个导航结果是自己所需要的，但必须要等待设备说完“您。。。。第几个”这么冗长的话之后才能说话。3)鲁棒性差：由于用户说话的时间窗口一般是基于本地vad来确定的，但由于vad是整个智能语音对话中最不智能的一部分，经常会发生正当用户要说话时由于旁边的噪音(如旁人聊天、电视噪音等)而使得vad发生误判，导致录音窗口提前关闭，或者迟迟不能关闭的情况。

技术实现要素：

本发明实施例提供一种语音处理方法及装置，用以实现用户与设备间可进行流式对话，从而减少用户的等待时长，提高语音识别系统的鲁棒性，提升用户的使用体验。

根据本发明实施例的第一方面，提供一种语音处理方法，包括：

接收第一语音数据信息，并进行语音识别得到第一语音识别结果；

当所述终端设备在执行所述第一语音识别结果的过程中，若接收到第二语音数据信息，进行语音识别得到第二语音识别结果；

分别确定所述第一语音识别结果和所述第二语音信息识别结果所包含的信息类型；

根据所述第一语音识别结果所包含的第一信息类型和所述第二语音信息识别结果所包含的第二信息类型以及预设的行为打断规则，确定所述第一语音识别结果和所述第二语音识别结果的执行方式。

在该实施例中，如果在执行第一语音识别结果时，又接收到第二语音信息，则在识别得到第二语音识别结果后，根据两个语音识别结果的信息类型和预设的行为打断规则，确定两个语音识别结果的执行方式，即确定是否打断第一语音识别结果，开始执行第二语音识别结果。这样，可以在用户在与终端对话时，避免用户等待过长的时间，即用户不需要等待终端播报完之后再开始说话，减少用户的等待时间，提升用户的使用体验。

在一个实施例中，所述信息类型包括：语音播报、动作执行和媒体播放。

在该实施例中，语音识别结果的信息类型主要有三种，一种是语音播报，即终端设备中所虚拟的人物的语音播报，如播报天气，与用户进行聊天等；另外一种是动作执行，如开灯，导航，调节温度等动作，这些动作几乎不消耗用户的时间；还有一种是媒体播放，如播放音乐，收音机等。

在一个实施例中，所述预设的行为打断规则包括：

当所述第一信息类型和所述第二信息类型均包含语音播报或者均包含媒体播放时，停止执行所述第一语音识别结果，开始执行所述第二语音识别结果；

在该实施例中，如果两个语音识别结果中均包含语音播报，或者均包含媒体播放，那么两者必定产生冲突，此时，可以打断第一语音识别结果的执行过程，开始执行第二语音识别结果。比如前一个语音识别结果是“导航到陆家嘴”，紧接着后一个语音识别结果是“导航到陆家嘴东路”，那么第一个动作播报“为您导航到陆家嘴”同时启动导航到陆家嘴的动作，但紧接着打断第一个的播报改成播报“导航到陆家嘴东路”，同时向导航应用发出导航到陆家嘴东路的指令。

当所述第一信息类型包含媒体播放，所述第二信息类型包含语音播报时，降低所述媒体播放的音量，开始执行所述第二语音识别结果，并在所述第二语音识别结果执行完毕后，恢复所述媒体播放的音量；

在该实施例中，如果第一语音识别结果包含媒体播放，第二语音识别结果包含语音播报，则此时可以降低媒体播放的音量，开始进行第二语音识别结果对应的语音播报，在语音播报结束后，再恢复媒体播放的音量。例如，前一个语音识别结果是“播放歌曲种太阳”，紧接着后一个语音识别结果是“导航到陆家嘴东路”，那么第一个动作播放“种太阳”，但紧接着降低“种太阳”的音量，以正常音量播报“导航到陆家嘴东路”，同时向导航应用发出导航到陆家嘴东路的指令，待“导航到陆家嘴东路”播报完后，恢复正常音量继续播放歌曲“种太阳”。

当所述第一信息类型包含语音播报，所述第二信息类型包含媒体播放时，在执行完所述第一语音识别结果后，开始执行所述第二语音识别结果；

在该实施例中，如果第一语音识别结果包含语音播报，第二语音识别结果包含媒体播放，则可以在语音播报结束后，开始播放媒体信息，例如，前一个语音识别结果是“导航到陆家嘴东路”，紧接着后一个语音识别结果是“播放歌曲种太阳”，那么第一个动作播报“导航到陆家嘴东路”，同时向导航应用发出导航到陆家嘴东路的指令，，但紧接着播放歌曲“种太阳”。

当所述第一信息类型和所述第二信息类型均不包含语音播报和媒体播放时，顺序执行所述第一语音识别结果和所述第二语音识别结果。

在该实施例中，如果第一语音识别结果和第二语音识别结果均不包含语音播报和媒体播放，则可以顺序执行两个语音识别结果。例如，前一个语音识别结果是“打开车门”，紧接着后一个语音识别结果是“打开空调”，则向车门发送打开指令，然后向空调发送打开指令。

在一个实施例中，所述分别确定所述第一语音识别结果和所述第二语音信息识别结果所包含的信息类型，包括：

分别根据预设操作指南将所述第一语音识别结果和所述第二语音识别结果转化为可执行的第一操作指令信息和第二操作指令信息；

确定所述第一操作指令信息和第二操作指令信息所包含的信息类型。

在该实施例中，终端有一个映射表(或者是操作指南)，根据这个映射表解读语义解析的结果，判断出是要做什么动作(例如调高空调温度多少度)，再做什么语音播报(调节完空调后拨什么音频)。终端有一套逻辑，根据该逻辑将收到的语义解析结果转换成本地可操作的执行动作或语音播报或媒体播放。

在一个实施例中，所述方法还包括：

接收输入的行为打断规则设置命令；

根据所述行为打断规则设置命令，设置所述预设的行为打断规则。

在该实施例中，用户或者厂商可以根据需要设置预设的行为打断规则，从而根据自己的设置去处理两个语音识别结果之间的冲突。

根据本发明实施例的第二方面，提供一种语音处理装置，包括：

第一识别模块，用于接收第一语音数据信息，并进行语音识别得到第一语音识别结果；

第二识别模块，用于当所述终端设备在执行所述第一语音识别结果的过程中，若接收到第二语音数据信息，进行语音识别得到第二语音识别结果；

第一确定模块，用于分别确定所述第一语音识别结果和所述第二语音信息识别结果所包含的信息类型；

第二确定模块，用于根据所述第一语音识别结果所包含的第一信息类型和所述第二语音信息识别结果所包含的第二信息类型以及预设的行为打断规则，确定所述第一语音识别结果和所述第二语音识别结果的执行方式。

在一个实施例中，所述信息类型包括：语音播报、动作执行和媒体播放。

在一个实施例中，所述预设的行为打断规则包括：

当所述第一信息类型和所述第二信息类型均包含语音播报或者均包含媒体播放时，停止执行所述第一语音识别结果，开始执行所述第二语音识别结果；

当所述第一信息类型包含语音播报，所述第二信息类型包含媒体播放时，在执行完所述第一语音识别结果后，开始执行所述第二语音识别结果；

当所述第一信息类型和所述第二信息类型均不包含语音播报和媒体播放时，顺序执行所述第一语音识别结果和所述第二语音识别结果。

在一个实施例中，所述第一确定模块包括：

转化子模块，用于分别根据预设操作指南将所述第一语音识别结果和所述第二语音识别结果转化为可执行的第一操作指令信息和第二操作指令信息；

确定子模块，用于确定所述第一操作指令信息和第二操作指令信息所包含的信息类型。

在一个实施例中，所述装置还包括：

接收模块，用于接收输入的行为打断规则设置命令；

设置模块，用于根据所述行为打断规则设置命令，设置所述预设的行为打断规则。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是相关技术中的语音处理方法的示意图。

图2是根据一示例性实施例示出的一种语音处理方法的流程图。

图3是根据一示例性实施例示出的一种语音处理方法中步骤s203的流程图。

图4是根据一示例性实施例示出的另一种语音处理方法的流程图。

图5是根据一示例性实施例示出的行为打断表的示意图。

图6是根据一示例性实施例示出的一种语音处理装置的框图。

图7是根据一示例性实施例示出的一种语音处理装置中第一确定模块的框图。

图8是根据一示例性实施例示出的另一种语音处理装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图2是根据一示例性实施例示出的一种语音处理方法的流程图。该语音处理方法应用于终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音控制功能的设备。如图2所示，该方法包括步骤s201-s204：

在步骤s201中，接收第一语音数据信息，并进行语音识别得到第一语音识别结果；

其中，对语音数据信息进行语音识别可以由终端完成，也可以由终端发送给服务器，由服务器完成后返回给终端。语音识别结果即与语音数据信息对应的文本信息。

在步骤s202中，当所述终端设备在执行所述第一语音识别结果的过程中，若接收到第二语音数据信息，进行语音识别得到第二语音识别结果；

在步骤s203中，分别确定所述第一语音识别结果和所述第二语音信息识别结果所包含的信息类型；

在一个实施例中，所述信息类型包括：语音播报、动作执行和媒体播放。

在步骤s204中，根据所述第一语音识别结果所包含的第一信息类型和所述第二语音信息识别结果所包含的第二信息类型以及预设的行为打断规则，确定所述第一语音识别结果和所述第二语音识别结果的执行方式。

在一个实施例中，所述预设的行为打断规则包括：

当所述第一信息类型和所述第二信息类型均包含语音播报或者均包含媒体播放时，停止执行所述第一语音识别结果，开始执行所述第二语音识别结果；

当所述第一信息类型包含语音播报，所述第二信息类型包含媒体播放时，在执行完所述第一语音识别结果后，开始执行所述第二语音识别结果；

在该实施例中，如果第一语音识别结果包含语音播报，第二语音识别结果包含媒体播放，则可以在语音播报结束后，开始播放媒体信息，例如，前一个语音识别结果是“导航到陆家嘴东路”，紧接着后一个语音识别结果是“播放歌曲种太阳”，那么第一个动作播报“导航到陆家嘴东路”，同时向导航应用发出导航到陆家嘴东路的指令，但紧接着播放歌曲“种太阳”。

当所述第一信息类型和所述第二信息类型均不包含语音播报和媒体播放时，顺序执行所述第一语音识别结果和所述第二语音识别结果。

图3是根据一示例性实施例示出的一种语音处理方法中步骤s203的流程图。

如图3所示，在一个实施例中，图2中的步骤s203包括步骤s301-s302：

在步骤s301中，分别根据预设操作指南将所述第一语音识别结果和所述第二语音识别结果转化为可执行的第一操作指令信息和第二操作指令信息；

在步骤s302中，确定所述第一操作指令信息和第二操作指令信息所包含的信息类型。

图4是根据一示例性实施例示出的另一种语音处理方法的流程图。

如图4所示，在一个实施例中，上述方法还包括步骤s401-s402：

接收输入的行为打断规则设置命令；

根据所述行为打断规则设置命令，设置所述预设的行为打断规则。

在该实施例中，用户或者厂商可以根据需要设置预设的行为打断规则，从而根据自己的设置去处理两个语音识别结果之间的冲突。

其中，如图5所示，可以设置一个行为打断表作为一个预设的行为打断规则，其中，n，a，m分别表示语音播报，动作执行和媒体播放，p(n-1)表示第一语音识别结果，p(n)表示第二语音识别结果，具体设置见图5。

下述为本发明装置实施例，可以用于执行本发明方法实施例。

图6是根据一示例性实施例示出的一种语音处理装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图6所示，该语音处理装置包括：

第一识别模块61，用于接收第一语音数据信息，并进行语音识别得到第一语音识别结果；

第二识别模块62，用于当所述终端设备在执行所述第一语音识别结果的过程中，若接收到第二语音数据信息，进行语音识别得到第二语音识别结果；

第一确定模块63，用于分别确定所述第一语音识别结果和所述第二语音信息识别结果所包含的信息类型；

第二确定模块64，用于根据所述第一语音识别结果所包含的第一信息类型和所述第二语音信息识别结果所包含的第二信息类型以及预设的行为打断规则，确定所述第一语音识别结果和所述第二语音识别结果的执行方式。

在一个实施例中，所述信息类型包括：语音播报、动作执行和媒体播放。

在一个实施例中，所述预设的行为打断规则包括：

当所述第一信息类型和所述第二信息类型均包含语音播报或者均包含媒体播放时，停止执行所述第一语音识别结果，开始执行所述第二语音识别结果；

当所述第一信息类型包含语音播报，所述第二信息类型包含媒体播放时，在执行完所述第一语音识别结果后，开始执行所述第二语音识别结果；

当所述第一信息类型和所述第二信息类型均不包含语音播报和媒体播放时，顺序执行所述第一语音识别结果和所述第二语音识别结果。

图7是根据一示例性实施例示出的一种语音处理装置中第一确定模块的框图。

如图7所示，在一个实施例中，所述第一确定模块63包括：

转化子模块71，用于分别根据预设操作指南将所述第一语音识别结果和所述第二语音识别结果转化为可执行的第一操作指令信息和第二操作指令信息；

确定子模块72，用于确定所述第一操作指令信息和第二操作指令信息所包含的信息类型。

图8是根据一示例性实施例示出的另一种语音处理装置的框图。

如图8所示，在一个实施例中，所述装置还包括：

接收模块81，用于接收输入的行为打断规则设置命令；

设置模块82，用于根据所述行为打断规则设置命令，设置所述预设的行为打断规则。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李霄寒;全刚;谢政彪;李鹏;刘升平
技术所有人：深圳云知声信息技术有限公司
我是此专利的发明人