免唤醒语音交互方法、装置、设备及存储介质与流程

文档序号：16848039发布日期：2019-02-12 22:29阅读：292来源：国知局

本发明涉及语音识别领域，尤其涉及一种免唤醒语音交互方法、装置、设备及存储介质。

背景技术：

现在的远场智能语音产品，用户在使用的时候要先唤醒，即通过定制的命令词，启动产品的识别功能来进行后续的交互，例如，“小度小度”，设备反馈“我在”，然后用户再继续说“我要看电影”，其中“小度小度”就是唤醒词，设备接受指令并执行后，会关闭交互，等待下一次唤醒。

用唤醒词唤醒作为重要的开始步骤，影响了很多远场语音交互的体验，其中常见的问题是“唤不醒”和“误唤醒”，“唤不醒”导致后续的命令无法继续，“误唤醒”就是在用户没有发出指令的时候，由于环境声音的干扰，导致设备误以为有指令的情况。

技术实现要素：

本发明的主要目的在于提供一种免唤醒语音交互方法、装置、设备及存储介质，旨在解决现有技术中用唤醒词唤醒语音产品容易出现误唤醒或唤不醒的情况，导致无法清除了解用户意图，导致用户语音交互体验差的技术问题。

为实现上述目的，本发明提供一种免唤醒语音交互方法，所述免唤醒语音交互方法包括以下步骤：

对当前环境的目标音频信号进行语音识别，获得文字信息；

对所述文字信息进行语义识别，获得完整意图向量；

获取当前环境所属的当前对话场景，根据所述当前对话场景过滤掉所述完整意图向量中的无关字段；

根据过滤后的完整意图向量获取操作指令，根据所述操作指令对目标设备进行功能控制，以实现语音交互。

优选地，所述对所述文字信息进行语义识别，获得完整意图向量，包括：

根据预设意图词数据库对所述文字信息进行语义识别，获得所述文字信息中的对话对象、所属功能领域和指令动词；

根据所述对话对象、所属功能领域和指令动词确定完整意图向量。

优选地，所述根据所述对话对象、所属功能领域和指令动词确定完整意图向量，包括：

从预设历史语音数据库中获取与所述当前对话相邻的上一段对话的历史所属功能领域；

将所述所属功能领域与所述历史所属功能领域进行匹配，生成匹配结果；

根据所述匹配结果、所述对话对象、所属功能领域和指令动词确定完整意图向量。

优选地，所述根据所述匹配结果、所述对话对象、所属功能领域和指令动词确定完整意图向量，包括：

在所述匹配结果为所述所属功能领域与所述历史所属功能领域相同时，将所述对话对象、所属功能领域和指令动词作为完整意图向量；

在所述匹配结果为所述所属功能领域与所述历史所属功能领域不相同时，判断所述对话对象、所属功能领域和指令动词是否为预设向量集中包含的向量；

在所述对话对象、所属功能领域和指令动词为所述预设向量集中包含的向量时，将所述对话对象、所属功能领域和指令动词作为完整意图向量。

优选地，所述获取当前环境所属的当前对话场景，根据所述当前对话场景过滤掉所述完整意图向量中的无关字段，包括：

获取当前环境所属的当前对话场景，将所述当前对话场景代入至预设对话字段模型中，获得当前对话场景字段集；

将所述完整意图向量与所述当前对话场景字段集进行匹配，获得无法匹配的字段，将无法匹配的字段作为所述完整意图向量中的无关字段。

优选地，所述根据过滤后的完整意图向量获取操作指令，根据所述操作指令对目标设备进行功能控制，以实现语音交互，包括：

将过滤后的完整意图向量代入至预设指令模型中，获得目标指令，将所述目标指令作为操作指令，所述预设指令模型用于反映各完整意图向量与指令之间的映射关系；

根据所述操作指令对目标设备进行功能控制，以实现语音交互。

优选地，所述对当前环境的目标音频信号进行语音识别，获得文字信息之前，所述免唤醒语音交互方法还包括：

通过当前设备的麦克风接收当前环境的声音，并根据所述当前环境的声音生成目标音频信号。

此外，为实现上述目的，本发明还提出一种免唤醒语音交互设备，所述免唤醒语音交互设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的免唤醒语音交互程序，所述免唤醒语音交互程序配置为实现如上文所述的免唤醒语音交互方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有免唤醒语音交互程序，所述免唤醒语音交互程序被处理器执行时实现如上文所述的免唤醒语音交互方法的步骤。

此外，为实现上述目的，本发明还提供一种免唤醒语音交互装置，所述免唤醒语音交互装置包括：信息获取模块、语义识别模块、过滤模块和语音交互模块；

其中，所述信息获取模块，用于对当前环境的目标音频信号进行语音识别，获得文字信息；

所述语义识别模块，用于对所述文字信息进行语义识别，获得完整意图向量；

所述过滤模块，用于获取当前环境所属的当前对话场景，根据所述当前对话场景过滤掉所述完整意图向量中的无关字段；

所述语音交互模块，用于根据过滤后的完整意图向量获取操作指令，根据所述操作指令对目标设备进行功能控制，以实现语音交互。

本发明提出的免唤醒语音交互方法，通过对当前环境的目标音频信号进行语音识别，获得文字信息；对所述文字信息进行语义识别，获得完整意图向量；获取当前环境所属的当前对话场景，根据所述当前对话场景过滤掉所述完整意图向量中的无关字段；根据过滤后的完整意图向量获取操作指令，根据所述操作指令对目标设备进行功能控制，以实现语音交互，通过对完整意图向量的判断，可以避免不相关的对话对语音交互的影响，并且不需要唤醒词，让用户自然的与语音设备对话，节省了设备启动的时间，提升了用户远场语音交互的体验。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的免唤醒语音交互设备结构示意图；

图2为本发明免唤醒语音交互方法第一实施例的流程示意图；

图3为本发明免唤醒语音交互方法第二实施例的流程示意图；

图4为本发明免唤醒语音交互方法第三实施例的流程示意图；

图5为本发明免唤醒语音交互装置第一实施例的功能模块图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的解决方案主要是：本发明通过对当前环境的目标音频信号进行语音识别，获得文字信息；对所述文字信息进行语义识别，获得完整意图向量；获取当前环境所属的当前对话场景，根据所述当前对话场景过滤掉所述完整意图向量中的无关字段；根据过滤后的完整意图向量获取操作指令，根据所述操作指令对目标设备进行功能控制，以实现语音交互，通过对完整意图向量的判断，可以避免不相关的对话对语音交互的影响，并且不需要唤醒词，让用户自然的与语音设备对话，节省了设备启动的时间，提升了用户远场语音交互的体验，解决了现有技术中用唤醒词唤醒语音产品容易出现误唤醒或唤不醒的情况，导致无法清除了解用户意图，导致用户语音交互体验差的技术问题。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的免唤醒语音交互设备结构示意图。

如图1所示，该免唤醒语音交互设备可以包括：处理器1001，例如中央处理器(centralprocessingunit，cpu)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity，wi-fi)接口)。存储器1005可以是高速的随机存取存储器(randomaccessmemory，ram)存储器，也可以是稳定的存储器(non-volatilememory，nvm)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的免唤醒语音交互设备结构并不构成对该免唤醒语音交互设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作装置、网络通信模块、用户端接口模块以及免唤醒语音交互程序。

对当前环境的目标音频信号进行语音识别，获得文字信息；

对所述文字信息进行语义识别，获得完整意图向量；

获取当前环境所属的当前对话场景，根据所述当前对话场景过滤掉所述完整意图向量中的无关字段；

根据过滤后的完整意图向量获取操作指令，根据所述操作指令对目标设备进行功能控制，以实现语音交互。

进一步地，处理器1001可以调用存储器1005中存储的免唤醒语音交互程序，还执行以下操作：

根据预设意图词数据库对所述文字信息进行语义识别，获得所述文字信息中的对话对象、所属功能领域和指令动词；

根据所述对话对象、所属功能领域和指令动词确定完整意图向量。

进一步地，处理器1001可以调用存储器1005中存储的免唤醒语音交互程序，还执行以下操作：

从预设历史语音数据库中获取与所述当前对话相邻的上一段对话的历史所属功能领域；

将所述所属功能领域与所述历史所属功能领域进行匹配，生成匹配结果；

根据所述匹配结果、所述对话对象、所属功能领域和指令动词确定完整意图向量。

进一步地，处理器1001可以调用存储器1005中存储的免唤醒语音交互程序，还执行以下操作：

在所述匹配结果为所述所属功能领域与所述历史所属功能领域相同时，将所述对话对象、所属功能领域和指令动词作为完整意图向量；

在所述对话对象、所属功能领域和指令动词为所述预设向量集中包含的向量时，将所述对话对象、所属功能领域和指令动词作为完整意图向量。

进一步地，处理器1001可以调用存储器1005中存储的免唤醒语音交互程序，还执行以下操作：

获取当前环境所属的当前对话场景，将所述当前对话场景代入至预设对话字段模型中，获得当前对话场景字段集；

将所述完整意图向量与所述当前对话场景字段集进行匹配，获得无法匹配的字段，将无法匹配的字段作为所述完整意图向量中的无关字段。

进一步地，处理器1001可以调用存储器1005中存储的免唤醒语音交互程序，还执行以下操作：

根据所述操作指令对目标设备进行功能控制，以实现语音交互。

进一步地，处理器1001可以调用存储器1005中存储的免唤醒语音交互程序，还执行以下操作：

通过当前设备的麦克风接收当前环境的声音，并根据所述当前环境的声音生成目标音频信号。

本实施例通过上述方案，通过对当前环境的目标音频信号进行语音识别，获得文字信息；对所述文字信息进行语义识别，获得完整意图向量；获取当前环境所属的当前对话场景，根据所述当前对话场景过滤掉所述完整意图向量中的无关字段；根据过滤后的完整意图向量获取操作指令，根据所述操作指令对目标设备进行功能控制，以实现语音交互，通过对完整意图向量的判断，可以避免不相关的对话对语音交互的影响，并且不需要唤醒词，让用户自然的与语音设备对话，节省了设备启动的时间，提升了用户远场语音交互的体验。

基于上述硬件结构，提出本发明免唤醒语音交互方法实施例。

参照图2，图2为本发明免唤醒语音交互方法第一实施例的流程示意图。

在第一实施例中，所述免唤醒语音交互方法包括以下步骤：

步骤s10、对当前环境的目标音频信号进行语音识别，获得文字信息。

需要说明的是，所述当前环境的目标音频信号为当前环境收集的声音对应的音频信号收集的方式可以通过麦克风设备收集当前环境的声音，并转化为对应的音频信号，通过对所述目标音频信号进行语音识别，可以获得文字信息。

进一步地，所述步骤s10之前，所述免唤醒语音交互方法还包括以下步骤：

通过当前设备的麦克风接收当前环境的声音，并根据所述当前环境的声音生成目标音频信号。

可以理解的是，通过当前设备的麦克风可以实时接收当前环境的声音，进而根据所述当前环境的声音生成对应的目标音频信号，一般的可以通过麦克风阵列进行声源定位以及自适应波束实现语音增强，并且在生成目标音频信号后，可以通过降噪处理解决噪声、混响和回声等干扰声音带来的影响。

步骤s20、对所述文字信息进行语义识别，获得完整意图向量。

可以理解的是，对所述文字信息进行语义识别，可以获得完整意图向量，所述完整意图向量包括但不限于对话对象、功能领域、指令动词和指令实体参数，所述对话对象为预先设置的代表设备的想象的形象实体，可以按照不同的场景进行定制，例如管理智能家居设备的可以称呼为“大总管”，帮助影视搜索的叫做“小精灵”，知识问答的可以叫做“大百科”；所述功能领域是预先设置的用于设备实现的具体功能，所述功能领域包括但不限于“影视”、“音乐”、“设备控制”、“天气”、“新闻”、“股票证券”和“有声节目”等；所述指令动词为预先设置的用于控制目标设备的指令控制动词，所述指令动词包括但不限于“搜索”、“播放”、“控制声音”、“控制进度”、“查询”、“订购”和“支付”等；所述指令实体为预先设置的用于在各功能领域中所存在的实体名词，所述指令实体包括但不限于“城市”、“时间”、“物品”、“影音作品”、“公司名称”和“名人”等。

步骤s30、获取当前环境所属的当前对话场景，根据所述当前对话场景过滤掉所述完整意图向量中的无关字段。

应当理解的是，所述当前对话场景为所述当前环境所属的对话场景，不同的对话场景对应不同的字段集合，通过所述对话场景可以获得对应的目标字段集合，根据所述目标字段集合可以与所述完整意图向量中的字段是否匹配，根据匹配结果可以确定所述完整意图向量中是否有无关字段，通过对所述完整意图向量过滤，可以避免无关字段对语音交互的干扰，提高语音交互的速度和效率。

步骤s40、根据过滤后的完整意图向量获取操作指令，根据所述操作指令对目标设备进行功能控制，以实现语音交互。

可以理解的是，所述操作指令可以是特殊字段，也可以是一段执行程序，根据过滤后的完整意图向量可以生成对应的操作指令，根据所述操作指令可以对所述目标设备进行与所述操作指令对应的功能控制，从而实现语音交互。

进一步地，所述步骤s40包括以下步骤：

根据所述操作指令对目标设备进行功能控制，以实现语音交互。

应当理解的是，所述预设指令模型为预先设置的用于获取相关操作指令的模型，所述预设指令模型用于反映各完整意图向量与指令之间的映射关系，通过将过滤后的完整意图向量代入至预设指令模型中，可以获得目标指令，即作为所述操作指令，通过所述操作指令可以对目标设备进行功能控制，从而实现语音交互，所述功能控制一般可以是直接播放或进一步语音确认，当然还可以是其他功能控制，本实施例对此不加以限制。

进一步地，图3为本发明免唤醒语音交互方法第二实施例的流程示意图，如图3所示，基于第一实施例提出本发明免唤醒语音交互方法第二实施例，在本实施例中，所述步骤s10，具体包括以下步骤：

步骤s11、根据预设意图词数据库对所述文字信息进行语义识别，获得所述文字信息中的对话对象、所属功能领域和指令动词。

需要说明的是，所述预设意图词数据库为预先设置的用于存储各种意图词的数据库，所述预设意图词数据库包含文字提取框架，通过所述文字提取框架可以获得所述文字信息中对话对象、所属功能领域和指令动词；所述意图词为包含语音交互意图的词或字段，根据所述预设意图词数据库对所述文字信息进行语义识别，可以获得所述文字信息中的对话对象、所属功能领域和指令动词。

步骤s12、根据所述对话对象、所属功能领域和指令动词确定完整意图向量。

可以理解的是，根据所述对话对象、所属功能领域和指令动词可以确定完整意图向量，即将所述对话对象、所属功能领域和指令动词作为所述完整意图向量。

进一步地，所述步骤s12包括以下步骤：

从预设历史语音数据库中获取与所述当前对话相邻的上一段对话的历史所属功能领域；

将所述所属功能领域与所述历史所属功能领域进行匹配，生成匹配结果；

根据所述匹配结果、所述对话对象、所属功能领域和指令动词确定完整意图向量。

应当理解的是，所述预设历史语音数据库为目标设备在预设时间周期内存储历史语音的数据库，从预设历史语音数据库中可以获取与所述当前对话相邻的上一段对话的历史语音数据，从所述历史语音数据中可以提取所属功能领域，当然也可以是通过其他方式获取历史所属功能领域。

可以理解的是，将所述所属功能领域和所述历史所属功能领域进行匹配，可以生成相应的匹配结果，根据对所述匹配结果的分析，可以根据所述对话对象、所属功能领域和指令动词确定完整意图向量。

进一步地，所述步骤根据所述匹配结果、所述对话对象、所属功能领域和指令动词确定完整意图向量，包括：

在所述匹配结果为所述所属功能领域与所述历史所属功能领域相同时，将所述对话对象、所属功能领域和指令动词作为完整意图向量；

在所述对话对象、所属功能领域和指令动词为所述预设向量集中包含的向量时，将所述对话对象、所属功能领域和指令动词作为完整意图向量。

应当理解的是，在所述匹配结果为所述所属功能领域与所述历史所属功能领域不相同时，即匹配不成功时，判断所述对话对象、所属功能领域和指令动词是否为预设向量集中包含的向量，所述预设向量集为预先设置的包含预设向量的集合，通过将所述对话对象、所属功能领域和指令动词与所述预设向量集中的向量对应比较，可以根据比较结果确定完整意图向量。

在具体实现中，可以将当前的文字信息的所属功能领域与所述历史所属功能领域不是同一个功能领域时，可以判断所述对话对象、所属功能领域和指令动词是否为预设向量集中包含的向量，即判断所述目标设备是否支持所述对话对象、所属功能领域和指令动词，进而确定与所述目标设备有关或无关，从而确定完整意图向量，在所述匹配结果为所述所属功能领域与所述历史所属功能领域不相同时，判断所述对话对象、所属功能领域和指令动词是否为预设向量集中包含的向量；在所述对话对象、所属功能领域和指令动词为所述预设向量集中包含的向量时，将所述对话对象、所属功能领域和指令动词作为完整意图向量，在所述匹配结果为所述所属功能领域与所述历史所属功能领域相同时，即匹配成功时，直接将所述对话对象、所属功能领域和指令动词作为完整意图向量，当然也有可能存在缺失对话对象的情况，但只要有指令动词，则可以作为所述完整意图向量。

本实施例通过上述方案，通过根据预设意图词数据库对所述文字信息进行语义识别，获得所述文字信息中的对话对象、所属功能领域和指令动词；根据所述对话对象、所属功能领域和指令动词确定完整意图向量，可以提高语音交互功能控制的准确度，避免了无关信息对语音交互的干扰，并且不需要唤醒词，让用户自然的与语音设备对话，节省了设备启动的时间，提升了用户远场语音交互的体验。

进一步地，图4为本发明免唤醒语音交互方法第三实施例的流程示意图，如图4所示，基于第二实施例提出本发明免唤醒语音交互方法第三实施例，在本实施例中，所述步骤s30具体包括以下步骤：

步骤s31、获取当前环境所属的当前对话场景，将所述当前对话场景代入至预设对话字段模型中，获得当前对话场景字段集。

需要说明的是，所述当前环境所属的当前对话场景可以是通过分析所述目标音频信号并且结合历史音频信号确定的对话场景，通过将所述当前对话场景代入至预设对话字段模型中，可以获得当前对话场景字段集，所述预设对话字段模型为预先设置的用于反映不同对话场景与不同对话场景字段集映射关系的模型，不同的对话场景对应不同的字段集。

步骤s32、将所述完整意图向量与所述当前对话场景字段集进行匹配，获得无法匹配的字段，将无法匹配的字段作为所述完整意图向量中的无关字段。

通过将所述完整意图向量与所述当前对话场景字段集进行匹配，可以获得匹配成功的结果和匹配失败的结果，其中所述匹配失败的结果为无法匹配的字段，将无法匹配的字段作为所述完整意图向量中的无关字段。

本实施例通过上述方案，通过获取当前环境所属的当前对话场景，将所述当前对话场景代入至预设对话字段模型中，获得当前对话场景字段集；将所述完整意图向量余所述当前对话场景字段集进行匹配，获得无法匹配的字段，将无法匹配的字段作为所述完整意图向量中的无关字段，通过对无关字段的过滤筛除能够有效避免不相关的字段对语音交互的影响，并且不需要唤醒词，让用户自然的与语音设备对话，节省了设备启动的时间，提升了用户远场语音交互的体验。

基于上述免唤醒语音交互方法的实施例，本发明进一步提供一种免唤醒语音交互装置。

参照图5，图5为本发明免唤醒语音交互装置第一实施例的功能模块图。

本发明免唤醒语音交互装置第一实施例中，该免唤醒语音交互装置包括：信息获取模块10、语义识别模块20、过滤模块30和语音交互模块40；

其中，所述信息获取模块10，用于对当前环境的目标音频信号进行语音识别，获得文字信息。

所述语义识别模块20，用于对所述文字信息进行语义识别，获得完整意图向量。

所述过滤模块30，用于获取当前环境所属的当前对话场景，根据所述当前对话场景过滤掉所述完整意图向量中的无关字段。

所述语音交互模块40，用于根据过滤后的完整意图向量获取操作指令，根据所述操作指令对目标设备进行功能控制，以实现语音交互。

其中，免唤醒语音交互装置的各个功能模块实现的步骤可参照本发明免唤醒语音交互方法的各个实施例，此处不再赘述。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有免唤醒语音交互程序，所述免唤醒语音交互程序被处理器执行时实现如下操作：

对当前环境的目标音频信号进行语音识别，获得文字信息；

对所述文字信息进行语义识别，获得完整意图向量；

获取当前环境所属的当前对话场景，根据所述当前对话场景过滤掉所述完整意图向量中的无关字段；

根据过滤后的完整意图向量获取操作指令，根据所述操作指令对目标设备进行功能控制，以实现语音交互。