多设备上的热词检测的制作方法

文档序号:37975755发布日期:2024-05-13 12:29阅读:8来源:国知局
多设备上的热词检测的制作方法

本说明书总体涉及自动语音识别。


背景技术:

1、启用语音(speech-enabled)的家庭或其他环境——即,用户仅需要大声说出查询或命令而后基于计算机的系统将登场并回答查询和/或使得命令被执行的环境——离我们越来越近。可以使用遍布在各个房间或环境的各个区域中的连接的麦克风设备的网络来实现启用语音的环境(例如,家庭、工作场所、学校等)。通过这样的麦克风网络,用户能够基本上从环境中的任何地方口头查询系统,而无需在他/她面前或甚至附近有计算机或其他设备。例如,当在厨房中烹饪时,用户可能会询问系统“三杯有多少毫升?”,并且作为响应,用户从系统接收回答,例如以合成语音的形式输出。替代地,用户可以询问系统问题,例如“我最近的加油站何时关闭”,或者在准备离开房屋时,“我今天应该穿上大衣吗?”。

2、此外,用户可以询问对系统的查询,和/或发出与用户的个人信息有关的命令。例如,用户可以询问系统“我何时与约翰见面?”或命令系统“提醒我回家后给约翰打电话”。


技术实现思路

1、对于启用语音的系统,用户与系统交互的方式被设计为主要(如果不是排他地)通过语音输入。因此,潜在地拾取在周围环境中发出的所有话语(包括那些不针对系统的话语)的系统,可以有某种方式来辨别何时任何给定的话语是针对系统,而不是例如针对存在于环境中的个人。实现这的一种方式是使用热词,其通过环境中的用户之间的协议被保留作为预定的词语,其被说出以引起系统的注意。在示例环境中,用于引起系统注意的热词是词语“ok计算机”。因此,每次说出词语“ok计算机”时,它都会被麦克风拾取,传送到系统,系统可以执行语音识别技术或使用音频特征和神经网络来确定是否说出了热词,并且如果是,则等待随后的命令或查询。因此,针对系统的话语采用[热词(hotword)][查询(query)]的一般形式,其中“热词”在这个例子中是“ok计算机”,而“查询”可以是任何问题、命令、声明或可以被语音识别、解析和系统(单独或经由网络与服务器一起)据此行事的其他请求。

2、本文描述的主题的创新方面涉及用于多设备上的热词检测的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。各种实施方式被配置成使得当用户说出热词时,在多于一个设备在用户附近的情况下,减少了计算资源的使用。

3、本说明书中描述的主题的创新方面可以体现在包括以下动作的方法中:由计算设备接收与话语对应的音频数据;确定话语可能包含特定的预定义热词;响应于确定话语可能包含特定的预定义热词,向服务器发送:(i)指示计算设备可能接收到特定的预定义热词的数据,(ii)标识计算设备的数据,以及(iii)标识包括计算设备的一组附近的计算设备的数据;从服务器接收开始对音频数据进行语音识别处理的指令;以及响应于接收开始对音频数据进行语音识别处理的指令,使用计算设备上的自动语音识别器处理音频数据的至少一部分。

4、这些和其他实施例可各自任选地包括一个或多个下列特征。动作还包括从附加计算设备接收指示附加计算设备被配置为响应特定的预定义热词的数据;向附加计算设备发送指示计算设备被配置为响应特定的预定义热词的数据;确定包括计算设备和附加计算设备的一组计算设备的组标识符;以及向附加计算设备发送组标识符。附加计算设备是在计算设备附近的计算设备。标识包括计算设备的一组附近的计算设备的数据是组标识符。动作还包括由计算设备接收与附加话语对应的附加音频数据;确定附加话语可能包含特定的预定义热词;响应于确定话语可能包含特定的预定义热词,向服务器发送:(i)指示计算设备可能接收到特定的预定义热词的数据,(ii)标识计算设备的数据,以及(iii)标识包括计算设备的一组附近的计算设备的数据;从服务器接收不开始对音频数据进行语音识别处理的指令;以及响应于接收不对音频数据开始进行语音识别处理的指令,使用计算设备上的自动语音识别器停止处理音频数据。

5、动作还包括确定与特定的预定义热词相关联的音频数据的响度;并且响应于确定话语可能包含特定的预定义热词,向服务器发送与特定的预定义热词相关联的音频数据的响度。确定与特定的预定义热词相关联的音频数据的响度的动作包括确定与特定的预定义热词相关联的音频数据的功率;以及确定与特定的预定义热词不相关联的、并且在与特定的预定义热词相关联的音频数据之前计算设备接收的音频数据的功率。与特定的预定义热词相关联的音频数据的响度基于与特定的预定义热词相关联的音频数据的功率以及与特定的预定义热词不相关联的、并且在与特定的预定义热词相关联的音频数据之前计算设备接收的音频数据的功率。动作还包括确定反映与特定的预定义热词相关联的音频数据与特定的预定义热词对应的可能性的置信度分数;并且响应于确定话语可能包含特定的预定义热词,向服务器发送置信度分数。

6、确定反映与特定的预定义热词相关联的音频数据与特定的预定义热词对应的可能性的置信度分数的动作包括:从与特定的预定义热词相关联的音频数据确定音频特征;并且基于音频特征,使用神经网络确定置信度分数。动作还包括:响应于确定话语可能包含特定的预定义热词,向服务器发送指示计算设备的位置的数据。动作还包括:响应于确定话语可能包含特定的预定义热词,向服务器发送指示自计算设备的先前使用以来经过的时间的数据。动作还包括:响应于确定话语可能包含特定的预定义热词,向服务器发送指示由计算设备执行的先前动作的数据。

7、该方面的其他实施例包括对应的系统、装置和记录在计算机存储设备上的计算机程序,每个都被配置为执行方法的操作。

8、本说明书中描述的主题的另一创新方面可以体现在包括以下动作的方法中:由服务器并且从计算设备接收:(i)指示计算设备可能接收到特定的预定义热词的数据,(ii)标识计算设备的数据,以及(iii)标识在计算设备附近并包括计算设备的一组计算设备的数据;访问指示计算设备的上下文的上下文数据;基于计算设备的上下文数据,确定计算设备开始对与特定的预定义热词相关联的音频数据进行语音识别处理;以及向计算设备发送开始对与特定的预定义热词相关联的音频数据进行语音识别处理的指令。

9、这些和其他实施例可以各自任选地包括以下特征中的一个或多个。动作还包括由服务器并且从附加计算设备接收:(i)指示附加计算设备可能接收到特定的预定义热词的数据,(ii)标识附加计算设备的数据,以及(iii)标识在计算设备和附加计算设备附近并且包括计算设备和附加计算设备的一组计算设备的数据;访问指示附加计算设备的上下文的上下文数据;基于计算设备的上下文数据和附加计算设备的上下文数据,确定附加计算设备不开始对与特定的预定义热词相关联的音频数据进行语音识别处理;以及向附加计算设备发送不开始对与特定的预定义热词相关联的音频数据进行语音识别处理的指令。

10、动作还包括:由服务器并且从第一计算设备接收指示第一计算设备被配置为响应特定的预定义热词的数据;由服务器并且从第二计算设备接收指示第二计算设备被配置为响应特定的预定义热词的数据;由服务器确定包括第一计算设备和第二计算设备的一组计算设备的组标识符;将组标识符发送给第一计算设备和第二计算设备。标识在计算设备附近并且包括计算设备的一组计算设备的数据是组标识符。与特定的预定义热词相关联的音频数据是与话语对应的音频数据。指示计算设备的上下文的上下文数据包括指示计算设备的多种之一的能力的数据。

11、确定计算设备开始对与特定的预定义热词相关联的音频数据进行语音识别处理的动作基于计算设备的多种之一的能力。指示计算设备的上下文的上下文数据包括指示自计算设备的先前使用以来经过的时间的数据。确定计算设备开始对与特定的预定义热词相关联的音频数据进行语音识别处理的动作基于自上次使用计算设备以来经过的时间。指示计算设备的上下文的上下文数据包括指示由计算设备执行的先前动作的数据。确定计算设备开始对与特定的预定义热词相关联的音频数据进行语音识别处理的动作基于计算设备执行的先前动作。动作还包括从计算设备接收指示与特定的预定义热词相关联的音频数据的响度的数据。确定计算设备开始对与特定的预定义热词相关联的音频数据进行语音识别处理的动作还基于与特定的预定义热词相关联的音频数据的响度。

12、动作还包括由服务器并且从计算设备接收指示计算设备的位置的数据。确定计算设备开始对与特定的预定义热词相关联的音频数据进行语音识别处理的动作还基于计算设备的位置。动作还包括从计算设备接收指示与音频数据相关联的动作的数据和指示在接收开始对与特定的预定义热词相关联的音频数据进行语音识别处理的指令之后在特定时间段内由计算设备执行的动作的数据;和基于指示与音频数据相关联的动作的数据和指示在接收开始对与特定的预定义热词相关联的音频数据进行语音识别处理的指令之后在特定时间段内由计算设备执行的动作的数据来更新计算设备的上下文数据。

13、该方面的其他实施例包括对应的系统、装置和记录在计算机存储设备上的计算机程序,每个都被配置为执行方法的操作。

14、可以实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。用户可以在具有能够响应热词的多个设备的房间中说出热词并且只有一个设备会响应。用户可以说出热词,并且即使其他设备听到热词,也只有最近的设备会响应热词。选择设备以响应热词的系统可以基于该设备和其他附近设备的上下文来选择适当的设备。

15、在附图和以下描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据说明书、附图和权利要求书,本主题的其他特征、方面和优点将变得显而易见。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1