智能设备的唤醒方法、装置、智能音箱及存储介质与流程

文档序号:20834846发布日期:2020-05-22 16:44阅读:301来源:国知局
智能设备的唤醒方法、装置、智能音箱及存储介质与流程

本申请涉及数据处理技术领域中的语音识别技术,尤其涉及一种智能设备的唤醒方法、装置、智能音箱及存储介质。



背景技术:

随着语音识别技术的不断发展,越来越多的设备中设置了语音识别功能。智能音箱就具备强大的语音识别功能,可以通过与用户的语音交互来执行各种操作。

目前,当多台智能音箱共存时,若用户发出包含唤醒词的语音信息时,多台智能音箱会同时响应唤醒词,使得多台智能音箱处于聆听状态。

但是,若多台音箱同时处于聆听状态,会导致语音交互的混乱情况,使得现场语音播报环境嘈杂,用户体验不佳。



技术实现要素:

本申请提供一种智能设备的唤醒方法、装置、智能音箱及存储介质,可以应用于多台智能音箱共存的场景,快速地选择出用户最有可能唤醒的一台智能音箱,避免由于多台智能音箱被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

第一方面,本申请实施例提供一种智能设备的唤醒方法,应用于包含云端、两个及以上智能设备组成的无线网络中;所述方法包括:

当接收到包含唤醒词的语音信息时,记录识别出唤醒词的时间信息和所述语音信息的声学信号强度;

将所述时间信息和所述声学信号强度发送给云端;

接收所述云端下发的指示信息,所述指示信息用于指示所述无线网络中的一个智能设备作为目标设备进入唤醒模式。

本实施例中,通过接收包含唤醒词的语音信息;对所述语音信息进行识别处理,得到识别出所述唤醒词的时间信息,以及声学信号强度;将所述时间信息和声学信号强度发送给云端,通过云端从无线网络中选择一个智能设备作为目标设备,控制所述目标设备进入唤醒模式。从而可以应用于多台智能设备共存的场景,快速地选择出用户最有可能唤醒的一台智能设备,避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

在一种可能的设计中,在记录识别出唤醒词的时间信息和所述语音信息的声学信号强度之前,还包括:

通过语音识别算法,从所述语音信息中识别出唤醒词。

本实施例中,当用户发出包含唤醒词的语音信息时,智能设备可以通过语音算法识别出所述语音信息中的唤醒词,然后记录下识别出唤醒词时的时间信息。

在一种可能的设计中,控制所述目标设备进入唤醒模式,包括:

控制所述目标设备进行聆听状态;

在聆听状态下,根据用户的语音信息,执行相应的操作任务。

本实施例中,当目标设备进入聆听状态之后,其他智能设备不会对用户发出的语音信息做出响应。目标设备对语音信息进行识别处理,提取出语音控制指令,然后根据语音控制指令执行相应的操作。从而可以实现一对一的交互,避免语音交互出现混乱,提高交互的效率和质量。

在一种可能的设计中,所述声学信号强度包括:智能设备接收到的语音信息的声压强度。

本实施例中,将智能设备接收到的语音信息的声压强度作为判断依据,语音信息经过自然空间传播之后,会有一定的损耗,智能设备与用户之间的距离越长则损耗越大。因此,可以通过语音信息的声压强度反映用户与智能设备之间的距离。因此可以从无线网络中唤醒距离用户最近的智能设备进入聆听状态;避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

在一种可能的设计中,所述智能设备位于预设的地理范围内,且至少存在两个所述智能设备的账号不相同。

本实施例可以应用在两个及以上的智能设备组成的无线网络中,所述无线网络中的智能设备位于预设地理范围内,且所述无线网络中存在至少两个智能设备的账号不相同。通过对唤醒词获取的时间或者语音强度的比较,可以从无线网络中快速地选择出用户最有可能唤醒的一台智能设备,避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

第二方面,本申请实施例提供一种智能音箱的唤醒方法,应用于包含云端、两个及以上智能设备组成的无线网络中;所述方法包括:

分别接收至少两个智能设备发送的时间信息和声学信号强度;

分别获取所述至少两个智能设备对应的时间差;

根据所述至少两个智能设备对应的时间差和声学信号强度,从各个智能设备中选择一个智能设备作为目标设备;

向所述目标设备发送指示信息,以使得所述目标设备进入唤醒模式。

本实施例中,云端接收智能设备发送的时间信息和声学信号强度,获取云端接收到所述时间信息和所述声学信号强度的时间与智能设备识别出唤醒词的时间差,根据该时间差和声学信号强度从无线网络中选择一个智能设备作为目标设备,控制所述目标设备进入唤醒模式。从而可以应用于多台智能设备共存的场景,快速地选择出用户最有可能唤醒的一台智能设备,避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

在一种可能的设计中,所述分别获取所述至少两个智能设备对应的时间差,包括:

从所述时间信息中获取第一时间戳,并获取所述第一时间戳和第二时间戳之间的时间差;所述第二时间戳为云端接收到所述时间信息和所述声学信号强度的时间。

在一种可能的设计中,所述根据所述至少两个智能设备对应的时间差和声学信号强度,从各个智能设备中选择一个智能设备作为目标设备,包括:

从各个智能设备中选取声学信号强度大于预设阈值的智能设备作为候选设备;

从所述候选设备中,选取出时间差最小的候选设备作为所述目标设备。

本实施例中,对多个智能设备的唤醒方法,可以解决现在用户面对多个智能设备交互时,一句唤醒词同时唤醒多个设备,使得多个设备应答并执行语音指令的问题。通过将声学信号强度和云端接收到的时间信息的时间差作为智能音箱与用户之间的距离的判断依据,从而可以精确地选择最合适的智能音箱进行控制,避免多个设备之间的语音干扰,优化用户有设备之间的交互体验。

在一种可能的设计中,所述声学信号强度包括:智能设备接收到的语音信息的声压强度。

本实施例中,将智能设备接收到的语音信息的声压强度作为判断依据,语音信息经过自然空间传播之后,会有一定的损耗,智能设备与用户之间的距离越长则损耗越大。因此,可以通过语音信息的声压强度反映用户与智能设备之间的距离。因此可以从无线网络中唤醒距离用户最近的智能设备进入聆听状态;避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

在一种可能的设计中,所述智能设备位于预设的地理范围内,且至少存在两个所述智能设备的账号不相同。

本实施例可以应用在两个及以上的智能设备组成的无线网络中,所述无线网络中的智能设备位于预设地理范围内,且所述无线网络中存在至少两个智能设备的账号不相同。通过对唤醒词获取的时间或者语音强度的比较,可以从无线网络中快速地选择出用户最有可能唤醒的一台智能设备,避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

第三方面,本申请提供一种智能设备的唤醒装置,应用于包含云端、两个及以上智能设备组成的无线网络中;所述装置包括:

识别模块,用于当接收到包含唤醒词的语音信息时,记录识别出唤醒词的时间信息和所述语音信息的声学信号强度;

发送模块,用于将所述时间信息和所述声学信号强度发送给云端;

接收模块,用于接收所述云端下发的指示信息,所述指示信息用于指示所述无线网络中的一个智能设备作为目标设备进入唤醒模式。

本实施例中,通过接收包含唤醒词的语音信息;对所述语音信息进行识别处理,得到识别出所述唤醒词的时间信息,以及声学信号强度;将所述时间信息和声学信号强度发送给云端,通过云端从无线网络中选择一个智能设备作为目标设备,控制所述目标设备进入唤醒模式。从而可以应用于多台智能设备共存的场景,快速地选择出用户最有可能唤醒的一台智能设备,避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

在一种可能的设计中,所述识别模块,具体用于:

通过语音识别算法,从所述语音信息中识别出唤醒词。

本实施例中,当用户发出包含唤醒词的语音信息时,智能设备可以通过语音算法识别出所述语音信息中的唤醒词,然后记录下识别出唤醒词时的时间信息。

在一种可能的设计中,还包括:控制模块,具体用于:

控制所述目标设备进行聆听状态;

在聆听状态下,根据用户的语音信息,执行相应的操作任务。

本实施例中,当目标设备进入聆听状态之后,其他智能设备不会对用户发出的语音信息做出响应。目标设备对语音信息进行识别处理,提取出语音控制指令,然后根据语音控制指令执行相应的操作。从而可以实现一对一的交互,避免语音交互出现混乱,提高交互的效率和质量。

在一种可能的设计中,所述声学信号强度包括:智能设备接收到的语音信息的声压强度。

本实施例中,将智能设备接收到的语音信息的声压强度作为判断依据,语音信息经过自然空间传播之后,会有一定的损耗,智能设备与用户之间的距离越长则损耗越大。因此,可以通过语音信息的声压强度反映用户与智能设备之间的距离。因此可以从无线网络中唤醒距离用户最近的智能设备进入聆听状态;避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

在一种可能的设计中,所述智能设备位于预设的地理范围内,且至少存在两个所述智能设备的账号不相同。

本实施例可以应用在两个及以上的智能设备组成的无线网络中,所述无线网络中的智能设备位于预设地理范围内,且所述无线网络中存在至少两个智能设备的账号不相同。通过对唤醒词获取的时间或者语音强度的比较,可以从无线网络中快速地选择出用户最有可能唤醒的一台智能设备,避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

第四方面,本申请提供一种智能设备的唤醒装置,应用于包含云端、两个及以上智能设备组成的无线网络中;所述装置包括:

接收模块,用于分别接收至少两个智能设备发送的时间信息和声学信号强度;

获取模块,用于分别获取所述至少两个智能设备对应的时间差;

确定模块,用于根据所述至少两个智能设备对应的时间差和声学信号强度,从各个智能设备中选择一个智能设备作为目标设备;

发送模块,用于向所述智能设备发送指示信息,以使得所述目标设备进入唤醒模式。

本实施例中,云端接收智能设备发送的时间信息和声学信号强度,获取云端接收到所述时间信息和所述声学信号强度的时间与智能设备识别出唤醒词的时间差,根据该时间差和声学信号强度从无线网络中选择一个智能设备作为目标设备,控制所述目标设备进入唤醒模式。从而可以应用于多台智能设备共存的场景,快速地选择出用户最有可能唤醒的一台智能设备,避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

在一种可能的设计中,所述获取模块,具体用于:从所述时间信息中获取第一时间戳,并获取所述第一时间戳和第二时间戳之间的时间差;所述第二时间戳为云端接收到所述时间信息和所述声学信号强度的时间。

本实施例中,第一时间戳和第二时间戳分别用于记录智能设备识别出唤醒词的时间,以及云端接收到时间信息和声学信号强度的时间;基于第一时间戳和第二时间戳之间的时间差,可以反映出智能设备向云端发送数据所耗费的时间。从而可以知晓智能设备与云端进行数据交互的速度,选择交互速度快的智能设备作为目标设备进行唤醒,可以提升用户的使用体验。

在一种可能的设计中,所述确定模块,具体用于:

从各个智能设备中选取声学信号强度大于预设阈值的智能设备作为候选设备;

从所述候选设备中,选取出时间差最小的候选设备作为所述目标设备。

本实施例中,对多个智能设备的唤醒方法,可以解决现在用户面对多个智能设备交互时,一句唤醒词同时唤醒多个设备,使得多个设备应答并执行语音指令的问题。通过将声学信号强度和云端接收到的时间信息的时间差作为智能音箱与用户之间的距离的判断依据,从而可以精确地选择最合适的智能音箱进行控制,避免多个设备之间的语音干扰,优化用户有设备之间的交互体验。

在一种可能的设计中,所述声学信号强度包括:智能设备接收到的语音信息的声压强度。

本实施例中,将智能设备接收到的语音信息的声压强度作为判断依据,语音信息经过自然空间传播之后,会有一定的损耗,智能设备与用户之间的距离越长则损耗越大。因此,可以通过语音信息的声压强度反映用户与智能设备之间的距离。因此可以从无线网络中唤醒距离用户最近的智能设备进入聆听状态;避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

在一种可能的设计中,所述智能设备位于预设的地理范围内,且至少存在两个所述智能设备的账号不相同。

本实施例可以应用在两个及以上的智能设备组成的无线网络中,所述无线网络中的智能设备位于预设地理范围内,且所述无线网络中存在至少两个智能设备的账号不相同。通过对唤醒词获取的时间或者语音强度的比较,可以从无线网络中快速地选择出用户最有可能唤醒的一台智能设备,避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

第五方面,本申请提供一种智能音箱,包括:处理器和存储器;存储器中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行如第一方面中任一项所述的智能设备的唤醒方法。

第六方面,本申请提供一种服务器,包括:处理器和存储器;存储器中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行如第一方面中任一项所述的智能设备的唤醒方法。

第七方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述的智能设备的唤醒方法。

第八方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第二方面中任一项所述的智能设备的唤醒方法。

第九方面,本申请实施例提供一种程序产品,所述程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,服务器的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得服务器执行第一方面中任一所述的智能设备的唤醒方法。

上述申请中的一个实施例具有如下优点或有益效果:可以应用于多台智能设备共存的场景,快速地选择出用户最有可能唤醒的一台智能音箱,提高语音交互的效率和质量,用户体验更佳。因为采用当接收到包含唤醒词的语音信息时,记录识别出唤醒词的时间信息和所述语音信息的声学信号强度;将所述时间信息和所述声学信号强度发送给云端;接收所述云端下发的指示信息,所述指示信息用于指示所述无线网络中的一个智能设备作为目标设备进入唤醒模式的技术手段,所以克服了多台智能设备被同时唤醒带来的语音交互混乱的技术问题,通过云端接收到的时间信息和声学信号强度,快速地选择出用户最有可能唤醒的一台智能设备,达到提高语音交互的效率和质量,用户体验更佳的技术效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是可以实现本申请实施例的智能设备的唤醒方法的原理示意图;

图2是根据本申请第一实施例的示意图;

图3是根据本申请第二实施例的示意图;

图4是根据本申请第三实施例的示意图;

图5是根据本申请第四实施例的示意图;

图6是根据本申请第五实施例的示意图;

图7是用来实现本申请实施例的智能音箱的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。

智能音箱就具备强大的语音识别功能,可以通过与用户的语音交互来执行各种操作。当多台智能音箱共存时,若用户发出包含唤醒词的语音信息时,多台智能音箱会同时响应唤醒词,使得多台智能音箱处于聆听状态。而多台音箱同时处于聆听状态,会导致语音交互的混乱情况,使得现场语音播报环境嘈杂,用户体验不佳。

针对上述技术问题,本申请提供一种智能设备的唤醒方法、装置、智能音箱及存储介质,可以应用于多台智能音箱共存的场景,快速地选择出用户最有可能唤醒的一台智能音箱,避免由于多台智能音箱被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。本申请提供的方法可以应用于具备语音交互功能的智能设备,例如智能音箱、智能手机、智能手表等。本申请中以智能音箱为例进行说明,其他智能设备的实现原理与智能音箱相同。

图1是可以实现本申请实施例的智能设备的唤醒方法的原理示意图,如图1所示,现在一个家庭购买使用多个智能设备的情况很多,而且很多情况下对于中国家庭的居住环境,面对家里有多个音箱时,往往会出现喊一句唤醒词多个音箱同时应答的情况。同时由于音箱设备距离用户远近距离不同,接收语音指令时较远的音箱往往接收效果较差导致语音识别有误,结果会出现被唤醒的多个音箱都开始执行指令播放声音,但较远的音箱一般都会执行错误的指令。此时,用户还要再次对执行错误指令的智能设备发出停止指令,造成使用上的繁琐或不便,交互体验很差本申请的目的是快速地选择出用户最有可能唤醒的一台智能设备,避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况。本申请可以由智能设备记录识别出唤醒词的时间信息和语音信息的声学信号强度。声学信号的强度可以作为判断距离远近的依据,因此当用户面对多个音箱设备,说出唤醒词后不同设备收到声音后不需要计算设备与用户的具体距离,只需比较麦克风拾取到的声音得出声压级(spl),值越大的即代表用户距离设备越近。云端可以根据第一时间戳与第二时间戳时间差和声学信号强度来确定由哪一台智能设备响应用户请求。其中,第一时间戳为智能设备识别出唤醒词的时间信息,第二时间戳为云端接收到时间信息和声学信号强度的时间。因此,第一时间戳和第二时间戳之间的时间差,表明了智能设备在网络负载下的响应速度。时间差越小,表明网络延迟越低,智能设备对用户的响应速度越快。而声学信号强度可以作为判断距离远近的依据。因此,可以在网络中选择时间差最小,且声学信号强度最强的智能设备作为目标设备,并向目标设备发送指示信息,使智能设备进入聆听状态以响应用户请求。

应用上述方法可以应用于多台智能设备共存的场景,快速地选择出用户最有可能唤醒的一台智能设备,克服了多台智能设备被同时唤醒带来的语音交互混乱的技术问题,通过云端接收到的时间信息和声学信号强度,快速地选择出用户最有可能唤醒的一台智能设备,达到提高语音交互的效率和质量,用户体验更佳的技术效果。

图2是根据本申请第一实施例的示意图,如图2所示,本实施例中的方法可以应用于包含云端、两个及以上智能设备组成的无线网络中,该方法包括:

s101、当接收到包含唤醒词的语音信息时,记录识别出唤醒词的时间信息和语音信息的声学信号强度。

本实施例中,智能设备在接收到包含唤醒词的语音信息时,记录识别出唤醒词的时间信息和语音信息的声学信号强度。智能设备可以将时间信息和声学信号的强度作为判断依据,确定由哪一台智能设备响应用户请求。

具体地,现在一个家庭购买使用多个智能音箱的情况很多,而且很多情况下对于中国家庭的居住环境,面对家里有多个音箱时,往往会出现喊一句唤醒词多个音箱同时应答的情况。同时由于音箱设备距离用户远近距离不同,接收语音指令时较远的音箱往往接收效果较差导致语音识别有误,结果会出现被唤醒的多个音箱都开始执行指令播放声音,但较远的音箱一般都会执行错误的指令。此时,用户还要再次对执行错误指令的智能音箱设备发出停止指令,造成使用上的繁琐或不便,交互体验很差本申请的目的是快速地选择出用户最有可能唤醒的一台智能音箱,避免由于多台智能音箱被同时唤醒带来的语音交互混乱的情况。本申请可以由智能音箱记录识别出唤醒词的时间信息和语音信息的声学信号强度,并作为判断依据,由云端确定由哪一台智能设备响应用户请求。

可选地,在记录识别出唤醒词的时间信息和语音信息的声学信号强度之前,还包括:通过语音识别算法,从语音信息中识别出唤醒词。

具体地,智能音箱可以根据通过语音识别算法,从语音信息中识别出唤醒词。智能音箱根据系统设置不同,设置有不同的唤醒词,例如“小度小度”、“小爱同学”。智能音箱当接收语音信息时,可以通过语音设别算法对语音信息进行语义识别。若识别结果中包含有设置的唤醒词,则记录识别出唤醒词的时间信息和语音信息的声学信号强度。

可选地,声学信号强度包括:智能设备接收到的语音信息的声压强度。

具体地,声音信号的强度可以作为判断距离远近的依据,当用户对多个不同距离的设备说出唤醒词后,设备通过麦克风阵列识别到唤醒词的同时,对唤醒词声音信号进行声学信号强度的判断,信号越强说明距离越近。其原理是声波是一种能量的传播方式,传播介质是指空气,在传播过程中受到扩散、吸收、散射等作用,声波的能量随着距离的增加而逐渐衰减。例如,两个点距离点声源的声压分别为:lp1、lp2,两点距离点声源分别为r1和r2,则距离r1和r2之间的声压级差值为:lp1-lp2=20lg(r2/r1)。当r2/r1=2时,衰减6db,也就是距离增加一倍声压级衰减6db。声压级spl是对声压大小的指标,也代表了声音传播能量的相对指标,理论上声音传播距离增加一倍则声压级就会衰减6db,因此对于用户面对多个音箱设备,说出唤醒词后不同设备收到声音后不需要计算设备与用户的具体距离,只需比较麦克风拾取到的声音得出声压级(spl),值越大的即代表用户距离设备越近。

可选地,智能设备位于预设的地理范围内,且至少存在两个智能设备的账号不相同。

具体地,目前当用户发出唤醒词和进行查询时,若多台机器使用同一个账号登录,后云端会根据位置和账号进行判断,随后查询的结果会只下发到其中的一台音箱而不是所有同一账号的音箱。而当存在多台机器采用不同账户登录时,都会唤醒并对查询的内容进行各自的响应,在这种情况下,由于网络传输和终端负载的原因,查询内容下发后现场会很吵杂,用户体验不好。本申请可以在本地选择快速地选择出用户最有可能唤醒的一台智能音箱,因此能够适应于无线网络中存在至少两个智能音箱的账号不相同的情形,即本申请的方法可以适用于无论何种账号登录的本地多台音箱的唤醒。

s102、将时间信息和声学信号强度发送给云端。

本实施例中,智能设备可以将时间信息和声学信号强度发送给云端,由云端进行分析处理,以确定无线网络中的哪个智能设备作为目标设备以响应用户请求。云端仅从无线网络中唤醒一台智能设备进入唤醒状态,从而达到提高语音交互的效率和质量,用户体验更佳的技术效果。

s103、接收云端下发的指示信息。

本实施例中,智能设备可以接收云端下发的指示信心,指示信息用于指示无线网络中的一个智能设备作为目标设备进入唤醒模式。

本实施例中,可以控制目标设备进行聆听状态;在聆听状态下,根据用户的语音信息,执行相应的操作任务。

具体地,当智能音箱接收到指示信息后,若该智能音箱不是目标设备,则保持静默状态,不响应用户请求。若该智能音箱是,目标设备,则进入聆听状态。在聆听状态下,智能音箱可以通过语音识别算法,对用户的语音信息进行实时识别,并执行响应的操作。例如,网络中有智能音箱a和智能音箱b,其中智能音箱a为目标设备,则智能音箱a进入聆听状态。当用户的语音信息为“播放音乐”,则智能音箱a可以对语音信息进行识别,并打开音乐播放器,播放音乐。

本实施例,当接收到包含唤醒词的语音信息时,智能设备通过记录识别出唤醒词的时间信息和语音信息的声学信号强度;将时间信息和声学信号强度发送给云端;接收云端下发的指示信息,指示信息用于指示无线网络中的一个智能设备作为目标设备;控制目标设备进入唤醒模式。从而可以应用于多台智能设备共存的场景,快速地选择出用户最有可能唤醒的一台智能音箱,克服了多台智能设备被同时唤醒带来的语音交互混乱的技术问题,通过云端接收到的时间信息和声学信号强度,快速地选择出用户最有可能唤醒的一台智能设备,达到提高语音交互的效率和质量,用户体验更佳的技术效果。

图3是根据本申请第二实施例的示意图;如图3所示,本实施例中的方法可以应用于包含云端、两个及以上智能设备组成的无线网络中,该方法包括::

s201、分别接收至少两个智能设备发送的时间信息和声学信号强度。

本实施例中,云端可以同时接收多个智能设备发送的时间信息和声学信号强度。

具体地,云端可以同时接收多个智能音箱记录的时间信息和语音信息的声学信号强度,并以此作为判断依据,确定由哪一台智能设备响应用户请求。

可选地,声学信号强度包括:智能设备接收到的语音信息的声压强度。

具体地,声音信号的强度可以作为判断距离远近的依据,当用户对多个不同距离的设备说出唤醒词后,设备通过麦克风阵列识别到唤醒词的同时,对唤醒词声音信号进行声学信号强度的判断,信号越强说明距离越近。其原理是声波是一种能量的传播方式,传播介质是指空气,在传播过程中受到扩散、吸收、散射等作用,声波的能量随着距离的增加而逐渐衰减。例如,两个点距离点声源的声压分别为:lp1、lp2,两点距离点声源分别为r1和r2,则距离r1和r2之间的声压级差值为:lp1-lp2=20lg(r2/r1)。当r2/r1=2时,衰减6db,也就是距离增加一倍声压级衰减6db。声压级spl是对声压大小的指标,也代表了声音传播能量的相对指标,理论上声音传播距离增加一倍则声压级就会衰减6db,因此对于用户面对多个音箱设备,说出唤醒词后不同设备收到声音后不需要计算设备与用户的具体距离,只需比较麦克风拾取到的声音得出声压级(spl),值越大的即代表用户距离设备越近。

可选地,智能设备位于预设的地理范围内,且至少存在两个智能设备的账号不相同。

具体地,目前当用户发出唤醒词和进行查询时,若多台机器使用同一个账号登录,后云端会根据位置和账号进行判断,随后查询的结果会只下发到其中的一台音箱而不是所有同一账号的音箱。而当存在多台机器采用不同账户登录时,都会唤醒并对查询的内容进行各自的响应,在这种情况下,由于网络传输和终端负载的原因,查询内容下发后现场会很吵杂,用户体验不好。本申请可以在本地选择快速地选择出用户最有可能唤醒的一台智能音箱,因此能够适应于无线网络中存在至少两个智能音箱的账号不相同的情形,即本申请的方法可以适用于无论何种账号登录的本地多台音箱的唤醒。

s202、分别获取至少两个智能设备对应的时间差。

本实施例中,可以从时间信息中获取第一时间戳,并获取第一时间戳和第二时间戳之间的时间差。其中,第一时间戳为智能设备识别出唤醒词的时间信息,第二时间戳为云端接收到时间信息和声学信号强度的时间。因此,第一时间戳和第二时间戳之间的时间差,表明了智能设备在网络负载下的响应速度。时间差越小,表明网络延迟越低,智能设备对用户的响应速度越快。云端可以根据该指标作为判断依据,确定由哪一台智能设备响应用户请求。

s203、根据至少两个智能设备对应的时间差和声学信号强度,从各个智能设备中选择一个智能设备作为目标设备。

本实施例中,从各个智能设备中选取声学信号强度大于预设阈值的智能设备作为候选设备;从候选设备中,选取出时间差最小的候选设备作为目标设备。

具体地,上述描述时间差表明了智能设备在网络负载下的响应速度。时间差越小,表明网络延迟越低,智能设备对用户的响应速度越快。声学信号强度可以作为判断距离远近的依据。因此,可以在网络中选择时间差最小,且声学信号强度最强的智能设备作为目标设备,以进入聆听状态以响应用户请求。

s204、向智能设备发送指示信息,以使得目标设备进入唤醒模式。

本实施例中,云端可以向智能设备发送指示信息。其中,指示信息用于指示无线网络中的一个智能设备作为目标设备,以使得目标设备进入唤醒模式。

本实施例,通过接收智能设备发送的时间信息和声学信号强度;从时间信息中获取第一时间戳,并获取第一时间戳和第二时间戳之间的时间差;第二时间戳为云端接收到时间信息和声学信号强度的时间;根据时间差和声学信号强度,从各个智能设备中选择一个智能设备作为目标设备;向智能设备发送指示信息,指示信息用于指示无线网络中的一个智能设备作为目标设备,以使得目标设备进入唤醒模式。从而可以应用于多台智能设备共存的场景,快速地选择出用户最有可能唤醒的一台智能音箱,克服了多台智能设备被同时唤醒带来的语音交互混乱的技术问题,通过云端接收到的时间信息和声学信号强度,快速地选择出用户最有可能唤醒的一台智能设备,达到提高语音交互的效率和质量,用户体验更佳的技术效果。

图4是根据本申请第三实施例的示意图;如图4所示,本实施例中的方法可以包括:

s301、当接收到包含唤醒词的语音信息时,记录识别出唤醒词的时间信息和语音信息的声学信号强度。

s302、将时间信息和声学信号强度发送给云端。

s303、接收智能设备发送的时间信息和声学信号强度。

s304、从时间信息中获取第一时间戳,并获取第一时间戳和第二时间戳之间的时间差。

s305、根据时间差和声学信号强度,从各个智能设备中选择一个智能设备作为目标设备。

s306、向智能设备发送指示信息。

s307、接收云端下发的指示信息。

s308、控制目标设备进入唤醒模式。

本实施例中,步骤s301~步骤s302、步骤s307~步骤s308的具体实现过程和技术原理请参见图2所示的方法中步骤s101~步骤s103中的相关描述,此处不再赘述。

本实施例中,步骤s303~步骤s306的具体实现过程和技术原理请参见图3所示的方法中步骤s201~步骤s204中的相关描述,此处不再赘述。

本实施例,当接收到包含唤醒词的语音信息时,智能设备通过记录识别出唤醒词的时间信息和语音信息的声学信号强度;将时间信息和声学信号强度发送给云端;接收云端下发的指示信息,指示信息用于指示无线网络中的一个智能设备作为目标设备;控制目标设备进入唤醒模式。从而可以应用于多台智能设备共存的场景,快速地选择出用户最有可能唤醒的一台智能音箱,克服了多台智能设备被同时唤醒带来的语音交互混乱的技术问题,通过云端接收到的时间信息和声学信号强度,快速地选择出用户最有可能唤醒的一台智能设备,达到提高语音交互的效率和质量,用户体验更佳的技术效果。

图5是根据本申请第四实施例的示意图;如图5所示,本实施例中的装置可以应用于包含云端、两个及以上智能设备组成的无线网络中;装置包括:

识别模块31,用于当接收到包含唤醒词的语音信息时,记录识别出唤醒词的时间信息和语音信息的声学信号强度;

发送模块32,用于将时间信息和声学信号强度发送给云端;

接收模块33,用于接收云端下发的指示信息,指示信息用于指示无线网络中的一个智能设备作为目标设备进入唤醒模式。

本实施例中,通过接收包含唤醒词的语音信息;对语音信息进行识别处理,得到识别出唤醒词的时间信息,以及声学信号强度;将时间信息和声学信号强度发送给云端,通过云端从无线网络中选择一个智能设备作为目标设备进入唤醒模式。从而可以应用于多台智能设备共存的场景,快速地选择出用户最有可能唤醒的一台智能设备,避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

在一种可能的设计中,识别模块31,具体用于:

通过语音识别算法,从语音信息中识别出唤醒词。

本实施例中,当用户发出包含唤醒词的语音信息时,智能设备可以通过语音算法识别出语音信息中的唤醒词,然后记录下识别出唤醒词时的时间信息。

在一种可能的设计中,还包括控制模块34,具体用于:

控制目标设备进行聆听状态;

在聆听状态下,根据用户的语音信息,执行相应的操作任务。

本实施例中,当目标设备进入聆听状态之后,其他智能设备不会对用户发出的语音信息做出响应。目标设备对语音信息进行识别处理,提取出语音控制指令,然后根据语音控制指令执行相应的操作。从而可以实现一对一的交互,避免语音交互出现混乱,提高交互的效率和质量。

在一种可能的设计中,声学信号强度包括:智能设备接收到的语音信息的声压强度。

本实施例中,将智能设备接收到的语音信息的声压强度作为判断依据,语音信息经过自然空间传播之后,会有一定的损耗,智能设备与用户之间的距离越长则损耗越大。因此,可以通过语音信息的声压强度反映用户与智能设备之间的距离。因此可以从无线网络中唤醒距离用户最近的智能设备进入聆听状态;避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

在一种可能的设计中,智能设备位于预设的地理范围内,且至少存在两个智能设备的账号不相同。

本实施例可以应用在两个及以上的智能设备组成的无线网络中,无线网络中的智能设备位于预设地理范围内,且无线网络中存在至少两个智能设备的账号不相同。通过对唤醒词获取的时间或者语音强度的比较,可以从无线网络中快速地选择出用户最有可能唤醒的一台智能设备,避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

本实施例的智能设备的唤醒装置,可以执行图2、图4所示方法中的技术方案,其具体实现过程和技术原理参见图2、图4所示方法中的相关描述,此处不再赘述。

本实施例,当接收到包含唤醒词的语音信息时,智能设备通过记录识别出唤醒词的时间信息和语音信息的声学信号强度;将时间信息和声学信号强度发送给云端;接收云端下发的指示信息,指示信息用于指示无线网络中的一个智能设备作为目标设备;控制目标设备进入唤醒模式。从而可以应用于多台智能设备共存的场景,快速地选择出用户最有可能唤醒的一台智能音箱,克服了多台智能设备被同时唤醒带来的语音交互混乱的技术问题,通过云端接收到的时间信息和声学信号强度,快速地选择出用户最有可能唤醒的一台智能设备,达到提高语音交互的效率和质量,用户体验更佳的技术效果。

图6是根据本申请第五实施例的示意图;如图6所示,本实施例中的装置可以应用于包含云端、两个及以上智能设备组成的无线网络中;装置包括:

接收模块41,用于分别接收至少两个接收智能设备发送的时间信息和声学信号强度;

获取模块42,用于分别获取至少两个智能设备对应的时间差;

确定模块43,用于根据至少两个智能设备对应的时间差和声学信号强度,从各个智能设备中选择一个智能设备作为目标设备;

发送模块44,用于向智能设备发送指示信息,以使得目标设备进入唤醒模式。

本实施例中,云端接收智能设备发送的时间信息和声学信号强度,获取云端接收到时间信息和声学信号强度的时间与智能设备识别出唤醒词的时间差,根据该时间差和声学信号强度从无线网络中选择一个智能设备作为目标设备,控制目标设备进入唤醒模式。从而可以应用于多台智能设备共存的场景,快速地选择出用户最有可能唤醒的一台智能设备,避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

在一种可能的设计中,获取模块42,具体用于:从时间信息中获取第一时间戳,并获取第一时间戳和第二时间戳之间的时间差;第二时间戳为云端接收到时间信息和声学信号强度的时间。

本实施例中,第一时间戳和第二时间戳分别用于记录智能设备识别出唤醒词的时间,以及云端接收到时间信息和声学信号强度的时间;基于第一时间戳和第二时间戳之间的时间差,可以反映出智能设备向云端发送数据所耗费的时间。从而可以知晓智能设备与云端进行数据交互的速度,选择交互速度快的智能设备作为目标设备进行唤醒,可以提升用户的使用体验。

在一种可能的设计中,确定模块43,具体用于:

从各个智能设备中选取声学信号强度大于预设阈值的智能设备作为候选设备;从候选设备中,选取出时间差最小的候选设备作为目标设备。

本实施例中,对多个智能设备的唤醒方法,可以解决现在用户面对多个智能设备交互时,一句唤醒词同时唤醒多个设备,使得多个设备应答并执行语音指令的问题。通过将声学信号强度和云端接收到的时间信息的时间差作为智能音箱与用户之间的距离的判断依据,从而可以精确地选择最合适的智能音箱进行控制,避免多个设备之间的语音干扰,优化用户有设备之间的交互体验。

在一种可能的设计中,声学信号强度包括:智能设备接收到的语音信息的声压强度。

本实施例中,将智能设备接收到的语音信息的声压强度作为判断依据,语音信息经过自然空间传播之后,会有一定的损耗,智能设备与用户之间的距离越长则损耗越大。因此,可以通过语音信息的声压强度反映用户与智能设备之间的距离。因此可以从无线网络中唤醒距离用户最近的智能设备进入聆听状态;避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

在一种可能的设计中,智能设备位于预设的地理范围内,且至少存在两个智能设备的账号不相同。

本实施例可以应用在两个及以上的智能设备组成的无线网络中,无线网络中的智能设备位于预设地理范围内,且无线网络中存在至少两个智能设备的账号不相同。通过对唤醒词获取的时间或者语音强度的比较,可以从无线网络中快速地选择出用户最有可能唤醒的一台智能设备,避免由于多台智能设备被同时唤醒带来的语音交互混乱的情况,提高语音交互的效率和质量,用户体验更佳。

本实施例的智能设备的唤醒装置,可以执行图3、图4所示方法中的技术方案,其具体实现过程和技术原理参见图3、图4所示方法中的相关描述,此处不再赘述。

本实施例,通过接收智能设备发送的时间信息和声学信号强度;从时间信息中获取第一时间戳,并获取第一时间戳和第二时间戳之间的时间差;第二时间戳为云端接收到时间信息和声学信号强度的时间;根据时间差和声学信号强度,从各个智能设备中选择一个智能设备作为目标设备;向智能设备发送指示信息,指示信息用于指示无线网络中的一个智能设备作为目标设备,以使得目标设备进入唤醒模式。从而可以应用于多台智能设备共存的场景,快速地选择出用户最有可能唤醒的一台智能音箱,克服了多台智能设备被同时唤醒带来的语音交互混乱的技术问题,通过云端接收到的时间信息和声学信号强度,快速地选择出用户最有可能唤醒的一台智能设备,达到提高语音交互的效率和质量,用户体验更佳的技术效果。

图7是用来实现本申请实施例的智能音箱的框图;如图7所示,是根据本申请实施例的图7智能音箱的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示,该智能音箱包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的图7智能音箱的唤醒方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的图7智能音箱的唤醒方法。

存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的图7智能音箱的唤醒方法对应的程序指令/模块。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的图7智能音箱的唤醒方法。

存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据图7智能音箱的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至图7智能音箱。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图7智能音箱还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图7中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息,以及产生与图7智能音箱的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、gpu(图形处理器)、fpga(现场可编程门阵列)设备、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1