本实施例一般涉及音频信号处理,并且更具体地,例如,涉及用于识别音频流中的特定音频事件的级联音频定位系统。
背景技术:
1、音频控制设备,诸如智能扬声器、移动电话、用于各种电子设备(例如,汽车、电器等)的话音使能接口、以及各种物联网(iot)设备近年来已经变得流行。这些设备通常被配置为通过一个或多个麦克风感测环境声音,然后处理所接收的音频输入以检测要用于使得执行一个或多个操作的一个或多个话音命令或其他音频事件(诸如智能扬声器调整音量或停止回放、移动电话执行互联网搜索、或者智能电视调谐到特定节目)。为了节省功率,许多音频控制设备在不活动时进入低功率模式。然而,当设备处于低功率模式时,用于检测一个或多个口述关键词(诸如siri、alexa或google)或其他音频事件的设备的音频处理部分以始终开启的方式保持处于活动模式。如果音频处理部分检测到关键词或其他音频事件,则设备从低功率模式唤醒到活动模式中以使得能够进一步处理一个或多个后续话音命令或其他音频事件,以便执行与话音命令或音频事件相关联的一个或多个操作。
2、因为许多音频控制设备是电池有限的或以其他方式具有低功耗(诸如许多iot设备),所以需要降低设备的音频处理部分的功耗以检测口述关键词或其他音频事件,同时维持期望的性能水平。
技术实现思路
1、提供本
技术实现要素:
是为了以简化的形式介绍下面在详细描述中进一步描述的概念的选择。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在限制所要求保护的主题的范围。
2、本文中公开的系统和方法包括级联音频定位系统,其包括被设计为在级联过程中顺序操作以降低操作期间的功耗的多个模块。级联音频定位系统中的初始模块比级联音频定位系统中的稍后的模块消耗更少的功率,其中稍后的模块实现比初始模块更期望的性能水平。级联各模块使得仅基于先前模块的性能使用稍后的模块降低了功耗,而不牺牲整体性能。
3、本公开的一些方面涉及操作级联音频定位系统的示例方法。该方法包括由级联音频定位系统的第一模块从一个或多个音频流接收音频流。该方法还包括由第一模块处理音频流以检测音频流中的第一目标声音活动。该方法还包括响应于检测音频流中的第一目标声音活动,由第一模块提供第一信号。该方法还包括响应于由第一模块提供第一信号,由高功率子系统接收一个或多个音频流,并由高功率子系统处理一个或多个音频流以检测一个或多个音频流中的第二目标声音活动。
4、在一些实现方式中,所述方法还包括响应于由所述第一模块提供的第一信号,将所述高功率子系统从低功率模式切换到活动模式。
5、第一模块可以包括模拟话音活动检测器(vad)(其中音频流包括模拟音频流)、数字vad(其中音频流包括从模拟音频流转换的数字音频帧的流)或低功率触发器(其中音频流包括从模拟音频流转换的数字音频帧的流)之一。在一些实现方式中,低功率触发器包括用于识别音频流中的第一目标声音活动的一个或多个检测模型的第一集合。一个或多个检测模型的第一集合与用于低功率触发器的一个或多个超参数的第一集合相关联,且所述第一目标声音活动包括所述音频流中的一个或多个口述关键词。高功率子系统可以包括用于检测一个或多个音频流中的第二目标声音活动的高功率触发器。高功率触发器包括用于识别第二目标声音活动的一个或多个检测模型的第二集合,一个或多个检测模型的第二集合与用于高功率触发器的一个或多个超参数的第二集合相关联,并且第二目标声音活动与第一目标声音活动相同。在一些实现方式中,用于高功率触发器的一个或多个检测模型的第二集合包括一个或多个检测模型的第一集合,并且与用于高功率触发器的一个或多个检测模型的第一集合相关联的一个或多个超参数的集合不同于一个或多个超参数的第一集合。在一些实现方式中,一个或多个检测模型的第一集合和一个或多个检测模型的第二集合存储在共享存储器中以用于低功率触发器和高功率触发器。
6、所述方法还可以包括由所述高功率子系统接收与所述一个或多个音频流相关联的参考信号。由高功率子系统处理一个或多个音频流可以包括检测第二目标声音活动是否包括在参考信号中,并且响应于在参考信号中检测第二目标声音活动,阻止在一个或多个音频流中检测第二目标声音活动。在一些实现方式中,由所述高功率子系统处理所述一个或多个音频流包括基于参考信号对所述一个或多个音频流执行回波消除以生成一个或多个经回波消除的音频流,及检测所述第二目标声音活动是否包括在所述一个或多个经回波消除的音频流中。在一些实现方式中,由高功率子系统处理一个或多个音频流包括对一个或多个经回波消除的音频流执行多声道降噪(mcnr)以生成一个或多个mcnr输出,并且检测第二目标声音活动是否包括在一个或多个mcnr输出中。对一个或多个经回波消除的音频流执行mcnr可以包括参考级联音频定位系统估计声音活动的第一部分的第一方向,基于第一方向生成声音活动的第一部分的第一mcnr输出,参考级联音频定位系统估计声音活动的第二部分的第二方向,以及基于第二方向生成声音活动的第二部分的第二mcnr输出。
7、该方法还可以包括检测第二目标声音活动是否包括在第一mcnr输出或第二mcnr输出之一中。检测所述一个或多个音频流中的所述第二目标声音活动包括检测所述第一mcnr输出或所述第二mcnr输出中的至少一个中的所述第二目标声音活动。该方法还可以包括响应于检测第二目标声音活动包括在第一mcnr输出或第二mcnr输出中的一个中,提供包括第二目标声音活动的mcnr输出,以识别用于要执行的操作的一个或多个命令。
8、在一些实现方式中,由所述高功率子系统处理所述一个或多个音频流包括使用所述高功率子系统的高功率触发器的多个检测模型来检测所述一个或多个音频流中的所述第二目标声音活动。使用多个检测模型可以包括针对多个检测模型中的每个检测模型,检测第二目标声音活动是否包括在一个或多个音频流中。使用多个检测模型还可以包括对检测一个或多个音频流中的第二目标声音活动的检测模型的数量进行计数。使用多个检测模型还可以包括将检测一个或多个音频流中的第二目标声音活动的检测模型的数量与集成阈值进行比较。使用多个检测模型还可以包括基于比较来检测第二目标声音活动是否包括在一个或多个音频流中。
9、所述方法还可以包括:由所述级联音频定位系统的模拟vad从所述一个或多个音频流接收模拟音频流;由所述模拟vad检测所述模拟音频流是否包括动态音频信号;以及响应于检测所述模拟音频流包括所述动态音频信号,由所述模拟vad提供第一指示。该方法还可以包括:响应于提供第一指示,激活级联音频定位系统的数字vad;由数字vad接收来自一个或多个音频流的数字音频流(其中数字音频流在由数字vad接收之前由级联音频定位系统的模数转换器(adc)转换);由数字vad检测数字音频流是否包括语音信号;以及由数字vad响应于检测所述数字音频流包括所述语音信号而提供第二指示。该方法还可以包括:响应于第二指示被提供而激活级联音频定位系统的低功率触发器(其中第一模块包括低功率触发器,由第一模块接收的音频流是数字音频流,并且第一目标声音活动包括一个或多个口述关键词);以及响应于第一信号被提供而激活高功率子系统。所述方法还可包含响应于提供所述第一指示而激活所述adc,且由所述adc生成所述数字音频信号。
10、本公开的一些方面涉及示例级联音频定位系统。该系统包括第一模块,其用于:从一个或多个音频流接收音频流;处理音频流以检测音频流中的第一目标声音活动;以及响应于检测音频流中的第一目标声音活动而提供第一信号。所述系统还包括高功率子系统,所述高功率子系统用于响应于由所述第一模块提供所述第一信号:接收所述一个或多个音频流;以及处理所述一个或多个音频流以检测所述一个或多个音频流中的第二目标声音活动。
11、在一些实现方式中,所述高功率子系统响应于由所述第一模块提供的所述第一信号而从低功率模式切换到活动模式。
12、第一模块可以包括模拟vad(其中音频流包括模拟音频流)、数字vad(其中音频流包括从模拟音频流转换的数字音频帧流)或低功率触发器(其中音频流包括从模拟音频流转换的数字音频帧流)之一。在一些实现方式中,低功率触发器包括用于识别音频流中的第一目标声音活动的一个或多个检测模型的第一集合。所述一个或多个检测模型的第一集合与用于所述低功率触发器的一个或多个超参数的第一集合相关联,且所述第一目标声音活动包括所述音频流中的一个或多个口述关键词。高功率子系统可以包括用于检测一个或多个音频流中的第二目标声音活动的高功率触发器。高功率触发器包括用于识别第二目标声音活动的一个或多个检测模型的第二集合,一个或多个检测模型的第二集合与用于高功率触发器的一个或多个超参数的第二集合相关联,并且第二目标声音活动与第一目标声音活动相同。在一些实现方式中,用于高功率触发器的一个或多个检测模型的第二集合包括一个或多个检测模型的第一集合,并且与用于高功率触发器的一个或多个检测模型的第一集合相关联的一个或多个超参数的集合不同于一个或多个超参数的第一集合。在一些实现方式中,一个或多个检测模型的第一集合和一个或多个检测模型的第二集合存储在共享存储器中以用于低功率触发器和高功率触发器。
13、在一些实现方式中,所述高功率子系统用于接收与所述一个或多个音频流相关联的参考信号。由高功率子系统处理一个或多个音频流可以包括检测第二目标声音活动是否包括在参考信号中,并且响应于在参考信号中检测第二目标声音活动,阻止在一个或多个音频流中检测第二目标声音活动。在一些实现方式中,由所述高功率子系统处理所述一个或多个音频流包括基于参考信号对所述一个或多个音频流执行回波消除以生成一个或多个经回波消除的音频流,及检测所述第二目标声音活动是否包含于所述一个或多个经回波消除的音频流中。在一些实现方式中,由高功率子系统处理一个或多个音频流包括对一个或多个经回波消除的音频流执行mcnr以生成一个或多个mcnr输出,并且检测第二目标声音活动是否包括在一个或多个mcnr输出中。对一个或多个经回波消除的音频流执行mcnr可以包括参考级联音频定位系统估计声音活动的第一部分的第一方向,基于第一方向生成声音活动的第一部分的第一mcnr输出,参考级联音频定位系统估计声音活动的第二部分的第二方向,以及基于第二方向生成声音活动的第二部分的第二mcnr输出。
14、在一些实现方式中,所述高功率子系统检测所述第二目标声音活动是否包括在所述第一mcnr输出或所述第二mcnr输出之一中。检测所述一个或多个音频流中的所述第二目标声音活动包括检测所述第一mcnr输出或所述第二mcnr输出中的至少一个中的所述第二目标声音活动。高功率子系统还可以响应于检测第二目标声音活动包括在第一mcnr输出或第二mcnr输出中的一者中而提供包括第二目标声音活动的mcnr输出,以识别用于要执行的操作的一个或多个命令。
15、在一些实现方式中,由所述高功率子系统处理所述一个或多个音频流包括使用所述高功率子系统的高功率触发器的多个检测模型来检测所述一个或多个音频流中的所述第二目标声音活动。使用多个检测模型可以包括针对多个检测模型中的每个检测模型,检测第二目标声音活动是否包括在一个或多个音频流中。使用多个检测模型还可以包括对检测一个或多个音频流中的第二目标声音活动的检测模型的数量进行计数。使用多个检测模型还可以包括将检测一个或多个音频流中的第二目标声音活动的检测模型的数量与集成阈值进行比较。使用多个检测模型还可以包括基于比较来检测第二目标声音活动是否包括在一个或多个音频流中。
16、级联音频定位系统还可以包括:模拟vad、数字vad和低功率触发器。所述模拟vad用于:从所述一个或多个音频流接收模拟音频流;检测所述模拟音频流是否包括动态音频信号;以及响应于检测所述模拟音频流包括所述动态音频信号而提供第一指示。数字vad用于:响应于提供第一指示而激活;从一个或多个音频流接收数字音频流(其中数字音频流在由数字vad接收之前由adc转换);检测数字音频流是否包括语音信号;以及响应于检测数字音频流包括语音信号而提供第二指示。低功率触发器用于响应于第二指示被提供而激活(其中第一模块包括低功率触发器,由第一模块接收的音频流是数字音频流,并且第一目标声音活动包括一个或多个口述关键词)。所述高功率子系统用于响应于所述第一信号被提供而激活。级联音频定位系统还可以包括adc以响应于提供的第一指示而激活并生成数字音频信号。
17、本文中公开的一些系统和方法还包括级联音频定位系统,其被配置为以常规模式和一个或多个灵敏度模式操作,以在某些情况下改善级联音频定位系统的性能。常规模式可以与级联音频定位系统的较低数量的错误接受和可接受的错误拒绝率相关联,并且灵敏度模式可以与级联音频定位系统的较低错误拒绝率和可接受的错误接受数量相关联。模式之间的切换可以包括针对不同模式使用用于级联音频定位系统的高功率子系统的高功率触发器的一个或多个检测模型的不同的超参数集合。
18、本公开的一些方面涉及操作级联音频定位系统的高功率子系统的示例方法。该方法包括使用高功率子系统的高功率触发器的一个或多个检测模型来检测目标声音活动是否包括在一个或多个音频流中。当级联音频定位系统处于常规模式时,一个或多个检测模型与超参数的第一集合相关联,并且当级联音频定位系统处于灵敏度模式时,一个或多个检测模型与超参数的第二集合相关联。该方法还包括响应于在一个或多个音频流中检测目标声音活动,提供一个或多个经处理的音频流中的至少一个以用于进一步处理。
19、在一些实现方式中,该方法还包括:以常规模式操作级联音频定位系统(其中用于一个或多个检测模型的超参数的第一集合用于检测目标声音活动是否包括在一个或多个音频流中);使用所述超参数的第一集合确定在第一时间量内在所述一个或多个音频流中检测到所述目标声音活动的第一次数;如果将使用所述超参数的第二集合而不是如果将使用所述超参数的第一集合,则确定在所述第一时间量内将在所述一个或多个音频流中检测到所述目标声音活动的第二次数;以及基于第一次数和第二次数将级联音频定位系统从常规模式切换到灵敏度模式(其中用于一个或多个检测模型的超参数的第二集合用于检测目标声音活动是否包括在一个或多个音频流中)。该方法还可以包括以灵敏度模式操作级联音频定位系统,确定在第二时间量内在一个或多个音频流中检测到目标声音活动的次数,以及基于该次数将级联音频定位系统从灵敏度模式切换到常规模式。
20、在一些实现方式中,使用所述一个或多个检测模型来检测所述目标声音活动是否包括在所述一个或多个音频流中包括使用第一检测模型来生成所述一个或多个音频流包括所述目标声音活动的第一概率,并将所述第一概率与第一检测阈值进行比较。检测所述一个或多个音频流中的所述目标声音活动是基于所述比较。该方法还可以包括在以常规模式和灵敏度模式操作的级联音频定位系统之间切换。在以常规模式和灵敏度模式操作的级联音频定位系统之间切换包括在使用第一检测阈值和使用第二检测阈值进行与第一概率的比较之间进行切换。超参数的第一集合包括第一检测阈值,并且超参数的第二集合包括第二检测阈值。
21、在一些实现方式中,使用一个或多个检测模型来检测目标声音活动是否包括在一个或多个音频流中包括:使用一个或多个附加检测模型(其中一个或多个附加检测模型中的每一个用于生成一个或多个音频流包括目标声音活动的附加概率);对于每个附加概率,将所述附加概率和与所述附加检测模型相关联的检测阈值进行比较,以由相关联的检测模型检测所述目标声音活动是否包括在所述一个或多个音频流中;对检测所述目标声音活动包括在所述一个或多个音频流中的检测模型的数量进行计数;将所述检测模型的数量与第一集成阈值进行比较(其中检测所述一个或多个音频流中的所述目标声音活动是基于所述检测模型的数量与所述第一集成阈值的比较)。
22、该方法还可以包括在以常规模式和灵敏度模式操作的级联音频定位系统之间切换。在以常规模式和灵敏度模式操作的级联音频定位系统之间切换包括以下中的一个或多个:对于第一检测模型,在使用第一检测阈值和使用第二检测阈值进行与第一概率的比较之间切换(其中超参数的第一集合包括第一检测阈值,并且超参数的第二集合包括第二检测阈值);对于附加检测模型中的一个或多个,在使用相关联的附加检测阈值和新检测阈值进行与附加概率的比较之间切换(其中超参数的第一集合包括附加检测阈值,并且超参数的第二集合包括新检测阈值);或者在使用第一集成阈值和第二集成阈值之间切换(其中超参数的第一集合包括第一集成阈值,并且超参数的第二集合包括第二集成阈值)。
23、本公开的一些方面涉及级联音频定位系统。该系统包括用于处理一个或多个音频流的高功率子系统。高功率子系统包括高功率触发器,该高功率触发器包括用于检测目标声音活动是否包括在一个或多个音频流中的一个或多个检测模型。当级联音频定位系统处于常规模式时,一个或多个检测模型与超参数的第一集合相关联,并且当级联音频定位系统处于灵敏度模式时,一个或多个检测模型与超参数的第二集合相关联。高功率子系统还包括传递模块,该传递模块用于响应于在一个或多个音频流中检测目标声音活动而提供一个或多个经处理的音频流中的至少一个以用于进一步处理。
24、在一些实现方式中,当级联音频定位系统以常规模式操作时,所述高功率触发器被配置为:使用用于所述一个或多个检测模型的所述超参数的第一集合来检测所述目标声音活动是否包含在所述一个或多个音频流中;使用所述超参数的第一集合确定在第一时间量内在所述一个或多个音频流中检测到所述目标声音活动的第一次数;以及如果将使用所述超参数的第二集合而不是如果将使用所述超参数的第一集合,则确定在所述第一时间量内将在所述一个或多个音频流中检测到所述目标声音活动的第二次数。级联音频定位系统可以被配置为基于第一次数和第二次数从常规模式切换到灵敏度模式(其中一个或多个检测模型的超参数的第二集合用于检测目标声音活动是否包括在一个或多个音频流中)。当级联音频定位系统以灵敏度模式操作时,高功率触发器可以被配置为确定在第二时间量内在一个或多个音频流中检测到目标声音活动的次数,并且级联音频定位系统被配置为基于该次数从灵敏度模式切换到常规模式。
25、在一些实现方式中,由所述高功率触发器使用所述一个或多个检测模型来检测所述目标声音活动是否包括在所述一个或多个音频流中包括:使用第一检测模型来生成所述一个或多个音频流包括所述目标声音活动的第一概率,并将所述第一概率与第一检测阈值进行比较。检测所述一个或多个音频流中的所述目标声音活动是基于所述比较。级联音频定位系统可以被配置为在以常规模式和灵敏度模式操作之间切换。在以所述常规模式和所述灵敏度模式操作之间进行切换包括通过所述高功率触发器在使用所述第一检测阈值和使用第二检测阈值进行与所述第一概率的比较之间进行切换。超参数的第一集合包括第一检测阈值,并且超参数的第二集合包括第二检测阈值。
26、在一些实现方式中,由所述高功率触发器使用所述一个或多个检测模型来检测所述目标声音活动是否包括在所述一个或多个音频流中包括:使用一个或多个附加检测模型(其中所述一个或多个附加检测模型中的每一个用于生成所述一个或多个音频流包括所述目标声音活动的附加概率);对于每个附加概率,将所述附加概率和与所述附加检测模型相关联的检测阈值进行比较,以由相关联的检测模型检测所述目标声音活动是否包括在所述一个或多个音频流中;对检测所述目标声音活动包括在所述一个或多个音频流中的检测模型的数量进行计数;以及将所述检测模型的数量与第一集成阈值进行比较(其中检测所述一个或多个音频流中的所述目标声音活动是基于所述检测模型的数量与所述第一集成阈值的比较)。
27、在一些实现方式中,级联音频定位系统被配置为在以常规模式和灵敏度模式操作之间切换。在以常规模式和灵敏度模式操作之间切换包括以下中的一个或多个:对于第一检测模型,在使用第一检测阈值和使用第二检测阈值进行与第一概率的比较之间切换(其中超参数的第一集合包括第一检测阈值,并且超参数的第二集合包括第二检测阈值);对于所述附加检测模型中的一个或多个,在使用相关联的附加检测阈值和新检测阈值进行与附加概率的比较之间切换(其中超参数的第一集合包括附加检测阈值,并且超参数的第二集合包括新检测阈值);或者在使用第一集成阈值和第二集成阈值之间切换(其中超参数的第一集合包括第一集成阈值,并且超参数的第二集合包括第二集成阈值)。