本实施例总体上涉及音频信号处理,并且更具体地例如涉及用于识别音频流中的特定音频事件的级联音频检出(spotting)系统。
背景技术:
1、近年来,诸如智能扬声器、移动电话、用于各种电子设备(例如,汽车、电器等)的话音启用的接口、以及各种物联网(iot)设备之类的音频控制设备已经变得流行。这些设备通常被配置为通过一个或多个麦克风感测环境声音,然后处理所接收的音频输入以检测要用于使一个或多个操作被执行(诸如智能扬声器调整音量或停止回放、移动电话执行互联网搜索、或智能电视调谐到特定节目)的一个或多个话音命令或其他音频事件。为了节省功率,许多音频控制设备在不活动时进入低功率模式。然而,当设备处于低功率模式时,用于检测一个或多个口头关键词(诸如siri、alexa、或google)或其他音频事件的设备的音频处理部分以始终开启的方式保持在活动模式。如果音频处理部分检测到关键词或其他音频事件,则设备从低功率模式唤醒到活动模式,以使得能够进一步处理一个或多个后续话音命令或其他音频事件,以便执行与话音命令或音频事件相关联的一个或多个操作。
2、因为许多音频控制设备是电池受限的或以其他方式具有低功耗(诸如许多iot设备),所以需要降低设备的音频处理部分的功耗以检测口头关键词或其他音频事件,同时保持期望的性能水平。
技术实现思路
1、提供本
技术实现要素:
是为了以简化的形式介绍下面在具体实施方式中进一步描述的概念的选择。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在限制所要求保护的主题的范围。
2、本文公开的系统和方法包括级联音频检出系统,其包括被设计为在级联过程中顺序操作以降低操作期间的功耗的多个模块。级联音频检出系统中的初始模块比级联音频检出系统中的稍后的模块消耗更少的功率,其中稍后的模块实现比初始模块更期望的性能水平。级联模块使得稍后的模块仅基于先前模块的性能来使用降低了功耗而不牺牲整体性能。
3、本公开的一些方面涉及操作级联音频检出系统的示例方法。该方法包括由级联音频检出系统的第一模块从一个或多个音频流接收音频流。该方法还包括由第一模块处理音频流以检测音频流中的第一目标声音活动。该方法还包括响应于检测到音频流中的第一目标声音活动,由第一模块提供第一信号。该方法还包括响应于第一信号由第一模块提供,由高功率子系统接收一个或多个音频流,并且由高功率子系统处理一个或多个音频流以检测一个或多个音频流中的第二目标声音活动。
4、在一些实现方式中,该方法还包括响应于第一信号由第一模块提供而将高功率子系统从低功率模式切换到活动模式。
5、第一模块可以包括模拟话音活动检测器(vad)(其中音频流包括模拟音频流)、数字vad(其中音频流包括从模拟音频流转换的数字音频帧流)或低功率触发器(其中音频流包括从模拟音频流转换的数字音频帧流)中的一个。在一些实现方式中,低功率触发器包括一个或多个检测模型的第一集合以识别音频流中的第一目标声音活动。一个或多个检测模型的第一集合与用于低功率触发器的一个或多个超参数的第一集合相关联,并且第一目标声音活动包括音频流中的一个或多个口头关键词。高功率子系统可以包括高功率触发器以检测一个或多个音频流中的第二目标声音活动。高功率触发器包括用于识别第二目标声音活动的一个或多个检测模型的第二集合,一个或多个检测模型的第二集合与用于高功率触发器的一个或多个超参数的第二集合相关联,并且第二目标声音活动与第一目标声音活动相同。在一些实现方式中,用于高功率触发器的一个或多个检测模型的第二集合包括一个或多个检测模型的第一集合,并且与用于高功率触发器的一个或多个检测模型的第一集合相关联的一个或多个超参数的集合不同于一个或多个超参数的第一集合。在一些实现方式中,一个或多个检测模型的第一集合和一个或多个检测模型的第二集合被存储在用于低功率触发器和高功率触发器的共享存储器中。
6、所述方法还可包括由所述高功率子系统接收与所述一个或多个音频流相关联的参考信号。由高功率子系统处理一个或多个音频流可以包括检测第二目标声音活动是否被包括在参考信号中,以及响应于在参考信号中检测到第二目标声音活动而防止在一个或多个音频流中检测第二目标声音活动。在一些实现方式中,由所述高功率子系统处理所述一个或多个音频流包含基于参考信号对所述一个或多个音频流执行回波消除以生成一个或多个经回波消除的音频流,且检测所述第二目标声音活动是否包括在所述一个或多个经回波消除的音频流中。在一些实现方式中,由高功率子系统处理一个或多个音频流包括对一个或多个经回波消除的音频流执行多声道降噪(mcnr)以生成一个或多个mcnr输出,以及检测第二目标声音活动是否包括在一个或多个mcnr输出中。对一个或多个回波消除的音频流执行mcnr可以包括参考级联音频检出系统估计声音活动的第一部分的第一方向,基于第一方向生成声音活动的第一部分的第一mcnr输出,参考级联音频检出系统估计声音活动的第二部分的第二方向,以及基于第二方向生成声音活动的第二部分的第二mcnr输出。
7、该方法还可以包括检测第二目标声音活动是否被包括在第一mcnr输出或第二mcnr输出之一中。检测一个或多个音频流中的第二目标声音活动包括检测第一mcnr输出或第二mcnr输出中的至少一个中的第二目标声音活动。该方法还可以包括响应于检测到第二目标声音活动被包括在第一mcnr输出或第二mcnr输出之一中,提供包括第二目标声音活动的mcnr输出,以识别用于要执行的操作的一个或多个命令。
8、在一些实现方式中,由高功率子系统处理一个或多个音频流包括使用高功率子系统的高功率触发器的多个检测模型来检测一个或多个音频流中的第二目标声音活动。使用多个检测模型可以包括针对多个检测模型中的每个检测模型,检测第二目标声音活动是否包括在一个或多个音频流中。使用多个检测模型还可以包括对检测一个或多个音频流中的第二目标声音活动的检测模型的数量进行计数。使用多个检测模型还可以包括将检测一个或多个音频流中的第二目标声音活动的检测模型的数量与集成(ensemble)阈值进行比较。使用多个检测模型还可以包括基于比较来检测第二目标声音活动是否包括在一个或多个音频流中。
9、该方法还可以包括:由级联音频检出系统的模拟vad从一个或多个音频流接收模拟音频流;由模拟vad检测模拟音频流是否包括动态音频信号;以及响应于检测到模拟音频流包括动态音频信号,由模拟vad提供第一指示。该方法还可以包括:响应于提供第一指示而激活级联音频检出系统的数字vad;由数字vad从一个或多个音频流接收数字音频流(其中数字音频流在由数字vad接收之前由级联音频检出系统的模数转换器(adc)转换);由数字vad检测数字音频流是否包括语音信号;以及响应于检测到所述数字音频流包含所述语音信号而发出第二指示。该方法还可以包括:响应于第二指示被提供而激活级联音频检出系统的低功率触发器(其中第一模块包括低功率触发器,由第一模块接收的音频流是数字音频流,并且第一目标声音活动包括一个或多个口头关键词);以及响应于第一信号被提供而激活高功率子系统。该方法还可以包括响应于第一指示被提供而激活adc,以及由adc生成数字音频信号。
10、本公开的一些方面涉及示例级联音频检出系统。该系统包括第一模块,用于:从一个或多个音频流接收音频流;处理音频流以检测音频流中的第一目标声音活动;以及响应于检测到音频流中的第一目标声音活动而提供第一信号。该系统还包括高功率子系统,用于响应于第一信号由第一模块提供:接收一个或多个音频流;以及处理一个或多个音频流以检测一个或多个音频流中的第二目标声音活动。
11、在一些实现方式中,高功率子系统用于响应于第一信号由第一模块提供而从低功率模式切换到活动模式。
12、第一模块可以包括模拟vad(其中音频流包括模拟音频流)、数字vad(其中音频流包括从模拟音频流转换的数字音频帧流)或低功率触发器(其中音频流包括从模拟音频流转换的数字音频帧流)中的一个。在一些实现方式中,低功率触发器包括一个或多个检测模型的第一集合以识别音频流中的第一目标声音活动。一个或多个检测模型的第一集合与用于低功率触发器的一个或多个超参数的第一集合相关联,并且第一目标声音活动包括音频流中的一个或多个口头关键词。高功率子系统可以包括高功率触发器以检测一个或多个音频流中的第二目标声音活动。高功率触发器包括用于识别第二目标声音活动的一个或多个检测模型的第二集合,一个或多个检测模型的第二集合与用于高功率触发器的一个或多个超参数的第二集合相关联,并且第二目标声音活动与第一目标声音活动相同。在一些实现方式中,用于高功率触发器的一个或多个检测模型的第二集合包括一个或多个检测模型的第一集合,并且与用于高功率触发器的一个或多个检测模型的第一集合相关联的一个或多个超参数的集合不同于一个或多个超参数的第一集合。在一些实现方式中,一个或多个检测模型的第一集合和一个或多个检测模型的第二集合被存储在用于低功率触发器和高功率触发器的共享存储器中。
13、在一些实现方式中,高功率子系统用于接收与一个或多个音频流相关联的参考信号。由高功率子系统处理一个或多个音频流可以包括检测第二目标声音活动是否被包括在参考信号中,以及响应于在参考信号中检测到第二目标声音活动而防止在一个或多个音频流中检测第二目标声音活动。在一些实现方式中,由所述高功率子系统处理所述一个或多个音频流包含基于参考信号对所述一个或多个音频流执行回波消除以生成一个或多个经回波消除的音频流,且检测所述第二目标声音活动是否包括在所述一个或多个经回波消除的音频流中。在一些实现方式中,由高功率子系统处理一个或多个音频流包括对一个或多个经回波消除的音频流执行mcnr以生成一个或多个mcnr输出,以及检测第二目标声音活动是否包括在一个或多个mcnr输出中。对一个或多个回波消除的音频流执行mcnr可以包括参考级联音频检出系统估计声音活动的第一部分的第一方向,基于第一方向生成声音活动的第一部分的第一mcnr输出,参考级联音频检出系统估计声音活动的第二部分的第二方向,以及基于第二方向生成声音活动的第二部分的第二mcnr输出。
14、在一些实现方式中,高功率子系统用于检测第二目标声音活动是否被包括在第一mcnr输出或第二mcnr输出之一中。检测一个或多个音频流中的第二目标声音活动包括检测第一mcnr输出或第二mcnr输出中的至少一个中的第二目标声音活动。高功率子系统还可以响应于检测到第二目标声音活动被包括在第一mcnr输出或第二mcnr输出之一中而提供包括第二目标声音活动的mcnr输出,以识别用于要执行的操作的一个或多个命令。
15、在一些实现方式中,由高功率子系统处理一个或多个音频流包括使用高功率子系统的高功率触发器的多个检测模型来检测一个或多个音频流中的第二目标声音活动。使用多个检测模型可以包括:针对多个检测模型中的每个检测模型,检测第二目标声音活动是否包括在一个或多个音频流中。使用多个检测模型还可以包括对检测一个或多个音频流中的第二目标声音活动的检测模型的数量进行计数。使用多个检测模型还可以包括将检测一个或多个音频流中的第二目标声音活动的检测模型的数量与集成阈值进行比较。使用多个检测模型还可以包括基于比较来检测第二目标声音活动是否包括在一个或多个音频流中。
16、级联音频检出系统还可以包括:模拟vad、数字vad和低功率触发器。所述模拟vad用于:从所述一个或多个音频流接收模拟音频流;检测所述模拟音频流是否包括动态音频信号;以及响应于检测到所述模拟音频流包括所述动态音频信号而提供第一指示。数字vad用于:响应于提供第一指示而激活;从一个或多个音频流接收数字音频流(其中数字音频流在由数字vad接收之前由adc转换);检测数字音频流是否包括语音信号;以及响应于检测到数字音频流包括语音信号而提供第二指示。低功率触发器用于响应于第二指示被提供而激活(其中第一模块包括低功率触发器,由第一模块接收的音频流是数字音频流,并且第一目标声音活动包括一个或多个口头关键词)。所述高功率子系统用于响应于所述第一信号被提供而激活。级联音频检出系统还可以包括adc以响应于第一指示被提供而激活并且生成数字音频信号。
17、本文公开的一些系统和方法还包括级联音频检出系统,其被配置为在常规模式和一个或多个灵敏度模式下操作,以在某些场景中改进级联音频检出系统的性能。常规模式可以与级联音频检出系统的较低错误接受数量和可接受的错误拒绝率相关联,并且灵敏度模式可以与级联音频检出系统的较低错误拒绝率和可接受的错误接受数量相关联。模式之间的切换可以包括针对不同模式,针对级联音频检出系统的高功率子系统的高功率触发器的一个或多个检测模型使用不同的超参数集合。
18、本公开的一些方面涉及操作级联音频检出系统的高功率子系统的示例方法。该方法包括使用高功率子系统的高功率触发器的一个或多个检测模型来检测目标声音活动是否被包括在一个或多个音频流中。当级联音频检出系统处于常规模式时,一个或多个检测模型与超参数的第一集合相关联,并且当级联音频检出系统处于灵敏度模式时,一个或多个检测模型与超参数的第二集合相关联。该方法还包括响应于检测到一个或多个音频流中的目标声音活动,提供一个或多个经处理的音频流中的至少一个以用于进一步处理。
19、在一些实现方式中,该方法还包括:以常规模式操作级联音频检出系统(其中用于一个或多个检测模型的超参数的第一集合用于检测目标声音活动是否包括在一个或多个音频流中);使用超参数的第一集合确定在第一时间量内在一个或多个音频流中检测到目标声音活动的第一次数;在将使用超参数的第二集合的情况下(而在不使用超参数的第一集合的情况下),确定在第一时间量内将在一个或多个音频流中检测到的目标声音活动的第二次数;以及基于第一次数和第二次数将级联音频检出系统从常规模式切换到灵敏度模式(其中用于一个或多个检测模型的超参数的第二集合用于检测目标声音活动是否包括在一个或多个音频流中)。该方法还可以包括在灵敏度模式下操作级联音频检出系统,确定在第二时间量内在一个或多个音频流中检测到目标声音活动的次数,以及基于该次数将级联音频检出系统从灵敏度模式切换到常规模式。
20、在一些实现方式中,使用一个或多个检测模型来检测目标声音活动是否包括在一个或多个音频流中包括使用第一检测模型来生成一个或多个音频流包括目标声音活动的第一概率,并将第一概率与第一检测阈值进行比较。检测所述一个或多个音频流中的所述目标声音活动基于所述比较。该方法还可以包括在以常规模式和灵敏度模式操作级联音频检出系统之间切换。在以常规模式和灵敏度模式操作级联音频检出系统之间切换包括在使用第一检测阈值和使用第二检测阈值之间切换以用于与第一概率的比较。超参数的第一集合包括第一检测阈值,并且超参数的第二集合包括第二检测阈值。
21、在一些实现方式中,使用一个或多个检测模型来检测目标声音活动是否包括在一个或多个音频流中包括:使用一个或多个附加检测模型(其中一个或多个附加检测模型中的每一个用于生成一个或多个音频流包括目标声音活动的附加概率);对于每个附加概率,将所述附加概率和与所述附加检测模型相关联的检测阈值进行比较,以由所述相关联的检测模型检测所述目标声音活动是否被包括在所述一个或多个音频流中;对检测到所述目标声音活动被包括在所述一个或多个音频流中的检测模型的数量进行计数;将所述检测模型的数量与第一集合阈值进行比较(其中检测所述一个或多个音频流中的所述目标声音活动是基于所述检测模型的数量与所述第一集合阈值的比较)。
22、该方法还可以包括在以常规模式和灵敏度模式操作级联音频检出系统之间切换。在以常规模式和灵敏度模式操作级联音频检出系统之间切换包括以下中的一个或多个:对于第一检测模型,在使用第一检测阈值和使用第二检测阈值与第一概率的比较之间切换(其中超参数的第一集合包括第一检测阈值,超参数的第二集合包括第二检测阈值);对于附加检测模型中的一个或多个,在使用相关联的附加检测阈值和新的检测阈值(用于与附加概率进行比较)之间进行切换(其中超参数的第一集合包括附加检测阈值,并且超参数的第二集合包括新的检测阈值);或者在使用第一集成阈值和第二集成阈值之间进行切换(其中超参数的第一集合包括第一集成阈值,并且超参数的第二集合包括第二集成阈值)。
23、本公开的一些方面涉及级联音频检出系统。该系统包括用于处理一个或多个音频流的高功率子系统。高功率子系统包括高功率触发器,该高功率触发器包括用于检测目标声音活动是否被包括在一个或多个音频流中的一个或多个检测模型。当级联音频检出系统处于常规模式时,一个或多个检测模型与超参数的第一集合相关联,并且当级联音频检出系统处于灵敏度模式时,一个或多个检测模型与超参数的第二集合相关联。高功率子系统还包括传送模块,该传送模块用于响应于检测到一个或多个音频流中的目标声音活动而提供一个或多个经处理的音频流中的至少一个以用于进一步处理。
24、在一些实现方式中,当级联音频检出系统在常规模式下操作时,所述高功率触发器被配置为:针对所述一个或多个检测模型使用所述超参数的第一集合来检测所述目标声音活动是否被包括在所述一个或多个音频流中;使用所述超参数的第一集合来确定在第一时间量内在所述一个或多个音频流中检测到所述目标声音活动的第一次数;以及在将使用超参数的第二集合的情况下(而在不使用超参数的第一集合的情况下),确定在第一时间量内将在一个或多个音频流中检测到的目标声音活动的第二次数。级联音频检出系统可以被配置为基于第一次数和第二次数从常规模式切换到灵敏度模式(其中用于一个或多个检测模型的超参数的第二集合用于检测目标声音活动是否包括在一个或多个音频流中)。当级联音频检出系统在灵敏度模式下操作时,高功率触发器可以被配置为确定在第二时间量内在一个或多个音频流中检测到目标声音活动的次数,并且级联音频检出系统被配置为基于该次数从灵敏度模式切换到常规模式。
25、在一些实现方式中,通过高功率触发器使用一个或多个检测模型来检测目标声音活动是否包括在一个或多个音频流中包括使用第一检测模型来生成一个或多个音频流包括目标声音活动的第一概率,并将第一概率与第一检测阈值进行比较。检测所述一个或多个音频流中的所述目标声音活动基于所述比较。级联音频检出系统可以被配置为在常规模式和灵敏度模式下操作之间切换。在常规模式和灵敏度模式下操作之间进行切换包括由高功率触发器在使用第一检测阈值和使用第二检测阈值之间进行切换以用于与第一概率的比较。超参数的第一集合包括第一检测阈值,并且超参数的第二集合包括第二检测阈值。
26、在一些实现方式中,通过高功率触发器使用一个或多个检测模型来检测目标声音活动是否包括在一个或多个音频流中包括:使用一个或多个附加检测模型(其中一个或多个附加检测模型中的每一个用于生成一个或多个音频流包括目标声音活动的附加概率);对于每个附加概率,将所述附加概率与和所述附加检测模型相关联的检测阈值进行比较,以通过所述相关联的检测模型检测所述目标声音活动是否被包括在所述一个或多个音频流中;对检测到所述目标声音活动被包括在所述一个或多个音频流中的检测模型的数量进行计数;以及将所述检测模型的数量与第一集成阈值进行比较(其中检测所述一个或多个音频流中的所述目标声音活动是基于所述检测模型的数量与所述第一集成阈值的比较)。
27、在一些实现方式中,级联音频检出系统被配置为在常规模式和灵敏度模式下操作之间切换。在所述常规模式和所述灵敏度模式下操作之间的切换包括以下中的一个或多个:对于所述第一检测模型,在使用所述第一检测阈值和使用第二检测阈值与所述第一概率的比较之间进行切换(其中所述超参数的第一集合包括所述第一检测阈值,并且所述超参数的第二集合包括所述第二检测阈值);对于附加检测模型中的一个或多个,在使用相关联的附加检测阈值和新的检测阈值与附加概率进行比较之间进行切换(其中超参数的第一集合包括附加检测阈值,并且超参数的第二集合包括新的检测阈值);或者在使用第一集成阈值和第二集成阈值之间进行切换(其中超参数的第一集合包括第一集成阈值,并且超参数的第二集合包括第二集成阈值)。