用于目标声音检测的方法及装备与流程

文档序号：32171975发布日期：2022-11-12 07:44阅读：来源：国知局

技术特征：
1.一种用于执行声音检测的设备，所述设备包括：一个或多个处理器，所述一个或多个处理器包括：配置成存储音频数据的缓冲器；以及包括第一级和第二级的目标声音检测器，所述第一级包括配置成处理所述音频数据的二元目标声音分类器，所述第一级被配置成响应于所述第一级检测到目标声音而激活所述第二级，并且所述第二级被配置成响应于检测到所述目标声音而从所述缓冲器接收所述音频数据。2.如权利要求1所述的设备，其中所述二元目标声音分类器被进一步配置成：生成包括第一值和第二值的二元信号，其中所述第一值被设为响应于检测到所述音频数据中存在多个目标声音中的任一目标声音而激活所述第二级；以及所述第二值被设为响应于检测到所述多个目标声音中没有一个目标声音在所述音频数据中而抑制生成所述信号。3.如权利要求1所述的设备，其中所述二元目标声音分类器包括神经网络。4.如权利要求1所述的设备，其中所述二元目标声音分类器包括贝叶斯分类器或高斯混合模型(gmm)分类器中的至少一者。5.如权利要求1所述的设备，其中所述第二级包括配置成生成检测器输出的多目标声音分类器，所述检测器输出针对多个目标声音中的每个目标声音指示所述音频数据中存在或不存在该目标声音，并且其中所述多个目标声音对应于声音事件的多个类别。6.如权利要求1所述的设备，其中所述二元目标声音分类器和所述缓冲器被包括在低功率域中并且被配置成在常通模式中操作，并且其中所述第二级被配置成响应于接收到所述信号而从低功率状态转换到活跃状态。7.如权利要求1所述的设备，其中所述信号对应于唤醒中断信号。8.如权利要求1所述的设备，其中所述第一级被进一步配置成响应于所述第一级检测到目标声音而激活相机。9.如权利要求8所述的设备，进一步包括场景检测器，所述场景检测器被配置成至少部分地基于来自所述相机的输入信号来分类所述设备的环境，其中所述第二级包括多目标声音分类器，所述多目标声音分类器被配置成从声音事件的多个类别之中分类出所述音频数据，并且其中所述多目标声音分类器的操作至少部分地基于所述场景检测器所分类的环境。10.如权利要求9所述的设备，其中所述多目标声音分类器被调整以聚焦于声音事件的所述多个类别中与所述环境相对应的一个或多个特定类别。11.如权利要求9所述的设备，其中所述多目标声音分类器被进一步配置成：从声音事件类别的多个集合中选择与所述环境相对应的声音事件类别的特定集合；以及基于所述特定集合的声音事件类别来分类所述音频数据。12.如权利要求1所述的设备，其中所述目标声音检测器被配置成：从一个或多个训练数据集合之中选择与所述设备的所检测环境相对应的特定训练数据集合，并且基于所述特定训练数据集合来处理所述音频数据。13.如权利要求12所述的设备，其中所述环境基于相机、位置检测系统、或音频场景检
测器中的至少一者来被检测。14.如权利要求1所述的设备，进一步包括音频场景检测器，所述音频场景检测器被配置成：响应于所述二元目标声音分类器检测到所述音频数据中存在多个目标声音中的任一目标声音而被激活，所述音频场景检测器包括：音频场景改变检测器，所述音频场景改变检测器被配置成处理所述音频数据以及响应于检测到音频场景改变而生成场景改变信号；以及音频场景分类器，所述音频场景分类器被配置成响应于检测到所述音频场景改变而从所述缓冲器接收所述音频数据。15.如权利要求14所述的设备，其中所述音频场景分类器被配置成根据多个音频场景类别来分类所述音频数据，所述多个音频场景类别包括以下至少两者：在家里、在办公室中、在餐厅中、在汽车中、在火车上、在街道上、室内或室外。16.如权利要求14所述的设备，其中所述音频场景改变检测器被进一步配置成：基于检测噪声统计或非平稳声音统计中的至少一者的改变来检测所述音频场景改变。17.如权利要求14所述的设备，其中所述音频场景改变检测器包括使用与场景之间的转换相对应的音频数据来训练的分类器。18.如权利要求14所述的设备，其中：所述音频场景检测器对应于分层检测器；所述音频场景改变检测器被配置成：基于检测第一音频场景类别集合中的音频场景类别之间的改变来检测所述音频场景改变；以及所述音频场景分类器被配置成：根据第二音频场景类别集合来分类所述音频数据，其中对所述第一音频场景类别集合中的音频场景类别的第一计数小于对所述第二音频场景类别集合中的音频场景类别的第二计数。19.如权利要求1所述的设备，进一步包括耦合到所述一个或多个处理器并且被配置成生成所述音频数据的话筒。20.如权利要求1所述的设备，其中所述第二级包括配置成生成检测器输出的多目标声音分类器，所述检测器输出针对多个目标声音中的每个目标声音指示所述音频数据中该目标声音存在还是不存在，并且其中所述多个目标声音对应于以下一者或多者：交通工具门打开或关闭、道路噪声、窗户打开或关闭、制动、手制动器接合或脱离、挡风玻璃雨刮器、转向信号、或引擎加速转动。21.如权利要求1所述的设备，其中所述一个或多个处理器在无线扬声器和语音激活设备中被实现，所述无线扬声器和所述语音激活设备包括：集成辅助应用；以及相机，所述相机被配置成响应于所述集成辅助应用而被激活，所述相机被进一步配置成响应于所述二元目标声音分类器检测到所述音频数据中存在多个目标声音中的任一目标声音而被激活。22.如权利要求1所述的设备，其中所述一个或多个处理器在便携式电子设备中被实现。23.一种目标声音检测的方法，所述方法包括：将音频数据存储在缓冲器中；
在目标声音检测器的第一级中使用二元目标声音分类器来处理所述缓冲器中的所述音频数据；响应于所述第一级检测到目标声音而激活所述目标声音检测器的第二级；以及在所述第二级中使用多目标声音分类器来处理来自所述缓冲器的所述音频数据。24.如权利要求23所述的方法，其中所述二元目标声音分类器和所述缓冲器在常通模式中操作，并且其中激活所述第二级包括：从所述第一级向所述第二级发送信号，以及响应于在所述第二级处接收到所述信号而将所述第二级从低功率状态转换到激活状态。25.如权利要求23所述的方法，其中所述多目标声音分类器基于与声音事件的多个类别相对应的多个目标声音来处理所述音频数据。26.如权利要求23所述的方法，进一步包括：在场景分类器处根据多个音频场景类别来分类所述音频数据，所述多个音频场景类别包括以下至少两者：在家里、在办公室中、在餐厅中、在汽车中、在火车上、在街道上、室内或室外。27.如权利要求23所述的方法，进一步包括：处理所述音频数据以基于检测第一音频场景类别集合中的音频场景类别之间的改变来检测音频场景改变；以及基于第二音频场景类别集合来分类所述音频数据，其中，对所述第一音频场景类别集合中的音频场景类别的第一计数小于对所述第二音频场景类别集合中的音频场景类别的第二计数。28.一种存储有指令的计算机可读存储设备，所述指令在由一个或多个处理器执行时使得所述一个或多个处理器：将音频数据存储在缓冲器中；在目标声音检测器的第一级中使用二元目标声音分类器来处理所述缓冲器中的所述音频数据；响应于所述第一级检测到目标声音而激活所述目标声音检测器的第二级；以及在所述第二级中使用多目标声音分类器来处理来自所述缓冲器的所述音频数据。29.一种装备，包括：用于检测目标声音的装置，所述用于检测目标声音的装置包括第一级和第二级，其中所述第一级包括用于生成音频数据的二元目标声音分类和用于响应于将所述音频数据分类为包括所述目标声音而激活所述第二级的装置；以及用于缓冲所述音频数据和用于响应于将所述音频数据分类为包括所述目标声音而向所述第二级提供所述音频数据的装置。30.如权利要求29所述的装备，进一步包括：用于检测音频场景的装置，所述用于检测音频场景的装置包括：用于检测所述音频数据中的音频场景改变的装置；以及用于响应于检测到所述音频场景改变而将所述音频数据分类为特定音频场景的装置。

技术总结
一种用于执行目标声音检测的设备包括一个或多个处理器。该一个或多个处理器包括配置成存储音频数据的缓冲器、以及目标声音检测器。该目标声音检测器包括第一级和第二级。第一级包括配置成处理该音频数据的二元目标声音分类器。第一级被配置成响应于检测到目标声音而激活第二级。第二级被配置成响应于检测到该目标声音而从该缓冲器接收该音频数据。该目标声音而从该缓冲器接收该音频数据。该目标声音而从该缓冲器接收该音频数据。

技术研发人员：P
受保护的技术使用者：高通股份有限公司
技术研发日：2021.03.01
技术公布日：2022/11/11

完整全部详细技术资料下载

当前第2页1 2