用于语音识别的自适应帧跳过的制作方法

文档序号：41538411发布日期：2025-04-07 23:13阅读：28来源：国知局

本申请涉及语音识别。例如，本文描述了用于执行自适应帧跳过以进行语音识别的系统和技术。

背景技术：

1、智能手机、平板电脑、可穿戴电子设备、智能电视等电子设备在消费者中越来越受欢迎。这些设备可以通过无线或有线网络提供语音和/或数据通信功能。此外，这样的电子设备可以包括提供被设计为增强用户便利性的各种功能的其它特征。电子设备可以包括用于从用户接收语音命令的语音识别功能。这样的功能允许电子设备在接收和识别来自用户的语音命令时(例如，经由关键字)执行与语音命令相关联的功能。例如，电子设备可以响应于来自用户的语音命令来激活语音助手应用程序、播放音频文件或拍照。

2、语音识别可以作为电子设备中的“常开”功能来实现，以最大限度地发挥其效用。这种常开功能需要常开软件和/或硬件资源，这反过来又导致了常开电源的使用。移动电子设备、物联网(iot)设备等对这种常开电源需求特别敏感，因为它们会缩短电池寿命并消耗系统的其它有限资源，如处理能力。

技术实现思路

1、本文描述了用于处理音频信号的系统和技术。根据一些方面，该系统和技术包括执行用于语音识别的自适应帧跳过(例如，基于特征向量的语音识别)。在一些设备中，常开语音识别引擎可以接收音频帧，基于接收到的音频帧的特性生成特征向量，并利用神经网络模型(或其它机器学习模型)来处理特征向量，以预测(例如，识别)是否已接收到命令。在一些情况下，可以基于当前特征向量和先前特征向量之间的比较来跳过神经网络对特征向量的处理。跳过对特征向量的处理有助于节省用于处理特征向量的能量。

2、在一个说明性示例中，提供了一种用于处理音频信号的装置。该装置包括至少一个存储器和耦合到该至少一个存储器的至少一个处理器。所述至少一个处理器被配置为：接收与第一时间帧相关联的第一音频帧；基于所述第一音频帧来生成第一时间帧特征向量；确定所述第一时间帧特征向量和第二时间帧特征向量之间的距离，所述第二时间帧特征向量是基于与第二时间帧相关联的第二音频帧生成的；所述第二时间帧在所述第一时间帧之前；将所述第一时间帧特征向量和所述第二时间帧特征向量之间的所述距离与门限距离进行比较；并基于所述比较，来确定是否跳过应用对所述第一音频帧的处理。

3、在另一个示例中，提供了一种用于处理音频信号的方法。该方法包括：接收与第一时间帧相关联的第一音频帧；基于所述第一音频帧来生成第一时间帧特征向量；确定所述第一时间帧特征向量和第二时间帧特征向量之间的距离，所述第二时间帧特征向量是基于与第二时间帧相关联的第二音频帧生成的；将所述第一时间帧特征向量和所述第二时间帧特征向量之间的所述距离与门限距离进行比较；并基于所述比较，来确定是否跳过应用对所述第一音频帧的处理。

4、再举一个示例，提供了一种其上存储有指令的非暂时性计算机可读介质，当所述指令由一个或多个处理器执行时，使得所述至少一个或更多个处理器执行以下操作：接收与第一时间帧相关联的第一音频帧；基于所述第一音频帧来生成第一时间帧特征向量；确定所述第一时间帧特征向量和第二时间帧特征向量之间的距离，所述第二时间帧特征向量是基于与第二时间帧相关联的第二音频帧生成的；将所述第一时间帧特征向量和所述第二时间帧特征向量之间的所述距离与门限距离进行比较；并基于所述比较，来确定是否跳过应用对所述第一音频帧的处理。

5、在另一个示例中，提供了一种用于处理音频信号的装置。该装置包括：用于接收与第一时间帧相关联的第一音频帧的单元；用于基于所述第一音频帧来生成第一时间帧特征向量的单元；用于确定所述第一时间帧特征向量和第二时间帧特征向量之间的距离的单元，所述第二时间帧特征向量是基于与第二时间帧相关联的第二音频帧生成的；用于将所述第一时间帧特征向量和所述第二时间帧特征向量之间的所述距离与门限距离进行比较的单元；用于基于所述比较，来确定是否跳过应用对所述第一音频帧的处理的单元。

6、在一些方面中，本文所描述的装置中的一项或多项是以下设备、可以是以下设备的一部分、和/或可以包括以下设备：扩展现实(xr)设备或系统(例如，虚拟现实(vr)设备、增强现实(ar)设备或混合现实(mr)设备)、移动设备(例如，移动电话或其它移动设备)、可穿戴设备、无线通信设备、照相机、个人计算机、笔记本电脑、车辆或计算设备或者车辆的组件、服务器计算机或服务器设备(例如，基于边缘或云的服务器、充当服务器设备的个人计算机、充当服务器设备的移动设备(例如，移动电话、充当服务器设备的xr设备、充当服务器设备的车辆、网络路由器、或充当服务器设备的其它设备)、另一个设备或其组合。在一些方面中，该装置包括用于捕获一个或多个图像的相机或多个相机。在一些方面中，该装置还包括用于显示一个或多个图像、通知和/或其它可显示数据的显示器。在一些方面中，上面所描述的装置可以包括一个或多个传感器(例如，一个或多个惯性测量单元(imu)，比如一个或多个陀螺仪、一个或多个陀螺测试仪、一个或多个加速度计、其任意组合和/或其它传感器)。

7、涉及上述方法、装置、计算机可读介质中的任何一项的上述各方面可以单独地使用或以任何适当的组合使用。

8、本概述部分既不是旨在确定要求保护的主题的关键或基本特征，也不是旨在单独使用以确定要求保护的主题的保护范围。应当通过参考本专利的整个说明书的适当部分、任何或所有附图、以及每项权利要求来理解该主题。

9、参考以下说明书、权利要求和附图，前述内容连同其它特征和实施例将变得更加显而易见。

技术特征：

1.一种用于处理音频信号的装置，包括：

2.根据权利要求1所述的装置，其中，所述至少一个处理器被配置为：基于关于所述第一时间帧特征向量和所述第二时间帧特征向量之间的所述距离小于所述门限距离的确定，来确定不处理所述第一音频帧。

3.根据权利要求1所述的装置，其中，所述至少一个处理器被配置为确定是否跳过关键词检测应用对所述第一音频帧的处理。

4.根据权利要求3所述的装置，其中，所述至少一个处理器被配置为：基于关于所述第一时间帧特征向量和所述第二时间帧特征向量之间的所述距离大于所述门限距离的确定，确定使用机器学习模型来处理所述第一时间帧特征向量以检测关键词。

5.根据权利要求3所述的装置，其中，所述至少一个处理器被配置为：

6.根据权利要求5所述的装置，其中，所述至少一个处理器被配置为：

7.根据权利要求5所述的装置，其中，所述至少一个处理器被配置为：

8.根据权利要求5所述的装置，其中，所述至少一个处理器被配置为将所述第二帧得分和所述第三帧得分存储在所述存储器中。

9.根据权利要求1所述的装置，其中，所述至少一个处理器被配置为基于以下各项之一来确定所述第一时间帧特征向量和所述第二时间帧特征向量之间的所述距离：

10.根据权利要求1所述的装置，其中，所述至少一个处理器被配置为将所述第一时间帧特征向量存储在所述存储器中，以用于与稍后接收的音频帧的时间帧特征向量进行比较。

11.根据权利要求1所述的装置，其中，所述第一时间帧特征向量指示所接收的第一音频帧的特性。

12.根据权利要求1所述的装置，其中，所述至少一个处理器被配置为确定是否跳过噪声抑制应用对所述第一音频帧的处理。

13.根据权利要求1所述的装置，其中，所述第二时间帧在所述第一时间帧之前。

14.根据权利要求1所述的装置，其中，所述至少一个处理器被配置为基于所述比较，来确定是否跳过机器学习模型对所述第一音频帧的处理。

15.一种用于处理音频信号的方法，包括：

16.根据权利要求15所述的方法，还包括：基于关于所述第一时间帧特征向量和所述第二时间帧特征向量之间的所述距离小于所述门限距离的确定，来确定不处理所述第一音频帧。

17.根据权利要求15所述的方法，还包括：确定是否跳过关键词检测应用对所述第一音频帧的处理。

18.根据权利要求17所述的方法，还包括：基于关于所述第一时间帧特征向量和所述第二时间帧特征向量之间的所述距离大于所述门限距离的确定，确定使用机器学习模型来处理所述第一时间帧特征向量以检测关键词。

19.根据权利要求17所述的方法，还包括：

20.根据权利要求19所述的方法，还包括：

21.根据权利要求19所述的方法，还包括：

22.根据权利要求19所述的方法，还包括：将所述第二帧得分和所述第三帧得分存储在存储器中。

23.根据权利要求15所述的方法，其中，所述第一时间帧特征向量和所述第二时间帧特征向量之间的距离是基于以下各项之一来确定的：

24.根据权利要求15所述的方法，还包括：将所述第一时间帧特征向量存储在存储器中，以用于与稍后接收的音频帧的时间帧特征向量进行比较。

25.根据权利要求15所述的方法，其中，所述第一时间帧特征向量指示所接收的第一音频帧的特性。

26.根据权利要求15所述的方法，还包括：确定是否跳过噪声抑制应用对所述第一音频帧的处理。

27.根据权利要求15所述的方法，其中，所述第二时间帧在所述第一时间帧之前。

28.根据权利要求15所述的方法，还包括：基于所述比较来确定是否跳过机器学习模型对所述第一音频帧的处理。

29.一种具有存储在其上的指令的非暂时性计算机可读介质，所述指令在由一个或多个处理器执行时，使得所述一个或更多个处理器执行以下操作：

30.根据权利要求29所述的非暂时性计算机可读介质，其中，所述指令还使得所述一个或多个处理器基于关于所述第一时间帧特征向量与所述第二时间帧特征向量之间的所述距离小于所述门限距离的确定，来确定不处理所述第一音频帧。

31.根据权利要求29所述的非暂时性计算机可读介质，其中，所述指令还使得所述一个或多个处理器确定是否跳过关键词检测应用对所述第一音频帧的处理。

32.根据权利要求31所述的非暂时性计算机可读介质，其中，所述指令还使得所述一个或多个处理器基于关于所述第一时间帧特征向量和所述第二时间帧特征向量之间的所述距离大于所述门限距离的确定，来确定使用机器学习模型来处理所述第一时间帧特征向量以检测关键词。

33.根据权利要求31所述的非暂时性计算机可读介质，其中，所述指令还使得所述一个或多个处理器执行以下操作：

34.根据权利要求33所述的非暂时性计算机可读介质，其中，所述指令还使得所述一个或多个处理器执行以下操作：

35.根据权利要求33所述的非暂时性计算机可读介质，其中，所述指令还使得所述一个或多个处理器执行以下操作：

36.根据权利要求33所述的非暂时性计算机可读介质，其中，所述指令还使得所述一个或多个处理器将所述第二帧得分和所述第三帧得分存储在存储器中。

37.根据权利要求29所述的非暂时性计算机可读介质，其中，所述第一时间帧特征向量和所述第二时间帧特征向量之间的距离是基于以下各项之一来确定的：

38.根据权利要求29所述的非暂时性计算机可读介质，其中，所述指令还使得所述一个或多个处理器将所述第一时间帧特征向量存储在存储器中，以用于与稍后接收的音频帧的时间帧特征向量进行比较。

39.根据权利要求29所述的非暂时性计算机可读介质，其中，所述第一时间帧特征向量指示所接收的第一音频帧的特性。

40.根据权利要求29所述的非暂时性计算机可读介质，其中，所述指令还使得所述一个或多个处理器确定是否跳过噪声抑制应用对所述第一音频帧的处理。

41.根据权利要求29所述的非暂时性计算机可读介质，其中，所述第二时间帧在所述第一时间帧之前。

42.根据权利要求29所述的非暂时性计算机可读介质，其中，所述指令还使得所述一个或多个处理器基于所述比较，来确定是否跳过机器学习模型对所述第一音频帧的处理。

技术总结
本文描述了用于处理音频信号的系统和技术。例如，过程可以包括：接收与第一时间帧相关联的第一音频帧。该过程还可以包括：基于第一音频帧，生成第一时间帧特征向量。该过程可以包括：确定第一时间帧特征向量和第二时间帧特征向量之间的距离。可以基于与第二时间帧相关联的第二音频帧来生成第二时间帧特征向量，其中第二时间帧在第一时间帧之前。该过程还可以包括：将第一时间帧特征向量和第二时间帧特征向量之间的距离与门限距离进行比较。该过程可以包括：基于该比较来确定是否跳过应用对第一音频帧的处理。

技术研发人员：U·R·图马卢里,S·阿布达吉尔,P·武普
受保护的技术使用者：高通股份有限公司
技术研发日：
技术公布日：2025/4/6

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：U·R·图马卢里,S·阿布达吉尔,P·武普
技术所有人：高通股份有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！