自动热词阈值调谐的制作方法

文档序号：33172378发布日期：2023-02-04 02:49阅读：70来源：国知局

技术特征：
1.一种计算机实现的方法(600)，当在数据处理硬件(810)上执行时，使得所述数据处理硬件(810)执行包括以下的操作：从执行第一级热词检测器(120)的用户设备(102)接收表征由所述第一级热词检测器(120)在由所述用户设备(102)捕获的流音频(118)中检测到的热词的音频数据(136)，所述第一级热词检测器(120)被配置为：生成指示由所述用户设备(102)捕获的所述流音频(118)的音频特征中的热词的存在的概率分值(132)；以及当所述概率分值(132)满足所述第一级热词检测器(120)的热词检测阈值(134)时，在所述流音频(118)中检测到所述热词；使用第二级热词检测器(140)处理所述音频数据(136)，以确定所述第二级热词检测器(140)是否在所述音频数据(136)中检测到所述热词；当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时，在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)在所述流音频(118)中不正确地检测到热词的错误接受实例(210)；确定与所述用户设备(102)的所述第一级热词检测器(120)相关联的错误接受率(230)是否满足错误接受率阈值(240)，所述错误接受率(230)基于在错误接受时间段内在所述第一级热词检测器(120)处标识的错误接受实例(210)的数目；以及当与所述第一级热词检测器(120)相关联的所述错误接受率(230)满足所述错误接受率阈值(240)时，调整所述第一级热词检测器(120)的所述热词检测阈值(134)。2.根据权利要求1所述的方法(600)，其中，所述操作进一步包括：当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时，抑制在所述用户设备(102)上的用于处理所述热词和/或在所述流音频(118)中跟随所述热词的一个或多个其它词项的唤醒过程。3.根据权利要求1或2所述的方法(600)，其中，所述操作进一步包括，当所述第二级热词检测器(140)在所述音频数据(136)中检测到所述热词时：确定是否从所述用户设备(102)接收到表征在所述流音频(118)中跟随所述热词的口头查询的后续音频数据(136)；以及当没有从所述用户设备(102)接收到表征所述口头查询的后续音频数据(136)时，在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)在所述流音频(118)中不正确地检测到所述热词的错误接受实例(210)。4.根据权利要求3所述的方法(600)，其中，所述操作还包括，当从所述用户设备(102)接收到表征所述口头查询的后续音频时，处理所述口头查询。5.根据权利要求1-4中的任一项所述的方法(600)，其中，所述用户设备(102)被配置为当所述第一级热词检测器(120)在所述流音频(118)中检测到所述热词时，发起唤醒过程以处理所述热词和/或在所述流音频(118)中跟随所述热词的一个或多个其它词项。6.根据权利要求1-5中的任一项所述的方法(600)，其中，调整所述第一级热词检测器(120)的所述热词检测阈值(134)包括增加所述热词检测阈值(134)的值。7.根据权利要求1-6中的任一项所述的方法(600)，其中，所述操作进一步包括，当接收表征所述第一级热词检测器(120)在所述流音频(118)中检测到的所述热词的所述音频数
据(136)时：从所述用户设备(102)接收指示所述第一级热词检测器(120)在生成未能通过阈值余量满足所述热词检测阈值(134)的先前概率分值(132)之后的阈值时间段内在所述流音频(118)中检测到所述热词的近未命中指示，所述先前概率分值(132)指示由所述用户设备(102)捕获的流音频(118)的先前音频特征中的热词的存在；当所述第二级热词检测器(140)在所述音频数据(136)中检测到所述热词时，基于所述近未命中指示，在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)未能在所述流音频(118)的所述先前音频特征中初始地检测到所述热词的错误拒绝实例(250)；确定与所述用户设备(102)的所述第一级热词检测器(120)相关联的错误拒绝率(270)是否满足错误拒绝率阈值(280)，所述错误拒绝率(270)基于在错误拒绝时间段内在所述第一级热词检测器(120)处标识的错误拒绝实例(250)的数目；以及当与所述第一级热词检测器(120)相关联的所述错误拒绝率(270)满足所述错误拒绝率阈值(280)时，调整所述第一级热词检测器(120)的所述热词检测阈值(134)。8.根据权利要求7所述的方法(600)，其中，调整所述热词检测阈值(134)包括降低所述第一级热词检测器(120)的所述热词检测阈值(134)。9.一种计算机实现的方法(700)，所述方法当在用户设备(102)的数据处理硬件(103)上执行时，使得所述数据处理硬件(103)执行包括以下的操作：接收由与所述数据处理硬件通信的一个或多个麦克风(106)捕获的流音频(118)；使用第一级热词检测器(120)生成指示所述流音频(118)的音频特征中的热词的存在的概率分值(132)；确定所述概率分值(132)是否满足热词检测阈值(134)；当所述概率分值(132)满足所述热词检测阈值(134)时：在所述流音频(118)中检测所述热词；以及向执行第二级热词检测器(140)的远程计算设备(110)传送表征使用所述第一级热词检测器(120)在所述流音频(118)中检测到的所述热词的音频数据(136)，所述远程计算设备(110)被配置为：确定所述第二级热词检测器(140)是否在所述音频数据(136)中检测到所述热词；以及当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时，在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)在所述流音频(118)中不正确地检测到所述热词的错误接受实例(210)；以及当基于在错误接受时间段内在所述第一级热词检测器(120)处标识的错误接受实例(210)的数目的错误接受率(230)满足错误接受率阈值(240)时，调整所述第一级热词检测器(120)的所述热词检测阈值(134)。10.根据权利要求9所述的方法(700)，其中，调整所述第一级热词检测器(120)的所述热词检测阈值(134)包括增加所述热词检测阈值(134)的值。11.根据权利要求9或10所述的方法(700)，其中，所述操作进一步包括：当所述概率分值(132)满足所述热词检测阈值(134)时，在所述用户设备(102)上发起唤醒过程，以用于处理所述热词和/或在所述流音频(118)中跟随所述热词的一个或多个其
它词项；以及当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时，抑制所述用户设备(102)上的所述唤醒过程。12.根据权利要求9-11中的任一项所述的方法(700)，其中，所述操作进一步包括，当所述概率分值(132)满足所述热词检测阈值(134)时：确定指示未能通过阈值余量满足所述热词检测阈值(134)的先前概率分值(132)在检测所述流音频(118)中的热词之前的阈值时间段内由所述第一级热词检测器(120)生成的近未命中指示；向所述远程计算设备(110)传送所述近未命中指示，所述远程计算设备(110)被配置为当所述第二级热词检测器(140)在所述音频数据(136)中检测到所述热词时，基于所述近未命中指示在所述第一级热词检测器(120)处标识的错误拒绝实例(250)，所述错误拒绝实例(250)指示所述第一级热词检测器(120)未能在所述流音频(118)的先前音频特征中初始地检测到所述热词；以及当基于在错误拒绝时间段内在所述第一级热词检测器(120)处标识的错误拒绝实例(250)的数目的错误拒绝率(270)满足错误拒绝阈值(280)时，调整所述第一级热词检测器(120)的所述热词检测阈值(134)。13.根据权利要求12所述的方法(700)，其中，调整所述热词检测阈值(134)包括降低所述热词检测阈值(134)的值。14.一种系统(800)，包括：数据处理硬件(810)；以及与所述数据处理硬件(810)通信的存储器硬件(820)，所述存储器硬件(820)存储指令，所述指令在所述数据处理硬件(810)上执行时使得所述数据处理硬件(810)执行包括以下的操作：从执行第一级热词检测器(120)的用户设备(102)接收表征由所述第一级热词检测器(120)在由所述用户设备(102)捕获的流音频(118)中检测到的热词的音频数据(136)，所述第一级热词检测器(120)被配置为：生成指示由所述用户设备(102)捕获的所述流音频(118)的音频特征中的热词的存在的概率分值(132)；以及当所述概率分值(132)满足所述第一级热词检测器(120)的热词检测阈值(134)时，在所述流音频(118)中检测到所述热词；使用第二级热词检测器(140)处理所述音频数据(136)，以确定所述第二级热词检测器(140)是否在所述音频数据(136)中检测到所述热词；当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时，在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)在所述流音频(118)中不正确地检测到热词的错误接受实例(210)；确定与所述用户设备(102)的所述第一级热词检测器(120)相关联的错误接受率(230)是否满足错误接受率阈值(240)，所述错误接受率(230)基于在错误接受时间段内在所述第一级热词检测器(120)处标识的错误接受实例(210)的数目；以及当与所述第一级热词检测器(120)相关联的所述错误接受率(230)满足所述错误接受
率阈值(240)时，调整所述第一级热词检测器(120)的所述热词检测阈值(134)。15.根据权利要求14所述的系统(800)，其中，所述操作进一步包括：当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时，抑制在所述用户设备(102)上的用于处理所述热词和/或在所述流音频(118)中跟随所述热词的一个或多个其它词项的唤醒过程。16.根据权利要求14或15所述的系统(800)，其中，所述操作进一步包括，当所述第二级热词检测器(140)在所述音频数据(136)中检测到所述热词时：确定是否从所述用户设备(102)接收到表征在所述流音频(118)中跟随所述热词的口头查询的后续音频数据(136)；以及当没有从所述用户设备(102)接收到表征所述口头查询的后续音频数据(136)时，在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)在所述流音频(118)中不正确地检测到热词的错误接受实例(210)。17.根据权利要求16所述的系统(800)，其中，所述操作进一步包括，当从所述用户设备(102)接收到表征所述口头查询的后续音频时，处理所述口头查询。18.根据权利要求14-17中的任一项所述的系统(800)，其中，所述用户设备(102)被配置为当所述第一级热词检测器(120)在所述流音频(118)中检测到所述热词时，发起唤醒过程以处理所述热词和/或在所述流音频(118)中跟随所述热词的一个或多个其它词项。19.根据权利要求14-18中的任一项所述的系统(800)，其中，调整所述第一级热词检测器(120)的所述热词检测阈值(134)包括增加所述热词检测阈值(134)的值。20.根据权利要求14-19中的任一项所述的系统(800)，其中，所述操作进一步包括，当接收表征由所述第一级热词检测器(120)在所述流音频(118)中检测到的所述热词的所述音频数据(136)时：从所述用户设备(102)接收指示所述第一级热词检测器(120)在生成未能通过阈值余量满足所述热词检测阈值(134)的先前概率分值(132)之后的阈值时间段内在所述流音频(118)中检测到所述热词的近未命中指示，所述先前概率分值(132)指示由所述用户设备(102)捕获的流音频(118)的先前音频特征中的热词的存在；当所述第二级热词检测器(140)在所述音频数据(136)中检测到所述热词时，基于所述近未命中指示，在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)未能在所述流音频(118)的所述先前音频特征中初始地检测到所述热词的错误拒绝实例(250)；确定与所述用户设备(102)的所述第一级热词检测器(120)相关联的错误拒绝率(270)是否满足错误拒绝率阈值(280)，所述错误拒绝率(270)基于在错误拒绝时间段内在所述第一级热词检测器(120)处标识的错误拒绝实例(250)的数目；以及当与所述第一级热词检测器(120)相关联的所述错误拒绝率(270)满足所述错误拒绝率阈值(280)时，调整所述第一级热词检测器(120)的所述热词检测阈值(134)。21.根据权利要求20所述的系统(800)，其中，调整所述热词检测阈值(134)包括降低所述第一级热词检测器(120)的所述热词检测阈值(134)。22.一种系统(100)，包括：用户设备(102)的数据处理硬件(103)；以及
与所述数据处理硬件(103)通信的存储器硬件(105)，所述存储器硬件(105)存储指令，所述指令当在所述数据处理硬件(103)上执行时使得所述数据处理硬件(103)执行包括以下的操作：接收由与所述数据处理硬件通信的一个或多个麦克风(106)捕获的流音频(118)；使用第一级热词检测器(120)生成指示所述流音频(118)的音频特征中的热词的存在的概率分值(132)；确定所述概率分值(132)是否满足热词检测阈值(134)；当所述概率分值(132)满足所述热词检测阈值(134)时：检测所述流音频(118)中的所述热词；以及向执行第二级热词检测器(140)的远程计算设备(110)传送表征使用所述第一级热词检测器(120)在所述流音频(118)中检测到的所述热词的音频数据(136)，所述远程计算设备(110)被配置为：确定所述第二级热词检测器(140)是否在所述音频数据(136)中检测到所述热词；以及当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时，在所述第一级热词检测器(120)处标识指示所述第一级热词检测器(120)在所述流音频(118)中不正确地检测到所述热词的错误接受实例(210)；以及当基于在错误接受时间段内在所述第一级热词检测器(120)处标识的错误接受实例(210)的数目的错误接受率(230)满足错误接受率阈值(240)时，调整所述第一级热词检测器(120)的所述热词检测阈值(134)。23.根据权利要求22所述的系统(100)，其中，调整所述第一级热词检测器(120)的所述热词检测阈值(134)包括增加所述热词检测阈值(134)的值。24.根据权利要求22或23所述的系统(100)，其中，所述操作进一步包括：当所述概率分值(132)满足所述热词检测阈值(134)时，在所述用户设备(102)上发起唤醒过程，以用于处理所述热词和/或在所述流音频(118)中跟随所述热词的一个或多个其它词项；以及当所述第二级热词检测器(140)在所述音频数据(136)中没有检测到所述热词时，抑制所述用户设备(102)上的所述唤醒过程。25.根据权利要求22-24中的任一项所述的系统(100)，其中，所述操作进一步包括，当所述概率分值(132)满足所述热词检测阈值(134)时：确定指示未能通过阈值余量满足所述热词检测阈值(134)的先前概率分值(132)在检测所述流音频(118)中的所述热词之前的阈值时间段内由所述第一级热词检测器(120)生成的近未命中指示；向所述远程计算设备(110)传送所述近未命中指示，所述远程计算设备(110)被配置为当所述第二级热词检测器(140)在所述音频数据(136)中检测到所述热词时，基于所述近未命中指示在所述第一级热词检测器(120)处标识错误拒绝实例(250)，所述错误拒绝实例(250)指示所述第一级热词检测器(120)未能在所述流音频(118)的先前音频特征中初始地检测到所述热词；以及当基于在错误拒绝时间段内在所述第一级热词检测器(120)处标识的错误拒绝实例(250)的数目的错误拒绝率(270)满足错误拒绝阈值(280)时，调整所述第一级热词检测器
(120)的所述热词检测阈值(134)。26.根据权利要求25所述的系统(100)，其中，调整所述热词检测阈值(134)包括降低所述热词检测阈值(134)的值。

技术总结
一种用于自动热词阈值调谐的方法(600)包括：从执行被配置为在流音频(118)中检测热词的第一级热词检测器(120)的用户设备(102)接收表征热词的音频数据(136)。该方法包括使用第二级热词检测器(140)处理音频数据以确定第二级热词检测器是否检测到热词。当没有检测到热词时，该方法包括在第一级热词检测器处标识错误接受实例(210)。该方法包括确定错误接受率(230)是否满足基于在错误接受时间段内的错误接受实例的数目的错误接受率阈值(240)。当错误接受率满足错误接受率阈值时，该方法包括调整第一级热词检测器的热词检测阈值。调整第一级热词检测器的热词检测阈值。调整第一级热词检测器的热词检测阈值。

技术研发人员：艾莎尼
受保护的技术使用者：谷歌有限责任公司
技术研发日：2021.03.15
技术公布日：2023/2/3

完整全部详细技术资料下载

当前第2页1 2

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！