用于错误唤醒抑制的系统和方法与流程

文档序号:41795210发布日期:2025-05-06 16:50阅读:32来源:国知局

本公开总体上涉及机器学习系统。更具体地,本公开涉及一种用于错误唤醒抑制的系统和方法。


背景技术:

1、当语音助理在用户未意图与他们说话时醒来时,会导致糟糕的用户体验和装置资源的浪费。错误唤醒还会导致用户之间的隐私问题。此外,当使用不向用户要求音频训练样本的无缝注册过程时,错误唤醒问题会更严重。先前,在装置的注册期间(诸如在购买之后设置装置),要求用户提供他们自己说出唤醒词的音频训练样本,以用于训练唤醒词检测系统。然而,用户可能不希望提供音频训练样本,因此替代地越来越多地实施无缝注册。尽管无缝注册可以通过消除注册期间的步骤来改善用户体验,但是缺乏音频训练样本可导致唤醒词检测系统的准确度降低。


技术实现思路

1、技术方案

2、本公开涉及一种用于错误唤醒抑制的系统和方法。

3、在实施例中,一种方法,包括:由电子装置的至少一个处理装置获得语音信号。所述方法还包括由所述至少一个处理装置使用被训练为接收所述语音信号作为输入的第一机器学习模型来预测在所述语音信号中说出唤醒词或短语的第一可能性。所述方法还包括响应于第一可能性超过第一阈值,由所述至少一个处理装置对所述语音信号执行自动语音识别来确定所述语音信号的文本表示。所述方法还包括由所述至少一个处理装置使用第二机器学习模型预测在所述语音信号中说出所述唤醒词或短语的第二可能性,第二机器学习模型被训练为接收所述文本表示、与所述语音信号相关联的音频特征和与所述电子装置相关联的上下文特征中的至少一个。另外,所述方法包括响应于第二可能性超过第二阈值,由所述至少一个处理装置生成执行在所述语音信号中请求的动作的指令。

4、在实施例中,一种电子装置,包括:至少一个处理装置,被配置为获得语音信号。所述至少一个处理装置还被配置为使用被训练为接收所述语音信号作为输入的第一机器学习模型来预测在所述语音信号中说出唤醒词或短语的第一可能性。所述至少一个处理装置还被配置为响应于第一可能性超过第一阈值,对所述语音信号执行自动语音识别以确定所述语音信号的文本表示。所述至少一个处理装置还被配置为使用第二机器学习模型来预测在所述语音信号中说出所述唤醒词或短语的第二可能性,第二机器学习模型被训练为接收所述文本表示、与所述语音信号相关联的音频特征和与所述电子装置相关联的上下文特征中的至少一个。另外,所述至少一个处理装置被配置为响应于第二可能性超过第二阈值,生成用于执行在所述语音信号中请求的动作的指令。

5、在实施例中,一种包括指令的机器可读介质,所述指令在被执行时使电子装置的至少一个处理器获得语音信号。所述机器可读介质还包括在被执行时使所述至少一个处理器使用被训练为接收所述语音信号作为输入的第一机器学习模型来预测在所述语音信号中说出唤醒词或短语的第一可能性的指令。所述机器可读介质还包括在被执行时使所述至少一个处理器响应于第一可能性超过第一阈值而对所述语音信号执行自动语音识别来确定所述语音信号的文本表示的指令。所述机器可读介质还包括在被执行时使所述至少一个处理器使用第二机器学习模型来预测在所述语音信号中说出所述唤醒词或短语的第二可能性的指令,第二机器学习模型被训练为接收所述文本表示、与所述语音信号相关联的音频特征和与所述电子装置相关联的上下文特征中的至少一个。此外,所述机器可读介质包括在被执行时使所述至少一个处理器响应于第二可能性超过第二阈值而生成用于执行在所述语音信号中请求的动作的指令。

6、从以下附图、描述和权利要求中,其他技术特征对于本领域技术人员而言可以是显而易见的。



技术特征:

1.一种由电子装置执行的方法(900),所述方法(900)包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1至2中任一项所述的方法,其中,使用第二机器学习模型预测第二可能性的步骤包括:

4.根据权利要求1至3中任一项所述的方法,还包括:

5.根据权利要求1至4中任一项所述的方法,其中,所述音频特征包括以下项中的至少一个:词包、总词数、总字符数、唯一词数、停用词数、音频时间、背景噪声水平和信噪比。

6.根据权利要求1至5中任一项所述的方法,其中,所述上下文特征包括以下项中的至少一个:至少一个用户特征、启动方法、免提设置和前台应用信息。

7.根据权利要求1至6中任一项所述的方法,还包括:

8.一种电子装置(101),包括:

9.根据权利要求8所述的电子装置,所述至少一个处理装置还被配置为:

10.根据权利要求8至9中任一项所述的电子装置,其中,为了使用第二机器学习模型来预测第二可能性,所述至少一个处理装置还被配置为:

11.根据权利要求8至10中任一项所述的电子装置,其中,所述至少一个处理装置还被配置为:

12.根据权利要求8至11中任一项所述的电子装置,其中,所述音频特征包括以下项中的至少一个:词包、总词数、总字符数、唯一词数、停用词数、音频时间、背景噪声水平和信噪比。

13.根据权利要求8至12中任一项所述的电子装置,其中,所述上下文特征包括以下项中的至少一个:至少一个用户特征、启动方法、免提设置和前台应用信息。

14.根据权利要求8至13中任一项所述的电子装置,其中,所述至少一个处理装置还被配置为:

15.一种包括指令的计算机可读介质,所述指令在被执行时使得电子装置的至少一个处理器执行与权利要求1-7中任一项所述的方法相应的操作。


技术总结
一种方法,包括:获得语音信号。所述方法还包括使用被训练为接收所述语音信号作为输入的第一机器学习模型来预测在所述语音信号中说出唤醒词或短语的第一可能性。所述方法还包括响应于第一可能性超过第一阈值,对所述语音信号执行自动语音识别以确定所述语音信号的文本表示。所述方法还包括使用第二机器学习模型预测在所述语音信号中说出所述唤醒词或短语的第二可能性,第二机器学习模型被训练为接收所述文本表示、与所述语音信号相关联的音频特征和与电子装置相关联的上下文特征中的至少一个。此外,所述方法包括响应于第二可能性超过第二阈值,生成用于执行在所述语音信号中请求的动作的指令。

技术研发人员:塔帕斯·卡南高,普瑞提·萨拉斯瓦特,斯蒂芬·迈克尔·沃尔什
受保护的技术使用者:三星电子株式会社
技术研发日:
技术公布日:2025/5/5
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1