电子装置、智能服务器和说话者自适应语音识别方法与流程

文档序号：41154968发布日期：2025-03-07 11:29阅读：151来源：国知局

本公开涉及电子装置、智能服务器和说话者自适应语音识别方法。

背景技术：

1、配备有话音助理功能以基于用户话语来提供服务的电子装置正在分发。电子装置可以通过人工智能（ai）服务器来识别用户的话语并且弄清话语的含义和意图。ai服务器可以通过解释用户的话语来推断用户的意图，并且可以根据推断出的意图来执行任务。ai服务器可以根据通过用户与ai服务器之间的自然语言交互所表达的用户的意图来执行任务。

技术实现思路

1、技术方案

2、根据本公开的一个方面，一种电子装置包括：存储器，该存储器存储至少一个指令；以及至少一个处理器，该至少一个处理器在操作上连接到存储器。至少一个处理器被配置为运行至少一个指令以：对话音输入执行说话者验证以确定话音输入是否与注册的说话者的话音匹配；基于确定话音输入与注册的说话者的话音不匹配，基于第一自动语音识别（asr）模型来对话音输入执行第一语音识别；并且基于确定话音输入与注册的说话者的话音匹配，基于序列摘要神经网络（ssn）和第二asr模型来对话音输入执行第二语音识别。

3、根据本公开的一个方面，一种智能服务器包括：存储器，该存储器存储至少一个指令；以及至少一个处理器，该至少一个处理器在操作上连接到存储器。至少一个处理器被配置为运行至少一个指令以：对话音输入执行说话者验证以确定话音输入是否与注册的说话者的话音匹配；基于确定话音输入与注册的说话者的话音不匹配，基于第一自动语音识别（asr）模型来对话音输入执行第一语音识别；并且基于确定话音输入与注册的说话者的话音匹配，基于序列摘要神经网络（ssn）和第二asr模型来对话音输入执行第二语音识别。

4、根据本公开的一个方面，一种智能服务器的操作方法包括：对话音输入执行说话者验证以确定话音输入是否与注册的说话者的话音匹配；基于确定话音输入与注册的说话者的话音不匹配，基于第一自动语音识别（asr）模型来对话音输入执行第一语音识别；并且基于确定话音输入与注册的说话者的话音匹配，基于序列摘要神经网络（ssn）和第二asr模型来对话音输入执行第二语音识别。

技术特征：

1. 一种电子装置（101；201；501），所述电子装置（101；201；501）包括：

2.根据权利要求1所述的电子装置（101；201；501），其中，所述第二asr模型是通过选择性地向所述第一asr模型添加为所述注册的说话者的个性化而配置的适配层（602）来配置的。

3. 根据权利要求1和2中任一项所述的电子装置（101；201；501），其中，所述至少一个处理器（120；203；520）还被配置为运行所述至少一个指令以：

4.根据权利要求1至3中任一项所述的电子装置（101；201；501），其中，所述至少一个处理器（120；203；520）还被配置为运行所述至少一个指令以：

5.根据权利要求1至4中任一项所述的电子装置（101；201；501），其中，所述第一asr模型包括基于transformer的asr模型、基于conformer的asr模型或基于递归神经网络rnn-transducer的asr模型中的一者。

6. 根据权利要求1至5中任一项所述的电子装置（101；201；501），其中，所述至少一个处理器（120；203；520）还被配置为运行所述至少一个指令以：

7.根据权利要求1至6中任一项所述的电子装置（101；201；501），其中，所述ssn（601）和所述适配层（602）是基于通过对通过说话者验证的用户话音进行解码所获得的转录数据来训练的。

8. 一种智能服务器（200；502），所述智能服务器（200；502）包括：

9.根据权利要求8所述的智能服务器（200；502），其中，所述第二asr模型是通过选择性地向所述第一asr模型添加为所述注册的说话者的个性化而配置的适配层（602）来配置的。

10. 根据权利要求8和9中任一项所述的智能服务器（200；502），其中，所述至少一个处理器还被配置为运行所述至少一个指令以：

11.根据权利要求8至10中任一项所述的智能服务器（200；502），其中，所述至少一个处理器还被配置为运行所述至少一个指令以：

12.根据权利要求8至11中任一项所述的智能服务器（200；502），其中，所述第一asr模型包括基于transformer的asr模型、基于conformer的asr模型或基于递归神经网络rnn-transducer的asr模型中的一者。

13. 根据权利要求8至12中任一项所述的智能服务器（200；502），其中，所述至少一个处理器还被配置为运行所述至少一个指令以：

14.根据权利要求8至13中任一项所述的智能服务器（200；502），其中，所述ssn（601）和所述适配层（602）是基于通过对通过说话者验证的用户话音进行解码所获得的转录数据来训练的。

15.一种智能服务器（200；502）的操作方法，所述操作方法包括：

技术总结
一种根据实施例的电子装置可以包括：存储器，该存储器存储至少一个指令；以及至少一个处理器，该至少一个处理器在操作上连接到存储器并且用于运行至少一个指令。该至少一个处理器可以对语音输入执行说话者验证以确定语音输入是否与注册的说话者的语音匹配。如果语音输入与注册的说话者的语音不匹配，则该至少一个处理器可以基于第一ASR模型来对语音输入执行第一语音识别。如果语音输入与注册的说话者的语音匹配，则该至少一个处理器可以基于SSN和第二ASR模型来对语音输入执行第二语音识别。另外的实施例可以是可能的。

技术研发人员：李太雨,权珉奭,金炅泰,宋佳进,辛皓先,李政仁,郑晳荣
受保护的技术使用者：三星电子株式会社
技术研发日：
技术公布日：2025/3/6

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李太雨,权珉奭,金炅泰,宋佳进,辛皓先,李政仁,郑晳荣
技术所有人：三星电子株式会社
我是此专利的发明人

上一篇：一种对绞差分信号稳定的组合排线的制作方法
下一篇：一种具有防雨机构的配电柜的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！