自动确定经由自动助理界面接收到的口头话语的语音识别的语言的制作方法

文档序号：23710623发布日期：2021-01-23 19:22阅读：来源：国知局

技术特征：
1.一种方法，所述方法包括：在由用户操作以与自动助理接洽的计算设备的麦克风处接收来自所述用户的话音输入，其中，所述话音输入包括来自所述用户的请求；应用指示所述话音输入的音频记录的数据作为跨多个语音到文本“stt”机器学习模型的输入以生成多个候选语音识别输出，其中，所述多个stt机器学习模型中的每个stt机器学习模型以特定语言被训练；针对所述多个stt模型中的每个相应stt机器学习模型，分析所述多个候选语音识别输出以确定针对所述相应stt机器学习模型的熵得分；基于与所述多个stt机器学习模型相关联的所述熵得分，选择与所述多个stt机器学习模型中的至少一个stt机器学习模型相关联的语言作为目标语言；以及使所述自动助理使用所述目标语言来响应来自所述用户的所述请求。2.根据权利要求1所述的方法，其中，针对所述相应stt机器学习模型的所述熵得分是基于所述相应stt模型的所述多个候选语音识别输出的计数来确定的。3.根据权利要求1或者权利要求2所述的方法，其中，针对所述相应stt机器学习模型的所述熵得分是基于所述相应stt模型的所述多个候选语音识别输出之间的差来确定的。4.根据权利要求1至3中的任一项所述的方法，其中，针对所述相应stt机器学习模型的所述熵得分是基于潜在空间中的所述相应stt模型的所述多个候选语音识别输出之间的语义距离来确定的。5.根据权利要求1至4中的任一项所述的方法，其中，选择所述目标语言进一步基于如下项中的一个或多个：所述计算设备的历史上下文、所述计算设备的当前上下文或为每个候选语音识别输出计算的置信度得分。6.根据权利要求1至5中的任一项所述的方法，其中，针对每个相应stt机器学习模型的所述熵得分是使用由所述相应stt机器学习模型生成的具有高于特定阈值的置信度得分的所述候选语音识别输出来计算的。7.根据权利要求1至6中的任一项所述的方法，进一步包括：如果针对所选择的stt机器学习模型的所述熵得分满足预先确定的阈值，则使所述自动助理在执行任何任务之前基于所述用户的请求提示所述用户进行确认。8.根据权利要求1至7中的任一项所述的方法，其中，所述使包括使所述自动助理提供对所述用户的所述请求的自然语言响应作为音频输出，其中，所述自然语言响应以所述目标语言提供。9.根据权利要求1至8中的任一项所述的方法，其中，所述多个stt机器学习模型包括stt机器学习模型的超集的子集，并且其中所述方法进一步包括基于以下项中的一个或多个从所述超集选择所述子集：所述计算设备的历史上下文、所述计算设备的当前上下文或由所述用户先前为所述自动助理设置的设定。10.一种系统，包括一个或多个处理器以及与所述一个或多个处理器可操作地耦合的存储器，其中，所述存储器存储指令，所述指令响应于由一个或多个处理器执行所述指令，使所述一个或多个处理器执行以下操作：在由用户操作以与自动助理接洽的计算设备的麦克风处接收来自所述用户的话音输入，其中，所述话音输入包括来自所述用户的请求；
应用指示所述话音输入的音频记录的数据作为跨多个语音到文本“stt”机器学习模型的输入以生成多个候选语音识别输出，其中，所述多个stt机器学习模型中的每个stt机器学习模型以特定语言被训练；针对所述多个stt模型中的每个相应stt机器学习模型，分析所述多个候选语音识别输出以确定针对所述相应stt机器学习模型的熵得分；基于与所述多个stt机器学习模型相关联的所述熵得分，选择与所述多个stt机器学习模型中的至少一个stt机器学习模型相关联的语言作为目标语言；以及使所述自动助理使用所述目标语言来响应来自所述用户的所述请求。11.根据权利要求10所述的系统，其中，针对所述相应stt机器学习模型的所述熵得分是基于所述相应stt模型的所述多个候选语音识别输出的计数来确定的。12.根据权利要求10或者权利要求11所述的系统，其中，针对所述相应stt机器学习模型的所述熵得分是基于所述相应stt模型的所述多个候选语音识别输出之间的差来确定的。13.根据权利要求10至12中的任一项所述的系统，其中，针对所述相应stt机器学习模型的所述熵得分是基于潜在空间中的所述相应stt模型的所述多个候选语音识别输出之间的语义距离来确定的。14.根据权利要求10至13中的任一项所述的系统，其中，选择所述目标语言进一步基于如下项中的一个或多个：所述计算设备的历史上下文、所述计算设备的当前上下文或为每个候选语音识别输出计算的置信度得分。15.根据权利要求10至14中的任一项所述的系统，其中，针对每个相应stt机器学习模型的所述熵得分是使用由所述相应stt机器学习模型生成的具有高于特定阈值的置信度得分的所述候选语音识别输出来计算的。16.根据权利要求10至15中的任一项所述的系统，进一步包括：如果针对所选择的stt机器学习模型的所述熵得分满足预先确定的阈值，则使所述自动助理在执行任何任务之前基于所述用户的请求提示所述用户进行确认。17.根据权利要求10至16中的任一项所述的系统，其中，所述使包括使所述自动助理提供对所述用户的所述请求的自然语言响应作为音频输出，其中，所述自然语言响应以所述目标语言提供。18.至少一种包括指令的非暂时性计算机可读介质，所述指令响应于由一个或多个处理器执行所述指令，使所述一个或多个处理器执行以下操作：在由用户操作以与自动助理接洽的计算设备的麦克风处接收来自所述用户的话音输入，其中，所述话音输入包括来自所述用户的请求；应用指示所述话音输入的音频记录的数据作为跨多个语音到文本“stt”机器学习模型的输入以生成多个候选语音识别输出，其中，所述多个stt机器学习模型中的每个stt机器学习模型以特定语言被训练；针对所述多个stt模型中的每个相应stt机器学习模型，分析所述多个候选语音识别输出以确定针对所述相应stt机器学习模型的熵得分；基于与所述多个stt机器学习模型相关联的所述熵得分，选择与所述多个stt机器学习模型中的至少一个stt机器学习模型相关联的语言作为目标语言；以及
使所述自动助理使用所述目标语言来响应来自所述用户的所述请求。19.根据权利要求18所述的至少一种非暂时性计算机可读介质，其中，针对所述相应stt机器学习模型的所述熵得分是基于以下中的一个或者两者来确定的：所述相应stt模型的所述多个候选语音识别输出的计数和所述相应stt模型的所述多个候选语音识别输出之间的差。20.根据权利要求18或权利要求19所述的至少一种非暂时性计算机可读介质，其中，针对所述相应stt机器学习模型的所述熵得分是基于潜在空间中的所述相应stt模型的所述多个候选语音识别输出之间的语义距离来确定的。

完整全部详细技术资料下载

当前第2页1 2 3