用于端到端自动语音识别置信度和删除估计的多任务学习的制作方法

文档序号：36170092发布日期：2023-11-24 03:42阅读：98来源：国知局

本公开涉及用于端到端自动语音识别置信度和删除估计的多任务学习。

背景技术：

1、现代自动语音识别(asr)系统不仅注重提供质量/准确性(例如，低词错率(wer))，而且还注重低延迟(例如，用户说话和转录出现之间的短延迟)。此外，现在使用asr系统时，需要asr系统以流式方式解码话语，该流式方式对应于用户说话时实时地或者甚至比实时更快地显示话语的转录。为了说明，当asr系统部署在体验直接用户交互的移动电话上时，使用asr系统的移动电话上的应用可以要求语音识别是流式的，使得单词、单词片段和/或单独字符在它们被说出后立即出现在屏幕上。在这里，也可能是移动电话的用户对于延迟的容忍度较低。由于这种低容忍度，语音识别努力以一种将可能对用户体验造成不利影响的延迟和不准确所产生的影响力降到最低的方式在移动设备上运行。

技术实现思路

1、本公开的一个方面提供了一种用于端到端自动语音识别置信度和删除估计的多任务学习的计算机实现的方法。当在数据处理硬件上执行时，所述计算机实现的方法使数据处理硬件执行操作，这些操作包括从第一语音识别器接收与用户所说的话语的转录对应的语音识别结果。语音识别结果包括形成话语的转录的一个或多个单词的假设子词单元的序列，每个子词单元在对应的输出步骤处从第一语音识别器输出。使用置信度估计模块，对于假设子词单元的序列中的每个子词单元，所述操作还包括当对应的子词单元从第一语音识别器输出时，获得与对应的输出步骤相关联的相应置信度嵌入。所述操作进一步使用置信度估计模块，以使用第一注意力机制生成置信度特征向量，该第一注意力机制自关注对应的子词单元的相应置信度嵌入和为假设子词单元的序列中的在所述对应的子词单元之前的任何其它子词单元获得的置信度嵌入。所述操作继续使用置信度估计模块，以使用第二注意力机制生成声学场境向量，该第二注意力机制交叉关注编码的序列，每个编码关联于从对应于话语的音频数据分割的对应声学帧。进一步地，所述操作然后使用置信度估计模块，以基于由置信度估计模块的输出层作为输入接收的置信度特征向量和声学特征向量，生成对应的子词单元的相应置信度输出得分，作为置信度估计模块的输出层的输出。所述操作还包括基于为假设子词单元的序列中的每个子词单元生成的相应置信度输出得分，确定话语的转录的话语级置信度得分。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，确定话语的转录的话语级置信度得分包括为话语的转录的一个或多个单词中的每个单词确定相应的词级置信度得分，该词级置信度得分等于为对应单词中的最后一个子词单元生成的相应置信度输出得分。这些实施方式进一步包括对为转录的一个或多个单词中的每个单词确定的相应的词级置信度得分进行聚合，以确定话语的转录的话语级置信度得分。

3、在一些附加实施方式中，所述操作进一步包括：使用分层注意力机制来估计话语的语音识别结果被正确识别的概率；基于话语的语音识别结果被正确识别的估计概率和指示话语是否被正确识别的真实值标签，来确定语音识别结果的话语级损失，以及根据话语级损失来训练置信度估计模型。

4、在一些示例中，置信度估计模型和第一语音识别器被联合训练。所述操作可以包括在话语的单词序列中的每个位置处估计删除数；确定语音识别结果的删除损失，以及在单词序列中的每个位置处的估计删除数和真实值删除数；并且根据删除损失来训练置信度估计模型。

5、在一些实施方式中，所述操作进一步包括：在训练置信度估计模型后，对第一语音识别器所识别的候选语音识别结果进行重新评分。子词单元可以包括单词片段或字素。

6、在一些示例中，第一语音识别器包括转换器解码器模型，该转换器解码器模型被配置为生成多个候选假设，每个候选假设都对应于话语的候选转录并且由相应的假设子词单元的序列表示。在这些实施方式中，转换器解码器模型可以包括递归神经网络-转换器(rnn-t)模型架构。

7、在一些实施方式中，所述操作进一步包括确定话语的转录的话语级置信度得分是否满足置信度阈值。在这些实施方式中，当话语的转录的话语级置信度得分不满足置信度阈值时：所述操作进一步包括拒绝从第一语音识别器输出的转录，并且指示第二语音识别器处理与用户所说的话语对应的音频数据，以重新转录用户所说的话语。在这些实施方式中，第一语音识别器可以驻留在与用户相关联的用户设备上，第二语音识别器可以在与用户设备通信的远程服务器上执行，并且当话语的转录的话语级置信度得分不满足置信度阈值时，用户设备可以将音频数据传输到远程服务器。同样在这些实施方式中，第二语音识别器可以比第一语音识别器更为计算密集。

8、本公开的另一个方面提供了一种用于端到端自动语音识别置信度和删除估计的多任务学习的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储有指令，当所述指令在数据处理硬件上执行时，所述指令使数据处理硬件执行操作，这些操作包括从第一语音识别器接收与用户所说的话语的转录对应的语音识别结果。语音识别结果包括形成话语的转录的一个或多个单词的假设子词单元的序列，每个子词单元在对应的输出步骤从第一语音识别器输出。通过使用置信度估计模块，对于假设子词单元的序列中的每个子词单元，所述操作还包括当对应的子词单元从第一语音识别器输出时，获得与对应的输出步骤相关联的相应置信度嵌入。所述操作还使用置信度估计模块，使用第一注意力机制生成置信度特征向量，该第一注意力机制自关注对应的子词单元的相应置信度嵌入和为假设子词单元的序列中的在对应的子词单元之前的任何其它子词单元获得的置信度嵌入。所述操作继续使用置信度估计模块，使用第二注意力机制生成声学场境向量，该第二注意力机制交叉关注编码的序列，每个编码关联于从对应于话语的音频数据分割的对应声学帧。进一步地，所述操作使用置信度估计模块，以基于被置信度估计模块的输出层作为输入接收的置信度特征向量和声学特征向量，生成对应的子词单元的相应置信度输出得分，作为置信度估计模块的输出层的输出。所述操作还包括基于为假设子词单元的序列中的每个子词单元生成的相应置信度输出得分，确定话语的转录的话语级置信度得分。

9、这个方面可以包括以下一个或多个可选特征。在一些实施方式中，确定话语的转录的话语级置信度得分包括为话语的转录的一个或多个单词中的每个单词确定相应的词级置信度得分，该词级置信度得分等于为对应单词中的最后子词单元生成的相应置信度输出得分。这些实施方式进一步包括对为转录的一个或多个单词中的每个单词确定的相应的词级置信度得分进行聚合，以确定话语的转录的话语级置信度得分。

10、在一些附加实施方式中，所述操作进一步包括：使用分层注意力机制来估计话语的语音识别结果被正确识别的概率；基于话语的语音识别结果被正确识别的估计概率和指示话语是否被正确识别的真实值标签，来确定语音识别结果的话语级损失；以及根据话语级损失来训练置信度估计模型。

11、在一些示例中，置信度估计模型和第一语音识别器被联合训练。所述操作可以包括：在话语的单词序列中的每个位置处估计删除数；确定语音识别结果的删除损失，以及单词序列中每个位置的估计删除数和真实值删除数；并且根据删除损失来训练置信度估计模型。

12、在一些实施方式中，操作进一步包括在训练置信度估计模型后，对第一语音识别器所识别的候选语音识别结果进行重新评分。子词单元可以包括单词片段或字素。

13、在一些实施方式中，第一语音识别器包括转换器解码器模型，该转换器解码器模型配置为生成多个候选假设，每个候选假设对应于话语的候选转录并且由相应的假设子词单元的序列表示。在这些实施方式中，转换器解码器模型可以包括递归神经网络-转换器(rnn-t)模型架构。

14、在一些示例中，所述操作进一步包括确定话语的转录的话语级置信度得分是否满足置信度阈值。在这些示例中，当话语的转录的话语级置信度得分不满足置信度阈值时，所述操作进一步包括拒绝从第一语音识别器输出的转录，并且指示第二语音识别器处理与用户所说的话语对应的音频数据，以重新转录用户所说的话语。在这些示例中，第一语音识别器可以驻留在与用户相关联的用户设备上，第二语音识别器可以在与用户设备通信的远程服务器上执行，并且当话语的转录的话语级置信度得分不满足置信度阈值时，用户设备可以将音频数据传输到远程服务器。同样在这些示例中，第二语音识别器可以比第一语音识别器更为计算密集。

15、本公开的一种或多种实施方式的细节在附图或以下描述中进行说明。其它方面、特征和优点通过说明书和附图以及通过权利要求书将变得显而易见。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：大卫
技术所有人：谷歌有限责任公司
我是此专利的发明人

上一篇：离合器组件的制作方法
上一篇：成对下行链路定位参考信号资源配置的制作方法