用于自然谈话话音系统的不流畅检测模型的制作方法

文档序号：38353721发布日期：2024-06-19 12:07阅读：128来源：国知局

本公开涉及用于自然谈话话音系统的不流畅(disfluency)检测模型。

背景技术：

1、现代自动语音识别(asr)系统集中于不仅提供高质量(例如，低的词错误率)，而且还提供低时延(例如，用户讲话与转录出现之间的短延迟)。例如，当现今使用实现asr系统的设备时，常常存在asr系统以对应于实时或甚至比实时快的流式方式对话语进行解码的期望。

技术实现思路

1、本公开的一个方面提供一种计算机实现的方法，该计算机实现的方法当在数据处理硬件上被执行时，使数据处理硬件执行操作，所述操作包括：接收表征一个或多个话语的声学帧序列。在多个输出时间步中的每一个输出时间步处，操作进一步包括：由语音识别模型的编码器网络生成声学帧序列中的对应声学帧的高阶特征表示；由语音识别模型的预测网络生成由语音识别模型的最终softmax层输出的对应非空白符号序列的隐藏表示；以及由语音识别模型的第一联合网络生成对应时间步对应于停顿和语音结束的概率分布，该第一联合网络接收由编码器网络生成的高阶特征表示和由预测网络生成的隐藏表示。

2、本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中，这些操作进一步包括：确定对应时间步对应于语音结束的概率满足语音结束阈值；以及响应于确定对应时间步对应于语音结束的概率满足阈值，触发麦克风关闭事件。

3、在一些实现方式中，操作包括：确定对应时间步对应于停顿的概率满足停顿阈值；以及基于确定对应时间步对应于停顿的概率满足停顿阈值，在对应时间步处发出停顿词元(token)。

4、在一些示例中，这些操作包括，在多个输出步中的每一个输出步处：由语音识别模型的第二联合网络生成可能的语音识别假设上的概率分布。在一些实现方式中，语音识别模型通过两阶段训练过程被训练。两阶段训练过程可以包括：第一阶段，该第一阶段在语音识别任务上训练编码器网络、预测网络和第二联合网络；以及第二阶段，该第二阶段初始化和微调第一联合网络，以学习如何预测话语中的停顿和语音结束位置。在一些示例中，编码器网络、预测网络和第二联合网络的参数在两阶段训练过程的第二阶段期间被冻结。在一些实现方式中，两阶段训练过程在具有指示停顿和语音结束位置的标记的多个转录训练话语上训练语音识别模型。

5、在一些实现方式中，编码器网络包括自注意力块的堆叠。自注意力块的堆叠可以包括conformer块的堆叠或transformer块的堆叠。

6、在一些示例中，生成对应非空白符号序列的隐藏表示包括，对于在对应时间步作为输入接收到的非空白符号序列中的每一个非空白符号：由预测网络使用共享嵌入矩阵来生成对应非空白符号的嵌入；由预测网络将相应的位所向量指配给对应非空白符号；以及由预测网络以与嵌入与相应的位所向量之间的相似度成比例的方式对嵌入加权。生成隐藏表示进一步包括：生成对应时间步处的单个嵌入向量作为来自预测网络的输出，该单个嵌入向量基于所加权的嵌入的加权平均，单个嵌入向量包括隐藏表示。

7、在一些实现方式中，预测网络包括多头注意力机制，多头注意力机制跨多头注意力机制的每一个头共享该共享嵌入矩阵。

8、本公开的另一方面提供一种系统，该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令，所述指令当在数据处理硬件上被执行时，使数据处理硬件执行操作。操作包括接收表征一个或多个话语的声学帧序列。操作进一步包括，在多个输出步中的每一个输出步处：由语音识别模型的编码器网络生成声学帧序列中的对应声学帧的高阶特征表示；由语音识别模型的预测网络生成由语音识别模型的最终softmax层输出的对应非空白符号序列的隐藏表示；以及由语音识别模型的第一联合网络生成对应时间步对应于停顿和语音结束的概率分布，所述第一联合网络接收由编码器网络生成的高阶特征表示和由预测网络生成的隐藏表示。

9、本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中，操作进一步包括：确定对应时间步对应于语音结束的概率满足语音结束阈值；以及响应于确定对应时间步对应于语音结束的概率满足阈值，触发麦克风关闭事件。

10、在一些实现方式中，这些操作包括：确定对应时间步对应于停顿的概率满足停顿阈值；以及基于确定对应时间步对应于停顿的概率满足停顿阈值，在对应时间步处发出停顿词元。

11、在一些示例中，这些操作包括：在多个输出步中的每一个输出步处：由语音识别模型的第二联合网络生成可能的语音识别假设上的概率分布。在一些实现方式中，语音识别模型通过两阶段训练过程来训练。两阶段训练过程可以包括：第一阶段，该第一阶段在语音识别任务上训练编码器网络、预测网络和第二联合网络；以及第二阶段，该第二阶段初始化和微调第一联合网络，以学习如何预测话语中的停顿和语音结束位置。在一些示例中，编码器网络、预测网络和第二联合网络的参数在两阶段训练过程的第二阶段期间被冻结。在一些实现方式中，两阶段训练过程在具有指示停顿和语音结束位置的标记的多个转录训练话语上训练语音识别模型。

12、在一些实现方式中，编码器网络包括自注意力块的堆叠。自注意力块的堆叠可以包括conformer块的堆叠或transformer块的堆叠。

13、在一些示例中，生成对应非空白符号序列的隐藏表示包括，对于在对应时间步处作为输入接收到的非空白符号序列中的每一个非空白符号：由预测网络使用共享嵌入矩阵来生成对应非空白符号的嵌入；由预测网络将相应的位所向量指配给对应非空白符号；以及由预测网络以与嵌入与相应的位所向量之间的相似度成比例的方式对嵌入加权。生成隐藏表示进一步包括：生成对应时间步处的单个嵌入向量作为来自预测网络的输出，单个嵌入向量基于所加权的嵌入的加权平均，单个嵌入向量包括隐藏表示。

14、在一些实现方式中，预测网络包括多头注意力机制，多头注意力机制跨多头注意力机制的每一个头共享该共享嵌入矩阵。

15、本公开的又一方面提供一种自然谈话自动语音识别(asr)模型，该自然谈话asr模型包括编码器、预测网络和第一联合网络。编码器被配置成：接收表征一个或多个话语的声学帧序列作为输入；并且在多个时间步中的每一个时间步，生成声学帧序列中的对应声学帧的高阶特征表示。预测网络被配置成：接收由最终softmax层输出的非空白符号序列作为输入；并且在多个时间步中的每一个时间步处，生成隐藏表示。第一联合网络被配置成：接收由预测网络在多个时间步中的每一个时间步处生成的隐藏表示和由编码器在多个时间步中的每一个时间步处生成的高阶特征表示作为输入；并且在多个时间步中的每一个时间步处，生成对应时间步是否对应于停顿和语音结束的概率分布。

16、本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中，asr模型基于对应时间步对应于语音结束的概率满足阈值来触发麦克风关闭事件。

17、在一些示例中，asr模型还包括第二联合网络，该第二联合网络被配置成：接收由预测网络在多个时间步中的每一个时间步处生成的隐藏表示和由编码器在多个时间步中的每一个时间步处生成的高阶特征表示作为输入；并且在多个时间步中的每一个时间步处，生成可能的语音识别假设上的概率分布。

18、在一些实现方式中，在第一训练阶段期间，编码器网络、预测网络和第二联合网络在语音识别任务上被训练；并且在第一训练阶段之后，当编码器网络、预测网络和第二联合网络的参数被冻结时，第一联合网络被初始化和微调以学习如何预测话语中的停顿和语音结束位置。

19、本公开的再一方面提供一种自然谈话自动语音识别(asr)系统，该自然谈话asr系统包括：asr模型，该asr模型具有编码器、预测网络和第一联合网络；以及轮换检测器模型。编码器被配置成：接收表征一个或多个话语的声学帧序列作为输入；并且在多个时间步中的每一个时间步处，生成声学帧序列中的对应声学帧的高阶特征表示。预测网络被配置成：接收由最终softmax层输出的非空白符号序列作为输入；并且在多个时间步中的每一个时间步，生成隐藏表示。联合网络被配置成：接收由预测网络在多个时间步中的每一个时间步处生成的隐藏表示和由编码器在多个时间步中的每一个时间步处生成的高阶特征表示作为输入；并且在多个时间步中的每一个时间步，生成对应时间步是否对应于停顿和语音结束的概率分布。轮换检测器模型被配置成：接收由编码器在多个时间步中的每一个时间步处生成的高阶特征表示作为输入；并且对于每一个高阶特征表示，生成高阶特征表示是否对应于谈话、停顿和语音结束的对应概率分布。

20、本公开的再一方面提供一种自然谈话自动语音识别(asr)系统，该自然谈话asr系统包括：asr模型，该asr模型具有编码器、预测网络和联合网络；以及轮换检测器模型。asr模型包括编码器，该编码器被配置成：接收表征一个或多个话语的声学帧序列作为输入；并且在多个时间步中的每一个时间步处，生成声学帧序列中的对应声学帧的高阶特征表示。预测网络被配置成：接收由最终softmax层输出的非空白符号序列作为输入；并且在多个时间步中的每一个时间步处，生成隐藏表示。联合网络被配置成：接收由预测网络在多个时间步中的每一个时间步处生成的隐藏表示和由编码器在多个时间步中的每一个时间步处生成的高阶特征表示作为输入；并且在多个时间步中的每一个时间步，生成可能的语音识别假设上的概率分布。轮换检测器模型被配置成：接收由预测网络在多个时间步中的每一个时间步处生成的隐藏表示；并且生成下一个子词单元是否对应于停顿和语音结束的对应概率分布。

21、在附图和以下描述中阐述本公开的一个或多个实现方式的细节。根据说明书和附图，并且根据权利要求书，其他方面、特征和优点将是易懂的。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张硕英,李博,塔拉·N·赛纳特,特雷弗·施特勒曼,张超
技术所有人：谷歌有限责任公司
我是此专利的发明人

上一篇：一种组合式空气压缩机活塞的制作方法
下一篇：一种公路桥梁隧道裂缝深度测量仪的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！