用于多语言语音辨识的通用单语言输出层的制作方法

文档序号:42203069发布日期:2025-06-20 18:44阅读:35来源:国知局

本公开涉及使用用于多语言语音辨识的通用单语言输出层。


背景技术:

1、自动语音辨识(asr)(即,获取音频输入并将其转录为文本的过程)已在很大程度上成为移动装置和其他装置中使用的一项重要技术。一般来说,自动语音辨识试图通过获取音频输入(例如,语音话语)并将音频输入转录为文本来提供对人们所说内容的准确转录。基于深度神经网络的不断发展,现代asr模型在准确性(例如,低词错误率(wer))和时延(例如,用户说话与转录之间的延迟)两个方面不断提高。尽管有大量的人会双语,但许多asr模型仅与单一语言兼容。其他常规asr模型是多语的(即,与多种语言兼容),但包括显著增加的模型大小,使得常规多语言asr模型对于具有一定存储和计算资源限制的装置上应用不适合。


技术实现思路

1、本公开的一个方面提供一种用于辨识多种不同支持的语言的语音的多语言自动语音辨识(asr)模型。该多语言asr模型包括音频编码器,该音频编码器被配置为接收声学帧序列作为输入并且在多个输出步中的每个输出步处针对声学帧序列中的对应声学帧生成更高阶特征表示。该多语言asr模型还包括语言识别(lid)预测器,该lid预测器被配置为接收由音频编码器在多个输出步中的每个输出步处生成的更高阶特征表示作为输入并且在多个输出步中的每个输出步处生成语言预测表示。该多语言asr模型还包括解码器,该解码器包括单语言输出层,该单语言输出层具有多个输出节点,每个输出节点共享多个语言特定词片模型。该解码器被配置为接收由音频编码器在多个输出步中的每个输出步处生成的更高阶特征表示、由单语言输出层输出的非空白符号序列以及由lid预测器在多个输出步中的每个输出步处生成的语言预测表示作为输入,并且在多个输出步中的每个输出步处生成可能的语音辨识结果上的概率分布。

2、本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中,多种不同支持的语言中的每种语言包括v数量个词片模型,单语言输出层包括等于h的输入大小,并且单语言输出层包括等于h x v的维度。在一些示例中,由每个对应输出节点共享的多个语言特定词片模型中的每个语言特定词片模型包括与多种不同支持的语言当中的相应语言相对应的语言特定词片模型,该相应语言不同于与由对应输出节点共享的其他语言特定词片模型相对应的相应语言。在这些示例中,每个语言特定词片模型包括与该相应语言相对应的书写系统中的相应词片词元词表。

3、在音频编码器处作为输入接收的声学帧序列可以表征用多种不同支持的语言中的至少一种语言说出的话语。此处,该话语可以包括语码混合话语,该语码混合话语包括用第一种语言说出的一个或多个词以及用第二种语言说出的一个或多个其他词。在一些实现方式中,对于多种不同支持的语言中的每种语言,单语言输出层的多个输出节点按字母顺序与针对多种不同支持的语言中的每种语言的对应语言特定词片模型相关联。

4、在一些示例中,当多种不同支持的语言中的两种或更多种语言共享相同的对应语言特定词片模型时,单语言输出层将该相同的对应语言特定词片模型关联以共享多个输出节点中的相同输出节点。在这些示例中,关联过程可以通过识别跨由多种不同语言中的两种或更多种语言共享的多种不同支持的语言中的所有语言的所有语言特定词片模型来将由不同语言共享的相同语言特定词片模型关联到输出节点,并且对于被识别为由多种不同语言中的两种或更多种语言共享的每个对应语言特定词片模型,将对应语言特定词片模型编索引为1至s,其中s表示共享对应语言特定词片模型的不同语言的数量,并且针对共享对应语言特定词片模型的s数量个不同语言中的每种语言,将对应语言特定词片模型指派为占据多个输出节点中的该相应一个输出节点。此处,对于针对s数量个不同语言中的每种语言被指派为占据多个输出节点中的该相应一个输出节点的对应语言特定词片模型,关联过程可以将被编索引为1至s的对应语言特定词片模型合并成由s数量个不同语言中的每种语言共享的单个语言特定词片模型。

5、在一些示例中,在解码器处作为输入接收的在多个输出步中的每个输出步处的语言预测表示表示多种不同支持的语言当中的可能的语言上的概率分布,该概率分布是针对声学帧序列中的对应声学帧预测的,并且解码器仅通过语言特定词片模型在多个输出步中的每个输出步处生成可能的语音辨识结果上的概率分布,该语言特定词片模型与由对应输出步处的语言预测表示所表示的可能的语言上的概率分布中的前k种语言相对应。在这些示例中,k可以小于不同支持的语言的总数量,并且k包括自适应的依赖帧的变量。单语言输出层可以对从多个输出步中的每个输出步处的可能的语音辨识结果上的概率分布中选择的前n个候选假设执行集束搜索。

6、在一些实现方式中,解码器进一步包括:预测网络,该预测网络被配置为接收由单语言输出层输出的非空白符号序列和由lid预测器在多个输出步中的每个输出步处生成的语言预测表示作为输入并且在多个输出步中的每个输出步处生成密集表示;以及联合网络,该联合网络被配置为接收由预测网络在多个输出步中的每个输出步处生成的密集表示、由音频编码器在多个输出步中的每个输出步处生成的更高阶特征表示以及由lid预测器在多个输出步中的每个输出步处生成的语言预测表示作为输入,并且在多个输出步中的每个输出步处生成可能的语音辨识结果上的概率分布。在这些实现方式中,联合网络可以包括组合结构,该组合结构将门控和双线性池化堆叠以融合由预测网络生成的密集表示和由音频编码器生成的更高阶特征表示。

7、在一些示例中,音频编码器包括级联的编码器,该级联的编码器包括:第一编码器,该第一编码器被配置为接收声学帧序列作为输入并且在多个输出步中的每个输出步处针对声学帧序列中的对应声学帧生成第一更高阶特征表示;第二编码器,该第二编码器被配置为接收由第一编码器在多个输出步中的每个输出步处生成的第一更高阶特征表示作为输入并且在多个输出步中的每个输出步处针对对应的第一更高阶特征表示生成第二更高阶特征表示;并且lid预测器被进一步配置为接收由第一编码器在多个输出步中的每个输出步处生成的第一更高阶特征表示和由第二编码器在多个输出步中的每个输出步处生成的第二更高阶特征表示的串接作为输入,并且在多个输出步中的每个输出步处生成预言预测表示。在其他示例中,音频编码器包括级联的编码器,该级联的编码器包括第一编码器和第二编码器。在这些其他示例中,第一编码器被配置为接收声学帧序列作为输入并且在多个输出步中的每个输出步处针对声学帧序列中的对应声学帧生成第一更高阶特征表示;lid预测器被配置为接收由第一编码器在多个输出步中的每个输出步处生成的第一更高阶特征表示作为输入并且在多个输出步中的每个输出步处生成预言预测表示;并且第二编码器被配置为接收由第一编码器在多个输出步中的每个输出步处生成的第一更高阶特征表示和由lid预测器在多个输出步中的每个输出步处生成的预言预测表示的串接作为输入,并且针对对应的第一更高阶特征表示生成第二更高阶特征表示。

8、本公开的另一个方面提供一种计算机实现的方法,该计算机实现的方法当在数据处理硬件上执行时致使数据处理硬件执行用于使用用于多语语音辨识的单语言输出层的操作。操作包括:接收声学帧序列作为给多语言自动语音辨识(asr)模型的输入,该多语言asr模型被配置为辨识多种不同支持的语言的语音。操作还包括:由多语言asr模型的音频编码器在多个输出步中的每个输出步处针对声学帧序列中的对应声学帧生成更高阶特征表示。操作还包括:由多语言asr模型的语言识别(lid)预测器在多个输出步中的每个输出步处针对由音频编码器生成的对应更高阶特征表示生成语言预测表示。操作还包括:由多语言asr模型的解码器在多个输出步中的每个输出步处生成可能的语音辨识结果上的概率分布。解码器包括单语言输出层,该单语言输出层具有多个输出节点,每个输出节点共享多个语言特定词片模型。此处,可能的语音辨识结果上的概率分布是基于由音频编码器生成的对应更高阶特征表示、由单语输出层输出的非空白符号序列以及由lid预测器生成的对应语言预测表示。

9、本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中,多种不同支持的语言中的每种语言包括v数量个词片模型,单语言输出层包括等于h的输入大小,并且单语言输出层包括等于h的输入大小。在一些示例中,由每个对应输出节点共享的多个语言特定词片模型中的每个语言特定词片模型包括与多种不同支持的语言当中的相应语言相对应的语言特定词片模型,该相应语言不同于与由对应输出节点共享的其他语言特定词片模型相对应的相应语言。在这些示例中,每个语言特定词片模型包括与该相应语言相对应的书写系统中的相应词片词元词表。

10、在音频编码器处作为输入接收的声学帧序列可以表征用多种不同支持的语言中的至少一种语言说出的话语。此处,该话语可以包括语码混合话语,该语码混合话语包括用第一种语言说出的一个或多个词以及用第二种语言说出的一个或多个其他词。在一些示例中,对于多种不同支持的语言中的每种语言,单语言输出层的多个输出节点按字母顺序与针对多种不同支持的语言中的每种语言的对应语言特定词片模型相关联。

11、在一些实现方式中,操作进一步包括:当多种不同支持的语言中的两种或更多种语言共享相同的对应语言特定词片模型时,由单语言输出层将该相同的对应语言特定词片模型关联以共享多个输出节点中的相同输出节点。在这些实现方式中,单语言输出层可以通过识别跨由多种不同语言中的两种或更多种语言共享的多种不同支持的语言中的所有语言的所有语言特定词片模型来将由不同语言共享的相同语言特定词片模型关联到输出节点,并且对于被识别为由多种不同语言中的两种或更多种语言共享的每个对应语言特定词片模型,将对应语言特定词片模型编索引为1至s,其中s表示共享对应语言特定词片模型的不同语言的数量,并且针对共享对应语言特定词片模型的s数量个不同语言中的每种语言,将对应语言特定词片模型指派为占据多个输出节点中的相应一个输出节点。对于针对s数量个不同语言中的每种语言被指派为占据多个输出节点中的相应一个输出节点的对应语言特定词片模型,单语言输出层可以将被编索引为1至s的对应语言特定词片模型合并成由s数量个不同语言中的每种语言共享的单个语言特定词片模型。

12、在一些示例中,由lid预测器在多个输出步中的每个输出步处生成的语言预测表示表示多种不同支持的语言当中的可能的语言上的概率分布,该概率分布是针对声学帧序列中的对应声学帧预测的,并且生成可能的语音辨识结果上的概率分布包括仅通过语言特定词片模型生成可能的语音辨识结果上的概率分布,该语言特定词片模型与由对应语言预测表示所表示的可能的语言上的概率分布中的前k种语言相对应。在这些示例中,k可以小于不同支持的语言的总数量,并且k包括自适应的依赖帧的变量。操作可以进一步包括:由单语言输出层对从多个输出步中的每个输出步处的可能的语音辨识结果上的概率分布中选择的前n个候选假设执行集束搜索。

13、在一些实现方式中,操作进一步包括:由解码器的预测网络在多个输出步中的每个输出步处基于由单语言输出层输出的非空白符号序列和由lid预测器生成的对应语言预测表示来生成密集表示;以及由解码器的联合网络在多个输出步中的每个输出步处基于由预测网络生成的对应密集表示、由音频编码器生成的对应更高阶特征表示以及由lid预测器生成的对应语言预测表示来生成可能的语音辨识结果上的概率分布。在这些实现方式中,联合网络可以包括组合结构,该组合结构将门控和双线性池化堆叠以融合由预测网络生成的密集表示和由音频编码器生成的更高阶特征表示。

14、在一些示例中,音频编码器包括级联的编码器,并且操作进一步包括:由级联的编码器的第一编码器在多个输出步中的每个输出步处针对声学帧序列中的对应声学帧生成第一更高阶特征表示;以及由级联的编码器的第二编码器在多个输出步中的每个输出步处针对对应的第一更高阶特征表示生成第二更高阶特征表示。此处,针对对应更高阶特征表示生成语言预测表示是基于由第一编码器生成的对应的第一更高阶特征表示和由第二编码器生成的对应的第二更高阶特征表示的串接。在其他示例中,音频编码器包括级联的编码器,并且操作进一步包括:由级联的编码器的第一编码器在多个输出步中的每个输出步处针对声学帧序列中的对应声学帧生成第一更高阶特征表示;以及由级联的编码器的第二编码器在多个输出步中的每个输出步处基于由第一编码器生成的对应的第一更高阶特征表示和由lid预测器生成的对应语言预测表示的串接来生成第二更高阶特征表示。此处,针对对应更高阶特征表示生成语言预测表示是基于由第一编码器生成的对应的第一更高阶特征表示。

15、本公开的一个或多个实现方式的细节在附图和下面的描述中进行阐述。根据说明书和附图以及权利要求,其他方面、特征和优点将显而易见。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1