用于多语言语音辨识的通用单语言输出层的制作方法

文档序号：42203069发布日期：2025-06-20 18:44阅读：36来源：国知局

技术特征：

1.一种用于辨识多种不同支持的语言的语音的多语言自动语音辨识asr模型(200)，其特征在于，所述多语言asr模型(200)包括：

2.如权利要求1所述的多语言asr模型(200)，其特征在于：

3.如权利要求1或2所述的多语言asr模型(200)，其特征在于，由每个对应输出节点(410)共享的所述多个语言特定词片模型(420)中的每个语言特定词片模型(420)包括与所述多种不同支持的语言当中的相应语言相对应的语言特定词片模型(420)，该相应语言不同于与由所述对应输出节点(410)共享的其他语言特定词片模型(420)相对应的相应语言。

4.如权利要求3所述的多语言asr模型(200)，其特征在于，每个语言特定词片模型(410)包括与该相应语言相对应的书写系统中的相应词片词元词表(422)。

5.如权利要求1至4中任一项所述的多语言asr模型(200)，其特征在于，在所述音频编码器(204)处作为输入接收的所述声学帧序列(110)表征用所述多种不同支持的语言中的至少一种语言说出的话语。

6.如权利要求5所述的多语言asr模型(200)，其特征在于，所述话语包括语码混合话语，所述语码混合话语包括用第一语言说出的一个或多个词和用第二语言说出的一个或多个其他词。

7.如权利要求1至6中任一项所述的多语言asr模型(200)，其特征在于，对于所述多种不同支持的语言中的每种语言，所述单语言输出层(400)的所述多个输出节点(410)按字母顺序与针对所述多种不同支持的语言中的每种语言的对应语言特定词片模型(420)相关联。

8.如权利要求1至7中任一项所述的多语言asr模型(200)，其特征在于，当所述多种不同支持的语言中的两种或更多种语言共享相同的对应语言特定词片模型(420)时，所述单语言输出层(400)将该相同的对应语言特定词片模型(420)关联以共享所述多个输出节点(410)中的相同输出节点。

9.如权利要求8所述的多语言asr模型(200)，其特征在于，关联过程通过以下来将由不同语言共享的相同语言特定词片模型(420)与输出节点(410)关联：

10.如权利要求9所述的多语言asr模型(200)，其特征在于，对于针对所述s数量个不同语言中的每种语言被指派为占据所述多个输出节点(410)中的所述相应一个输出节点的该对应语言特定词片模型(420)，所述关联过程将被编索引为1至s的该对应语言特定词片模型(420)合并成由所述s数量个所述不同语言中的每种语言共享的单个语言特定词片模型(420)。

11.如权利要求1至10中任一项所述的多语言asr模型(200)，其特征在于：

12.如权利要求11所述的多语言asr模型(200)，其特征在于：

13.如权利要求1至12中任一项所述的多语言asr模型(200)，其特征在于，所述单语言输出层(400)对从所述多个输出步中的每个输出步处的可能的语音辨识结果上的所述概率分布(252)中选择的前n个候选假设执行集束搜索。

14.如权利要求1至13中任一项所述的多语言asr模型(200)，其特征在于，所述解码器(240)进一步包括：

15.如权利要求14所述的多语言asr模型(200)，其特征在于，所述联合网络(250)包括组合结构，所述组合结构将门控和双线性池化堆叠，以融合由所述预测网络(300)生成的所述密集表示(350)和由所述音频编码器(204)生成的所述更高阶特征表示(212、222)。

16.如权利要求1至15中任一项所述的多语言asr模型(200)，其特征在于：

17.如权利要求1至16中任一项所述的多语言asr模型(200)，其特征在于：

18.一种计算机实现的方法(500)，其特征在于，当所述计算机实现的方法在数据处理硬件(610)上被执行时，使得所述数据处理硬件(610)执行操作，所述操作包括：

19.如权利要求18所述的计算机实现的方法(500)，其特征在于：

20.如权利要求18或19所述的计算机实现的方法(500)，其特征在于，由每个对应输出节点(410)共享的所述多个语言特定词片模型(420)中的每个语言特定词片模型(420)包括与所述多种不同支持的语言当中的相应语言相对应的语言特定词片模型(420)，该相应语言不同于与由所述对应输出节点(410)共享的其他语言特定词片模型(420)相对应的相应语言。

21.如权利要求20所述的计算机实现的方法(500)，其特征在于，每个语言特定词片模型(420)包括与该相应语言相对应的书写系统中的相应词片词元词表(422)。

22.如权利要求18至21中任一项所述的计算机实现的方法(500)，其特征在于，在所述音频编码器(204)处作为输入接收的所述声学帧序列(110)表征用所述多种不同支持的语言中的至少一种语言说出的话语。

23.如权利要求22所述的计算机实现的方法(500)，其特征在于，所述话语包括语码混合话语，所述语码混合话语包括用第一语言说出的一个或多个词和用第二语言说出的一个或多个其他词。

24.如权利要求18至23中任一项所述的计算机实现的方法(500)，其特征在于，对于所述多种不同支持的语言中的每种语言，所述单语言输出层(400)的所述多个输出节点(410)按字母顺序与针对所述多种不同支持的语言中的每种语言的对应语言特定词片模型(400)相关联。

25.如权利要求18至24中任一项所述的计算机实现的方法(500)，其特征在于，所述操作进一步包括：当所述多种不同支持的语言中的两种或更多种语言共享相同的对应语言特定词片模型(420)时，由所述单语言输出层(400)将该相同的对应语言特定词片模型(400)关联以共享所述多个输出节点(410)中的相同输出节点。

26.如权利要求25所述的计算机实现的方法(500)，其特征在于，所述单语言输出层(400)通过以下来将由不同语言共享的相同语言特定词片模型(420)与输出节点(410)关联：

27.如权利要求26所述的计算机实现的方法(500)，其特征在于，对于针对所述s数量个不同语言中的每种语言被指派为占据所述多个输出节点(410)中的所述相应一个输出节点的该对应语言特定词片模型(420)，所述单语言输出层(400)将被编索引为1至s的该对应语言特定词片模型(420)合并成由所述s数量个所述不同语言中的每种语言共享的单个语言特定词片模型(420)。

28.如权利要求18至27中任一项所述的计算机实现的方法(500)，其特征在于：

29.如权利要求28所述的计算机实现的方法(500)，其特征在于：

30.如权利要求18至29中任一项所述的计算机实现的方法(500)，其特征在于，所述操作进一步包括：由所述单语言输出层(400)对从所述多个输出步中的每个输出步处的可能的语音辨识结果上的所述概率分布(252)中选择的前n个候选假设执行集束搜索。

31.如权利要求18至30中任一项所述的计算机实现的方法(500)，其特征在于，所述操作进一步包括：

32.如权利要求31所述的计算机实现的方法(500)，其特征在于，所述联合网络(250)包括组合结构，所述组合结构将门控和双线性池化堆叠，以融合由所述预测网络(300)生成的所述密集表示(350)和由所述音频编码器(204)生成的所述更高阶特征表示(212、222)。

33.如权利要求18至32中任一项所述的计算机实现的方法(500)，其特征在于，所述音频编码器(204)包括级联的编码器，并且所述操作进一步包括：

34.如权利要求18至33中任一项所述的计算机实现的方法(500)，其特征在于，所述音频编码器(204)包括级联的编码器，并且所述操作进一步包括：

技术总结
一种方法(500)包括：接收声学帧序列(100)作为给多语言自动语音辨识ASR模型(200)的输入，该多语言ASR模型配置为辨识多种不同支持的语言的语音；以及由多语言ASR的音频编码器(204)针对对应声学帧生成更高阶特征表示(212、222)。该方法还包括：由多语言ASR的语言识别(LID)预测器(230)针对对应更高阶特征表示生成语言预测表示(232)。该方法还包括：由多语言ASR的解码器(240)基于对应更高阶特征表示、非空白符号序列(121)以及对应语言预测表示来生成可能的语音辨识结果上的概率分布(252)。该解码器包括单语言输出层(400)，该单语言输出层具有多个输出节点(410)，每个输出节点共享多个语言特定词片模型(420)。

技术研发人员：张超,李博,塔拉·N·萨纳特,特雷弗·施特勒曼,张硕英
受保护的技术使用者：谷歌有限责任公司
技术研发日：
技术公布日：2025/6/19

完整全部详细技术资料下载

当前第2页1 2

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！