针对语音处理基于自注意力组合多通道信号的系统和方法与流程

文档序号:36935078发布日期:2024-02-02 22:01阅读:13来源:国知局
针对语音处理基于自注意力组合多通道信号的系统和方法与流程


背景技术:

1、自动临床文档(automated clinical documentation,acd)可以被使用,例如,以将转录的会话(例如,医生、患者,和/或诸如患者的家庭成员、护士、医生助理等的其他参与者)语音变成格式化的(例如,医学的)报告。这样的报告可以被审阅,例如,以确保由医生、抄写员等做出的报告的准确性。

2、然而,当说话者远离麦克风时,语音处理系统(例如,自动语音识别(automaticspeech recognition,asr)系统、生物特征话音系统等)由于远场语音信号的输入遭受识别准确性退化。该退化可能是由于由室内混响和背景噪声导致的远场语音的信号破坏效应。与单个麦克风相比,包括多个麦克风的麦克风阵列设备能够被利用以捕获多通道音频信号作为针对语音处理后端系统(例如,asr后端系统)的输入,以缓解这样的退化问题。然而,因为语音处理后端通常被设计为接收单通道音频输入,所以接收多通道音频并且发射单通道音频的语音处理前端组件可以被利用以弥合多通道音频输入与语音处理后端之间的缺口。

3、语音处理前端和后端系统都需要一定量的数据以用于神经网络模型训练。在训练期间,模型参数可以被更新,并且然后该模型能够被利用于识别未见过的数据。由于语音处理后端系统的巨大参数规模,它比语音处理前端系统更加“数据饥饿”。在大多数应用场景中,更大量的单通道麦克风音频数据的能够比多通道麦克风阵列数据更容易地获取。因此,接收单通道音频输入的鲁棒语音处理后端系统可能通常比接收多通道音频输入的鲁棒语音处理系统更容易获取。


技术实现思路

1、在一个实现中,一种由计算机执行的计算机实现的方法可以包括但不限于接收来自多个麦克风的多个信号,由此定义多个通道。多个通道的加权多通道表示可以被生成。针对多个通道中的每个通道的多个权重可以至少部分地基于多个通道的加权多通道表示被生成。多个通道的单通道表示可以至少部分地基于多个通道的加权多通道表示和针对多个通道中的每个通道生成的多个权重而被生成。

2、可以包括以下特征中的一个或多个特征。生成多个通道的加权多通道表示可以包括:经由第一自注意力机器学习模型来生成多个通道的加权多通道表示。经由第一自注意力机器学习模型来生成多个通道的加权多通道表示可以包括定义多个注意力权重。生成多个通道的加权多通道表示可以包括:将多个通道的加权多通道表示的每个通道定义为多个通道的线性组合。生成多个通道的加权多通道表示可以包括:经由一个或多个固定波束形成器来生成多个通道的加权多通道表示。至少部分地基于多个通道的加权多通道表示针对多个通道中的每个通道生成多个权重可以包括:经由第二自注意力机器学习模型至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成多个权重。

3、在另一实现中,一种计算机程序产品驻留在计算机可读介质上,并且具有在其上存储的多个指令。该指令在由处理器执行时使处理器执行操作,该操作包括但不限于从多个麦克风接收多个信号,由此定义多个通道。多个通道的加权多通道表示可以被生成。针对多个通道中的每个通道的多个权重可以至少部分地基于多个通道的加权多通道表示而被生成。多个通道的单通道表示可以至少部分地基于多个通道的加权多通道表示和针对多个通道中的每个通道生成的多个权重而被生成。

4、可以包括以下特征中的一个或多个特征。生成多个通道的加权多通道表示可以包括:经由第一自注意力机器学习模型来生成多个通道的加权多通道表示。经由第一自注意力机器学习模型来生成多个通道的加权多通道表示可以包括定义多个注意力权重。生成多个通道的加权多通道表示可以包括:将多个通道的加权多通道表示的每个通道定义为针对多个通道的线性组合。生成多个通道的加权多通道表示可以包括:经由一个或多个固定波束形成器生成多个通道的加权多通道表示。至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成多个权重可以包括:经由第二自注意力机器学习模型至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成多个权重。多个通道的单通道表示可以被提供给后端语音处理系统。

5、在另一实现中,计算系统包括处理器和被配置为执行操作的存储器,这些操作包括但不限于接收来自多个麦克风的多个信号,由此定义多个通道。该处理器还可以被配置为:生成多个通道的加权多通道表示。该处理器还被配置为:至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成多个权重。该处理器还被配置为:至少部分地基于多个通道的加权多通道表示和针对多个通道中的每个通道生成的多个权重来生成多个通道的单通道表示。

6、可以包括以下特征的一个或多个特征。生成多个通道的加权多通道表示可以包括:经由第一自注意力机器学习模型来生成多个通道的加权多通道表示。经由第一自注意力机器学习模型来生成多个通道的加权多通道表示可以包括定义多个注意力权重。生成多个通道的加权多通道表示可以包括:将多个通道的加权多通道表示的每个通道定义为针对多个通道的线性组合。生成多个通道的加权多通道表示可以包括:经由一个或多个固定波束形成器来生成多个通道的加权多通道表示。至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成多个权重可以包括:经由第二自注意力机器学习模型至少部分地基于多个通道的加权多通道表示来针对多个通道中的每个通道生成多个权重。多个通道的单通道表示可以被提供给后端语音处理系统。

7、一个或多个实现的细节在附图和以下描述中删除。从说明、图和权利要求中可以明显看出其他特征和优点。



技术特征:

1.一种在计算设备上执行的计算机实现的方法,包括:

2.根据权利要求1所述的计算机实现的方法,其中生成所述多个通道的所述加权多通道表示包括:经由第一自注意力机器学习模型来生成所述多个通道的所述加权多通道表示。

3.根据权利要求2所述的计算机实现的方法,其中生成所述多个通道的所述加权多通道表示包括:定义多个注意力权重。

4.根据权利要求2所述的计算机实现的方法,其中生成所述多个通道的所述加权多通道表示包括:将所述多个通道的所述加权多通道表示的每个通道定义为所述多个通道的线性组合。

5.根据权利要求1所述的计算机实现的方法,其中生成所述多个通道的所述加权多通道表示包括:经由一个或多个固定波束形成器来生成所述多个通道的所述加权多通道表示。

6.根据权利要求5所述的计算机实现的方法,其中经由所述一个或多个固定波束形成器来生成所述多个通道的所述加权多通道表示包括:定义与一个或多个声源对应的多个注意力权重。

7.根据权利要求6所述的计算机实现的方法,还包括:

8.根据权利要求1所述的计算机实现的方法,其中至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成所述多个权重包括:经由第二自注意力机器学习模型至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成所述多个权重。

9.一种驻留在非暂态计算机可读介质上的计算机程序产品,所述计算机可读介质具有在其上存储的多个指令,所述指令在由处理器执行时使所述处理器执行操作,所述操作包括:

10.根据权利要求9所述的计算机程序产品,其中生成所述多个通道的所述加权多通道表示包括:经由第一自注意力机器学习模型来生成所述多个通道的所述加权多通道表示。

11.根据权利要求10所述的计算机程序产品,其中经由所述第一自注意力机器学习模型来生成所述多个通道的所述加权多通道表示包括:定义多个注意力权重。

12.根据权利要求10所述的计算机程序产品,其中生成所述多个通道的所述加权多通道表示包括:将所述多个通道的所述加权多通道表示的每个通道定义为所述多个通道的线性组合。

13.根据权利要求9所述的计算机程序产品,其中生成所述多个通道的所述加权多通道表示包括:经由一个或多个固定波束形成器来生成所述多个通道的所述加权多通道表示。

14.根据权利要求13所述的计算机实现的方法,其中经由所述一个或多个固定波束形成器来生成所述多个通道的所述加权多通道表示包括:定义与一个或多个声源对应的多个注意力权重。

15.根据权利要求14所述的计算机实现的方法,其中所述操作还包括:

16.根据权利要求9所述的计算机程序产品,其中至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成所述多个权重包括:经由第二自注意力机器学习模型至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成所述多个权重。

17.一种计算系统,包括:

18.根据权利要求17所述的计算系统,其中生成所述多个通道的所述加权多通道表示包括:经由第一自注意力机器学习模型来生成所述多个通道的所述加权多通道表示。

19.根据权利要求18所述的计算系统,其中经由所述第一自注意力机器学习模型来生成所述多个通道的所述加权多通道表示包括:定义多个注意力权重。

20.根据权利要求18所述的计算系统,其中生成所述多个通道的所述加权多通道表示包括:将所述多个通道的所述加权多通道表示的每个通道定义为所述多个通道的线性组合。

21.根据权利要求17所述的计算系统,其中生成所述多个通道的所述加权多通道表示包括:经由一个或多个固定波束形成器来生成所述多个通道的所述加权多通道表示。

22.根据权利要求17所述的计算系统,其中至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成所述多个权重包括:经由第二自注意力机器学习模型至少部分地基于所述多个通道的所述加权多通道表示来针对所述多个通道中的每个通道生成所述多个权重。


技术总结
一种用于接收来自多个麦克风的多个信号的方法、计算机程序产品和计算系统,由此定义多个通道。多个通道的加权多通道表示可以被生成。针对多个通道中的每个通道的多个权重可以至少部分地基于多个通道的加权多通道表示而被生成。多个通道的单通道表示可以至少部分地基于多个通道的加权多通道表示和针对多个通道中的每个通道生成的多个权重而被生成。

技术研发人员:龚嵘,C·B·奎伦,D·夏尔马,L·米兰诺维奇
受保护的技术使用者:纽奥斯通讯有限公司
技术研发日:
技术公布日:2024/2/1
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1