自适应视觉语音识别的制作方法

文档序号:36177566发布日期:2023-11-29 04:09阅读:183来源:国知局


背景技术:

1、本说明书涉及视觉语音识别神经网络。

2、神经网络是采用一层或多层非线性单元来对接收到的输入预测输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作对网络中的下一层——例如,下一隐藏层或输出层——的输入。网络的每个层根据相应参数集的当前值从接收到的输入生成输出。

3、神经网络的一个示例是视觉语音识别神经网络。视觉语音识别神经网络根据说话者的嘴的移动解码语音。换句话说,视觉语音识别神经网络将说话者的面部的视频作为输入,并且生成表示由视频中描绘的说话者所说出的单词的文本作为输出。

4、视觉语音识别神经网络的一个示例是lipnet。lipnets最初在assael等人的在arxiv.org可获得的在arxiv preprint arxiv:1611.01599(2016)中的lipnet:end-to-endsentence-level lipreading(lipnet:端到端句子级别唇读)中描述。lipnet是利用时空卷积和递归神经网络将视频帧的可变长度序列映射到文本的深度神经网络。

5、视觉语音识别神经网络的另一个示例在shillingford等人的在arxiv.org可获得的在arxiv preprint arxiv:1807.05612(2018)中的large-scale visual speechrecognition(大规模视觉语音识别)中描述。large-scale visual speech recognition描述了将唇部视频映射到音素分布序列的深度视觉语音识别神经网络和根据由深度神经网络生成的音素分布序列输出单词序列的语音解码器。


技术实现思路

1、本说明书描述了一种系统,该系统在一个或多个位置中的一个或多个计算机上实现为计算机程序,其可以生成样本高效且自适应的视觉语音识别模型。在此情景下,是样本高效的和自适应的即意味着该模型可以被定制以识别具有远远少于用于训练自适应模型的训练数据的新说话者的语音。例如,尽管训练自适应模型可能需要每个个体说话者的几个小时的视频记录,但是为新说话者适配该模型可能只需要新说话者的几分钟的视频记录。

2、训练系统可以使用用于相应个体说话者的多个嵌入向量和视觉语音识别神经网络来训练视觉语音识别模型。由于训练过程的计算密集型特性,所以训练可以由具有数百或数千个计算机的分布式计算系统——例如数据中心——来执行。

3、训练过程的输出是可以高效地适配于新说话者的自适应视觉语音识别模型。适配模型通常涉及学习用于新说话者的新嵌入向量,并且可以可选地涉及微调用于新说话者的神经网络的参数。适配数据可以仅仅是新说话者的几秒钟或几分钟的视频以及针对文本的对应转录。例如,视频可以是在说话者说出在用户设备上向用户呈现的文本提示上的文本时说话者的视频。

4、因此,与原始训练过程相比,适配过程的计算强度小得多。因此,可以在功率小得多的硬件——例如,移动电话或另一可佩戴设备、台式或膝上型计算机、或安装在用户家中的另一启用因特网的设备,仅举几个示例——上执行适配过程。

5、在一个方面中,一种方法包括:接收包括描绘第一说话者的多个视频帧的视频;获得表征第一说话者的第一嵌入;以及使用具有多个参数的视觉语音识别神经网络来处理包括(i)该视频和(ii)第一嵌入的第一输入,其中,视觉语音识别神经网络被配置为根据参数的训练值来处理视频和第一嵌入,以生成定义由第一说话者在视频中说出的一个或多个单词的序列的语音识别输出。

6、在一些实施方式中,视觉语音识别神经网络被配置为:从第一嵌入生成附加输入通道;以及在处理视频中的帧之前将附加通道与视频中的一个或多个帧进行组合,以生成语音识别输出。

7、在一些实施方式中,视觉语音识别神经网络包括多个隐藏层,并且其中神经网络被配置为针对隐藏层中的至少一个隐藏层:从第一嵌入生成附加隐藏通道;以及在提供隐藏层的输出以供视觉语音识别神经网络的另一个隐藏层处理之前将隐藏通道和该输出进行组合。

8、在一些实施方式中,该方法还包括:获得用于第一说话者的适配数据,该适配数据包括第一说话者的一个或多个视频以及用于所述视频中的每个视频的相应地面真实转录;以及使用适配数据来确定用于第一说话者的第一嵌入。

9、在一些实施方式中,该方法还包括:获得通过在包括与不同于第一说话者的多个说话者相对应的训练示例的训练数据上训练视觉语音识别神经网络已经确定的模型参数的预训练值,其中,确定第一嵌入包括使用预训练值和适配数据来确定第一嵌入。

10、在一些实施方式中,确定第一嵌入包括:初始化第一嵌入;以及通过重复执行包括以下的操作来更新第一嵌入:根据参数的当前值使用视觉语音识别神经网络来处理适配数据中的一个或多个视频片段中的每个视频片段和第一嵌入,以生成针对所述一个或多个视频片段中的每个视频片段的相应语音识别输出;以及更新第一嵌入以最小化针对所述一个或多个视频片段中的每个视频片段测量视频片段的地面真实转录与针对视频片段的相应语音识别输出之间的相应误差的损失函数。

11、在一些实施方式中,更新第一嵌入以最小化针对所述一个或多个视频片段中的每个视频片段测量视频片段的地面真实转录与针对视频片段的相应语音识别输出之间的相应误差的损失函数包括:将损失函数的梯度反向传播通过视觉语音识别神经网络,以确定损失函数相对于第一嵌入的梯度;以及使用损失函数相对于第一嵌入的梯度来更新第一嵌入。

12、在一些实施方式中,当前值等于预训练值并且等于训练值,并且其中模型参数在确定第一嵌入时是固定的。

13、在一些实施方式中,该操作还包括:基于损失函数相对于视觉语音识别神经网络的参数的梯度来更新视觉语音识别神经网络的参数的当前值,并且其中,训练值等于在确定第一嵌入向量之后的当前值。

14、在一些实施方式中,该方法还包括:将解码器应用于针对视频的语音识别输出,以生成由第一说话者在视频中说出的一个或多个单词的序列。

15、在一些实施方式中,语音识别输出针对视频帧中的每个视频帧包括在文本元素的词汇表上的相应概率分布。

16、本说明书中描述的主题可以在特定实施例中实现,从而实现以下优点中的一个或多个。

17、如本说明书中所描述的自适应视觉语音识别模型可以用于使用比用于训练该模型少几个数量级的数据来快速地适配于新说话者。这使得适配过程能够由终端用户的消费者硬件来执行,而不是在数据中心中执行。

18、此外,当在表示多个说话者的视频的大数据集上训练时,多说话者视觉语音识别模型往往对来自训练数据的大量数据样本欠拟合。这可能是由于所收集的视频数据中的少量不平衡,或者甚至是由于捕获大视频数据集中表示的所有不同场景的任何模型的有限容量。所描述的技术通过以下来解决这些问题:首先训练以(i)说话者的视频和(ii)说话者的嵌入为条件的说话者条件视觉语音识别模型,然后通过学习用于新说话者的嵌入(以及可选地微调模型的权重)来适配说话者条件视觉语音识别模型。

19、在附图和下面的描述中阐述本说明书的主题的一个或多个实施例的细节。从说明书、附图和权利要求书中,主题的其他特征、方面和优点将变得显而易见。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1