在用于以对象为中心的视觉推理的对象嵌入上实现注意力的神经网络的制作方法

文档序号:34454573发布日期:2023-06-13 23:42阅读:84来源:国知局
在用于以对象为中心的视觉推理的对象嵌入上实现注意力的神经网络的制作方法

本说明书涉及处理视频帧序列以生成对查询的响应的系统。


背景技术:

1、神经网络是采用一层或多层非线性单元的机器学习模型来预测接收到的输入的输出。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从所接收的输入生成输出。


技术实现思路

1、本说明书描述了一种视频处理神经网络系统,该视频处理神经网络系统在一个或多个位置中的一个或多个计算机上被实现为一个或多个计算机程序,该一个或多个计算机程序能够推理视频帧序列中的对象。更具体地,该系统被配置为处理视频帧以响应与对象有关的查询。如本文所使用的,“视频帧”包括来自lidar和其他类似雷达的技术的视频帧。

2、本说明书中描述的主题能够在特定实施例中实现,以便实现以下优点中的一个或多个。

3、本说明书中描述的以对象为中心的处理的实施方式能够回答需要高级时空推理的查询。系统还能够提供对需要理解交互对象的动态的查询的正确响应。该系统的实施方式通常能够回答需要预测性推理(“what will happen next(接下来将发生什么)”)、反事实推理(“what would happen in a different circumstance(在不同情况下将发生什么)”)、解释性推理(“why did something happen(为什么发生某事)”)和因果推理的查询。该系统的实施方式还能够展示对对象永久性的理解,例如,当跟踪暂时被遮挡的目标时,并且可以推理视觉数据的因果动态结构。

4、所描述的以对象为中心的技术能够在先前的方法失败的情况下或者在先前需要更多手动设计的神经符号方法的情况下成功。

5、系统的实施方式部分地依赖于无监督学习,特别是对于对象分割子系统。通常,与一些其他方法相比,系统能够更快地并且以相对较少量的标记的训练数据来学习,从而减少训练时间以及计算和存储器要求。

6、在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。主题的其他特征、方面和优点根据说明书、附图和权利要求书将变得显而易见。



技术特征:

1.一种包括一个或多个计算机和存储指令的一个或多个存储设备的视频处理系统,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实现:

2.根据权利要求1所述的视频处理系统,其中,所述输入序列进一步包括概要词元元素,其中,所述输出序列包括表示所述输入序列的概要的经变换的概要词元元素,并且其中,所述输出子系统被配置为接收所述经变换的概要词元元素并处理所述经变换的概要词元元素以生成所述视频处理系统输出。

3.根据权利要求1或2所述的视频处理系统,其中,所述对象输入序列包括用于每个视频帧的元素序列,每个元素序列包括与所述视频帧的位置的编码组合的所述表示之一。

4.根据权利要求3所述的视频处理系统,其中,所述注意力神经网络层中的一个或多个注意力神经网络层具有注意力层输入,所述注意力层输入包括用于所述视频帧中的每个视频帧的所述表示中的每个表示。

5.根据权利要求1至4中的任一项所述的视频处理系统,其中,所述对象分割子系统被配置为针对所述对象中的每个对象确定参数化表示所述对象的潜在变量向量的分布的参数集,并且所述对象分割输出包括用于每个对象的分布的平均值向量,其中,所述平均值向量是所述对象的所述表示。

6.根据任一前述权利要求所述的视频处理系统,其中,所述输入序列进一步包括查询输入序列,所述查询输入序列包括表示所述查询的向量序列。

7.根据权利要求6所述的视频处理系统,进一步包括查询嵌入神经网络子系统,所述查询嵌入神经网络子系统被配置为接收表示所述查询的词元序列,并且处理所述词元序列以生成表示所述查询的所述向量序列,其中,表示所述查询的向量包括所述词元的嵌入。

8.根据权利要求7所述的视频处理系统,其中,所述词元包括自然语言中的词或词条。

9.根据权利要求6、7或8所述的视频处理系统,其中,所述输入序列的元素各自包括标签,以标识所述元素是属于所述对象输入序列还是属于所述查询输入序列。

10.根据从属于权利要求2时的权利要求6至9中的任一项所述的视频处理系统,其中,所述概要词元元素属于所述查询输入序列。

11.根据任一前述权利要求所述的视频处理系统,其中,所述注意力神经网络层中的一个或多个注意力神经网络层被配置为在所述注意力层输入上应用自注意力机制然后是前馈神经网络层,以生成所述注意力层输出。

12.根据任一前述权利要求所述的视频处理系统,其中,所述注意力机制被配置为将查询变换、键变换和值变换中的每一个应用于用于所述输入序列的每个元素的所述注意力层输入,以导出相应的查询向量、键向量和值向量;将每个查询向量应用于每个键向量以确定每个值向量的相应权重,并且使用所述相应权重组合所述值向量以确定用于所述输入序列的每个元素的所述注意力层输出。

13.根据任一前述权利要求所述的视频处理系统,其中,所述视频处理系统输出定义对所述查询的可能响应集合上的概率分布。

14.一种训练根据权利要求1至13中的任一项所述的视频处理系统的方法,其中,所述视频处理系统进一步包括预测神经网络,所述预测神经网络被配置为针对每个视频帧接收和处理用于所述视频帧中的所述多个对象中的每个对象的表示的经变换的输入元素,并且从所述经变换的输入元素生成用于每个视频帧中的每个对象的表示的预测表示,所述方法包括:在所述对象分割输出中抑制所述视频帧中的一个或多个视频帧的一个或多个对象的表示;根据所抑制的表示与所述预测表示之间的差异的度量来确定填充损失,以及反向传播所述填充损失的梯度以调整所述变换器神经网络子系统的参数。

15.一种训练根据权利要求1至13中的任一项所述的视频处理系统的方法,包括:根据对所述查询的响应与对所述查询的正确响应之间的距离的度量来确定辅助损失,以及反向传播所述辅助损失的梯度以调整所述变换器神经网络子系统的参数。

16.一个或多个存储指令的计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机实现根据权利要求1至13中的任一项所述的视频处理系统或根据权利要求14或15所述的方法。


技术总结
视频处理系统被配置为分析视频帧序列以检测所述视频帧中的对象,并且响应于查询而提供与所检测到的对象有关的信息。查询可以包括例如对未来事件或对象的位置的预测的请求,或者对如果对象被修改则将发生什么的预测的请求。该系统使用变换器神经网络子系统来处理视频中的对象的表示。

技术研发人员:丁丰宁,亚当·安东尼·桑托罗,费利克斯·乔治·伊尔,马修·博特维尼克,路易斯·皮洛托
受保护的技术使用者:渊慧科技有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1