使用自注意力的视频处理中的帧对齐的制作方法

文档序号：35982918发布日期：2023-11-10 02:48阅读：29来源：国知局

背景技术：

1、人工神经网络可包括诸群互连的人工神经元(例如，神经元模型)。人工神经网络可以是计算设备，或者被表示为要由计算设备执行的方法。

2、神经网络可以被用来解决复杂问题；然而，由于网络大小和可被执行以产生解决方案的运算量可能是浩繁的，因此网络完成任务的时间可能很长。此外，由于这些任务可在移动设备(其可能具有有限的计算能力)上执行，因此深度神经网络的计算成本可能会有问题。

3、卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合，其中每个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(cnn)(诸如深度卷积神经网络(dcn))具有众多应用。具体而言，这些神经网络架构被用于各种技术，诸如图像识别、模式识别、语音识别、自动驾驶、视频处理和其他分类任务。

4、视频处理涉及从相邻帧中获取信息。从相邻帧获得的时间信息可能有益于视频帧重构质量，但这是以显著的计算开销为代价的。在资源受限的设备(诸如智能电话和其他移动设备)中，经由增加的计算开销带来的挑战进一步加剧。

技术实现思路

0、概述

1、本公开在独立权利要求中分别阐述。本公开的一些方面在从属权利要求中描述。

2、在本公开的一个方面，提出了一种处理器实现的用于处理视频的方法。该处理器实现的方法包括接收视频作为人工神经网络(ann)处的输入，该视频包括帧序列。该处理器实现的方法还包括提取视频的当前帧和视频的先前帧中的每一者的特征集合。该特征集合包括要与当前帧的参考特征集合对齐的针对当前帧的像素集合的支持特征集合。该处理器实现的方法附加地包括计算先前帧的支持特征集合中针对像素集合中的每个像素的支持特征与当前帧的对应参考特征之间的相似度。该处理器实现的方法进一步包括基于相似度来生成注意力图。该方法还包括基于注意力图来生成包括当前帧的重构的输出。

3、本公开的另一方面涉及一种用于处理视频的设备。该设备包括用于接收视频作为人工神经网络(ann)处的输入的装置。该视频包括帧序列。该设备还包括用于提取视频的当前帧和视频的先前帧中的每一者的特征集合的装置。该特征集合包括要与当前帧的参考特征集合对齐的针对当前帧的像素集合的支持特征集合。该设备附加地包括用于计算先前帧的支持特征集合中针对像素集合中的每个像素的支持特征与当前帧的对应参考特征之间的相似度的装置。该设备进一步包括用于基于相似度来生成注意力图的装置。该设备还包括用于基于注意力图来生成包括当前帧的重构的输出的装置。

4、在本公开的另一方面，公开了一种其上记录有用于处理视频的非瞬态程序代码的非瞬态计算机可读介质。该程序代码由处理器执行并且包括用于接收视频作为人工神经网络(ann)处的输入的程序代码。该视频包括帧序列。该程序代码还包括用于提取视频的当前帧和视频的先前帧中的每一者的特征集合的程序代码。该特征集合包括要与当前帧的参考特征集合对齐的针对当前帧的像素集合的支持特征集合。该程序代码附加地包括用于计算先前帧的支持特征集合中针对像素集合中的每个像素的支持特征与当前帧的对应参考特征之间的相似度的程序代码。该程序代码进一步包括用于基于相似度来生成注意力图的程序代码。该程序代码还包括用于基于注意力图来生成包括当前帧的重构的输出的程序代码。

5、本公开的另一方面涉及一种用于处理视频的装置。该装置包括存储器以及耦合到该存储器的一个或多个处理器。(诸)处理器被配置成接收视频作为人工神经网络(ann)处的输入。该视频包括帧序列。(诸)处理器还被配置成提取视频的当前帧和视频的先前帧中的每一者的特征集合。该特征集合包括要与当前帧的参考特征集合对齐的针对当前帧的像素集合的支持特征集合。(诸)处理器附加地被配置成计算先前帧的支持特征集合中针对像素集合中的每个像素的支持特征与当前帧的对应参考特征之间的相似度。(诸)处理器被进一步配置成基于相似度来生成注意力图。此外，(诸)处理器被配置成基于注意力图来生成包括当前帧的重构的输出。

6、本公开的附加特征和优点将在下文描述。本领域技术人员应当领会，本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到，这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而，要清楚理解的是，提供每一幅附图均仅用于解说和描述目的，且无意作为对本公开的限定的定义。

技术特征：

1.一种处理器实现的用于处理视频的方法，包括：

2.如权利要求1所述的处理器实现的方法，进一步包括：显示所述输出。

3.如权利要求1所述的处理器实现的方法，其中经重构的当前帧包括所述当前帧的一个或多个像素的经调整对齐。

4.如权利要求1所述的处理器实现的方法，进一步包括：基于残差来应用选通函数以限制计算与所述当前帧的所述像素集合的子集的相似度，所述残差包括所述当前帧与所述先前帧之间的差异。

5.如权利要求1所述的处理器实现的方法，进一步包括：应用稀疏度目标来限制所述当前帧的所述像素集合中针对其计算所述相似度的像素数目。

6.如权利要求1所述的处理器实现的方法，进一步包括：对经重构的当前帧进行上采样。

7.一种用于处理视频的装置，包括：

8.如权利要求7所述的装置，其中所述至少一个处理器被进一步配置成：显示所述输出。

9.如权利要求7所述的装置，其中经重构的当前帧包括所述当前帧的一个或多个像素的经调整对齐。

10.如权利要求7所述的装置，其中所述至少一个处理器被进一步配置成：基于残差来应用选通函数以限制计算与所述当前帧的所述像素集合的子集的相似度，所述残差包括所述当前帧与所述先前帧之间的差异。

11.如权利要求7所述的装置，其中所述至少一个处理器被进一步配置成：应用稀疏度目标来限制所述当前帧的所述像素集合中针对其计算所述相似度的像素数目。

12.如权利要求7所述的装置，其中所述至少一个处理器被进一步配置成：对经重构的当前帧进行上采样。

13.一种其上记录有程序代码的非瞬态计算机可读介质，所述程序代码由处理器执行并且包括：

14.如权利要求13所述的非瞬态计算机可读介质，其中所述程序代码进一步包括用于显示所述输出的程序代码。

15.如权利要求13所述的非瞬态计算机可读介质，其中经重构的当前帧包括所述当前帧的一个或多个像素的经调整对齐。

16.如权利要求13所述的非瞬态计算机可读介质，其中所述程序代码进一步包括用于基于残差来应用选通函数以限制计算与所述当前帧的所述像素集合的子集的相似度的程序代码，所述残差包括所述当前帧与所述先前帧之间的差异。

17.如权利要求13所述的非瞬态计算机可读介质，其中所述程序代码进一步包括用于应用稀疏度目标来限制所述当前帧的所述像素集合中针对其计算所述相似度的像素数目的程序代码。

18.如权利要求13所述的非瞬态计算机可读介质，其中所述程序代码进一步包括用于对经重构的当前帧进行上采样的程序代码。

19.一种用于处理视频的设备，包括：

20.如权利要求19所述的设备，进一步包括用于显示所述输出的装置。

21.如权利要求19所述的设备，其中经重构的当前帧包括所述当前帧的一个或多个像素的经调整对齐。

22.如权利要求19所述的设备，进一步包括：用于基于残差来应用选通函数以限制计算与所述当前帧的所述像素集合的子集的相似度的装置，所述残差包括所述当前帧与所述先前帧之间的差异。

23.如权利要求19所述的设备，进一步包括：用于应用稀疏度目标来限制所述当前帧的所述像素集合中针对其计算所述相似度的像素数目的装置。

24.如权利要求19所述的设备，进一步包括：用于对经重构的当前帧进行上采样的装置。

技术总结
一种处理器实现的用于处理视频的方法，包括：接收视频作为人工神经网络(ANN)处的输入。该视频包括帧序列。提取该视频的当前帧和该视频的先前帧的特征集合。该特征集合包括要与当前帧的参考特征集合对齐的针对先前帧的像素集合的支持特征集合。计算先前帧的支持特征集合中针对像素集合中的每个像素的支持特征与当前帧的对应参考特征之间的相似度。基于相似度来生成注意力图。基于注意力图来生成包括当前帧的重构的输出。

技术研发人员：D·阿巴蒂,A·哈比比安,A·歌德拉蒂
受保护的技术使用者：高通股份有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D
技术所有人：高通股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。