用于分析媒体内容的方法与流程

文档序号：17933824发布日期：2019-06-15 01:09阅读：269来源：国知局

本方案涉及计算机视觉和机器学习，更具体地涉及用于分析媒体内容的方法。

背景技术：

许多实际应用依赖于关于诸如图像、视频等媒体内容的语义信息的可用性。语义信息由元数据表示，元数据可以表达场景的类型、特定行为/动作的发生、特定对象的出现等。这样的语义信息可以通过分析媒体来获取。

对媒体的分析是目前尚未完全解决的基本问题。这在考虑诸如对象检测与识别、场景分类(例如，运动类型分类)行为/动作识别等高层级语义的提取时，尤其如此。

近来，各种神经网络技术的发展已经支持用来直接从原始图像数据识别图像内容的学习，而先前的技术包括用来通过将内容与人工训练的图像特征进行比较来识别图像内容的学习。最近，神经网络已经适于利用视觉空间注意，即人类如何通过首先在短时间内聚焦于场景的有限空间区域，并且然后针对该场景中的更多空间区域重复如此来构思新环境的方式，以便于获取对该场景中的语义的理解。

尽管深度神经架构在诸如图像识别和对象检测等许多高级任务中已经相当成功，实现语义视频分割仍然是个挑战，语义视频分割是大规模像素级分类或标记。存在若干原因。首先，由于卷积核的使用，普及的卷积神经网络(cnn)架构使用局部信息而非全局上下文来用于预测。其次，现有的深度架构主要集中在对图像数据进行建模上，而如何使用深度神经网络来执行视频数据的端到端建模和预测以用于像素标记问题仍然是未知的。

技术实现要素：

现在，已经发明了改进的方法和实施该方法的技术设备，通过它们减轻上述问题。本发明的各个方面包括方法、装置以及包括存储在其中的计算机程序的计算机可读介质，其特征在于独立权利要求所述的内容。本发明的各种实施例在从属权利要求中被公开。

根据第一方面，提供了一种方法，包括：接收媒体内容；在多个卷积层处执行媒体内容的特征提取，以产生多个层特定的特征图；经由多个卷积层与多个反卷积层之间的一个或多个循环连接，从多个卷积层，向多个反卷积层中的对应反卷积层，发送对应的层特定的特征图；以及基于多个特征图，生成经重建的媒体内容。

根据实施例，该方法还包括：由多个反卷积层中的每个反卷积层，直接从多个卷积层中的对应卷积层接收特征图。

根据实施例，媒体内容包括视频帧，并且其中经重建的媒体内容包括预测的未来视频帧。

根据实施例，循环连接包括长短期记忆网络。

根据实施例，该方法还包括：将经重建的媒体内容和对应的原始媒体内容提供给鉴别器系统，以确定经重建的媒体内容是否为真实的。

根据实施例，鉴别器系统包括与多个反卷积层相对应的多个鉴别器。

根据实施例，该方法还包括：由多个鉴别器中的每个鉴别器，从多个附加反卷积层中的对应反卷积层，接收经重建的媒体内容。

根据第二方面，提供了一种装置，该装置包括至少一个处理器、包括计算机程序代码的存储器，存储器与计算机程序代码被配置为与至少一个处理器一起使得该装置执行至少以下项：接收媒体内容；在多个卷积层处执行媒体内容的特征提取，以产生多个层特定的特征图；经由多个卷积层与多个反卷积层之间的循环连接，从多个卷积层向多个反卷积层中的对应反卷积层发送对应的层特定的特征图；以及基于多个特征图，生成经重建的媒体内容。

根据实施例，该装置还包括如下的计算机程序代码，该计算机程序代码被配置为使得装置：由反卷积层中的每个反卷积层，直接从多个卷积层中的对应卷积层接收特征图。

根据实施例，媒体内容包括视频帧，并且其中经重建的媒体内容包括预测的未来视频帧。

根据实施例，循环连接包括长短期记忆网络。

根据实施例，该装置还包括如下的计算机程序代码，该计算机程序代码被配置为使得装置：将由所述装置生成的媒体内容或经重建的媒体内容和对应的原始媒体内容提供给鉴别器系统，以确定经重建的媒体内容是否为真实的。

根据实施例，鉴别器系统包括与多个反卷积层相对应的多个鉴别器。

根据实施例，装置还包括如下的计算机程序代码，该计算机程序代码被配置为使得装置：由多个鉴别器中的每个鉴别器，从多个附加反卷积层中的对应反卷积层接收经重建的媒体内容。

根据第三方面，提供了一种装置，该装置包括：用于接收媒体内容的部件；用于在多个卷积层处执行特征提取以产生多个层特定的特征图的部件；用于经由多个卷积层与多个反卷积层之间的循环连接，从多个卷积层，向多个反卷积层中的对应反卷积层，发送对应的层特定的特征图的部件；以及用于基于多个特征图，生成经重建的媒体内容的部件。

根据第四方面，提供了一种体现在非暂态计算机可读介质上的计算机程序产品，该计算机程序产品包括计算机程序代码，该计算机从程序代码被配置为当在至少一个处理器上被执行时，使得装置或系统：接收媒体内容；在多个卷积层处执行媒体内容的特征提取，以产生多个层特定的特征图；经由多个卷积层与多个反卷积层之间的循环连接，从多个卷积层，向多个反卷积层中的对应反卷积层，发送对应的层特定的特征图；以及基于多个特征图，生成经重建的媒体内容。

根据实施例，该计算机程序产品还包括如下的计算机程序代码，该计算机程序代码被配置为使得装置或系统：由多个反卷积层中的每个反卷积层，从多个卷积层中的对应卷积层，直接接收特征图。

根据实施例，媒体内容包括视频帧，并且其中经重建的媒体内容包括预测的未来视频帧。

根据实施例，循环连接包括长短期记忆网络。

根据实施例，该计算机程序产品还包括如下的计算机程序代码，该计算机程序代码被配置为使得装置或系统：将由该装置生成的媒体内容或经重建的媒体内容和对应的原始媒体内容提供给鉴别器系统，以确定经重建的媒体内容是否为真实的。

附图说明

在下文中，将参考附图对本发明的各种实施例进行更加详细地描述，其中：

图1示出了根据实施例的适合用于计算机视觉或图像处理过程的计算机图形系统；

图2示出了在计算机视觉或图像处理系统中使用的卷积神经网络的示例；

图3示出了实施为卷积网络和反卷积网络的编码器-解码器系统的示例；

图4示出了具有侧向连接的编码器-解码器系统的示例；

图5示出了具有循环(recurrent)网络的编码器-解码器系统的示例；

图6示出了根据实施例的编码器-解码器系统的示例；

图7a和7b示出了将相关技术的编码器-解码器系统与根据实施例的编码器-解码器系统比较的实验结果；

图8a示出了根据相关技术的无循环侧向连接的编码器-解码器系统的结果；

图8b示出了根据实施例的具有循环侧向连接的编码器-解码器系统的结果；

图9示出了根据另一实施例的编码器-解码器系统的示例；

图10示出了根据另一实施例的编码器-解码器系统的实验结果；

图11示出了根据另一实施例的适于生成对抗网络的编码器-解码器系统的示例；

图12示出了根据另一实施例的适于具有多个鉴别器的生成对抗网络的编码器-解码器系统的示例。

图13是图示根据实施例的方法的流程图。

具体实施方式

图1示出了根据实施例的适合用于图像处理，例如，计算机视觉过程的计算机图形系统。计算机图形系统的通用结构将根据系统的功能模块进行说明。若干功能可以利用单个物理设备来执行，例如，如果需要，所有计算程序可以在单个处理器中来执行。根据图1的示例的装置的数据处理系统包括主要处理单元100、至少一个存储器102、存储设备104、输入设备106、输出设备108以及图形子系统110，它们全部经由数据总线112彼此连接。

主要处理单元100是常规处理单元，被布置为处理数据处理系统内的数据。主要处理单元100可以包括或实施为一个或多个处理器或处理器电路。存储器102、存储设备104、输入设备106和输出设备108可以包括如本领域技术人员所知晓的常规组件。存储器102和存储设备104存储数据处理系统100内的数据。计算机程序代码驻存在存储器102中以用于实施，例如，计算机视觉过程。输入设备106将数据输入到系统中，而输出设备108接收来自数据处理系统的数据并转发数据，例如，转发数据到显示器。数据总线112被示为单个线路，但是其可以包括以下任意组合：处理器总线、pci总线、图形总线、isa总线。相应地，本领域人员容易认识到，该装置可以是任何数据处理设备，诸如计算机设备、个人计算机、服务器计算机、云计算机、移动电话、智能电话或互联网接入设备，例如互联网平板计算机。

需要理解，不同的实施例允许在不同的元件中执行不同的部分。例如，计算机视觉系统的各种过程可以在一个或多个处理设备中执行；例如，完全在一个计算机设备中，或者在一个服务器设备或跨多个用户设备。如上所述，计算机视觉过程的元件可以实施为驻存在一个设备或跨若干设备分布的软件组件，例如以使得这些设备形成所谓的云。

数据，特别是视觉数据，可以通过深度学习进行分析。深度学习是近些年来出现的机器学习的子领域。深度学习可以涉及以监督、无监督或半监督方式的非线性处理单元的多层学习。这些层形成层的层级。每个学习层从输入数据提取特征表示。来自较低层的特征表示低层级语义(即，较少的抽象概念，诸如边缘和纹理)，而较高层表示高层级语义(即，较多的抽象概念，如场景类)。无监督学习应用通常包括模式分析和表示(即，特征)学习，而监督学习应用可以包括图像对象的分类(在视觉数据的情况下)。

深度学习技术可以用于以高精确度识别和检测图像或视频中的对象，胜过先前的方法。相较于先前的方法，深度学习图像识别技术的根本区别在于，直接从原始数据学习以识别图像对象，而先前的技术是基于从手动设计的特征(例如，sift特征)识别图像对象。在训练阶段期间，深度学习技术构建层次式计算层，层次式计算层提取越来越抽象的等级的特征。

因此，至少人工神经网络的初始层表示特征提取器。在深度学习技术中的特征提取器的示例被包括在如图2所示的卷积神经网络(cnn)中。cnn由一个或多个卷积层、全连接层以及顶层的分类层构成。cnn比其它深度神经网络更容易训练，并具有更少的待估计的参数。因此，cnn是在使用上非常有吸引力的架构，特别是在图像和语音应用中。

在图2中，对cnn的输入是图像，但是也可以使用任意其它媒体内容对象，诸如视频文件。cnn的每个层表示某个抽象(或语义)层级，以及cnn提取多个特征图。特征图可以，例如，包括实数的密集矩阵，实数表示所提取的特征的值。为了简单起见，图2中的cnn仅具有三个特征(或抽象、或语义)层c1、c2、c3，但是cnn可以具有多于三个甚至超过20个卷积层。

cnn的第一卷积层c1包括从第一层(即，从输入图像)提取4个特征图。这些图可以表示在输入图像中发现的低层级特征，诸如边缘和角。cnn的第二卷积层c2包括从先前的层提取6个特征图，其增加了所提取的特征的语义层级。类似地，第三卷积层c3可以表示在图像中找到的更多抽象概念，诸如边缘和角、形状等的组合。cnn的最后一层被称为全连接多层感知器(mlp)，全连接多层感知器可以包括一个或多个全连接(即，密集的)层和最后的分类层。mlp使用来自最后的卷积层的特征图，以便预测(识别)例如对象类。例如，它可以预测图像中的对象为房屋。

本实施例总体上涉及数字媒体，更具体地涉及深度学习和计算机视觉。深度学习是研究人工神经网络(ann)的领域，也称为神经网络(nn)。神经网络是计算图形，通常由连续计算的若干层组成。每个层由计算基本/基础计算的单元或神经元组成。

神经网络的目标是将输入数据转换为更加有用的输出。一个示例是分类，其中输入数据被分类为n个可能的类中的一个(例如，对图像是否包含猫或狗进行分类)。另一个示例是复原，其中输入数据被转换为实数(例如，确定歌曲的音乐节拍)。又一个示例是从噪声分布中生成图像。

神经网络的功率来自层内所构建的内部表示。该表示被分布在许多单元之间并且是层次式的，其中复杂概念构建在简单概念之上。神经网络具有两个主要的操作模式：训练阶段和测试阶段。训练阶段是开发阶段，其中网络学习来执行最终任务。学习包括迭代地更新单元之间的权重或连接。测试阶段是网络实际执行任务的阶段。学习可以以若干方式来执行。主要的一些是监督学习、无监督学习和强化学习。在监督训练中，模型被提供有输入-输出对，其中输出通常是标记。在监督训练中，网络仅被提供有输入数据(以及在自监督训练的情况下，还有输出原始数据)。在强化学习中，监督更加稀疏并且不那么精确；代替输入-输出对，网络获取输入数据，并且有时获取以分数形式(例如，-1、0或+1)的延迟奖励。

通常，神经网络可以被归类为两种类型：鉴别型和生成型。分类器和回归器是鉴别模型。生产新数据(诸如图像)的网络是生成模型。鉴别模型可以通过监督方法来训练。生成模型可以通过无监督方法或自监督方法来训练。强化学习方法可以用于例如目标函数不可微分的情形。此外，鉴别模型可以首先例如通过无监督训练进行预先训练以生成数据，并且然后，通过监督训练进行微调以鉴别数据(即，分类或回归)。

在一些情形中，通过cnn的图像分析和图像分类可以达到人类水平。然而，对视频的分析更加困难。例如，视频分类和动作/行为分类是在对象分类之后。主要原因之一在于，神经网络针对视频分析的内部表示不会以充分有效的方式来编码视频中所呈现的隐含的动态信息。学习好的内部表示是推理的基础：可以存在预训练阶段，在预训练阶段中，内部表示以无监督(或自监督)方式被构建，并且存在之后的最终监督微调阶段，其中在最终监督微调阶段中，内部表示被利用以解决即将到来的特定分类任务。从视频分析方法要求良好的无监督性能的另一个原因是，获取对所有视频中的所有帧的人类注释是可能是不可行的，由此需要从视频帧本身中的未被标记的信息导出表示。

除视频分类和行为识别之外，感兴趣的问题是对未来动作将如何影响真实世界的预测进行编码。这是人类在做事之前无意识地推论的方式。人类不需要具有执行每个单独动作的经历以知晓每个动作的结果；这是因为人类能够构建世界的内部表示，并因此预测将会发生什么。例如，人类不需要经历如下事实，如果他们迎着墙壁走他们将会碰撞。人类仅对此进行预测和避免。这是许多用例所需要的，诸如机器人(例如，用于抓取或移动对象)。

本实施例可以用于预测未来视频帧。基于以上所述，这可以用于构建用于微调监督模型的内部表示，或者用于预测某动作将如何影响真实世界，或者用于执行诸如视频图像修复/去噪、以及视频分割等任务。

从相关技术可以找到执行视频预测的一些方法。然而，这些方法经常在运动预测或者实际视觉内容的质量方面表现不佳(例如，出现模糊)。

神经编码器-解码器模型是包括如下两部分的神经网络：编码器和解码器。编码器是如下神经网络，其接收输入图像并在多个层处提取特征图，并且从最后一层输出特征图。解码器是如下神经网络，其可以接收任意编码器层的特征图并且利用多个计算层来重建图像。这种模型将数据编码成较低维度的向量，并从该向量来重建数据。数据的重建已经作为一个示例应用来描述，但是本发明的实施例也包括数据的生成。

应用包括对输入图像进行去噪，修复缺失数据，预训练用于特征提取的编码器等。编码器和解码器的结构可以是任意类型，但是对于视觉分析，最常用的结构是用于编码器的卷积网络(cnn)和用于解码器的反卷积网络(de-cnn)。de-cnn是具有执行转置卷积的层的网络。图3示出了被实施为卷积网络(301、302、303)和反卷积网络(311、312、313)的用于图像去噪的编码器-解码器系统。

在这类系统中，解码器需要仅从小的低维度向量(编码器的最后一层303的输出)来重建数据。此外，该向量仅编码语义上的高层级信息，诸如形状、对象等。中间和较低层的信息不直接用于重建。该信息可以通过增加编码器与解码器之间的连接来使用，以便帮助解码器从中间层(卷积层1、卷积层2)获取更多信息。编码器与解码器的层之间的这些跳过连接彻底改善了去噪性能。图4示出了具有侧向连接401、402的编码器-解码器。利用图4的系统，去噪性能被明显改善。

通过增加对视频的时间方面(例如，对象的运动)模型化的模块，编码器-解码器结构可以从静态图像被扩展至视频。具有时间演化的视频或其它类型的数据(例如，视频、语音、音频、文本)可以基于循环神经网络(rnn)进行分析，其中隐藏的表示(隐藏状态h)不仅基于当前输入而且还基于从过去输入中获取的隐藏表示来被更新。换言之，rnn通过在每个时间步长t处循环地(迭代地)查看输入，并且构建到目前为止的整个序列的内部表示来工作。该内部表示是“汇总”，并可以被认为是“记忆”。最先进和有效的类型的rnn是长短期记忆(lstm)网络，其使用更加有效地帮助训练rnn的特殊门控机制。然而，存在若干类型的循环神经网络，并且本发明并不限于任何特定类型的rnn或lstm。例如，lstm可以被实施在各种类型的网络中，并且术语lstm应当被理解为覆盖任意类型的lstm变形。rnn可以用于许多应用，诸如用于累加视频帧的汇总(summary)，用于执行视频分类、行为分类等。特别地，rnn可以用于预测未来视频帧。图5示出了具有以lstm510形式的、用于对视频中的时间方面进行模型化的附加rnn的编码器-解码器模型。如图5所示，通过如下所述来执行视频预测：向系统500给出从帧1开始到帧t的n个帧(即，帧[1,…,t])，并且获取下一帧t+1作为输出。

本实施例在给定来自过去的一些视频帧的情况下考虑到预测未来视频帧的问题。

实施例的结果包括经训练的人工神经网络，其可以预测未来视频帧，并且可以用于视频修复/去噪，用于视频分割，用于以监督方式进行微调以用于视频分类或行为识别，或用于预测动作的结果，从而考虑到目标而选择最适合的行为。

本实施例涉及系统和训练过程，其包括使用神经编码器-解码器模型，其中编码器和解码器可以分别是卷积网络和反卷积网络(或转置-卷积)网络，并且编码器和解码器的各个计算层可以经由循环连接进行连接。循环连接可以包括侧向循环连接。

在另外的实施例中，编码器和解码器的计算层还通过非循环连接(例如，前馈连接)进行连接，以使得在最后的时间步长处的输入直接影响(并因而没有循环层)经重建的输出。非循环连接可以包括侧向非循环连接。

在另外的实施例中，编码器和/或解码器还可以包括不同卷积层之间的内部跳过连接。这些内部跳过连接可以是非循环连接。

在又一的另外实施例中，所提出的生成器/预测器在生成对抗网络(gan)内使用，gan允许以更加有效的方式训练生成器。特别地，所提出的gan的鉴别器可以以模仿生成器的编码和循环结构的方式来设计。此外，本实施例提出利用多层鉴别器结构，其中使用了多个鉴别器。特别地，每个卷积层可以使用一个鉴别器。

接下来以更详细的方式讨论这些实施例。

如上所述，本实施例涉及未来视频预测。特别地，目标在于，对于任意给定整数k，接收n个过去视频帧并预测[n+1,n+2,…,n+k]个未来视频帧。预测未来视频帧并不必然意味着考虑到过去帧，预测与它们在现实中是完全相同的，而是期望这些帧是尽可能逼真的(或合理的)。存在若干方式来评估所预测的帧。一种常用方式是评估模型在预测帧中保留以下方面的程度：每个对象的标识、局部特征(例如，边缘、形状)以及对象的整体运动。

本实施例可以利用深度学习模型，即，人工神经网络。根据实施例，系统可以使用卷积层、长短期记忆(lstm)层、密集或全连接层、以及柔性最大(softmax)或分类层。除了lstm，还可以使用用于对视频数据的时间方面进行模型化的其它类型的模型。由本系统正在处理的数据被视为包括从视频提取和解压缩的帧。

在本方案中，存在卷积编码器-解码器模型，该模型还被嵌入编码器与解码器之间的循环侧向连接。这允许构建可见数据(过去帧)的多层级循环汇总，这允许利用关于中间层级时间表示的多得多的信息来预测未来数据。

图6使出了示出了根据实施例的用于视频预测的系统的示例。在图中，“conv-layer”代表卷积层，“de-convlayer”代表反卷积层(或者，更准确地，转置卷积层)。编码器600的所有卷积层601、602、603和解码器650的转置卷积层611、612、613经由循环连接621、622、623而被侧向连接。由此，该系统能够对多个语义层次级处的特征的时间演化进行模型化，然后在解码器侧650处将它们组合。该系统被配置为由卷积层601、602、603接收媒体内容，诸如视频帧。卷积层601、602、603执行媒体内容的特征提取，并且输出层特定的特征图。层特定的特征图经由循环侧向连接621、622、623被发送至反卷积层611、612、613。反卷积层611、612、613基于来自编码器的特征图，生成经重建的媒体内容，例如所预测的未来帧，其最终由循环侧向连接和由先前的反卷积层进行进一步处理。

在许多情形中，迫使系统的较高层具有较大的接收域是有利的。这可以以多种方式来实施，例如在编码器中利用标准卷积和最大池化、利用标准但跳格平移(stridedconvolution)卷积、或者使用扩张卷积(dilatedconvolution)，并且在解码器中使用反向操作。

根据实施例，卷积层中的仅一些卷积层被侧向耦合到对应反卷积层。例如，在一个示例实施例中，图6的卷积层601、603可以通过lstm623、621分别与反卷积层613、611侧向连接，但是可能没有从卷积层602到反卷积层612的侧向连接。因此，在视频预测系统的性能与复杂性之间进行平衡是可能的。针对特定等级的特征来优化编码器-解码器模型也是可能的，它们与侧向耦合的卷积层相对应。仅在期望时间变量的(一个或多个)层处应用一个或多个循环连接来捕获时间变量也是可能的。此外，侧向连接在编码器层与解码器层之间可以是非对称的。例如，卷积层1的输出可以被侧向连接到反卷积层2的输入。因此，来自编码器层的特征图可以通过侧向连接被提供到对应的解码器层，该对应的解码器层可以在解码器层的堆栈中位于相比于编码器层的不同的相应位置。在一些实施例中，经由这样的非对称的、循环和/或非循环连接，多个编码器层的一个或多个特征图可以被耦合到对应解码器层。

图7示出了将图7a的常规视频编码器-解码器与图7b的根据实施例的具有循环(lstm)侧向连接的视频编码器解码器比较的实验结果。

除了系统在训练期间已经看到的在针对对象类预测未来帧方面的优点，根据实施例的系统能够在训练数据以外进行概括。换言之，当被提供类似数据但不同对象类的视频时，根据实施例的系统能够预测具有关于该类的较少模糊性的未来帧。这是因为系统不仅使用主要对类信息进行编码的顶级信息，其还使用帮助从细节和对象的部分重建数据的较低层级信息。通过在多个层使用lstm侧向连接，较低层可以减轻高层级信息(即，类)的缺失。图8a示出了无循环侧向连接的常规视频编码器-解码器系统的实验结果，并且图8b示出了根据实施例的具有循环侧向连接的系统的实验结果。系统被训练以针对类(数字)[0,1,3,5,6,7]预测未来帧，并且在类[2,4,8,9]上进行测试。系统被提供有来自测试组的15个过去帧(具有此前从未见过的类)，并被要求预测未来帧。无循环侧向连接的图8a的系统仅使用高层级信息(类信息)，并快速将测试数字转换为其从训练数据中得知的数字。另一方面，图8b的系统使用中间和低层级信息用于在未来帧中生成新的类。相反，利用循环侧向连接，系统尝试尽可能长地跟上新的类。

根据另一实施例，如图9所示，关于最新的过去帧的直接多层信息被使用。在此实施例中，解码器950被允许使用关于所有编码器900的卷积层901、902、903的直接信息，以用于最新的过去帧，该最新的过去帧应该是对未来预测影响最大的一个，特别是在中间层级和较低层级。这是通过在循环侧向连接921、922、923之外向系统添加直接侧向连接931、932、933来实现的。利用图9的系统，获取了预测未来帧方面的改进，如图10所示。在图10中，第一行(a)是地面真值(ground-truth)过去帧(即，对系统的输入)，中间行(b)是地面真值过去帧(系统未见)，以及底部行(c)是由系统预测的未来帧。

根据实施例，图9的卷积层中的仅一些卷积层利用循环连接和直接连接二者被侧向耦合到对应反卷积层。一些卷积层可能完全无法被连接，并且一些层可能仅通过直接或循环(例如，lstm)连接被连接。例如，在一个示例实施例中，卷积层903可以通过循环连接921而非直接连接931被侧向连接。卷积层902可以通过直接连接932和循环连接922被侧向连接。卷积层901可以通过直接连接933且不是循环连接933进行侧向连接。因此，在视频预测系统的性能和复杂度之间进行平衡是可能的。针对与侧向耦合的卷积层相对应的某些等级的特征来优化编码器-解码器模型也是可能的。仅在期望时间变量的(一个或多个)层处应用(一个或多个)循环连接来捕获时间变量也是可能的。因此，在本发明的不同实施例中，可以应用侧向循环连接和/或直接连接或无连接的不同组合。

根据又一实施例，系统可以被扩展为适于生成对抗网络(gan)架构。在gan中，训练阶段是生成器g和鉴别器d之间的对决或游戏。生成器g和鉴别器d二者可以是神经网络。生成器g具有生成逼真数据(未来视频帧)的目标。鉴别器d有时获得从生成器g生成的“假”数据作为输入，并且有时是来自数据集的真数据作为输入。鉴别器d的目标是在输入为假或真时正确地鉴别。

图11示出根据实施例的适于gan网络的系统。在图11的系统中，生成器g与图9的系统相对应，即具有循环和直接侧向连接的编码器-解码器模型。在鉴别器d中，可以模仿与生成器g中的类似的结构，以用于在分析过去帧时操纵多层级时间汇总。鉴别器d接收n个真实的过去帧，以及未来帧n+1。未来帧n+1有时是假的(所生成的)帧，而有时是真实帧。鉴别器d可以包括第一组卷积层，每个卷积层后面是到组合器的循环连接和直接连接。鉴别器还可以包括连接至组合器的第二组卷积层。过去帧被馈送到第一组卷积层。在所有过去帧已经被处理后，将由循环网络输出汇总表示。所生成的未来帧或者不时的真实的未来帧被馈送到第二组卷积层。

鉴别器d被配置为基于过去帧和给定的未来帧进行鉴别，无论未来帧是假的还是真的。

密集层是全连接层。在图11的示例中，仅有一个密集层。然而，可以有任意数目的密集层。密集层的目的是根据接下来的层(柔性最大层)，对组合器的输出的维度进行整形，并进一步处理数据。柔性最大层是分类层。它输出概率分布。在此情形中，它输出输入未来帧为真的概率和输入未来帧为假(即，所生成的)的概率。

应当理解，在图11中，鉴别器d的系统架构仅仅是示例，并且与图11的鉴别器d不同的其它架构是可能的。例如，鉴别器d可以被构建为模仿结合图6所讨论的编码器-解码器模型，即，包括到组合器的侧向循环连接而没有到组合的直接连接。

在图11的系统中，鉴别器d仅接收来自生成器g的未来帧的最终重建/预测，以用于分析。这将有利于让鉴别器d也分析生成器g所采取的用于预测未来帧的中间步骤。因此，根据实施例，多个鉴别器d被使用-一个用于生成器g的解码器的每个层，其中每个鉴别器d可以具有与图11中的鉴别器d类似的结构。

鉴别器d被预期为将真实数据与假数据鉴别开，但是真实数据在多个重建层级处不容易获得，因为真实数据不是由定义生成的。因此，根据本方案的另一实施例，提出了用于重建输入真实未来帧的附加编码器-解码器模型。在这样的系统中，在解码器的多个层处的重建可以用作到多个鉴别器的输入。图12示出了在gan架构内工作的系统的实施例。如图12所示，生成器g1210与图9所示的生成器类似。图12的系统还包括多个鉴别器1220、1230、1240，每个鉴别器用于一个解码器的卷积层。这些鉴别器可以与图11的鉴别器d类似。为了也获取用于真实数据的多个重建，附加编码器-解码器系统1250被用于重建真实未来帧。gan模型网络可以通过使用来自所有鉴别器1220、1230、1240的损失而被训练。

鉴别器d1可以将生成器1210的反卷积层1的输出作为输入。来自生成器g的数据通常被输入到与图11的鉴别器d的第一组卷积层相对应的一组卷积层。鉴别器d1将附加编码器-解码器系统1250的反卷积层1的输出作为另一输入。来自附加编码器-解码器系统1250的数据通常被输入到与图11的鉴别器d的第二组卷积层相对应的一组卷积层。附加编码器-解码器系统1250和生成器1210的第一反卷积层可以与附加编码器-解码器系统1250和生成器1210的最内层的反卷积层相对应。鉴别器d2和d3从附加编码器-解码器系统1250以及生成器1210的第二卷积层和第三卷积层获取输入。

图13是根据实施例的方法流程图。该方法包括：接收媒体内容1310；在多个卷积层处执行媒体内容的特征提取以产生多个层特定的特征图1320；经由多个卷积层和多个反卷积层1330之间的循环侧向连接，从多个卷积层向多个反卷积层的对应反卷积层发送对应的层特定的特征图；以及基于多个特征图1340，生成经重建的媒体内容。

根据实施例的装置包括用于实施方法的部件，例如：用于接收媒体内容的部件；用于在多个卷积层处执行媒体内容特征提取，以生成多个层特定的特征图的部件；用于经由多个卷积层和多个反卷积层之间的循环连接，从多个卷积层发送对应的层特定的特征图至多个反卷积层的对应的反卷积层的部件；以及用于基于多个特征图，生成经重建的媒体内容的部件。这些部件包括至少一个处理器，包括计算机程序代码的存储器，其中存储器和计算机程序代码被配置为与至少一个处理器一起，使得装置实施该方法。

各种实施例可以提供优势。该方案提供了用于预测未来视频帧的简洁而有效的架构。循环侧向连接允许构建多层级时间概总，这允许解码器获取关于所有卷积层的时间演进的信息，而不仅是顶端层级，顶端层级仅编码关于形状、对象等的信息。未来视频帧预测由于其是深度学习和计算机视觉的神圣产物，这是因为其广泛的应用(视频去噪、视频图像修补、视频分割、基于预测序列为机器人选择动作)。而且，对视频的详细人类标记是不可行的。本实施例还可以改进预测。应当注意，本实施例并不限于未来视频预测，其还可以容易地应用于当大块数据丢失时的视频重建(即，视频图像修补)、视频去噪、视频分割、基于结果的内部预测而选择恰当的动作。

根据需要，本文所讨论的不同功能可以以不同顺序来执行和/或与其它功能同时执行。此外，根据需要，实施例和上述功能中的一个或多个可以是可选择的或者可以进行组合。

尽管在独立权利要求中陈述了实施例的各个方面，但是其它方面包括来自所述实施例和/或具有独立权利要求的特征的从属权利要求的特征的其它组合，并且不仅是权利要求中明确陈述的组合。

在此还应注意，尽管上面描述了示例实施例，但是这些描述不应被视为具有限制意义。相反，存在若干变形和修改，可以在不偏离如所附权利要求中限定的本公开的范围的情况下，做出这些变形和修改。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：F·克里克里;M·昂卡拉;E·B·阿克苏;倪星洋
技术所有人：诺基亚技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。