视频智能生成方法及装置与流程

文档序号：17470039发布日期：2019-04-20 05:45阅读：283来源：国知局

本公开涉及信息处理技术领域，具体涉及一种视频智能生成方法以及实现该方法的装置。

背景技术：

现有技术中，通常对于视频生成有很大需求，相应对视频智能生成装置也有需求，例如，在电视电影制作中，会需要进行大量的修改图像或者视频帧的工作，例如对于玄幻剧的功法，通常的做法是需要专业人员应用专业软件花费大量的时间进行修改，这种修改方式不但费时费力，而且由于技术人员的技术水平存在区别，也会对于后期的制作效果产品难以预料到的影响。

技术实现要素：

(一)要解决的技术问题

有鉴于此，本公开的目的在于提供一种视频智能生成方法以及实现该方法的装置，以至少部分解决上述技术问题。

(二)技术方案

根据本公开的一方面，提供一种视频智能生成装置，包括：

生成模块，通过第一人工神经网络，根据输入的合成指示数据，生成相应的创作图片；

合成模块，根据所述创作图片，进行图片合成，生成合成图片；

视频处理模块，将合成图片作为视频帧进行处理，获得合成视频。

在进一步的实施方案中，还包括：图像视频接收模块，用于接收外部输入的图像和/或视频，且输入至所述合成模块；所述合成模块还用于根据由图像视频接收模块输入的图像和/或视频帧，以及生成模块输出的创作图片，进行图片合成；所述视频处理模块还用于将图像视频接收模块中的视频作为部分输入，获得合成视频。

在进一步的实施方案中，还包括：文字接收模块，用于接收外部输入的文字，生成合成指示数据。

在进一步的实施方案中，所述生成模块中，通过第一人工神经网络，根据输入的合成指示数据，生成相应的创作图片，包括：通过生成对抗网络进行创作图片的生成，该对抗网络包括生成器神经网络和鉴别器神经网络；生成器神经网络输入随机向量，输出生成数据；鉴别器神经网络的输入为真实数据和生成器神经网络的生成数据，输出为对生成数据的判断。

在进一步的实施方案中，所述生成对抗网络中，还通过鉴别器神经网络的输出反向传播更新鉴别器神经网络和生成器神经网络。

在进一步的实施方案中，在所述生成模块中，还包括对生成器神经网络和鉴别器神经网络进行训练：采用真实图片作为训练样本，获取图片的第一数据分布特征，确定图片的第一鉴别器得分；生成器输入随机噪声，该随机噪声对应生成指示数据对应的类别，输出模仿的该类别对应真实图片的第二数据分布特征，确定该第二数据分布的第二鉴别器得分；根据第一鉴别器得分和第二鉴别器得分的梯度进行更新，分别更新生成器神经网络和鉴别器神经网络。

在进一步的实施方案中，所述合成模块包括：特征提取子模块，通过第二人工神经网络进行图片合成，通过所述创作图片、图像视频接收模块输入的图像和/或图像视频接收模块输入的视频帧，提取特定特征；

特征合成子模块，将提取的特定特征合并至同一图中。

在进一步的实施方案中，所述视频处理模块中，将合成图片作为视频帧进行处理，包括：使用第三人工神经网络对许多的视频帧，输入合成指示数据，还输入合成图片和/或图像视频接收模块输入的视频，输出多帧图片内容。

在进一步的实施方案中，所述第一人工神经网络、第二人工神经网络和第三人工神经网络分别包括卷积层、全连接层、池化层和批归一化层。

在进一步的实施方案中，所述生成模块、合成模块、视频处理模块和图像视频接收模块各自采用不同的神经网络芯片，或者至少两个集成于同一神经网络芯片。

根据本公开的另一方面，还提供一种视频智能生成方法，包括：

通过生成模块，根据第一人工神经网络以及输入的合成指示数据，生成相应的创作图片；

通过合成模块，根据所述创作图片，进行图片合成，生成合成图片；

通过视频处理模块，将合成图片作为视频帧进行处理，获得合成视频。

在进一步的实施方案中，还包括：通过图像视频接收模块接收外部输入的图像和/或视频，且输入至所述合成模块；合成模块还根据由图像视频接收模块输入的图像和/或视频帧，以及生成模块输出的创作图片，进行图片合成；视频处理模块还将图像视频接收模块中的视频作为部分输入，获得合成视频。

在进一步的实施方案中，还包括：通过文字接收模块，接收外部输入的文字，生成合成指示数据。

在进一步的实施方案中，通过生成模块，根据第一人工神经网络以及输入的合成指示数据，生成相应的创作图片，包括：通过生成对抗网络进行创作图片的生成，该对抗网络包括生成器神经网络和鉴别器神经网络；生成器神经网络输入随机向量，输出生成数据；鉴别器神经网络的输入为真实数据和生成器神经网络的生成数据，输出为对生成数据的判断。

在进一步的实施方案中，还通过鉴别器神经网络的输出反向传播更新鉴别器神经网络和生成器神经网络。

在进一步的实施方案中，还包括对生成器神经网络和鉴别器神经网络进行训练：采用真实图片作为训练样本，获取图片的第一数据分布特征，确定图片的第一鉴别器得分；生成器输入随机噪声，该随机噪声对应生成指示数据对应的类别，输出模仿的该类别对应真实图片的第二数据分布特征，确定该第二数据分布的第二鉴别器得分；根据第一鉴别器得分和第二鉴别器得分的梯度进行更新，分别更新生成器神经网络和鉴别器神经网络。

在进一步的实施方案中，通过特征提取子模块，经第二人工神经网络进行图片合成，通过所述创作图片、图像视频接收模块输入的图像和/或图像视频接收模块输入的视频帧，提取特定特征；还通过特征合成子模块，将提取的特定特征合并至同一图中。

在进一步的实施方案中，所述通过视频处理模块，将合成图片作为视频帧进行处理，获得合成视频，包括：使用第三人工神经网络对许多的视频帧，输入合成指示数据，还输入合成图片和/或图像视频接收模块输入的视频，输出多帧图片内容。

在进一步的实施方案中，所述第一人工神经网络、第二人工神经网络和第三人工神经网络分别包括卷积层、全连接层、池化层和批归一化层。

(三)有益效果

针对现有的对视频的处理，有些看着很不自然，对电视电影的后期处理，花费很多的人力物力，一些电视电影的拍摄，场景布置、演员等，耗费的资源很多，用本装置能节省人力物力；

通过在文字接收模块输入文字等合成指示，可以不需要专业技术，即可实现视频的生成，尤其现在拍摄电影电视的导演有该专业基础，用本设备，可以全民导演，使之成为一个人人可以实现的兴趣爱好。

附图说明

图1是本公开实施例的视频智能生成装置原理方框图。

图2是本公开实施例的另一种视频智能生成装置的示意图。

图3是本公开实施例的视频智能生成装置生成模块的示意图。

图4是本公开实施例的视频智能生成装置合成模块的示意图。

图5是本公开实施例的神经网络芯片原理方框图。

图6是本公开实施例的视频智能生成方法流程图。

具体实施方式

下面结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开的保护范围。

根据本公开的基本构思，提供一种视频智能生成装置，包括：生成模块110，根据第一人工神经网络以及输入的合成指示数据，生成相应的创作图片；合成模块120，根据所述创作图片，进行图片合成，生成合成图片；以及视频处理模块130，将合成图片作为视频帧进行处理，获得合成视频。这种装置中，只需外部输入简单的合成指示，即可以实现视频的合成，大幅度提高了效率。

图1是本公开实施例的视频智能生成装置原理方框图。如图1所示，本公开的生成模块110用于根据合成指示，生成创作图片，可通过第一人工神经网络进行创作。创作过程中，第一人工神经网络的输入包括合成指示数据以及随机信号，通过该神经网络运算后输出创作图片。

图3是本公开实施例的视频智能生成装置生成模块110的示意图。在一些实施例中，通过生成对抗网络(第一人工神经网络的一种示例)进行创作图片的生成，该对抗网络可包括生成器神经网络和鉴别器神经网络；生成器神经网络输入随机向量(随机信号的一种示例)，输出生成数据；鉴别器神经网络的输入为真实数据和生成器神经网络的生成数据，输出为对生成数据的判断。

在进一步的实施例中，生成对抗网络中，还通过鉴别器神经网络的输出反向传播更新鉴别器神经网络和生成器神经网络。相应的，对生成器神经网络和鉴别器神经网络进行训练，包括：采用真实图片作为训练样本，获取图片的第一数据分布特征，确定图片的第一鉴别器得分；生成器输入随机噪声，该随机噪声对应生成指示数据对应的类别，输出模仿的该类别对应真实图片的第二数据分布特征，确定该第二数据分布的第二鉴别器得分；根据第一鉴别器得分和第二鉴别器得分的梯度进行更新，分别更新生成器神经网络和鉴别器神经网络。

举例来说，上述训练过程可以为：

1.采集特定类别(如小狗)训练样本(真实图片)x的一个小批归一化层(minibatch)，得到它的数据分布特征，计算他们的鉴别器得分d(x)；

2.生成器输入随机噪声z，该随机噪声对应要生成的特定类别，输出模仿的该类别对应真实图片的数据分布，计算它们的鉴别器得分d(g(z))；

3.使用这两个步骤累积的梯度进行更新，分别更新生成器和鉴别器；鉴别器的优化目标为使d(x)大，d(g(z))小；生成器的优化目标为使d(g(z))大，可以使用随机梯度下降算法对鉴别器和生成器进行更新。

需要说明的是，该训练过程可以在事先进行，即可在实际使用之前即训练完成。即实际创作时，可以仅包括生成器神经网络进行创作，相应的视频智能生成装置中可以仅采用生成器神经网络。

在一些实施例中，生成模块110使用的第一人工神经网络可以是深度神经网络，深度神经网络算法分为训练过程和使用过程两部分。在训练过程中，使用生成器和鉴别器神经网络。这里的深度神经网络可以包括卷积层、全连接层、池化层和批归一化层(batchnorm)。

在一些实施例中，本公开的视频智能合成装置还可以包括文字接收模块140，用于接收外部输入的文字，生成合成指示数据。这里的合成指示数据可以作为生成模块110中的输入，用于表明该生成模块110需要进行何种图片创作，可以作为第一人工神经网络的部分输入参与运算。实际操作过程中，可以是视频创作人员通过输入设备输入一段文字，该段文字可以生成一定的指示数据(比如指示视频中某个人物四周加入闪光特效)，该指示数据经生成模块110运算后，可以是产生闪光特效的创作图片。

在一些实施例中，本公开的视频智能合成装置还可以包括图像视频接收模块150，用于接收外部输入的图像和/或视频，且输入至所述合成模块120。相应的，合成模块120还用于根据由图像视频接收模块150输入的图像和/或视频帧，以及生成模块110输出的创作图片，进行图片合成。这里图像视频接收模块150可以接收原始拍摄的图片或者视频，或者是已经经过处理的图片或者视频，其将图片或者视频帧输入至合成模块120，以作为部分素材进行合并。

如图2所示，在一些实施例中，上述的文字接收模块140和图像视频接收模块150可以集成至输入输出接口210，可以通过该接口接收文字、图像以及视频数据，然后在分别传送至生成模块110、合成模块120和/或视频处理模块130。

其中，参见图1和图4所示，合成模块120根据所述创作图片，进行图片合成，生成合成图片。这里，可以通过第二人工神经网络进行图片合成，通过所述创作图片、图像视频接收模块150输入的图像和/或图像视频接收模块150输入的视频帧，提取特定特征合并至同一图中(具体的，可以通过提取特征子模块410提取该特定特征，以及通过特征合成子模块420将若干特定特征合成至同一图中)。可选地，该用于进行合成的图片可以来自生成模块110生成的图片，也可来自图像视频接收模块150，将不同来源的图片，提取需要的特征，合到一张图片中。

在一些实施例中，合成模块120使用的第二人工神经网络可以是深度神经网络，深度神经网络算法分为训练过程和使用过程两部分。这里的深度神经网络可以包括卷积层、全连接层、池化层和批归一化层。

参见图1所示，视频处理模块130将合成图片作为视频帧进行处理，获得合成视频。可以使用第三人工神经网络对许多的视频帧，输入合成指示数据，还输入合成图片和/或图像视频接收模块150输入的视频，输出多帧图片内容。例如，第三人工神经网络输入为文字描述以及多张图片，通过获取图片中的目标，文字描述中包含对该目标的行为的描述，以及该行为持续k帧，根据描述，生成k帧图片的内容，获得的图片帧快速播放即可形成视频。其中，可以对第三人工神经网络进行训练，训练时，该视频处理模块130优化目标为减小生成的视频与标签视频不相似度，该不相似度可通过对视频每帧进行处理，获得一个得分，连续的16帧的得分作为评价标准进行优化(方法可选)，通过反向传播进行网络更新。

在一些实施例中，视频处理模块130使用的第三人工神经网络可以是深度神经网络，深度神经网络算法分为训练过程和使用过程两部分。这里的深度神经网络可以包括卷积层、全连接层、池化层和批归一化层。

在一些实施例中，以上所介绍的生成模块110、合成模块120、视频处理模块130和图像视频接收模块150各自采用不同的神经网络芯片，或者至少两个集成于同一神经网络芯片。如图2所示，它们可以集成为一处理器220，通过至少一神经网络芯片进行处理。

图5是本公开实施例的神经网络芯片500原理方框图。如图5所示，在一些实施例中，神经网络芯片500包括存储单元510、控制单元520和运算单元530，其中，存储单元510用于存储输入数据(可以作为输入神经元)，神经网络参数和指令；控制单元520用于从所述存储单元510中读取专用指令，并将其译码成运算单元530指令并输入至运算单元530；运算单元530用于根据运算单元530指令对所述数据执行相应的神经网络运算，得到输出神经元。其中，存储单元510还可以存储经运算单元530运算后获得的输出神经元。这里的神经网络参数包括但不限于权值、偏置和激活函数。作为优选的，参数中的初始化权值为经过训练的人脸识别权值，可直接进行人工神经网络运算)，节省了对神经网络进行训练的过程。

在一些实施例中，运算单元530中执行相应的神经网络运算包括：将输入神经元和权值数据相乘，获得相乘结果；执行加法树运算，用于将所述相乘结果通过加法树逐级相加，得到加权和，对加权和加偏置或不做处理；

对加偏置或不做处理的加权和执行激活函数运算，得到输出神经元。作为优选的，激活函数可以是sigmoid函数、tanh函数、relu函数或softmax函数。

在一些实施例中，如图5所示，神经网络芯片500还可以包括dma540(directmemoryaccess，直接内存存取)，用于存入存储单元510中的输入数据，神经网络参数和指令，以供控制单元520和运算单元530调用；进一步的还用于在运算单元530计算出输出神经元后，向存储单元510写入该输出神经元。

在一些实施例中，如图5所示，神经网络芯片500还包括指令缓存550，用于从所述直接内存存取dma540缓存指令，供控制单元520调用。该指令缓存550可以为片上缓存，其通过制备工艺集成于神经网络芯片500上，可以在指令调取时，提高处理速度，节省整体运算时间。

在一些实施例中，神经网络芯片500还包括：输入神经元缓存570，其用于从所述直接内存存取dma540缓存输入神经元，供运算单元530调用；权值缓存560，其用于从所述直接内存存取dma540缓存权值，供运算单元530调用；输出神经元缓存580，其用于存储从所述运算单元530获得运算后的输出神经元，以输出至直接内存存取dma540。上述输入神经元缓存570、权值缓存560以及输出神经元缓存580也可以为片上缓存，通过半导体工艺集成于神经网络芯片500上，可以在供运算单元530读写时提高处理速度，节省整体运算时间。

参见图6所示，基于同一发明构思，本公开实施例还提供一种视频智能生成方法，包括：

s610：通过生成模块110，根据第一人工神经网络以及输入的合成指示数据，生成相应的创作图片；

s620：通过合成模块120，根据所述创作图片，进行图片合成，生成合成图片；

s630：通过视频处理模块130，将合成图片作为视频帧进行处理，获得合成视频。

在一些实施例中，还包括：通过图像视频接收模块150接收外部输入的图像和/或视频，且输入至所述合成模块120。步骤s620中，合成模块120还根据由图像视频接收模块150输入的图像和/或视频帧，以及生成模块110输出的创作图片，进行图片合成。而且，步骤s630中，视频处理模块130还将图像视频接收模块150中的视频作为部分输入，获得合成视频。

在一些实施例中，在步骤s610之前，在还包括：通过文字接收模块140，接收外部输入的文字，生成合成指示数据。

在一些实施例中，步骤s620中，通过生成模块110，根据第一人工神经网络以及输入的合成指示数据，生成相应的创作图片，包括：通过生成对抗网络进行创作图片的生成，该对抗网络包括生成器神经网络和鉴别器神经网络；生成器神经网络输入随机向量，输出生成数据；鉴别器神经网络的输入为真实数据和生成器神经网络的生成数据，输出为对生成数据的判断。

可选的，还通过鉴别器神经网络的输出反向传播更新鉴别器神经网络和生成器神经网络。以及对鉴别器神经网络和生成器神经网络训练：采用真实图片作为训练样本，获取图片的第一数据分布特征，确定图片的第一鉴别器得分；生成器输入随机噪声，该随机噪声对应生成指示数据对应的类别，输出模仿的该类别对应真实图片的第二数据分布特征，确定该第二数据分布的第二鉴别器得分；根据第一鉴别器得分和第二鉴别器得分的梯度进行更新，分别更新生成器神经网络和鉴别器神经网络。

本公开所提供的实施例中，应理解到，所揭露的相关装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述部分或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个部分或模块可以结合或者可以集成到一个系统，或一些特征可以忽略或者不执行。

本公开中，术语“和/或”可能已被使用。如本文中所使用的，术语“和/或”意指一个或其他或两者(例如，a和/或b意指a或b或者a和b两者)。

在上面的描述中，出于说明目的，阐述了众多具体细节以便提供对本公开的各实施例的全面理解。然而，对本领域技术人员将显而易见的是，没有这些具体细节中的某些也可实施一个或多个其他实施例。所描述的具体实施例不是为了限制本公开而是为了说明。本公开的范围不是由上面所提供的具体示例确定，而是仅由下面的权利要求确定。在其他情况下，以框图形式，而不是详细地示出已知的电路、结构、设备，和操作以便不至于使对描述的理解变得模糊。在认为适宜之处，附图标记或附图标记的结尾部分在诸附图当中被重复以指示可选地具有类似特性或相同特征的对应或类似的要素，除非以其他方式来指定或显而易见。

已描述了各种操作和方法。已经以流程图方式以相对基础的方式对一些方法进行了描述，但这些操作可选择地被添加至这些方法和/或从这些方法中移去。另外，尽管流程图示出根据各示例实施例的操作的特定顺序，但可以理解，该特定顺序是示例性的。替换实施例可以可任选地以不同方式执行这些操作、组合某些操作、交错某些操作等。设备的此处所描述的组件、特征，以及特定可选细节还可以可任选地应用于此处所描述的方法，在各实施例中，这些方法可以由这样的设备执行和/或在这样的设备内执行。

本公开中各功能单元/子单元/模块/子模块都可以是硬件，比如该硬件可以是电路，包括数字电路，模拟电路等等。硬件结构的物理实现包括但不局限于物理器件，物理器件包括但不局限于晶体管，忆阻器等等。所述计算装置中的计算模块可以是任何适当的硬件处理器，比如cpu、gpu、fpga、dsp和asic等等。所述存储单元可以是任何适当的磁存储介质或者磁光存储介质，比如rram，dram，sram，edram，hbm，hmc等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周诗怡;陈云霁
技术所有人：中国科学院计算技术研究所
我是此专利的发明人

上一篇：一种三维结构熔喷非织造布的制备装置的制作方法
上一篇：计算页岩全角度各向异性脆性指数的方法及系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。