一种基于神经网络的视频分类方法以及系统与流程

文档序号：17937639发布日期：2019-06-18 22:45阅读：150来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及计算机技术领域，尤其涉及一种基于神经网络的视频分类方法以及系统。

背景技术：

随着技术的不断发展，视频内容日益增长。在对视频内容进行运用的过程中，往往需要对视频进行分类。传统的人工进行分类不仅耗时，而且浪费人力，效率不高。

现有的神经网络可以实现对视频的分类，通常采用2d卷积神经网络与时序模型结合、双流卷积神经网络或者3d卷积神经网络，在上述做法中，容易导致时空域的信息丢失，影响视频分类性能。

技术实现要素：

本发明实施例提供一种基于神经网络的视频分类方法，能够采用高阶项进行数据的拟合，提高视频分类的性能。

本发明实施例第一方面提供了一种基于神经网络的视频分类方法，包括：

获取待处理的目标视频；

根据预设的参数从所述目标视频中提取目标帧；

将所述目标帧输入目标神经网络，所述目标神经网络包括至少一层卷积层，所述至少一层卷积层用于将所述目标帧对应的特征向量转换为高阶特征向量；

获取所述目标神经网络的输出结果；

根据所述输出结果确定所述目标视频的类型。

可选的，所述根据预设的参数从所述目标视频中提取目标帧，包括：

解析预设的参数，获取提取频率以及初始提取帧；

根据所述初始提取帧以及提取频率从所述目标视频中提取目标帧。

可选的，所述获取待处理的目标视频之前，还包括：

创建目标神经网络；

采用训练数据对所述目标神经网络进行训练；

获得训练后的目标神经网络。

可选的，所述至少一层卷积层用于将所述目标帧对应的特征向量转换为高阶特征向量，包括：

将所述目标帧处理为第一特征向量；

将所述第一特征向量作为输入，输入至第一卷积层，得到第二特征向量；

将所述第二特征向量依次输入第二卷积层以及第三卷积层，得到第三特征向量；

将所述第二特征向量与第三特征向量进行乘运算，得到第四特征向量，其中，所述第四特征向量为所述第一特征向量的高阶表示；

将所述第四特征向量输入第四卷积层，得到第五特征向量。

可选的，所述将所述目标帧输入目标神经网络，还包括：

将所述第一特征向量与所述第五特征向量进行和运算，得到第六特征向量；

将所述第六特征向量输入至所述目标神经网络的分类器，获得输出结果。

可选的，所述第一特征向量的维度为t*w*h*1024。

可选的，所述第一卷积层的卷积核为1*1*1，通道维度为512。

可选的，所述第二卷积层的卷积核为1*3*3，所述第三卷积层的卷积核为3*3*3，所述第三特征向量的维度为t*h*w*27。

可选的，所述第四卷积层的卷积核为1*1*1，通道维度为1024。

本发明实施例第二方面一种视频分类系统，所述系统包括处理器以及存储器，

所述存储器用于存储可执行程序；

所述处理器用于执行所述可执行程序以实现上述所述的视频分类方法。

实施本发明实施例，具有如下有益效果：

本发明实施例中的基于神经网络的视频分类方法以及系统，通过提取视频中的目标帧，将目标帧作为输入，输入至目标神经网络，所述目标神经网络包括卷积层，能够实现目标帧对应向量的高阶转换，通过高阶项进行数据的拟合，能够有利于参数的传递，提取更多的图片帧的特征，便于图片帧的识别，从而提高视频分类的性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于神经网络的视频分类方法第一实施例的方法流程图。

图2为本发明实施例提供的一种基于神经网络的视频分类方法第二实施例的方法流程图。

图3为本实施例中目标神经网络的结构示意图。

图4为本发明实施例中将目标帧输入目标神经网络的步骤的方法流程图。

图5为本发明实施例提供的一种基于神经网络的视频分类系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图中将各步骤描述成顺序的处理，但是其中的许多步骤可以并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排，当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图内的其它步骤。处理可以对应于方法、函数、规程、子例程、子程序等。

图1为本发明实施例提供的一种基于神经网络的视频分类方法第一实施例的方法流程图，本实施例中，该视频分类方法可以应用于移动终端、计算机、服务器等设备。该视频分类方法包括以下步骤s101-s105。

在步骤s101中，获取待处理的目标视频。

具体的，首先获取需要进行分类的目标视频。目标视频可以来自于本地端，也可以来自于网络端。比如，可以是针对网络上的视频信息进行分类，也可以是针对本地端上已有的视频信息进行分类。

在步骤s102中，根据预设的参数从所述目标视频中提取目标帧。

具体的，在获取了目标参数了之后，根据预设的参数对目标视频进行处理，提取相应的目标帧。本实施例中，在进行目标视频的分类时，需要对视频进行识别，即对构成视频的帧进行识别。通过预先设置相应的提取参数，可以采用提取参数对获得的目标视频进行处理，以得到相应的帧，所述帧的数量为多个。可以理解的是，由于视频可以被看成是一系列连续变化的帧图片组成的序列，相邻帧之间的变化非常微小，因此为了后续的识别，需要从时序的视角进行观察，因此在进行视频帧的提取时也需要考虑到视频帧之间相隔的时间。

本实施例中，该步骤可以进一步包括：

解析预设的参数，获取提取频率以及初始提取帧；

根据所述初始提取帧以及提取频率从所述目标视频中提取目标帧。

具体的，根据初始提取帧以及提取频率，对目标视频进行处理，获取相应的多个目标帧。

在步骤s103中，将所述目标帧输入目标神经网络，所述目标神经网络包括至少一层卷积层，所述至少一层卷积层用于将所述目标帧对应的特征向量转换为高阶特征向量；

具体的，将提取的目标帧输入目标神经网络，所述目标神经网络用于进行图像识别与分类，本实施例中，该目标神经网络包括至少一层卷积层，所述至少一层卷积层用于将所述目标帧对应的特征向量转换为高阶特征向量，从而便于后续提取重要的特征，抑制不重要的特征，达到较好的训练效果。

在步骤s104中，获取所述目标神经网络的输出结果。

具体的，获得对应的输出结果。

在步骤s105中，根据所述输出结果确定所述目标视频的类型。

具体的，根据目标神经网络的输出结果确定目标视频的类型。本实施例中，具体的分类取决于目标神经网络的训练过程。在进行识别之前，需要采用一定的训练集对目标神经网络进行训练，以提高识别准确度。

本发明实施例中的基于神经网络的视频分类方法，通过提取视频中的目标帧，将目标帧作为输入，输入至目标神经网络，所述目标神经网络包括卷积层，能够实现目标帧对应向量的高阶转换，通过高阶项进行数据的拟合，能够有利于参数的传递，提取更多的图片帧的特征，便于图片帧的识别，从而提高视频分类的性能。

图2为本发明实施例提供的一种基于神经网络的视频分类方法第二实施例的方法流程图。本实施例中，该视频分类方法包括以下步骤s201-s208。

在步骤s201中，创建目标神经网络。

在步骤s202中，采用训练数据对所述目标神经网络进行训练，调整所述目标神经网络的参数。

在步骤s203中，获得训练后的目标神经网络。

在步骤s204中，获取待处理的目标视频。

在步骤s205中，根据预设的参数从所述目标视频中提取目标帧。

在步骤s206中，将所述目标帧输入目标神经网络，所述目标神经网络包括至少一层卷积层，所述至少一层卷积层用于将所述目标帧对应的特征向量转换为高阶特征向量。

在步骤s207中，获取所述目标神经网络的输出结果。

在步骤s208中，根据所述输出结果确定所述目标视频的类型。

图3为本实施例中目标神经网络的结构示意图，如图所示，本实施例中，所述目标神经网络包括4层卷积层。下面结合图3以及图4详细说明图1或图2所述的目标神经网络。

图4为本发明实施例中将目标帧输入卷积层的步骤的方法流程图。所述方法包括以下步骤s401-405。本实施例中，所述卷积层以4层为例说明，本领域技术人员可以理解的是，卷积层的数量和各层的参数类型还可以是其他形式，本发明实施例并不以此为限。

在步骤s401中，将所述目标帧处理为第一特征向量。

具体的，如图3所示，在获取到目标帧之后，对目标帧进行处理，生成第一特征向量。本实施例中，处理目标帧的过程中可以是进行rgb转换，也可以是yuv转换，还可以是其他方式，本实施例并不以此为限。本实施例中，所述第一特征向量的维度为t*w*h*1024。

在步骤s402中，将所述第一特征向量作为输入，输入至第一卷积层，得到第二特征向量。

具体的，第一特征向量作为输入，输入至第一卷积层。本实施例中，第一卷积层的卷积核为为1*1*1，所述第一卷积层的通道维度为512。由于第一特征向量的维度为1024，在经过第一卷积层了之后，第二特征向量的维度也降为512，从而实现了对特征向量的降维，便于后续的处理。

在步骤s403中，将所述第二特征向量依次输入第二卷积层以及第三卷积层，得到第三特征向量。

具体的，在得到第二特征向量之后，以此输入第二卷积层以及第三卷积层。本实施例中，所述第二卷积层的卷积核为1*3*3，所述第三卷积层的卷积核为3*3*3。在经过两层卷积层处理之后，得到所述第三特征向量，所述第三特征向量的维度为t*h*w*27。在其他实施方式中，通过选取不同的第二卷积层和第三卷积层的卷积核，也可以得到不同的第三特征向量的维度，比如，第三特征向量的维度也可以是t*h*w*125。

本实施例中，第三特征向量所表示对第一特征向量中3*3*3大小领域内的特征进行重要性的重标定。

在步骤s404中，将所述第二特征向量与第三特征向量进行乘运算，得到第四特征向量。

具体的，由于第三特征向量可以看做是针对第一特征向量的权重向量，在将第二特征向量与第三特征向量相乘时，相当于是针对第一特征向量的高阶表示，即所述第四特征向量可视为第一特征向量的高阶表示。

在步骤s405中，将所述第四特征向量输入第四卷积层，得到第五特征向量。

具体的，所述第四卷积层的卷积核为1*1*1，通道维度为1024。采用此步骤的原因在于，在第一卷积层中，对第一特征向量进行了降维处理，因此，此时需要进行升维处理，以保证特征向量的维度不变。

可选的，在其他实施方式中，上述步骤还包括对残差的学习。进一步的，还包括将所述第一特征向量与所述第五特征向量进行和运算，得到第六特征向量。通过将第一特征向量以加和的形式累加到高阶的第五特征向量中，能够有利于参数的传递，便于进行神经网络的训练。

可选的，还包括：在获得第六特征向量了之后，将将所述第六特征向量输入至所述目标神经网络的分类器，获得输出结果，根据所述输出结果对视频进行分类。

需要说明的是，本发明实施例中，权重向量也就是第三特征向量的维度是可变的，通过改变第二卷积层以及第三卷积层的参数，可以对权重向量的维度进行改变。本实施例通过设置权重向量，能够实现对特征向量的高阶表示，从而能够更好的拟合数据的非线性特征，同时，本发明实施例中的目标神经网络，由于采用高阶表示，能够自学习视频帧中的注意力特征，提取对于分类有用的特征，同时抑制一些不太重要的特征，从而达到更好的训练效果。

图5所示为本发明实施例提供的一种基于神经网络的视频分类系统的结构示意图。如图5所示，所述系统包括处理器501(所述处理器501的数量可以一个或多个，图5以一个处理器为例)以及存储器502。在本发明的实施例中，处理器501、存储器502可通过总线或其它方式连接，其中，图5中以通过总线连接为例。可以理解的是，本实施例中的系统也可以应用于图1或图2所示的实施例中。

其中，存储器502中存储有可执行程序，处理器501执行所述可执行程序以实现如下步骤：

获取待处理的目标视频；

根据预设的参数从所述目标视频中提取目标帧；

获取所述目标神经网络的输出结果；

根据所述输出结果确定所述目标视频的类型。

可选的，所述处理器501根据预设的参数从所述目标视频中提取目标帧，包括：

解析预设的参数，获取提取频率以及初始提取帧；

根据所述初始提取帧以及提取频率从所述目标视频中提取目标帧。

可选的，所述处理器501获取待处理的目标视频之前，还包括：

创建目标神经网络；

采用训练数据对所述目标神经网络进行训练，调整所述目标神经网络的参数；

获得训练后的目标神经网络。

可选的，所述处理器501还用于：

将所述目标帧处理为第一特征向量；

将所述第一特征向量作为输入，输入至第一卷积层，得到第二特征向量；

将所述第二特征向量依次输入第二卷积层以及第三卷积层，得到第三特征向量；

将所述第二特征向量与第三特征向量进行乘运算，得到第四特征向量，其中，所述第四特征向量为所述第一特征向量的高阶表示；

将所述第四特征向量输入第四卷积层，得到第五特征向量。

可选的，所述处理器501还用于：

将所述第一特征向量与所述第五特征向量进行和运算，得到第六特征向量；

将所述第六特征向量输入至所述目标神经网络的分类器，获得输出结果。

可选的，所述第一特征向量的维度为t*w*h*1024。

可选的，所述第一卷积层的卷积核为1*1*1，通道维度为512。

可选的，所述第二卷积层的卷积核为1*3*3，所述第三卷积层的卷积核为3*3*3，所述第三特征向量的维度为t*h*w*27。

可选的，所述第四卷积层的卷积核为1*1*1，通道维度为1024。

本发明实施例中的基于神经网络的视频分类系统，通过提取视频中的目标帧，将目标帧作为输入，输入至目标神经网络，所述目标神经网络包括卷积层，能够实现目标帧对应向量的高阶转换，通过高阶项进行数据的拟合，能够有利于参数的传递，提取更多的图片帧的特征，便于图片帧的识别，从而提高视频分类的性能。

上述实施例中提供各模块两两之间均可实现通讯连接，且各模块均可与平台的中心控制装置通讯连接，上述实施例中提供的通过指纹识别快速录音装置可执行本公开中任意实施例中所提供的通过指纹识别快速录音的方法，具备执行该方法相应的功能模块和有益效果，未在上述实施例中详细描述的技术细节，可参见本公开任意实施例中所提供的快速录音的方法。

将意识到的是，本公开也扩展到适合于将本公开付诸实践的计算机程序，特别是载体上或者载体中的计算机程序。程序可以以源代码、目标代码、代码中间源和诸如部分编译的形式的目标代码的形式，或者以任何其它适合在按照本公开的方法的实现中使用的形式。也将注意的是，这样的程序可能具有许多不同的构架设计。例如，实现按照本公开的方法或者系统的功能性的程序代码可能被再分为一个或者多个子例程。

用于在这些子例程中间分布功能性的许多不同方式将对技术人员而言是明显的。子例程可以一起存储在一个可执行文件中，从而形成自含式的程序。这样的可执行文件可以包括计算机可执行指令，例如处理器指令和/或解释器指令(例如，java解释器指令)。可替换地，子例程的一个或者多个或者所有子例程都可以存储在至少一个外部库文件中，并且与主程序静态地或者动态地(例如在运行时间)链接。主程序含有对子例程中的至少一个的至少一个调用。子例程也可以包括对彼此的函数调用。涉及计算机程序产品的实施例包括对应于所阐明方法中至少一种方法的处理步骤的每一步骤的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

另一个涉及计算机程序产品的实施例包括对应于所阐明的系统和/或产品中至少一个的装置中每个装置的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

计算机程序的载体可以是能够运载程序的任何实体或者装置。例如，载体可以包含存储介质，诸如(rom例如cdrom或者半导体rom)或者磁记录介质(例如软盘或者硬盘)。进一步地，载体可以是可传输的载体，诸如电学或者光学信号，其可以经由电缆或者光缆，或者通过无线电或者其它手段传递。当程序具体化为这样的信号时，载体可以由这样的线缆或者装置组成。可替换地，载体可以是其中嵌入有程序的集成电路，所述集成电路适合于执行相关方法，或者供相关方法的执行所用。

应该留意的是，上文提到的实施例是举例说明本公开，而不是限制本公开，并且本领域的技术人员将能够设计许多可替换的实施例，而不会偏离所附权利要求的范围。在权利要求中，任何放置在圆括号之间的参考符号不应被解读为是对权利要求的限制。动词“包括”和其词形变化的使用不排除除了在权利要求中记载的那些之外的元素或者步骤的存在。在元素之前的冠词“一”或者“一个”不排除复数个这样的元素的存在。本公开可以通过包括几个明显不同的组件的硬件，以及通过适当编程的计算机而实现。在列举几种装置的装置权利要求中，这些装置中的几种可以通过硬件的同一项来体现。在相互不同的从属权利要求中陈述某些措施的单纯事实并不表明这些措施的组合不能被用来获益。

如果期望的话，这里所讨论的不同功能可以以不同顺序执行和/或彼此同时执行。此外，如果期望的话，以上所描述的一个或多个功能可以是可选的或者可以进行组合。

如果期望的话，上文所讨论的各步骤并不限于各实施例中的执行顺序，不同步骤可以以不同顺序执行和/或彼此同时执行。此外，在其他实施例中，以上所描述的一个或多个步骤可以是可选的或者可以进行组合。

虽然本公开的各个方面在独立权利要求中给出，但是本公开的其它方面包括来自所描述实施方式的特征和/或具有独立权利要求的特征的从属权利要求的组合，而并非仅是权利要求中所明确给出的组合。

这里所要注意的是，虽然以上描述了本公开的示例实施方式，但是这些描述并不应当以限制的含义进行理解。相反，可以进行若干种变化和修改而并不背离如所附权利要求中所限定的本公开的范围。

本领域普通技术人员应该明白，本公开实施例的装置中的各模块可以用通用的计算装置来实现，各模块可以集中在单个计算装置或者计算装置组成的网络组中，本公开实施例中的装置对应于前述实施例中的方法，其可以通过可执行的程序代码实现，也可以通过集成电路组合的方式来实现，因此本公开并不局限于特定的硬件或者软件及其结合。

本领域普通技术人员应该明白，本公开实施例的装置中的各模块可以用通用的移动终端来实现，各模块可以集中在单个移动终端或者移动终端组成的装置组合中，本公开实施例中的装置对应于前述实施例中的方法，其可以通过编辑可执行的程序代码实现，也可以通过集成电路组合的方式来实现，因此本公开并不局限于特定的硬件或者软件及其结合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：包怡欣
技术所有人：上海七牛信息技术有限公司
我是此专利的发明人

上一篇：一种计算机软件开发用显示器支架的制作方法
上一篇：一种设置网络乱序值的方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。