视频分类方法、装置、电子设备及存储介质与流程

文档序号：30494858发布日期：2022-06-22 03:46阅读：106来源：国知局

1.本发明涉及人工智能领域，具体而言，涉及一种视频分类方法、装置、电子设备及存储介质。

背景技术：

2.近几年来，随着互联网技术的快速发展，互联网社交平台也得到了快速发展，各种直播平台每分钟都会产生上千万的短视频，这些短视频的类别也成千上万，对短视频的类别进行准确分类也是一项重要的问题。随着卷积神经网络的出现，人工智能技术也得到不断发展，视频级别的研究也越来越多，视频、音频、文本等多模态技术也在不断发展，只有对短视频进行正确的分类，才能根据用户的不同，让用户有不同的体验，以便更好的为用户提供服务。
3.现有的视频分类是通过对提取到的视频特征求平均值，经过此操作后最终将会得到一条特征，最后使用这条特征进行分类；然而，这种方法存在的缺点是无法学习特征间关系，所有特征直接进行平均操作比较暴力，使得特征之间没有重要程度关系，导致视频分类的结果不准确。

技术实现要素：

4.为了解决上述技术问题或者至少部分地解决上述技术问题，本发明提供了一种视频分类方法、装置、电子设备及存储介质。
5.第一方面，本发明提供了一种视频分类方法，所述方法包括：获取待处理的目标视频；通过人工智能模型从所述目标视频中识别出目标音频特征和视频帧特征；将所述目标音频特征作为预训练的特征分类模型的输入，得到多种音频特征；其中，所述特征分类模型包括多个并行分支模型，每个分支模型由携带有一种标签类型的音频特征样本训练卷积神经网络得到；根据所述多种音频特征和所述视频帧特征确定所述目标视频的视频类别。
6.可选地，所述通过人工智能模型从所述目标视频中识别出目标音频特征包括：将所述目标视频输入基于语音识别的人工智能模型，以对所述目标视频中包含的音频帧进行识别，得到音频帧序列；绘制所述音频帧序列对应的语谱图；通过将所述语谱图输入预设的卷积神经网络，提取所述目标音频特征。
7.可选地，所述通过人工智能模型从所述目标视频中识别出视频帧特征包括：基于预设的抽帧策略从所述目标视频中抽取视频帧图像；将所述视频帧图像作为基于图像分类的人工智能模型的输入，得到所述视频帧特征。
8.可选地，所述将所述目标音频特征作为预训练的特征分类模型的输入，得到多种音频特征，通过以下方式得到每一种音频特征：选定多个分支模型中没被选过的第一分支模型，所述第一分支模型由携带有标签类型为第一类标签的音频特征样本训练卷积神经网络得到，将所述目标音频特征作为所述第一分支模型的输入，经过卷积神经网络中的全连接层进行特征提取，以从所述目标音频特征中分离出标签类型为所述第一类标签的音频特
征。
9.可选地，所述根据所述多种音频特征和所述视频帧特征确定所述目标视频的视频类别包括：将所述多种音频特征中没被选过的第一音频特征和所述视频帧特征输入卷积神经网络，以进行特征融合，得到所述多种音频特征对应的多个第一特征；将所述多个第一特征输入逻辑回归模型，得到多个第一权重；其中，所述第一权重用于表征每个音频特征对影响所述目标视频的视频类别的影响程度；分别对每个第一权重与对应的音频特征进行乘法运算，得到多个第二特征；对所述多个第二特征进行求和运算，得到第三特征；将所述第三特征标识为所述目标视频的视频类别。
10.可选地，在基于预设的抽帧策略从所述目标视频中抽取视频帧图像之后，所述方法还包括：通过基于字符识别的人工智能模型对所述视频帧图像中的文本进行识别，得到目标文本；利用bert模型从所述目标文本中提取用于表征所述目标文本的标签类型的文本特征。
11.可选地，所述根据所述多种音频特征和所述视频帧特征确定所述目标视频的视频类别包括：将所述多种音频特征中没被选过的第二音频特征和所述视频帧特征输入卷积神经网络，以进行特征融合，得到所述多种音频特征对应的第四特征；将所述多个第四特征输入逻辑回归模型，得到多个第二权重；其中，所述第二权重用于表征每个音频特征对影响所述目标视频的视频类别的影响程度；分别对每个第二权重与对应的音频特征进行乘法运算，得到多个第五特征；对所述多个第五特征进行求和运算，得到第六特征；通过对所述第六特征、所述文本特征和所述视频帧特征进行特征拼接，生成第七特征；将所述第七特征标识为所述目标视频的视频类别。
12.第二方面，本发明提供了一种视频分类装置，所述装置包括：获取模块，用于获取待处理的目标视频；识别模块，用于通过人工智能模型从所述目标视频中识别出目标音频特征和视频帧特征；分类模块，用于将所述目标音频特征作为预训练的特征分类模型的输入，得到多种音频特征；其中，所述特征分类模型包括多个并行分支模型，每个分支模型由携带有一种标签类型的音频特征样本训练卷积神经网络得到；确定模块，用于根据所述多种音频特征和所述视频帧特征确定所述目标视频的视频类别。
13.可选地，所述识别模块包括：第一识别单元，用于将所述目标视频输入基于语音识别的人工智能模型，以对所述目标视频中包含的音频帧进行识别，得到音频帧序列；绘制单元，用于绘制所述音频帧序列对应的语谱图；第一提取单元，用于通过将所述语谱图输入预设的卷积神经网络，提取所述目标音频特征。
14.可选地，所述识别模块包括：抽取单元，用于基于预设的抽帧策略从所述目标视频中抽取视频帧图像；第二提取单元，用于将所述视频帧图像作为基于图像分类的人工智能模型的输入，得到所述视频帧特征。
15.可选地，所述分类模块通过以下方式得到每一种音频特征，包括：分类单元，用于选定多个分支模型中没被选过的第一分支模型，所述第一分支模型由携带有标签类型为第一类标签的音频特征样本训练卷积神经网络得到，将所述目标音频特征作为所述第一分支模型的输入，经过卷积神经网络中的全连接层进行特征提取，以从所述目标音频特征中分离出标签类型为所述第一类标签的音频特征。
16.可选地，所述确定模块包括：第一计算单元，用于将所述多种音频特征中没被选过
的第一音频特征和所述视频帧特征输入卷积神经网络，以进行特征融合，得到所述多种音频特征对应的多个第一特征；第二计算单元，用于将所述多个第一特征输入逻辑回归模型，得到多个第一权重；其中，所述第一权重用于表征每个音频特征对影响所述目标视频的视频类别的影响程度；第三计算单元，用于分别对每个第一权重与对应的音频特征进行乘法运算，得到多个第二特征；第四计算单元，用于对所述多个第二特征进行求和运算，得到第三特征；第一标识单元，用于将所述第三特征标识为所述目标视频的视频类别。
17.可选地，所述识别模块还包括：第二识别单元，用于在所述抽取单元基于预设的抽帧策略从所述目标视频中抽取视频帧图像之后，通过基于字符识别的人工智能模型对所述视频帧图像中的文本进行识别，得到目标文本；第三提取单元，用于利用bert模型从所述目标文本中提取用于表征所述目标文本的标签类型的文本特征。
18.可选地，所述确定模块包括：第五计算单元，用于将所述多种音频特征中没被选过的第二音频特征和所述视频帧特征输入卷积神经网络，以进行特征融合，得到所述多种音频特征对应的多个第四特征；第六计算单元，用于将所述多个第四特征输入逻辑回归模型，得到多个第二权重；其中，所述第二权重用于表征每个音频特征对影响所述目标视频的视频类别的影响程度；第七计算单元，用于分别对每个第二权重与对应的音频特征进行乘法运算，得到多个第五特征；第八计算单元，用于对所述多个第五特征进行求和运算，得到第六特征；特征拼接单元，用于通过对所述第六特征、所述文本特征和所述视频帧特征进行特征拼接，生成第七特征；第二标识单元，用于将所述第七特征标识为所述目标视频的视频类别。
19.第三方面，本发明提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。
20.第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。
21.本发明技术方案可以应用于基于计算机视觉的深度学习技术领域。本发明实施例提供的上述技术方案与相关技术相比具有如下有点：
22.本发明实施例提供的视频分类方法，针对待处理的目标视频，通过人工智能模型从目标视频中识别出目标音频特征和视频帧特征；然后利用预训练的特征分类模型对音频特征进行细粒度划分，得到多种标签类型的音频特征，利用分类后的音频特征和视频帧特征确定目标视频的视频类别，提高了视频分类的准确率，解决了相关技术中对视频分类不准确的技术问题。
附图说明
23.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
24.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
25.图1为本发明实施例提供的一种视频分类方法的流程示意图；
26.图2为本发明一具体实施例提供的一种短视频分类示意图；
27.图3为本发明实施例提供的一种视频分类装置的结构示意图；
28.图4为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
29.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
30.第一方面，本发明实施例提供的一种视频分类方法，图1为本发明实施例提供的一种视频分类方法的流程示意图，如图1所示，该方法包括如下步骤：
31.步骤s102，获取待处理的目标视频；
32.可以理解的是，本发明的执行主体可以为视频分类装置，还可以是服务器，具体此处不作限定。本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
33.具体地，服务器从预置的视频数据库中查找待处理的目标视频。
34.步骤s104，通过人工智能模型从目标视频中识别出目标音频特征和视频帧特征；
35.具体实施时，上述步骤s104包括：将目标视频输入基于语音识别的人工智能模型，以对目标视频中包含的音频帧进行识别，得到音频帧序列；绘制音频帧序列对应的语谱图；通过将语谱图输入预设的卷积神经网络，提取目标音频特征。
36.在本实施例中，利用基于语音识别的人工智能模型，比如自助语音识别模型，提取目标视频中的音频文件(即上述音频帧序列)，再根据音频文件可以提取其对应的语谱图，利用卷积神经网络(例如resnet18)可以提取出语谱图对应的音频特征。其中，语谱图是时序相关的傅里叶分析的显示图像，可以反映音频信号频谱随时间改变而变换，语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量；由于语谱图是采用二维平面表达三维信息，所以能量值的大小是通过颜色来表示的，颜色深，表示该点的语音能量越强。
37.在另一个实施例中，上述步骤s104还包括：基于预设的抽帧策略从目标视频中抽取视频帧图像；将视频帧图像作为基于图像分类的人工智能模型的输入，得到视频帧特征。
38.在本实施例的一个可选示例中，将短视频按一定的抽帧策略抽帧以后，用resnet50对视频帧提取特征，逐帧提取特征以后，再根据帧的时序将帧特征拼接在一起，拼接成一个视频帧特征。
39.步骤s106，将目标音频特征作为预训练的特征分类模型的输入，得到多种音频特征；
40.其中，特征分类模型包括多个并行分支模型，每个分支模型由携带有一种标签类
型的音频特征样本训练卷积神经网络得到；
41.在本实施例中，可通过利用卷积神经网络(例如resnet18)提取出语谱图中的目标音频特征，但是短视频中的音频可能包含多种声音，至少可以分为没有声音、有价值的声音(比如主体音)、背景声音三种，从音频中提取语谱图的时候，会将所有声音混合在一起，而实际中只有有价值的那部分声音对我们是有用的，比如人声的主体音，因此，需要对提取到的音频特征进行分类，能够更好的利用音频信号，将音频信号进行细粒度划分，从而提取到对用户有价值的声音。
42.具体实施时，上述步骤s106通过以下方式得到每一种音频特征，包括：选定多个分支模型中没被选过的第一分支模型，第一分支模型由携带有标签类型为第一类标签的音频特征样本训练卷积神经网络得到，将目标音频特征作为第一分支模型的输入，经过卷积神经网络中的全连接层进行特征提取，以从目标音频特征中分离出标签类型为第一类标签的音频特征。
43.在本实施例的一个示例中，可通过从预置的视频数据库中选取携带有标签“没有声音”类的音频特征样本、携带有“主体音”类的音频特征样本及携带有“背景音”类的音频特征样本，三类训练特征样本输入三个卷积神经网络进行训练，得到三个并行的分支模型，从而构建出上述特征分类模型。
44.进一步地，将目标音频特征复制为3份，分别输入到上述构建三个分支模型中，通过卷积神经网络的全连接层进行特征学习，将目标音频特征划分为包括“没有声音”标签类型的音频特征、“主体音”标签类型的音频特征及“背景音”标签类型的音频特征。通过本实施例，将音频信号进行细粒度划分，可以减少音频信号的噪声，使得短视频分类更加准确。
45.步骤s108，根据多种音频特征和视频帧特征确定目标视频的视频类别。
46.本发明实施例提供的视频分类方法，针对待处理的目标视频，通过人工智能模型从目标视频中识别出目标音频特征和视频帧特征；然后利用预训练的特征分类模型对音频特征进行细粒度划分，得到多种标签类型的音频特征，利用分类后的音频特征和视频帧特征确定目标视频的视频类别，提高了视频分类的准确率，解决了相关技术中对视频分类不准确的技术问题。
47.在本案的一个可选的实施例中，上述步骤s108包括：将多种音频特征中没被选过的第一音频特征和视频帧特征输入卷积神经网络，以进行特征融合，得到多种音频特征对应的多个第一特征；将多个第一特征输入逻辑回归模型，得到多个第一权重；其中，第一权重用于表征每个音频特征对影响目标视频的视频类别的影响程度；分别对每个第一权重与对应的音频特征进行乘法运算，得到多个第二特征；对多个第二特征进行求和运算，得到第三特征；将第三特征标识为目标视频的视频类别。
48.举例来说，图2为本发明一具体实施例提供的一种短视频分类示意图，如图2所示，通过利用卷积神经网络(resnet18)从短视频中提取音频帧序列，并生成对应的音频语谱图；接着，通过卷积层提取音频语谱图中的标签特征向量(即上述目标音频特征)，同时，将短视频按一定的抽帧策略抽帧以后，用resnet50对视频帧提取特征，逐帧提取特征以后，再根据帧的时序将帧特征拼接在一起，拼接成一个视频帧特征。
49.进一步地，将标签特征向量输入预训练的特征分类模型，该特征分类模型包括3个并行分支模型，分别利用携带有标签“没有声音”类的音频特征样本、携带有“主体音”类的
音频特征样本及携带有“背景音”类的音频特征样本训练三个卷积神经网络得到，经过全连接层(卷积层-卷积层)之后，输出三种标签类型的音频特征。
50.然后，将每种标签类型的音频特征与视频帧特征相加，可通过卷积神经网络分别对音频特征和视频帧特征进行特征提取，以使音频特征和视频帧特征为相同向量维度，然后经过softmax函数(即上述逻辑回归模型)，将经过softmax函数得到的3个值(即上述第一权重)，与原来对应的3个音频特征进行相乘(得到上述第二特征)再求和(得到上述第三特征)后，将第三特征标识为短视频的视频类别，对最后的第三特征进行分类，从而根据三种音频特征在短视频中的相对权重，计算得到最终视频的视频类别，更加精确地对短视频的分类。
51.在本案的另一个实施例中，在基于预设的抽帧策略从目标视频中抽取视频帧图像之后，还包括：通过基于字符识别的人工智能模型对视频帧图像中的文本进行识别，得到目标文本；利用bert模型从目标文本中提取用于表征目标文本的标签类型的文本特征。
52.进一步地，上述步骤s108包括：将多种音频特征中没被选过的第二音频特征和视频帧特征输入卷积神经网络，以进行特征融合，得到多种音频特征对应的多个第四特征；将多个第四特征输入逻辑回归模型，得到多个第二权重；其中，第二权重用于表征每个音频特征对影响目标视频的视频类别的影响程度；分别对每个第二权重与对应的音频特征进行乘法运算，得到多个第五特征；对多个第五特征进行求和运算，得到第六特征；通过对第六特征、所述文本特征和所述视频帧特征进行特征拼接，生成第七特征；将所述第七特征标识为目标视频的视频类别。
53.在本实施例中，根据视频帧，可通过字符识别模型提取视频的ocr文本(即上述目标文本)，用bert模型提取对应的文本特征；然后，参与图2所示，将每种标签类型的音频特征与视频帧特征相加，可通过卷积神经网络分别对音频特征和视频帧特征进行特征提取，以使音频特征和视频帧特征为相同向量维度，然后经过softmax函数(即上述逻辑回归模型)，将经过softmax函数得到的3个值(即上述第二权重)，与原来对应的3个音频特征进行相乘(得到上述第五特征)再求和(得到上述第六特征)；
54.进一步地，将第六特征、上述文本特征及视频帧特征进行特征拼接，利用拼接后的特征标识短视频，在进行分类。另外，还可通卷积神经网络将第六特征、上述文本特征及视频帧特征进行特征提取，使得三种特征的向量维度相同，然后进行相加，相加得到的特征用于标识短视频。
55.通过上述实施步骤，可以将音频信号进行细粒度划分，减少音频信号中的噪声；实现方式简单，不仅降低了训练成本，还可以实现短视频的准确分类，更好的为互联网平台的用户推荐喜欢的短视频。
56.第二方面，基于上文各个实施例提供的视频分类方法，基于同一发明构思，在本实施例中还提供了一种视频分类装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
57.图3为本发明实施例提供的一种视频分类装置的结构示意图，如图3所示，该装置包括：获取模块30，用于获取待处理的目标视频；识别模块32，连接至上述获取模块30，用于
通过人工智能模型从目标视频中识别出目标音频特征和视频帧特征；分类模块34，连接至上述识别模块32，用于将目标音频特征作为预训练的特征分类模型的输入，得到多种音频特征；其中，特征分类模型包括多个并行分支模型，每个分支模型由携带有一种标签类型的音频特征样本训练卷积神经网络得到；确定模块36，连接至上述分类模块34，用于根据多种音频特征和视频帧特征确定目标视频的视频类别。
58.可选地，识别模块32包括：第一识别单元，用于将目标视频输入基于语音识别的人工智能模型，以对目标视频中包含的音频帧进行识别，得到音频帧序列；绘制单元，用于绘制音频帧序列对应的语谱图；第一提取单元，用于通过将语谱图输入预设的卷积神经网络，提取目标音频特征。
59.可选地，识别模块32包括：抽取单元，用于基于预设的抽帧策略从目标视频中抽取视频帧图像；第二提取单元，用于将视频帧图像作为基于图像分类的人工智能模型的输入，得到视频帧特征。
60.可选地，分类模块34通过以下方式得到每一种音频特征，包括：分类单元，用于选定多个分支模型中没被选过的第一分支模型，第一分支模型由携带有标签类型为第一类标签的音频特征样本训练卷积神经网络得到，将目标音频特征作为第一分支模型的输入，经过卷积神经网络中的全连接层进行特征提取，以从目标音频特征中分离出标签类型为第一类标签的音频特征。
61.可选地，确定模块36包括：第一计算单元，用于将多种音频特征中没被选过的第一音频特征和视频帧特征输入卷积神经网络，以进行特征融合，得到多种音频特征对应的多个第一特征；第二计算单元，用于将多个第一特征输入逻辑回归模型，得到多个第一权重；其中，第一权重用于表征每个音频特征对影响目标视频的视频类别的影响程度；第三计算单元，用于分别对每个第一权重与对应的音频特征进行乘法运算，得到多个第二特征；第四计算单元，用于对多个第二特征进行求和运算，得到第三特征；第一标识单元，用于将第三特征标识为目标视频的视频类别。
62.可选地，识别模块32还包括：第二识别单元，用于在抽取单元基于预设的抽帧策略从目标视频中抽取视频帧图像之后，通过基于字符识别的人工智能模型对视频帧图像中的文本进行识别，得到目标文本；第三提取单元，用于利用bert模型从目标文本中提取用于表征目标文本的标签类型的文本特征。
63.可选地，确定模块36包括：第五计算单元，用于将多个音频特征中没被选过的第二音频特征和视频帧特征输入卷积神经网络，以进行特征融合，得到多种音频特征对应的多个第四特征；第六计算单元，用于将多个第四特征输入逻辑回归模型，得到多个第二权重；其中，第二权重用于表征每个音频特征对影响目标视频的视频类别的影响程度；第七计算单元，用于分别对每个第二权重与对应的音频特征进行乘法运算，得到多个第五特征；第八计算单元，用于对多个第五特征进行求和运算，得到第六特征；特征拼接单元，用于通过对第六特征、文本特征和视频帧特征进行特征拼接，生成第七特征；第二标识单元，用于将第七特征标识为目标视频的视频类别。
64.需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。
65.第三方面，本发明实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面提供的语句翻译方法的步骤。
66.图4为本发明实施例提供的一种计算机设备的结构示意图。如图4所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏等。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可以存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现视频分类方法。该内存储器中也可以储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行视频分类方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
67.本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
68.在一个实施例中，本发明提供的视频分类装置可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该翻译装置的各个程序模块，比如，图3所示的获取模块30、识别模块32、分类模块34、确定模块36。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本发明各个实施例的视频分类方法中的步骤。
69.例如，图4所示的计算机设备可以通过如图3所示的视频分类装置中的获取模块30执行获取待处理的目标视频；计算机设备可以通过识别模块32执行通过人工智能模型从所述目标视频中识别出目标音频特征和视频帧特征；计算机设备可以通过分类模块34执行将所述目标音频特征作为预训练的特征分类模型的输入，得到多种音频特征；其中，所述特征分类模型包括多个并行分支模型，每个分支模型由携带有一种标签类型的音频特征样本训练卷积神经网络得到；计算机设备可以通过确定模块36执行根据所述多种音频特征和所述视频帧特征确定所述目标视频的视频类别。
70.可理解的是，本发明实施例提供的计算机设备，有关内容的解释、举例、有益效果等部分可以参考第一方面中的相应部分，此处不再赘述。
71.第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的视频分类方法的步骤。
72.可理解的是，本发明实施例提供的计算机可读存储介质，有关内容的解释、举例、有益效果等部分可以参考第一方面中的相应部分，此处不再赘述。
73.可理解的是，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram
(rdram)等。
74.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
75.以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵波胡郡郡唐大闰
技术所有人：北京明略昭辉科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。