一种利用关键帧检索涉政视频的方法与流程

文档序号：32204252发布日期：2022-11-16 04:09阅读：138来源：国知局

1.本发明涉及视频检索技术领域，具体为一种利用关键帧检索涉政视频的方法。

背景技术：

2.视频内容审核一直是互联网发展中十分重要的一环，尤其当前互联网环境下每天都会产生海量的数据，大量数据的产出也就避免不了的会存在一些违规内容。涉政违规内容一直以来都是国家相关部门严厉打击的方向，但是由于涉政内容的多样性一直都十分依赖于人工审核，而人工审核的代价及成本也是目前存在的问题。由于近年来人工智能技术的发展，算法的不断优化、落地，让内容审核领域也迎来了智能化的希望，在众多行业方向中已经逐渐开始利用算法审核来代替人工审核。与此同时，视频的涉政内容审核也逐渐开始利用算法进行过滤，但是涉政内容的形式多样，例如违规涉政事件这一个子方向中就会有着若干种事件的分类，而且每个事件的内容都会有着较大的区别，导致很难拟合一个算法来进行过滤。因此利用关键帧进行视频检索就成为了一个新的方向，不过针对视频检索领域，当前的一些研究结果中虽然有着一些应用，但是在涉政内容的检索领域却很少有应用。因此，将视频检索技术应用在涉政内容审核领域也就有了重要的意义。
3.中国专利“cn114201646a”一种视频检索方法和系统，该方法基于resnet深度神经网络提取待检索图片的深层特征向量，将提取到的特征向量数据运用milvus向量搜索引擎从分布式的大数据存储系统中快速地检索出相似向量的结果集，基于该结果集进行分析处理，最终得到与带检索图片内容高度相似的视频文件。运用本发明的方法后，通过向检索系统输入一张含有嫌疑目标的图片，返回包含目标图片相似特征的视频文件。
4.中国专利“cn108133058a”一种视频检索方法及视频装置。获得第一视频集合；计算第一视频集合中的至少两种属性分类的信息熵，每种属性分类包括至少两个子分类；提示用户在信息熵最大的属性分类的子分类中进行选择。
5.中国专利“cn111581437a”一种视频检索方法及装置，用于提高视频表示的质量，提升视频检索的准确性。方法包括：获取目标视频的图像信息、音频信息和文本信息；根据所述目标视频的图像信息，确定所述目标视频的图像特征；根据所述目标视频的音频信息，确定所述目标视频的音频特征；根据所述目标视频的文本信息，确定所述目标视频的文本特征；对所述目标视频的图像特征、音频特征和文本特征进行融合，获得所述目标视频的综合特征；根据所述综合特征，进行所述目标视频与对照视频的相似度检索但现有处理设备存在以下不足：
6.中国专利“cn114201646a”一种视频检索方法和系统，该方法基于resnet深度神经网络提取待检索图片的深层特征向量，将提取到的特征向量数据运用milvus向量搜索引擎从分布式的大数据存储系统中快速地检索出相似向量的结果集，基于该结果集进行分析处理，最终得到与带检索图片内容高度相似的视频文件。运用本发明的方法后，通过向检索系统输入一张含有嫌疑目标的图片，返回包含目标图片相似特征的视频文件。该方法存在的缺陷主要是针对视频没有进行关键帧的筛选，导致的结果就是查找的图像需要和视频的每
一帧进行比对，在视频长度很大的情况下会非常的耗时。
7.中国专利“cn108133058a”一种视频检索方法及视频装置。获得第一视频集合；计算第一视频集合中的至少两种属性分类的信息熵，每种属性分类包括至少两个子分类；提示用户在信息熵最大的属性分类的子分类中进行选择。该方法的缺陷在于太依赖先验标签的构建，且与视频本身内容的关联性不大。
8.中国专利“cn111581437a”一种视频检索方法及装置，用于提高视频表示的质量，提升视频检索的准确性。方法包括：获取目标视频的图像信息、音频信息和文本信息；根据所述目标视频的图像信息，确定所述目标视频的图像特征；根据所述目标视频的音频信息，确定所述目标视频的音频特征；根据所述目标视频的文本信息，确定所述目标视频的文本特征；对所述目标视频的图像特征、音频特征和文本特征进行融合，获得所述目标视频的综合特征；根据所述综合特征，进行所述目标视频与对照视频的相似度检索。该方法的缺陷主要有两点，第一点是用来检索的输入必需是视频，限制了很多场景下的使用；第二点是视频本身的特征依赖于视频、音频、文本三个来源，若输入缺失某种数据源后会导致特征信息包含不足
9.所以我们提出了一种利用关键帧检索涉政视频的方法，以便于解决上述中提出的问题。

技术实现要素：

10.本发明的目的在于提供一种利用关键帧检索涉政视频的方法，对收集的涉政视频数据集进行分类，并分别提取每个类别中视频的关键帧和文字，输入efficientnet网络中提取特征向量并构建faiss库。在使用时，针对输入可以是图像也可以是视频，若为视频，首先进行关键帧提取并且输入efficientnet网络提取特征向量，后将提出的关键帧在不同类别涉政内容faiss库中进行比对，每个库中选取比对结果top1，若top1结果的比对结果高于设定的阈值则将结果标签返回，以解决上述背景技术提出的问题。
11.为实现上述目的，本发明提供如下技术方案：一种利用关键帧检索涉政视频的方法，包括视频输入、图像输入、文字提取、关键帧提取、特征提取、faiss库检索、结果返回，所述关键帧提取包括切帧处理、帧间差数值处理、平滑处理、差分值选取、图像处理，所述关键帧提取此模块采用帧间差法提取关键帧。原理为将两帧图像进行差分，得到图像的平均像素强度可以用来衡量两帧图像的变化大小。基于帧间差分的平均强度，每当视频中的某一帧与前一帧画面内容产生了大的变化，提取作为关键帧。
12.所述关键帧提取包括以下五个步骤操作：
13.s1：将输入视频按顺序做切帧处理，切帧完成后每一帧进行高斯滤波处理；
14.s2：将视频原始的每一帧和前一帧(若输入为第一帧时复制该帧做为前帧进行处理)首先进行绝对值差分计算，对结果进行二值化后矩阵数值相加为其帧间差分值；
15.s3：对上一步差分值列表进行标准化平滑处理；s4：利用滑动窗口方式进行最大差分值选取，并按照其下标获取原始帧数据；s5：将上述提取的关键帧图像大小放缩至224*224并做归一化处理。
16.优选的，所述特征提取包括确认网路结构、确定模型损失函数、处理模块，所述特征提取是将图片输入预训练好的深度学习模型shufflenetv1，抽取中间表示层的特征，得
到特征向量。
17.所述特征提取三个步骤操作方法：
18.s1：确定网络结构。网络结构采用3x3的卷积和maxpool。然后是三个阶段，每个阶段都是重复堆积了几个shufflenet的基本单元。对于每个阶段，第一个基本单元采用的是stride＝2，这样特征图width和height各降低一半，而通道数增加一倍。后面的基本单元都是stride＝1，特征图和通道数都保持不变。对于stride＝2的基本单元，由于原输入会贡献一部分最终输出的通道数，那么在计算1/4时使用未concat之前的通道数。其中groupconvolution中的分组数越多，在相同计算资源下，可以使用更多的通道数，所以越大时，采用了更多的卷积核。当完成三阶段后，采用globalpool将特征图大小降为1x1，最后是输出类别预测值的全连接层，该全连接层维度设置为[1,512]；
[0019]
s2：确定模型损失函数。模型在训练时采用的损失函数为tripletloss(三元组损失)。其输入为一个三元组《anchor,positive,negative》，其中anchor为训练时迭代的样本，positive是随机选取的与anchor相同标签样本，negative则为随机选取与anchor不同标签的样本。该损失函数的目标是不断优化缩小anchor与positive样本之间的距离，同时扩大anchor与negative样本之间的距离，其中特征向量之间的计算采用欧氏距离方式；s3：模型训练时连接输出层，在训练完成后，提取图像特征时只需将图像输入，前向推理至最后一个全连接层。
[0020]
优选的，所述faiss库检索通过涉政视频分类、关键帧提取、特征提取、构建faiss库，所述faiss库构建包含提取分类和faiss处理构建两步骤。
[0021]
所述两步骤操作方法：
[0022]
s1：使用上一步构建的特征提取模块对原始涉政视频关键帧数据的特征向量进行提取并分类；
[0023]
s2：按照不同类别构建faiss库，构建方式采用faiss库中indexidmap方法。
[0024]
优选的，所述faiss库检索中检索模块包括检索设定和检索处理两步骤。
[0025]
所述两步骤操作方法：
[0026]
s1：在结果判定时需事先设定阈值，该阈值的设定利用历史检索结果及经验设定；
[0027]
s2：检索流程为，针对输入进行检索特征向量提取，最后将检索向量与每个类别的faiss库采用indexflatl2方式根据向量之间欧氏距离的值进行检索并返回top1的结果，若top1结果大于阈值则返回该类别标签。
[0028]
优选的，所述文字提取包括文字分类和文字处理，所述文字处理包括输入模块、对比处理、输出模块，所述文字提取步骤操作方法：通过多视频中的文字进行提取，在对文字进行分类，通过与对比库中的数据进行对比处理，可以对其进行处理，并将其输出进行下一步操作。
[0029]
与现有技术相比，本发明的有益效果是：
[0030]
1、在对视频和图片进行检索时，需要对视频进行文字提取和关键帧提取，文字提取会对文字进行分离，然后进行对比处理，关键帧提取采用帧间差法提取关键帧。原理为将两帧图像进行差分，得到图像的平均像素强度可以用来衡量两帧图像的变化大小。基于帧间差分的平均强度，每当视频中的某一帧与前一帧画面内容产生了大的变化，提取作为关键帧。将输入视频按顺序做切帧处理，切帧完成后每一帧进行高斯滤波处理；将视频原始的
每一帧和前一帧(若输入为第一帧时复制该帧做为前帧进行处理)首先进行绝对值差分计算，对结果进行二值化后矩阵数值相加为其帧间差分值；对上一步差分值列表进行标准化平滑处理；利用滑动窗口方式进行最大差分值选取，并按照其下标获取原始帧数据；将上述提取的关键帧图像大小放缩至224*224并做归一化处理。在进行特征提取将图片输入预训练好的深度学习模型shufflenetv1，抽取中间表示层的特征，得到特征向量。确定网络结构。网络结构采用3x3的卷积和maxpool。然后是三个阶段，每个阶段都是重复堆积了几个shufflenet的基本单元。对于每个阶段，第一个基本单元采用的是stride＝2，这样特征图width和height各降低一半，而通道数增加一倍。后面的基本单元都是stride＝1，特征图和通道数都保持不变。对于stride＝2的基本单元，由于原输入会贡献一部分最终输出的通道数，那么在计算1/4时使用未concat之前的通道数。其中groupconvolution中的分组数越多，在相同计算资源下，可以使用更多的通道数，所以越大时，采用了更多的卷积核。当完成三阶段后，采用globalpool将特征图大小降为1x1，最后是输出类别预测值的全连接层，该全连接层维度设置为[1,512]；确定模型损失函数。模型在训练时采用的损失函数为tripletloss(三元组损失)。其输入为一个三元组《anchor,positive,negative》，其中anchor为训练时迭代的样本，positive是随机选取的与anchor相同标签样本，negative则为随机选取与anchor不同标签的样本。该损失函数的目标是不断优化缩小anchor与positive样本之间的距离，同时扩大anchor与negative样本之间的距离，其中特征向量之间的计算采用欧氏距离方式；模型训练时连接输出层，在训练完成后，提取图像特征时只需将图像输入，前向推理至最后一个全连接层，在通过faiss检索库，使用上一步构建的特征提取模块对原始涉政视频关键帧数据的特征向量进行提取并分类；按照不同类别构建faiss库，构建方式采用faiss库中indexidmap方法，最后通过检索模块，在结果判定时需事先设定阈值，该阈值的设定利用历史检索结果及经验设定；检索流程为，针对输入进行检索特征向量提取，最后将检索向量与每个类别的faiss库采用indexflatl2方式根据向量之间欧氏距离的值进行检索并返回top1的结果，若top1结果大于阈值则返回该类别标签。
[0031]
本方法首先对收集的涉政视频数据集进行分类，并分别提取每个类别中视频的关键帧和文字，输入efficientnet网络中提取特征向量并构建faiss库。在使用时，针对输入可以是图像也可以是视频，若为视频，首先进行关键帧提取并且输入efficientnet网络提取特征向量，后将提出的关键帧在不同类别涉政内容faiss库中进行比对，每个库中选取比对结果top1，若top1结果的比对结果高于设定的阈值则将结果标签返回。经过验证与测试后，证明此方法在对真实环境下涉政内容视频的检测具有很高的准确度，可帮助企业减轻人工审核的压力，通过本发明，该方法采用视频关键帧构建检索库，相比全部帧比对的方法，能够提高性能；该方法将涉政视频分类构建库，包含了先验标签，保证其结果准确；该方法在帧图像特征提取时采用shufflenet，该网络结构具有复杂网络的量化调整能力，高维特征提取能力强。
附图说明
[0032]
图1为本发明一种利用关键帧检索涉政视频的方法中流程简图；
[0033]
图2为本发明一种利用关键帧检索涉政视频的方法中部分流程图；
[0034]
图3为本发明一种利用关键帧检索涉政视频的方法中部分流程图；
[0035]
图4为本发明一种利用关键帧检索涉政视频的方法中部分流程图；
[0036]
图5为本发明一种利用关键帧检索涉政视频的方法中部分流程图；
[0037]
图6为本发明一种利用关键帧检索涉政视频的方法中部分流程图。
具体实施方式
[0038]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施条例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0039]
请参阅图1-6所示，本发明提供一种技术方案：一种利用关键帧检索涉政视频的方法，包括视频输入、图像输入、文字提取、关键帧提取、特征提取、faiss库检索、结果返回，所述关键帧提取包括切帧处理、帧间差数值处理、平滑处理、差分值选取、图像处理，所述关键帧提取此模块采用帧间差法提取关键帧。原理为将两帧图像进行差分，得到图像的平均像素强度可以用来衡量两帧图像的变化大小。基于帧间差分的平均强度，每当视频中的某一帧与前一帧画面内容产生了大的变化，提取作为关键帧。
[0040]
所述关键帧提取包括以下五个步骤操作：
[0041]
s1：将输入视频按顺序做切帧处理，切帧完成后每一帧进行高斯滤波处理；
[0042]
s2：将视频原始的每一帧和前一帧(若输入为第一帧时复制该帧做为前帧进行处理)首先进行绝对值差分计算，对结果进行二值化后矩阵数值相加为其帧间差分值；
[0043]
s3：对上一步差分值列表进行标准化平滑处理；s4：利用滑动窗口方式进行最大差分值选取，并按照其下标获取原始帧数据；s5：将上述提取的关键帧图像大小放缩至224*224并做归一化处理。
[0044]
根据图4所示，所述特征提取包括确认网路结构、确定模型损失函数、处理模块，所述特征提取是将图片输入预训练好的深度学习模型shufflenet v1，抽取中间表示层的特征，得到特征向量。
[0045]
所述特征提取三个步骤操作方法：
[0046]
s1：确定网络结构。网络结构采用3x3的卷积和maxpool。然后是三个阶段，每个阶段都是重复堆积了几个shufflenet的基本单元。对于每个阶段，第一个基本单元采用的是stride＝2，这样特征图width和height各降低一半，而通道数增加一倍。后面的基本单元都是stride＝1，特征图和通道数都保持不变。对于stride＝2的基本单元，由于原输入会贡献一部分最终输出的通道数，那么在计算1/4时使用未concat之前的通道数。其中groupconvolution中的分组数越多，在相同计算资源下，可以使用更多的通道数，所以越大时，采用了更多的卷积核。当完成三阶段后，采用globalpool将特征图大小降为1x1，最后是输出类别预测值的全连接层，该全连接层维度设置为[1,512]；
[0047]
s2：确定模型损失函数。模型在训练时采用的损失函数为tripletloss(三元组损失)。其输入为一个三元组《anchor,positive,negative》，其中anchor为训练时迭代的样本，positive是随机选取的与anchor相同标签样本，negative则为随机选取与anchor不同标签的样本。该损失函数的目标是不断优化缩小anchor与positive样本之间的距离，同时扩大anchor与negative样本之间的距离，其中特征向量之间的计算采用欧氏距离方式；s3：
模型训练时连接输出层，在训练完成后，提取图像特征时只需将图像输入，前向推理至最后一个全连接层。
[0048]
根据图1所示，所述faiss库检索通过涉政视频分类、关键帧提取、特征提取、构建faiss库，所述faiss库构建包含提取分类和faiss处理构建两步骤。
[0049]
所述两步骤操作方法：
[0050]
s1：使用上一步构建的特征提取模块对原始涉政视频关键帧数据的特征向量进行提取并分类；
[0051]
s2：按照不同类别构建faiss库，构建方式采用faiss库中indexidmap方法。
[0052]
根据图6所示，所述faiss库检索中检索模块包括检索设定和检索处理两步骤。
[0053]
所述两步骤操作方法：
[0054]
s1：在结果判定时需事先设定阈值，该阈值的设定利用历史检索结果及经验设定；
[0055]
s2：检索流程为，针对输入进行检索特征向量提取，最后将检索向量与每个类别的faiss库采用indexflatl2方式根据向量之间欧氏距离的值进行检索并返回top1的结果，若top1结果大于阈值则返回该类别标签。
[0056]
根据图3所示，所述文字提取包括文字分类和文字处理，所述文字处理包括输入模块、对比处理、输出模块，所述文字提取步骤操作方法：通过多视频中的文字进行提取，在对文字进行分类，通过与对比库中的数据进行对比处理，可以对其进行处理，并将其输出进行下一步操作。
[0057]
其整个机构所达到的效果为：在对视频和图片进行检索时，需要对视频进行文字提取和关键帧提取，文字提取会对文字进行分离，然后进行对比处理，关键帧提取采用帧间差法提取关键帧。原理为将两帧图像进行差分，得到图像的平均像素强度可以用来衡量两帧图像的变化大小。基于帧间差分的平均强度，每当视频中的某一帧与前一帧画面内容产生了大的变化，提取作为关键帧。将输入视频按顺序做切帧处理，切帧完成后每一帧进行高斯滤波处理；将视频原始的每一帧和前一帧(若输入为第一帧时复制该帧做为前帧进行处理)首先进行绝对值差分计算，对结果进行二值化后矩阵数值相加为其帧间差分值；对上一步差分值列表进行标准化平滑处理；利用滑动窗口方式进行最大差分值选取，并按照其下标获取原始帧数据；将上述提取的关键帧图像大小放缩至224*224并做归一化处理。在进行特征提取将图片输入预训练好的深度学习模型shufflenetv1，抽取中间表示层的特征，得到特征向量。确定网络结构。网络结构采用3x3的卷积和maxpool。然后是三个阶段，每个阶段都是重复堆积了几个shufflenet的基本单元。对于每个阶段，第一个基本单元采用的是stride＝2，这样特征图width和height各降低一半，而通道数增加一倍。后面的基本单元都是stride＝1，特征图和通道数都保持不变。对于stride＝2的基本单元，由于原输入会贡献一部分最终输出的通道数，那么在计算1/4时使用未concat之前的通道数。其中groupconvolution中的分组数越多，在相同计算资源下，可以使用更多的通道数，所以越大时，采用了更多的卷积核。当完成三阶段后，采用globalpool将特征图大小降为1x1，最后是输出类别预测值的全连接层，该全连接层维度设置为[1,512]；确定模型损失函数。模型在训练时采用的损失函数为tripletloss(三元组损失)。其输入为一个三元组《anchor,positive,negative》，其中anchor为训练时迭代的样本，positive是随机选取的与anchor相同标签样本，negative则为随机选取与anchor不同标签的样本。该损失函数的目标是不
断优化缩小anchor与positive样本之间的距离，同时扩大anchor与negative样本之间的距离，其中特征向量之间的计算采用欧氏距离方式；模型训练时连接输出层，在训练完成后，提取图像特征时只需将图像输入，前向推理至最后一个全连接层，在通过faiss检索库，使用上一步构建的特征提取模块对原始涉政视频关键帧数据的特征向量进行提取并分类；按照不同类别构建faiss库，构建方式采用faiss库中indexidmap方法，最后通过检索模块，在结果判定时需事先设定阈值，该阈值的设定利用历史检索结果及经验设定；检索流程为，针对输入进行检索特征向量提取，最后将检索向量与每个类别的faiss库采用indexflatl2方式根据向量之间欧氏距离的值进行检索并返回top1的结果，若top1结果大于阈值则返回该类别标签。本方法首先对收集的涉政视频数据集进行分类，并分别提取每个类别中视频的关键帧和文字，输入efficientnet网络中提取特征向量并构建faiss库。在使用时，针对输入可以是图像也可以是视频，若为视频，首先进行关键帧提取并且输入efficient net网络提取特征向量，后将提出的关键帧在不同类别涉政内容faiss库中进行比对，每个库中选取比对结果top1，若top1结果的比对结果高于设定的阈值则将结果标签返回。经过验证与测试后，证明此方法在对真实环境下涉政内容视频的检测具有很高的准确度，可帮助企业减轻人工审核的压力，通过本发明，该方法采用视频关键帧构建检索库，相比全部帧比对的方法，能够提高性能；该方法将涉政视频分类构建库，包含了先验标签，保证其结果准确；该方法在帧图像特征提取时采用shufflenet，该网络结构具有复杂网络的量化调整能力，高维特征提取能力强。
[0058]
尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孟繁中王克斌吴登伟郑丽裴宜春赵晋宁常晏鹏何洪流李怡辰李佳张良党向磊胡燕林孙笑科吴昊暴恒
技术所有人：长安通信科技有限责任公司
我是此专利的发明人

上一篇：一种手持式土壤贯入阻力检测设备的制作方法
上一篇：一种稳定杆盖板和副车架、以及车辆的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。