本文发明涉及图像处理及视频处理领域,特别涉及一种视频指纹提取和检索方法、一种图像特征指纹提取模型的训练方法、电子设备以及存储介质。
背景技术:
1、由于互联网的视频分享服务的普及,网络上的视频数量达到了前所未有的规模。这些视频通常具有大量的近似重复内容,对于视频分享平台来说,追踪、过滤这些近似重复视频是一个重要的需求。与此同时,互联网上的大量视频实质上是窃取了他人视频并进行篡改变换,这也使得视频版权的保护成为一个焦点问题。近似重复视频检索作为视频过滤、追踪、版权保护等应用中不可或缺的组成部分,越来越受到研究关注,而提取能够对各种篡改攻击鲁棒的视频特征作为视频检关键的一环,也是当前亟需攻克的难题。
2、然而,针对近似重复视频的检索,现有技术中存在存储成本高、检索效率低、检索准确度低等问题。
技术实现思路
1、鉴于上述问题,本发明提供了一种视频指纹提取和检索方法、一种图像特征指纹提取模型的训练方法、电子设备以及存储介质,以期至少能够解决上述问题之一。
2、根据本发明的第一个方面,提供了一种视频指纹提取和检索方法,其特征在于,包括:
3、利用训练完成的图像特征指纹提取模型提取图像训练集的特征向量,得到图像特征向量集合,并利用k均值聚类算法处理图像特征集合,将所得到的具有k个簇中心的图像特征集合作为训练码本;
4、利用训练完成的图像特征指纹提取模型对待检索的视频底库中的视频先后进行特征提取操作、量化操作、聚合操作、二值化操作以及倒排索引操作,得到待检索的视频底库的图像特征集合;
5、对查询视频进行预处理,并利用预处理所得到的查询视频的图像特征和待检索的视频底库的图像特征集合,计算在训练码本的每个簇中心下查询视频与待检索的视频底库中的视频的相似度;
6、将在训练码本的每个簇中心下所得到的相似度进行相加作为查询视频与待检索的视频底库中的视频的整体相似度,并基于整体相似度,得到查询视频在待检索的视频底库中的检索结果。
7、根据本发明的实施例,上述利用训练完成的图像特征指纹提取模型对待检索的视频底库中的视频先后进行特征提取操作、量化操作、聚合操作、二值化操作以及倒排索引操作,得到待检索的视频底库的图像特征集合包括:
8、对待检索的视频底库中的视频进行均匀抽帧,并基于抽帧结果,利用训练完成的图像特征指纹提取模型提取每一帧的特征向量,得到帧级特征向量;
9、通过将帧级特征向量根据预定义的分配标准分配到训练码本的k个簇中心完成量化操作,得到由帧级特征向量构成的k个特征向量簇;
10、通过将每个特征向量簇中的向量进行相加运算后作l2归一化处理完成聚合操作,并将聚合后的特征向量减去与聚合后的特征向量相对应的簇中心的值,得到处理后的聚合特征向量;
11、通过符号函数对处理后的聚合特征向量进行二值化操作,得到二值化后的聚合特征向量;
12、将训练码本的簇中心作为索引,将每个簇中心所属的二值化后的聚合特征向量进行量化,并基于量化结果作为倒排索引,得到待检索的视频底库的图像特征集合。
13、根据本发明的实施例,上述对查询视频进行预处理,并利用预处理所得到的查询视频的图像特征和待检索的视频底库的图像特征集合,计算在训练码本的每个簇中心下查询视频与待检索的视频底库中的视频的相似度包括:
14、对查询视频进行均匀抽帧操作、帧级特征提取操作、量化操作、聚合操作、二值化操作,得到查询向量的图像特征;
15、从待检索的视频底库的图像特征集合获取参与相似度计算的当前待检索视频的图像特征;
16、利用查询视频的特性特征和当前待检索视频的图像特征,计算在训练码本的每个簇中心下查询视频与当前待检索视频的相似度。
17、根据本发明的实施例,上述将在训练码本的每个簇中心下所得到的相似度进行相加作为查询视频与待检索的视频底库中的视频的整体相似度,并基于整体相似度,得到查询视频在待检索的视频底库中的检索结果包括:
18、将在训练码本的每个簇中心下所得到的相似度进行相加,得到查询视频与待检索的视频底库中的每个视频整体相似度;
19、将待检索的视频底库中与待查询视频整体相似度最大的n个视频作为查询视频的检索结果。
20、根据本发明的第二个方面,提供了一种图像特征指纹提取模型的训练方法,应用于视频指纹提取和检索方法,其特征在于,包括:
21、利用预定义的自动化工具对开源的图像数据进行篡改变换,得到具有自监督标注信息的训练集;
22、基于孪生神经网络架构构建图像特征指纹提取模型并进行模型参数初始化;
23、利用图像特征指纹提前模型处理训练集,得到图像特征指纹提取结果;
24、利用预定义的损失函数处理图像特征指纹提取结果和与图像特征指纹提取结果相对应的标注信息,得到损失值;
25、根据损失值,对图像特征指纹提取模型进行参数更新和优化,得到参数优化后的图像特征指纹提取模型;
26、迭代进行特征提取操作、损失值计算操作以及参数和优化操作,直到满足预设训练条件,得到训练完成的图像特征指纹提取模型。
27、根据本发明的实施例,上述利用预定义的自动化工具对开源的图像数据进行篡改变换,得到具有自监督标注信息的训练集包括:
28、通过预定义的自动化工具对开源的图像数据进行空间变换操作和/或色彩变换操作和/或像素级变换操作以完成对开源的图像数据的篡改变换操作,得到具有自监督标注信息的训练集;
29、其中,在训练集中的图像属于由开源的图像数据中的同一张图像派生出来的图像的情况下,自监督标注信息为第一预设值;
30、其中,在训练集中的图像不属于由开源的图像数据中的同一张图像派生出来的图像的情况下,自监督标注信息为第二预设值。
31、根据本发明的实施例,上述预定义的损失函数包括对比损失函数。
32、根据本发明的实施例,上述图像特征指纹提取模型包括互相共享参数的多个主干网络,其中,主干网络基于efficientnet v2进行构建。
33、根据本发明的第三个方面,提供了一种电子设备,包括:
34、一个或多个处理器;
35、存储装置,用于存储一个或多个程序,
36、其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行视频指纹提取和检索方法和图像特征指纹提取模型的训练方法。
37、根据本发明的第四个方面,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行视频指纹提取和检索方法和图像特征指纹提取模型的训练方法。
38、本发明提供的视频指纹提取和检索方法,能够提取视频的对多种篡改攻击鲁棒的特征信息构成视频指纹,并根据查询视频的指纹在海量视频的特征库中快速检索近似重复的视频;本发明提供的视频指纹提取和检索方法应用于提取视频的帧级特征,并通过对视频中语义相近的帧级特征进行聚合,显著了减小了每个视频的帧级特征数量;通过对聚合特征二值化,在性能几乎没有损失的情况下显著减小了视频指纹存储空间开销,同时利用倒排索引结构进一步减少检索的时间开销。