素材查重方法、装置、设备及存储介质与流程

文档序号:31145844发布日期:2022-08-16 23:37阅读:135来源:国知局
素材查重方法、装置、设备及存储介质与流程

1.本发明涉及图像处理的技术领域,尤其涉及一种素材查重方法、装置、设备及存储介质。


背景技术:

2.目前,在广告供给平台上,广告公司或者设计师通过广告供给平台为各个需求企业提供广告创意服务,广告创意服务中往往通过图像素材或者视频素材呈现给各个需求企业。如果创意公司或设计师提供的图片素材或者视频素材中有大量的复制或抄袭(只变更某一部分颜色或者色调)已经发布过的图像或者视频,则会严重影响广告创意服务的质量。因此,广告供给平台往往需要耗费大量的人工来对上传的图像素材或者视频素材进行人工查重,耗时长,效率低下,查重精度不高。


技术实现要素:

3.本发明提供一种素材查重方法、装置、计算机设备及存储介质,实现了自动判断出相似度高、极大可能为重复的待入库素材,并自动识别出入库素材进行查重,减少人工查重,提高了效率,以及查重精度。
4.一种素材查重方法,包括:
5.获取待入库素材,并对所述待入库素材进行图像分解,得到待查重图像;
6.对所述待查重图像进行旋转缩小处理,得到各旋转方向的待处理图像;
7.针对每一所述待处理图像,将所述待处理图像与素材库中各入库素材进行对比,得到所述待处理图像与各入库素材一一对应的第一相似度;
8.在所述第一相似度大于或者等于预设第一阈值时,对该第一相似度所对应的所述待查重图像和各所述入库素材进行单元比对,得到比对结果;
9.根据所有所述比对结果,确定所述待入库素材的查重结果。
10.一种素材查重装置,包括:
11.获取模块,用于获取待入库素材,并对所述待入库素材进行图像分解,得到待查重图像;
12.处理模块,用于对所述待查重图像进行旋转缩小处理,得到各旋转方向的待处理图像;
13.对比模块,用于针对每一所述待处理图像,将所述待处理图像与素材库中各入库素材进行对比,得到所述待处理图像与各入库素材一一对应的第一相似度;
14.查重模块,用于在所述第一相似度大于或者等于预设第一阈值时,对该第一相似度所对应的所述待查重图像和各所述入库素材进行单元比对,得到比对结果;
15.输出模块,用于根据所有所述比对结果,确定所述待入库素材的查重结果。。
16.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述素材查重方法的步
骤。
17.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述素材查重方法的步骤。
18.本发明提供的素材查重方法、装置、计算机设备及存储介质,通过获取待入库素材,并对所述待入库素材进行图像分解,得到待查重图像;对所述待查重图像进行旋转缩小处理,得到各旋转方向的待处理图像;针对每一所述待处理图像,将所述待处理图像与素材库中各入库素材进行对比,得到所述待处理图像与各入库素材一一对应的第一相似度;在所述第一相似度大于或者等于预设第一阈值时,对该第一相似度所对应的所述待查重图像和各所述入库素材进行单元比对,得到比对结果;根据所有所述比对结果,确定所述待入库素材的查重结果,因此,实现了对入库素材进行图像分解,分解出待查看图像,并经过旋转缩小处理和在素材库中进行对比,对比输出第一相似度,对于大于或者等于预设第一阈值的第一相似度相对应的待查重图像进行单元分割和单元比对,最终输出查重结果,如此,能够通过旋转缩小,自动判断出相似度高、极大可能为重复的待入库素材,再对相似度高的待入库素材所对应的待查重图像进行单元分割和单元比对,输出各比对结果,从而确定查重结果,实现了自动查重,减少人工查重,提高了效率,以及查重精度。
附图说明
19.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
20.图1是本发明一实施例中素材查重方法的应用环境示意图;
21.图2是本发明一实施例中素材查重方法的流程图;
22.图3是本发明一实施例中素材查重方法的步骤s20的流程图;
23.图4是本发明一实施例中素材查重方法的步骤s30的流程图;
24.图5是本发明一实施例中素材查重方法的步骤s40的流程图;
25.图6是本发明一实施例中素材查重方法的步骤s402的流程图;
26.图7是本发明一实施例中素材查重装置的原理框图;
27.图8是本发明一实施例中计算机设备的示意图。
具体实施方式
28.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
29.本发明提供的素材查重方法,可应用在如图1的应用环境中,其中,客户端(计算机设备或终端)通过网络与服务器进行通信。其中,客户端(计算机设备或终端)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
30.在一实施例中,如图2所示,提供一种素材查重方法,其技术方案主要包括以下步骤s10-s50:
31.s10,获取待入库素材,并对所述待入库素材进行图像分解,得到待查重图像。
32.可理解地,所述待入库素材为某一项目需要上传至广告供给平台的图像或者视频,所述图像分解的过程可以为:首先,检测所述待入库素材的格式类型,即识别所述待入库素材的后缀名,根据后缀名确定出待入库素材的格式类型;其次,在检测到所述待入库素材的格式类型为视频时,对所述待入库素材进行分帧处理,所述分帧处理为对输入的视频的每一帧进行分割或者抽取出一帧图像的操作过程,得到一帧帧的待缩放图像,在检测到所述待入库素材的格式类型为图像时,将所述待入库素材记录为待缩放图像;最后,对每个所述待缩放图像进行图像缩放,得到与待缩放图像一一对应的待查重图像,所述图像缩放为将待缩放图像的尺寸缩放至预设尺寸,即运用图像缩放技术,将图像的长边和短边按照长边缩放和短边补零的方式进行缩放至预设尺寸,所述预设尺寸可以根据需求设定,将所有待缩放图像转换成统一尺寸的待查重图像,一个所述待入库素材关联至少一个所述待查重图像,所述待查重图像为需要进行查重的图像。
33.其中,所述图像分解的过程还可以为:首先,对所述待入库素材中为图像格式的图像素材打上项目标识的标签,将打上标签后的所述图像素材记录为所述待查重图像;然后,对所述待入库素材中为视频格式的视频素材进行分帧提取,得到分帧图像,对各所述分帧图像打上所述项目标识的标签,将打上标签后的所述分帧图像记录为所述待查重图像。
34.在一实施例中,所述步骤s10中,所述对所述待入库素材进行图像分解,得到待查重图像,包括:
35.对所述待入库素材中的图像素材打上项目标识的标签,将打上标签后的所述图像素材记录为所述待查重图像;所述待入库素材包括所述项目标识。
36.可理解地,所述待入库素材包括所述项目标识,所述待入库素材中包含有项目标识,所述项目标识体现了该待入库素材所属的项目,所述项目标识具有唯一性,即每个项目赋予一个唯一的项目标识,对所述图像素材打上项目标识的标签的过程为对各个所述待入库素材中的图像素材与该项目标识进行关联,并将关联后的所述图像素材记录为所述待查重图像。
37.其中,所述图像素材是指格式类型为图像格式的文件,比如以bmp(位图)、jpg、jpeg、png、gif等后缀的文件。
38.对所述待入库素材中的视频素材进行分帧提取,得到分帧图像,并对各所述分帧图像打上所述项目标识的标签,将打上标签后的所述分帧图像记录为所述待查重图像。
39.可理解地,所述视频素材是指格式类型为图像格式的文件,比如以avi、mov、rmvb、rm、flv、mp4、3gp等后缀的文件,所述分帧处理为对输入的视频的每一帧进行分割或者抽取出一帧图像的操作过程,从而得到所述分帧图像,对所述分帧图像打上所述项目标识的标签的过程为对各个所述分帧图像与该项目标识进行关联,并将关联后的所述分帧图像记录为所述待查重图像。
40.本发明实现了通过对所述待入库素材中的图像素材打上项目标识的标签,将打上标签后的所述图像素材记录为所述待查重图像;对所述待入库素材中的视频素材进行分帧提取,得到分帧图像,并对各所述分帧图像打上所述项目标识的标签,将打上标签后的所述
分帧图像记录为所述待查重图像,如此,能够自动对待入库素材中的图像素材和/或视频素材打上项目标识的标签,避免后续在查重过程中,将同项目的内容进行比较,从而误判成重复的素材,减少了后续查重的误判率,保证了查重质量。
41.s20,对所述待查重图像进行旋转缩小处理,得到各旋转方向的待处理图像。
42.可理解地,所述旋转缩小处理的过程为:首先,对所述待查重图像进行灰度化处理,得到灰度图像,如此,能够将多通道的图像减少到一个通道的图像,对于只改变某一部分的颜色或者色调的干扰,能够起到很好的识别效果,因为减少至一个通道可以减少像素值或者光强度值之间的差距,不会因为颜色或者色调的不同导致重复的图像未被检测或者识别出来;其次,对所述灰度图像进行图像压缩,得到缩小图像,将图像缩小到一个常见基础尺寸(即全文的图像缩小尺寸),比如宽度大高度一个像素值的9
×
8像素大小,通过图像压缩将图像中的高频和细节部分移除,即效仿原始图像只做微小的变化部分能够模糊化,避免微小的变化部分对查重造成误判的效果,从而获得一个有72个像素值的图像,之所以优选9
×
8像素大小,是由于调整或者拉伸图像并不会改变图像的哈希值,为后续的查重提供基础,所以将所有图像归一化到该大小;对所述缩小图像进行各旋转方向的旋转处理,得到各旋转方向的所述待处理图像,通过旋转处理得到各个旋转方向的待处理图像能够避免通过旋转原始图像得到的效仿图像以干扰查重的结果的情况出现,能够提高素材查重的准确率和正确率。
43.在一实施例中,如图3所示,所述步骤s20中,即所述对所述待查重图像进行旋转缩小处理,得到各旋转方向的待处理图像,包括:
44.s201,对所述待查重图像进行灰度化处理,得到灰度图像。
45.可理解地,所述灰度化处理为对所述待查重图像进行通道分离,分离出红色通道的红色通道图像、绿色通道的绿色通道图像和蓝色通道的蓝色通道图像,所述待查重图像包括三个通道(红色通道、绿色通道和蓝色通道)图像,即每个所述待查重图像中的每个像素点有三个通道分量值,分别为红色分量值、绿色分量值和蓝色分量值,将所述待查重图像中的每个像素点对应的红色(r)分量值、绿色(g)分量值和蓝色(b)分量值通过加权平均法计算得出每个像素点的灰度分量值的处理过程,所述加权平均法中的公式可以根据需求设定,比如加权平均法的公式设定为:
46.y=0.299r+0.587g+0.114b;
47.其中,y为每个像素点的灰度分量值;
48.r为每个像素点中的红色分量值;
49.g为每个像素点中的绿色分量值;
50.b为每个像素点中的蓝色分量值;
51.从而所述待查重图像经过所述灰度处理后得到该待查重图像的所述灰度图像,如此,能够将多通道的图像减少到一个通道的图像,对于只改变某一部分的颜色或者色调的干扰,能够起到很好的识别效果。
52.s202,对所述灰度图像进行图像压缩,得到缩小图像。
53.可理解地,所述图像压缩的过程为对所述灰度图像的尺寸进行压缩,压缩至预设的图像缩小尺寸,所述图像缩小尺寸的尺寸大小可以根据需求设定,所述图像缩小尺寸的尺寸大小小于所述灰度图像的尺寸大小,比如图像缩小尺寸的尺寸大小为9
×
8的大小,将
所述灰度图像中的像素划分成预设个数的块区域,然后对块区域中的像素所对应像素值进行加权求和,得到该块区域的像素值,然后将所有块区域作为一个像素点,将所有块区域的像素点按照其相应位置进行压缩拼接成预设的图像缩小尺寸的图像的过程,将该图像记录为所述缩小图像,所述图像压缩的过程也可以运用双线性插值算法对所述灰度图像进行图像缩小,获得所述缩小图像,所述双线性插值算法为利用了源图中预设的虚拟点四周的四个真实存在的像素值来共同决定目标图中的一个像素值的算法。
54.其中,预设个数,以及所述预设块区域的大小可以根据需求设置,使得所有块区域拼起来能够覆盖所述灰度图像的尺寸大小,如此,通过图像压缩将图像中的高频和细节部分移除,即效仿原始图像只做微小的图形变化部分能够模糊化,避免微小的变化部分对查重造成误判的效果。
55.s203,对所述缩小图像进行各旋转方向的旋转处理,得到各旋转方向的所述待处理图像。
56.可理解地,所述旋转处理为将所述缩小图像按照缩小图像的中心点为基点,每间隔预设角度旋转一周的处理过程,所述预设角度可以根据需求设定,比如3度、5度、10度等等,如此,每旋转一个预设角度就得到一个所述待处理图像,所述待处理图像为需要后续查重的图像,能够避免通过旋转原始图像得到的效仿图像以干扰查重的结果的情况出现,能够提高素材查重的准确率和正确率。
57.本发明实现了通过对所述待查重图像进行灰度化处理,得到灰度图像;对所述灰度图像进行图像压缩,得到缩小图像;对所述缩小图像进行各旋转方向的旋转处理,得到各旋转方向的所述待处理图像,如此,能够解决只改变某一部分的颜色或者色调的干扰、只做微小的图形变化部分的干扰以及旋转图像的干扰,为后续的素材查重提供了数据基础,提高了素材查重的准确率和正确率。
58.s30,针对每一所述待处理图像,将所述待处理图像与素材库中各入库素材进行对比,得到所述待处理图像与各入库素材一一对应的第一相似度。
59.可理解地,所述素材库为存储了所有已入库的入库素材,所述入库素材为已经经过素材查重后具有不重复的图像,所述入库素材包含样本数据,将所述待处理图像与素材库中各入库素材进行对比的过程可以将所述待处理图像和所述入库素材进行二值化处理后,比较两者二值化后的数据,得到比较结果,再根据比较结果统计出第一相似度的过程,也可以为运用相邻像素二值化算法,对所述待处理图像进行相邻二值化处理,得到二值化数据,然后针对每一所述入库素材,将所述二值化数据和所述入库素材中的样本数据进行对比,对比出相同的概率,从而得到与所述入库素材对应的第一相似度的过程。
60.其中,二值化处理过程为图像的二值化,即将图像上的像素点的灰度值按照全局阈值或者局部阈值的方式设置为0或者255,将整个图像呈现出明显的只有黑和白的视觉效果。
61.在一实施例中,如图4所示,所述步骤s30中,即所述将所述待处理图像与素材库中各入库素材进行对比,得到所述待处理图像与各入库素材一一对应的第一相似度,包括:
62.s301,运用相邻像素二值化算法,对所述待处理图像进行相邻二值化处理,得到二值化数据。
63.可理解地,所述相邻像素二值化算法为同一行的两两相邻像素之间的比较结果通
过二值(0和1,或者false和true)进行体现的算法,即将两两相邻像素之间,如果前者小于或者等于后者,则确定比较结果为false或者0,如果前者大于后者,则确定比较结果为true或者1,比如同一行的第一个值254和第二个254之间做比较,得到false,第二个值254和第三个值230做比较,得到true,以此类推,从而每行得到每行的像素值总数少一个的布尔值,如此,能够得到所述待处理图像所呈现的二值(黑和白)效果的图像,即所述二值化数据。
64.s302,针对每一所述入库素材,将所述二值化数据和所述入库素材中的样本数据进行对比,得到与所述入库素材对应的第一相似度。
65.可理解地,所述样本数据为所述入库素材经过相邻像素二值化算法转换后的数据,对于每一所述入库素材,将所述二值化数据和所述入库素材中的样本数据进行一一相应位置的对比,因为所述二值化数据和所述样本数据的尺寸大小一致,所以两者的每个像素位置可以一一对比,统计两者对比相同个数的占比,将该占比记录为该待处理图像与该入库素材之间的所述第一相似度,所述第一相似度体现了待处理图像与入库素材之间的相邻像素之间的相似程度。
66.本发明实现了通过运用相邻像素二值化算法,对所述待处理图像进行相邻二值化处理,得到二值化数据;针对每一所述入库素材,将所述二值化数据和所述入库素材中的样本数据进行对比,得到与所述入库素材对应的第一相似度,如此,能够通过相邻像素二值化算法,自动比较出待处理图像与入库素材之间的相似程度,提高了待处理图像与入库素材之间的相似度输出的准确率和精准度。
67.在一实施例中,所述步骤s302中,即所述将所述二值化数据和所述入库素材中的样本数据进行对比,得到与所述入库素材对应的第一相似度,包括:
68.将所述二值化数据和所述入库素材中的样本数据进行汉明距离对比,得到第二相似度。
69.可理解地,所述汉明距离对比是指两个等长字符串之间的汉明距离,是两个字符串对应位置的不同字符的个数,将所述二值化数据和所述入库素材中的样本数据进行汉明距离对比就是将二值化数据中每行构成的字符串变换成入库素材相同行的另一字符串所需要替换的字符个数的占比,然后汇总所有行的占比的均值,得到所述第二相似度,所述第二相似度体现了所述二值化数据和所述入库素材中的样本数据之间汉明距离的相似度。
70.在所述第二相似度大于或者等于预设第二阈值时,判断所述二值化数据所对应的所述待查重图像的项目标签是否与所述样本数据的样本标签在同一项目系列中。
71.可理解地,在所述第二相似度大于或者等于预设第二阈值时,将所述二值化数据所对应的所述待查重图像的项目标签与所述样本数据所关联的样本标签进行项目系列的判断,判断是否在同一项目系列中,所述样本标签体现了样本数据所隶属的项目标签,如果是同一项目系列,说明两者图像不存在重复的可能,查重结果出现重复的情况可忽略。
72.其中,所述预设第二阈值可以根据需求设定,所述预设第二阈值可以与预设第一阈值相同,亦可以不相同。
73.若所述二值化数据所对应的所述项目标签与所述样本数据的样本标签在同一项目系列中,将所述二值化数据与所述样本数据之间的第二相似度作为所述第一相似度,并清零处理。
74.若所述二值化数据所对应的所述项目标签与所述样本数据的样本标签不在同一
项目系列中,将所述二值化数据与所述样本数据之间的第二相似度作为所述第一相似度。
75.如此,能够通过汉明距离比对出第二相似度,并在所述第二相似度大于或者等于预设第二阈值时,判断是否在同一项目系列,以解决同一项目导致的素材查重误判的情况出现。
76.在一实施例中,在所述第二相似度小于预设第二阈值时,将所述二值化数据与所述样本数据之间的第二相似度作为所述第一相似度。
77.s40,在所述第一相似度大于或者等于预设第一阈值时,对该第一相似度所对应的所述待查重图像和各所述入库素材进行单元比对,得到比对结果。
78.可理解地,所述预设第一阈值可以根据需求设定,比如预设第一阈值为85%、95%等等,如果所述第一相似度大于或者等于预设第一阈值,对该第一相似度所对应的所述待查重图像和各所述入库素材进行单元比对,所述单元比对的过程为:首先,对所述待查重图像进行单元分割,分割出至少一个待查重单元图像,同时对所述入库素材中的样本图像进行单元分割,分割出至少一个入库单元图像;其次,通过训练完成的相似度检测模型对每个所述待查重单元图像与每个所述入库单元图像进行相似度检测,输出相应的所述待查重图像与各所述入库单元图像之间的相似度结果;最后,根据所述待查重图像与各所述入库单元图像之间的所有相似度结果,确定出所述比对结果的过程,所述比对结果体现了所述待查重图像与所述入库素材之间是否为抄袭的、十分相似或者几乎复制的结果。
79.在一实施例中,如图5所示,所述步骤s40中,即所述对该第一相似度所对应的所述待查重图像和各所述入库素材进行单元比对,得到比对结果,包括:
80.s401,运用边缘检测算法,对所述待查重图像进行单元分割,得到至少一个待查重单元图像,同时对所述入库素材中的样本图像进行单元分割,得到至少一个入库单元图像。
81.可理解地,所述单元分割的过程为:首先,通过训练完成的目标检测模型对输入的图像中的目标实体进行检测,检测出输入的图像中的各个目标实体,并框出各个目标实体的目标区域;其次,运用边缘检测算法,对各个目标实体的目标区域进行目标实体边缘的检测,识别出目标实体的边缘;最后,按照目标实体的边缘进行分割,分割出去除背景的仅含目标实体的图像的过程,如此,经过所述单元分割的所述待查重图像可以分割出多个所述待查重单元图像,所述样本图像为所述入库素材中的图像或者视频中的每帧图像,经过所述单元分割的所述样本图像可以分割出多个所述入库单元图像。
82.其中,所述目标检测模型为训练完成的用于识别输入图像中的目标实体区域的神经网络模型,所述目标检测模型的网络结构可以根据需求设定,比如目标检测模型的网络结构可以为r-cnn、fast r-cnn、yolo、ssd、nanodet等等,所述边缘检测算法优选为canny边缘检测算法,是指先用高斯滤波器对图像进行平滑处理;然后用一阶偏导的有限差分来计算图像中的梯度幅值和方向,再对梯度幅值进行非极大值抑制,最后用双阈值算法检测和连接边缘的算法。
83.s402,通过相似度检测模型对所述待查重单元图像与各所述入库单元图像进行相似度检测,得到所述待查重单元图像与各所述入库单元图像一一对应的相似度结果。
84.可理解地,所述相似度检测模型用于检测输入的图像与所述入库单元图像之间的相似程度的模型,所述相似度检测包括抄袭相似度检测和哈希比对,所述抄袭相似度检测为通过复制-移动检测算法对输入的两个图像进行关键点检测,并通过两个图像中的关键
点进行相似度的计算,判断是否存在抄袭的检测方法,所述哈希比对为对输入的两个图像进行哈希转换,分别得到两个图像的哈希值,再比较两个图像的哈希值的过程,所述相似度检测还包括对所述抄袭相似度和所述哈希相似度加权求和,得到所述相似度结果的过程,所述相似度结果体现了所述待查重单元图像与所述入库单元图像之间的相似程度的结果。
85.在一实施例中,如图6所示,所述步骤s402中,所述通过相似度检测模型对所述待查重单元图像与各所述入库单元图像进行相似度检测,得到所述待查重单元图像与各所述入库单元图像一一对应的相似度结果,包括:
86.s4021,通过相似度检测模型将所述待查重单元图像与所述入库单元图像进行抄袭相似度检测,得到抄袭相似度。
87.可理解地,所述抄袭相似度检测为通过复制-移动检测算法对输入的两个图像进行关键点检测,并通过两个图像中的关键点进行相似度的计算,判断是否存在抄袭的检测方法,所述复制-移动检测算法为使用低阈值si ft关键点检测算法计算关键点,找到欧氏空间中图片上的所有关键点中两两邻近的点,对关键点进行平面聚类,进行关键点的相似度计算获得抄袭相似度的算法,所述抄袭相似度体现为所述待查重单元图像与所述入库单元图像之间的是否抄袭的相似程度。
88.s4022,通过相似度检测模型将所述待查重单元图像与所述入库单元图像进行哈希比对,得到哈希相似度。
89.可理解地,运用差异哈希算法(也称为dhash算法),对所述待查重单元图像与所述入库单元图像进行哈希转换,分别计算所述待查重单元图像的哈希值以及所述入库单元图像的哈希值,比对所述待查重单元图像的哈希值以及所述入库单元图像的哈希值之间的相似度,即两个哈希值的重合程度,从而得到所述哈希相似度,所述哈希相似度体现了所述待查重单元图像以及所述入库单元图像在哈希维度上的相似程度。
90.s4023,对所述抄袭相似度和所述哈希相似度加权求和,得到所述相似度结果。
91.可理解地,对所述抄袭相似度和所述哈希相似度增加相应的权重,抄袭相似度的权重和哈希相似度的权重之和为一,将所述抄袭相似度和抄袭相似度的权重相乘后与所述哈希相似度和哈希相似度的权重的乘积结果进行求和,得到所述待查重单元图像与所述入库单元图像之间的所述相似度结果,即与所述待查重单元图像对应的所述相似度结果。
92.本发明实现了通过相似度检测模型将所述待查重单元图像与所述入库单元图像进行抄袭相似度检测,得到抄袭相似度;通过相似度检测模型将所述待查重单元图像与所述入库单元图像进行哈希比对,得到哈希相似度;对所述抄袭相似度和所述哈希相似度加权求和,得到所述相似度结果,如此,实现了在抄袭维度和哈希维度综合衡量待查重单元图像与入库单元图像之间的相似程度,科学地、客观地衡量出两者的相似性,提高了待查重单元图像与入库单元图像之间的相似度结果输出的准确性和可靠性。
93.s403,基于各所述相似度结果输出与所述待查重图像对应的所述比对结果。
94.可理解地,根据与所述待查重图像分割出的所有所述待查重单元图像相对应的所述相似度结果,确定出所述待查重图像与所述入库素材之间的比对结果,其中,确定过程可以为取均值方式或者获取排序的前n个相似度的均值等等。
95.本发明实现了通过运用边缘检测算法,对所述待查重图像进行单元分割,得到至少一个待查重单元图像,同时对所述入库素材中的样本图像进行单元分割,得到至少一个
入库单元图像;通过相似度检测模型对所述待查重单元图像与各所述入库单元图像进行相似度检测,得到所述待查重单元图像与各所述入库单元图像一一对应的相似度结果;基于各所述相似度结果输出与所述待查重图像对应的所述比对结果,如此,能够通过对待查重单元图像中的各个单元进行比对,自动比对出所述待查重图像与所述入库素材之间的比对结果,无需人工拆解出各个单元的比对,以及人工视觉审核,减少了人工成本,提高了比对效率,提升了比对的可靠性。
96.s50,根据所有所述比对结果,确定所述待入库素材的查重结果。
97.可理解地,对所有所述比对结果进行排序,获取排序中最大的比对结果,判断该最大的比对结果是否大于或者等于预设的重合阈值,所述重合阈值可以根据需求设定,比如重合阈值为95%,如果该最大的比对结果是否大于或者等于预设的重合阈值,确定所述待入库素材的重合结果为重复,表明所述待入库素材存在抄袭历史素材或者与历史素材十分近似的情况,如果该最大的比对结果是小于预设的重合阈值,确定所述待入库素材的重合结果为不重复,表明所述待入库素材不存在抄袭历史素材或者与历史素材十分近似的情况,所述查重结果体现了所述待入库素材是否存在抄袭历史素材或者与历史素材十分近似的情况。
98.本发明实现了通过获取待入库素材,并对所述待入库素材进行图像分解,得到待查重图像;对所述待查重图像进行旋转缩小处理,得到各旋转方向的待处理图像;针对每一所述待处理图像,将所述待处理图像与素材库中各入库素材进行对比,得到所述待处理图像与各入库素材一一对应的第一相似度;在所述第一相似度大于或者等于预设第一阈值时,对该第一相似度所对应的所述待查重图像和各所述入库素材进行单元比对,得到比对结果;根据所有所述比对结果,确定所述待入库素材的查重结果,因此,实现了对入库素材进行图像分解,分解出待查看图像,并经过旋转缩小处理和在素材库中进行对比,对比输出第一相似度,对于大于或者等于预设第一阈值的第一相似度相对应的待查重图像进行单元分割和单元比对,最终输出查重结果,如此,能够通过旋转缩小,自动判断出相似度高、极大可能为重复的待入库素材,再对相似度高的待入库素材所对应的待查重图像进行单元分割和单元比对,输出各比对结果,从而确定查重结果,实现了自动查重,减少人工查重,提高了效率,以及查重精度。
99.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
100.在一实施例中,提供一种素材查重装置,该素材查重装置与上述实施例中素材查重方法一一对应。如图7所示,该素材查重装置包括获取模块11、处理模块12、对比模块13、查重模块14和输出模块15。各功能模块详细说明如下:
101.获取模块11,用于获取待入库素材,并对所述待入库素材进行图像分解,得到待查重图像;
102.处理模块12,用于对所述待查重图像进行旋转缩小处理,得到各旋转方向的待处理图像;
103.对比模块13,用于针对每一所述待处理图像,将所述待处理图像与素材库中各入库素材进行对比,得到所述待处理图像与各入库素材一一对应的第一相似度;
104.查重模块14,用于在所述第一相似度大于或者等于预设第一阈值时,对该第一相似度所对应的所述待查重图像和各所述入库素材进行单元比对,得到比对结果;
105.输出模块15,用于根据所有所述比对结果,确定所述待入库素材的查重结果。
106.关于素材查重装置的具体限定可以参见上文中对于素材查重方法的限定,在此不再赘述。上述素材查重装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
107.在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端或者服务端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种素材查重方法。
108.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中素材查重方法。
109.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中素材查重方法。
110.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
111.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
112.以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1