伪造样本检测模型的训练方法、伪造样本识别方法、装置、介质和设备与流程

文档序号:25908015发布日期:2021-07-16 21:24阅读:265来源:国知局
伪造样本检测模型的训练方法、伪造样本识别方法、装置、介质和设备与流程

1.本发明的实施方式涉及伪造样本检测技术领域,更具体地,本发明的实施方式涉及一种伪造样本检测模型的训练方法、伪造样本识别方法、装置、介质和设备。


背景技术:

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.伪造样本检测是一项十分重要且具有挑战性的任务,这项任务旨在区分待识别的样本是否为伪造技术恶意篡改形成的。随着各种新型伪造技术的不断涌现和迭代,现有的大多数伪造样本检测方法通常由于过分依赖检测模型训练过程中使用过的伪造样本,因此无法很好地检测出通过所述检测模型未见过的伪造技术制造的伪造样本。


技术实现要素:

4.在本上下文中,本发明的实施方式期望提供一种伪造样本检测模型的训练方法、伪造样本识别方法、装置、介质和设备。
5.在本发明实施方式的第一方面中,提供了一种伪造样本检测模型的训练方法,包括:
6.获取真实样本集和伪造样本集,所述伪造样本集中包括多种已知伪造类型的伪造样本;
7.重复执行以下步骤,直到达到预设条件:
8.根据所述真实样本集,确定训练真实样本集和测试真实样本集;
9.根据所述伪造样本集,确定元训练伪造样本集和元测试伪造样本集,所述元训练伪造样本集中任一伪造样本的伪造类型与所述元测试伪造样本集中任一伪造样本的伪造类型不同;
10.采用所述训练真实样本集、元训练伪造样本集对所述伪造样本检测模型进行元训练,得到内层优化后的伪造样本检测模型;
11.采用所述训练真实样本集、元测试伪造样本集对内层优化后的伪造样本检测模型进行元测试,得到外层优化后的伪造样本检测模型。
12.在本实施方式的一个实施例中,按照第一预设方式从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集,并将所述伪造样本集中剩余的多个伪造样本作为元训练伪造样本集。
13.在本实施方式的一个实施例中,按照第一预设方式从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集,包括:
14.计算一服从预设均匀分布的采样概率;
15.按照所述采样概率从所述伪造样本集中采样多个伪造样本作为元测试伪造样本
集。
16.在本实施方式的一个实施例中,按照第一预设方式从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集,包括:
17.选择所述伪造样本检测模型更不熟悉的一个或多个伪造类型的多个伪造样本作为元测试伪造样本集。
18.在本实施方式的一个实施例中,选择所述伪造样本检测模型更不熟悉的一个或多个伪造类型的多个伪造样本作为元测试伪造样本集,包括:
19.计算各个伪造类型的伪造样本与真实样本的特征在再生核希尔伯特空间的范数距离;
20.确定距离较大的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
21.在本实施方式的一个实施例中,选择所述伪造样本检测模型更不熟悉的一个或多个伪造类型的多个伪造样本作为元测试伪造样本集,包括:
22.计算各个伪造类型的伪造样本与真实样本的特征的数学期望的范数距离;
23.确定距离较大的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
24.在本实施方式的一个实施例中,确定距离较大的一个或多个伪造类型的多个伪造样本为元测试伪造样本集,包括:
25.确定距离大于预设阈值的一个或多个伪造类型的多个伪造样本为元测试伪造样本集;或者
26.按照距离大小,确定排序在前的预设数量或预设比例的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
27.在本实施方式的一个实施例中,构建符合采样策略的采样方式以便采样形成元测试伪造样本集,以所述采样方式计算的伪造样本集中各个伪造类型的伪造样本的采样概率之和为1。
28.在本实施方式的一个实施例中,根据所述伪造样本集,确定元训练伪造样本集和元测试伪造样本集,包括:
29.按照第二预设方式从所述伪造样本集确定伪造样本子集,所述伪造样本子集中的伪造样本数量与所述训练真实样本集中的真实样本数量一致;
30.按照第一预设方式将所述伪造样本子集划分为元训练伪造样本集和元测试伪造样本集。
31.在本实施方式的一个实施例中,所述元训练伪造样本集和元测试伪造样本集均包括多种伪造类型的多个伪造样本。
32.在本实施方式的一个实施例中,预设可微分的内层优化目标,以便在进行元测试时,使用梯度方法进行外层优化。
33.在本发明实施方式的第二方面中,提供了一种伪造样本识别方法,包括:
34.获取待识别样本;
35.采用如第一方面中任一项所述伪造样本检测模型的训练方法得到的伪造样本检测模型,对所述待识别样本进行检测;
36.获取所述伪造样本检测模型对所述待识别样本的检测结果。
37.在本发明实施方式的第三方面中,提供了一种伪造样本检测模型的训练装置,包
括:
38.样本获取模块,被配置为获取真实样本集和伪造样本集,所述伪造样本集中包括多种已知伪造类型的伪造样本;
39.迭代执行模块,被配置为使得以下子模块重复执行,直到达到预设条件:
40.真实样本采样子模块,被配置为根据所述真实样本集,确定训练真实样本集和测试真实样本集;
41.伪造样本采样子模块,被配置为根据所述伪造样本集,确定元训练伪造样本集和元测试伪造样本集,所述元训练伪造样本集中任一伪造样本的伪造类型与所述元测试伪造样本集中任一伪造样本的伪造类型不同;
42.元训练子模块,被配置为采用所述训练真实样本集、元训练伪造样本集对所述伪造样本检测模型进行元训练,得到内层优化后的伪造样本检测模型;
43.元测试子模块,被配置为采用所述训练真实样本集、元测试伪造样本集对内层优化后的伪造样本检测模型进行元测试,得到外层优化后的伪造样本检测模型。
44.在本实施方式的一个实施例中,所述伪造样本采样子模块,还被配置为按照第一预设方式从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集,并将所述伪造样本集中剩余的多个伪造样本作为元训练伪造样本集。
45.在本实施方式的一个实施例中,所述伪造样本采样子模块包括:
46.计算单元,被配置为计算一服从预设均匀分布的采样概率;
47.第一元测试集确定单元,被配置为按照所述采样概率从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集;
48.第一元训练集确定单元,被配置为将所述伪造样本集中剩余的多个伪造样本作为元训练伪造样本集。
49.在本实施方式的一个实施例中,所述伪造样本采样子模块包括:
50.第二元测试集确定单元,被配置为选择所述伪造样本检测模型更不熟悉的一个或多个伪造类型的多个伪造样本作为元测试伪造样本集;
51.第二元训练集确定单元,被配置为将所述伪造样本集中剩余的多个伪造样本作为元训练伪造样本集。
52.在本实施方式的一个实施例中,所述第二元测试集确定单元包括:
53.计算子单元,被配置为计算各个伪造类型的伪造样本与真实样本的特征在再生核希尔伯特空间的范数距离;
54.确定子单元,被配置为确定距离较大的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
55.在本实施方式的一个实施例中,所述计算子单元,还被配置为计算各个伪造类型的伪造样本与真实样本的特征的数学期望的范数距离。
56.在本实施方式的一个实施例中,所述确定子单元,还被配置为:
57.确定距离大于预设阈值的一个或多个伪造类型的多个伪造样本为元测试伪造样本集;或者
58.按照距离大小,确定排序在前的预设数量或预设比例的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
59.在本实施方式的一个实施例中,所述第二元测试集确定单元还被配置为构建符合采样策略的采样方式以便采样形成元测试伪造样本集,以所述采样方式计算的伪造样本集中各个伪造类型的伪造样本的采样概率之和为1。
60.在本实施方式的一个实施例中,所述伪造样本采样子模块还被配置为:
61.按照第二预设方式从所述伪造样本集确定伪造样本子集,所述伪造样本子集中的伪造样本数量与所述训练真实样本集中的真实样本数量一致;以及
62.按照第一预设方式将所述伪造样本子集划分为元训练伪造样本集和元测试伪造样本集。
63.在本实施方式的一个实施例中,所述元训练伪造样本集和元测试伪造样本集均包括多种伪造类型的多个伪造样本。
64.在本实施方式的一个实施例中,所述元测试子模块中预设可微分的内层优化目标,以便在进行元测试时,使用梯度方法进行外层优化。
65.在本发明实施方式的第四方面中,提供了一种伪造样本识别装置,包括:
66.待识别样本获取模块,还被配置为获取待识别样本;
67.采用如第三方面中任一项所述伪造样本检测模型的训练装置得到的伪造样本检测模型,对所述待识别样本进行检测;
68.获取所述伪造样本检测模型对所述待识别样本的检测结果。
69.在本发明实施方式的第五方面中,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序在被处理器执行时能够实现上述第一方面或第二方面中任一项所述的方法。
70.在本发明实施方式的第六方面中,提供了一种计算设备,所述计算设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述第一方面或第二方面中任一项所述的方法。
71.据本发明实施方式的伪造样本检测模型的训练方法、伪造样本识别方法、装置、介质和设备,在模型训练阶段将伪造样本分为元训练数据和元测试数据,用来模拟从已知域到未知域的学习过程,从而训练出一种更具通用性的检测模型。因此,本发明的方法可以直接部署在含有未知伪造类型的场景中,而无需更新模型。
附图说明
72.通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
73.图1为本发明一实施例提供的一种伪造样本检测模型的训练方法的应用场景;
74.图2为本发明一实施例提供的伪造样本检测模型的训练方法的流程示意图;
75.图3为本发明一实施例提供的一种伪造样本检测模型的训练到检测的整体过程示意图;
76.图4为本发明一实施例提供的伪造样本检测方法(a)和(b)以及基线方法(c)和(d)的可视化特征效果;
77.图5为本发明一实施例提供的伪造样本检测模型的训练方法的结构示意图;
78.图6示意性地示出了本发明实施例的一种存储介质的结构示意图;
79.图7示意性地示出了本发明实施例的一种计算设备的结构示意图。
80.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
81.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的公开范围完整地传达给本领域的技术人员。
82.本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
83.根据本发明的实施方式,提出了一种伪造样本检测模型的训练方法、伪造样本识别方法、装置、介质和设备。
84.需要说明的是,本发明中所指的伪造样本大多基于深度伪造(简称“深伪”)技术制造,即利用深度学习算法,实现文本、音频、图像和/或视频等类型的样本的模拟和伪造,但本发明的检测方法适用的场景也不局限于深度伪造技术制造的已知或未知伪造类型的伪造样本,本发明的实质为模拟从已知域到未知域的学习过程,即学习如何学习区分真伪样本,从而即使面对之前从未遇到的伪造样本,也能有效识别出其为伪造。
85.本发明中出现的技术术语:
86.training data表示训练数据;
87.self

guided importance sampling表示自引导的重要性采样;
88.importance factor表示重要性因子;
89.model

agnostic meta learning表示模型

无关的元学习;
90.test data表示测试数据;
91.target domain表示目标域,即未知伪造类型的伪造样本;
92.source domains表示源域,即已知伪造类型的伪造样本;
93.real videos表示真实视频;
94.fake videos表示伪造视频;
95.此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
96.下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
97.发明概述
98.发明人发现:
99.现有的深伪检测主要有两大类,包括基于深度神经网络的二分类算法和替换痕迹边缘检测算法。其中,二分类算法通常是在特定的伪造类型上训练基于深度神经网络的检测模型,去自动捕捉真实样本(视频或图像)与伪造样本(视频或图像)的区别,从而实现深伪检测;由于基于深度神经网络的二分类算法通常在特定的伪造类型上训练深度神经网络,并在相同类型的伪造类型上对其进行测试,从而检测精度接近100%。然而,由于其过度
地依赖训练时使用的伪造样本,因此这些方法在未知的伪造类型上性能会显著下降;
100.替换痕迹边缘检测算法利用混合两个目标时,目标边缘与背景之间的差异,对真实样本与伪造样本进行区分,此类方法部分提高了在未知伪造类型上的泛化能力,但是,这种泛化能力仅适用于身份交换的伪造类型,识别时依赖于混合两个图像而产生的边缘差异,因此很难适用于现实中存在一些新型的非身份互换伪造类型,如基于单个身份的属性伪造技术等。
101.发明人在解决以上问题的过程中经过研究发现,可以构建基于模型

无关的元学习(model

agnostic meta learning,简称为maml)的伪造样本检测模型来实现在出现新的伪造方式时,即使不进行模型更新,采用所述伪造样本检测模型依然能够有效检测的目的。其中,基于maml的伪造样本检测模型会使用元学习算法,元学习是一种“学习如何学习”的策略,与一般的深度学习方法不同,元学习的方法不会直接去学习出一个预测模型,而是去学习如何去学习预测模型这一过程。比如在伪造样本检测中,一般的深度学习方法学习的是某一类样本共同具有的特征,该特征能够区分伪造样本与真实样本,而元学习学的是如何在只有已知伪造类别的情况下学习区分未知伪造类别的伪造样本。
102.需要特别说明的是,在基于maml的伪造样本检测模型中,模型会专注到学习如何学习区分真伪样本的学习过程中。
103.通过这一策略,对伪造样本检测模型进行训练的过程中,预先获取真实样本集和伪造样本集,所述伪造样本集中包括多种已知伪造类型的伪造样本;重复执行以下步骤,直到达到预设条件:根据所述真实样本集,确定训练真实样本集和测试真实样本集;根据所述伪造样本集,确定元训练伪造样本集和元测试伪造样本集,所述元训练伪造样本集中任一伪造样本的伪造类型与所述元测试伪造样本集中任一伪造样本的伪造类型不同;采用所述训练真实样本集、元训练伪造样本集对所述伪造样本检测模型进行元训练,得到内层优化后的伪造样本检测模型;采用所述训练真实样本集、元测试伪造样本集对内层优化后的伪造样本检测模型进行元测试,得到外层优化后的伪造样本检测模型。元学习的伪造样本检测模型虽然并没有直接学习什么是伪造样本与真实样本,但是学习到了学习区分他们的过程,即学习到了不同真实特征中的通用部分与不同伪造特征中的通用部分。
104.更进一步地,为了提升对未知伪造类型的检测效果,尤其是对更困难的未知伪造类型的检测效果,本发明提出了一种自引导的重要性采样策略去得到元训练样本和元测试样本,在此采样策略中,伪造样本检测模型更不熟悉的伪造类型以更大的概率被采样为元测试样本,进而可以提升伪造样本检测模型对未知伪造类型的检测效果。
105.示例性方法
106.下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的用于伪造样本检测模型训练的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
107.本发明的实施方式提供了一种伪造样本检测模型的训练方法,包括:
108.步骤s110,获取真实样本集和伪造样本集,所述伪造样本集中包括多种已知伪造类型的伪造样本;
109.重复执行以下步骤,直到达到预设条件:
110.步骤s120,根据所述真实样本集,确定训练真实样本集和测试真实样本集;
111.步骤s130,根据所述伪造样本集,确定元训练伪造样本集和元测试伪造样本集,所述元训练伪造样本集中任一伪造样本的伪造类型与所述元测试伪造样本集中任一伪造样本的伪造类型不同;
112.步骤s140,采用所述训练真实样本集、元训练伪造样本集对所述伪造样本检测模型进行元训练,得到内层优化后的伪造样本检测模型;
113.步骤s150,采用所述训练真实样本集、元测试伪造样本集对内层优化后的伪造样本检测模型进行元测试,得到外层优化后的伪造样本检测模型。
114.本发明中提出的伪造样本检测模型的训练方法所针对的是基于深度神经网络构建的用于检测待识别样本是否通过伪造技术(特别是深伪技术,但不限于此)制造的检测模型,样本的形式可以是文本、音频、视频或单一的图像如照片。
115.为了方便说明,本实施方式中以检测人脸伪造视频为优选实施例进行阐述,但不代表本发明的思想或方法只能应用于人脸伪造视频检测,本领域的技术人员可以根据本发明公开的方法结合现有技术,自由推广到其他对象或形式如动物、汽车等伪造视频或图像的检测、声音伪造检测、虹膜或指纹伪造检测等。
116.优选实施例中,进行如下定义:
117.给定一个训练样本集其中x
i
代表一个l帧的视频序列,y
i
=0/1代表图像的真实/伪造标签。
118.伪造样本检测模型f包含一个特征提取器f
θ
以及一个序列分类器f
φ
,因此伪造样本检测模型的训练目标可以定义为使以下损失函数最小:
[0119][0120]
公式中,代表交叉熵损失函数。通过最小化可以训练得到一个基于深度神经网络的二分类伪造样本检测模型。
[0121]
将真实视频分为训练样本集和测试样本集伪造视频定义为已知的k个训练伪造类型,定义为已知的k个训练伪造类型,定义为m个未知的测试伪造类型。在每个中包括个伪造视频。因此本发明目标是基于训练得到一个模型,在进行测试。将分为元训练样本集和元测试样本集在双层优化的元学习设置中,基于和初始参数(θ,φ)得到内层优化结果元学习优化训练目标可以总结为
[0122][0123]
下面结合附图说明如何进行模型的训练:
[0124]
首先,在步骤s110,获取真实样本集和伪造样本集,所述伪造样本集中包括多种已知伪造类型的伪造样本;
[0125]
根据上述内容可知,所述样本的形式可以是图像、视频、音频或文字,只要目的是
区分样本为原始或伪造,本方法均适用;在实施方式中以检测人脸伪造为例进行详细说明。
[0126]
所述伪造样本集中每一已知伪造类型的伪造样本,都应至少包括一个,优选地,每一已知伪造类型的伪造样本都包括多个,例如都在3个以上;需要说明的是,本实施方式的一个实施例中,并不要求各个已知伪造类型的伪造样本数量一致。
[0127]
当前已知的人脸伪造类型包括全脸合成伪造类型、人脸替换伪造类型、表情替换伪造类型或者面部编辑伪造类型等,其中,全脸合成伪造类型对应的图像可以为利用深度学习算法,创造完全不存在的人脸;人脸替换伪造类型对应的图像可以为利用深度学习算法,将图像中一个人脸替换成另外一个人脸;表情替换伪造类型对应的图像可以为利用深度学习算法,篡改图像中人物的表情、嘴型等;面部编辑伪造类型对应的图像可以为利用深度学习算法,篡改图像中人物的面部的特征,如头发和皮肤的颜色、性别、年龄、增加眼镜等。
[0128]
更优选地,每一已知伪造类型的伪造样本都包括多个,且每一已知伪造类型的伪造样本的数量一致,以便在采样时,更方便的构建样本数量一致的训练真实样本集和训练伪造样本集,保证真假样本的训练平衡性。
[0129]
接下来,重复执行以下步骤,直到达到预设条件:
[0130]
步骤s120,根据所述真实样本集,确定训练真实样本集和测试真实样本集;
[0131]
步骤s130,根据所述伪造样本集,确定元训练伪造样本集和元测试伪造样本集,所述元训练伪造样本集中任一伪造样本的伪造类型与所述元测试伪造样本集中任一伪造样本的伪造类型不同;
[0132]
本实施方式中,在根据所述真实样本集,确定训练真实样本集和测试真实样本集时,可以从所述真实样本集中随机采样出一部分真实样本作为训练真实样本集,然后将剩余的真实样本作为测试真实样本集;
[0133]
或者可以从所述真实样本集中随机采样出一部分真实样本作为训练真实样本集,然后从所述真实样本集中随机采样出另一部分真实样本作为测试真实样本集;
[0134]
随机采样的方式可以是以下任意一种,本实施方式对此不做限制:
[0135]
1、蒙特卡洛数值积分
[0136]
2、均匀分布,box

muller变换
[0137]
3、monte carlo principle
[0138]
4、接受

拒绝抽样(acceptance

rejection sampling)
[0139]
5、重要性抽样(importance sampling)
[0140]
6、马尔科夫链,马尔科夫稳态
[0141]
7、mcmc——metropolis

hasting算法
[0142]
8、mcmc——gibbs sampling算法
[0143]
本领域的技术人员可以基于实际需要选择以上所列举的或者其他未列举的任意一种随机采样方式确定训练真实样本集和测试真实样本集,在分别进行两次采样以确定训练真实样本集和测试真实样本集时,两次可以选择相同或不同的采样方式,本实施方式对此不做限制。
[0144]
在确定元训练伪造样本集和元测试伪造样本集时,可以通过以下方式的任意一种:
[0145]
方式一、
[0146]
按照第一预设方式从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集,并将所述伪造样本集中剩余的多个伪造样本作为元训练伪造样本集;
[0147]
实施例1
[0148]
在本实施例中,首先计算一服从预设均匀分布的采样概率;
[0149]
具体来说,所述采样概率即第j个伪造类型被采样的概率为
[0150]
按照所述采样概率从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集;
[0151]
然后所述伪造样本集中剩余的多个伪造样本作为元训练伪造样本集
[0152]
具体来说,依据(同)从采样k个伪造样本作为元测试伪造样本集
[0153][0154]
i
te
表示根据所述采样概率采样到的伪造类型集合,本实施例中会将伪造样本集中采样到的伪造类型的全部伪造样本选取为元测试伪造样本集。
[0155]
实施例2
[0156]
选择所述伪造样本检测模型更不熟悉的一个或多个伪造类型的多个伪造样本作为元测试伪造样本集。
[0157]
具体的选择方式包括以下两种:
[0158]
1)
[0159]
计算各个伪造类型的伪造样本与真实样本的特征在再生核希尔伯特空间的范数距离;
[0160]
本实施例中,计算方式可以公式化为:
[0161][0162]

[0163][0164]
其中,γ代表重要度函数,由发明人自行定义,φ(
·
)将数据映射到再生核希尔伯特空间,较大的γ值意味着更不熟悉的伪造类型,因此以更大的概率被采样为元测试样本,进而可以提升对(更困难的)未知伪造类型的检测效果。表示希尔伯特空间的范数距离的平方;
[0165]
需要说明的是,以上公式和文字描述的含义一致。
[0166]
接下来,确定距离较大的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
[0167]
2)
[0168]
计算各个伪造类型的伪造样本与真实样本的特征的数学期望的范数距离;
[0169]
本实施例中,计算方式可以公式化为:
[0170][0171]

[0172][0173]
其中,γ代表重要度函数,由发明人自行定义,表示数学期望,表示2范数距离的平方;
[0174]
接下来,确定距离较大的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
[0175]
在本实施方式中,确定距离较大的一个或多个伪造类型的多个伪造样本为元测试伪造样本集,包括:
[0176]
确定距离大于预设阈值的一个或多个伪造类型的多个伪造样本为元测试伪造样本集;或者
[0177]
按照距离大小,确定排序在前的预设数量或预设比例的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
[0178]
为了更加方便地自动,在本实施方式的一个优选实施例中,构建符合采样策略1)或2)的采样方式以便采样形成元测试伪造样本集,以所述采样方式计算的伪造样本集中各个伪造类型的伪造样本的采样概率之和为1,即通过一种自引导的重要性采样策略p去得到元训练样本和元测试样本,其中因此p可以定义为
[0179][0180]
需要说明的是,本实施方式中用于训练的真实样本和伪造样本的数量可以不一致,本实施方式不做限定。
[0181]
方式二、
[0182]
按照第二预设方式从所述伪造样本集确定伪造样本子集,所述伪造样本子集中的伪造样本数量与所述训练真实样本集中的真实样本数量一致;
[0183]
按照第一预设方式将所述伪造样本子集划分为元训练伪造样本集和元测试伪造样本集。
[0184]
本方式中的具体实施方式和方式一的完全相同,本领域的技术人员可以根据实际需要进行选择,区别在于,本方式中首先按照第二预设方式从所述伪造样本集确定伪造样本子集,所述伪造样本子集中的伪造样本数量与所述训练真实样本集中的真实样本数量一致,然后按照第一预设方式将所述伪造样本子集划分为元训练伪造样本集和元测试伪造样本集。
[0185]
所述第二预设方式可以是随机采样方式中的任意一种,本实施例对此不做限定。
[0186]
通过以上描述,本领域的技术人员可以获知本发明中在确定元训练样本集和元测试样本集的几种方式。
[0187]
需要说明的是,所述元训练伪造样本集和元测试伪造样本集均可以包括多种伪造类型的多个伪造样本,也可以只包括一种伪造类型的多个伪造样本,本实施方式对此不做限制。
[0188]
在本实施方式的优选实施例中,不同迭代轮次的元训练集或元测试集中的样本数量尽量一致;和/或同一迭代轮次的元训练集和元测试集中的样本数量尽量一致,以保证稳定训练。
[0189]
并且,由于以上步骤重复执行多次,即包括多个迭代轮次,在每一个迭代轮次,都会重新进行元训练集和元测试集的确定,即,每个迭代轮次,都可以根据不同类型的伪造样本进行元训练和元测试。从而多次模拟从已知域到未知域的学习过程,提高模型的学习能力。
[0190]
不同轮次的元训练集可以包括相同伪造类型的伪造样本或相同的伪造样本,不同轮次的元测试集不会包括相同伪造类型的伪造样本或相同的伪造样本。
[0191]
步骤s140,采用所述训练真实样本集、元训练伪造样本集对所述伪造样本检测模型进行元训练,得到内层优化后的伪造样本检测模型;
[0192]
步骤s150,采用所述训练真实样本集、元测试伪造样本集对内层优化后的伪造样本检测模型进行元测试,得到外层优化后的伪造样本检测模型。
[0193]
在本实施方式的一个实施例中,预设可微分的内层优化目标,以便在进行元测试时,使用梯度方法进行外层优化。
[0194]
具体来说,本实施例选取了一种可微分的如下:
[0195][0196]
由此,元训练过程:
[0197]
元测试过程:
[0198][0199]
其中,表示元学习的整体损失函数,表示梯度,α和β是超参数,α和β不具有相关性,可以相同也可以不同,本实施例不做限定。本领域的技术人员可以根据实际的应用场景进行设置,示例性的一个参考值为1e

4。
[0200]
可以理解的是,所述预设条件可以是迭代轮次达到预设要求,也可以是所有样本均被遍历,也可以是模型的测试性能达到预设要求,本实施方式不做限定。
[0201]
本发明的另一实施方式还提出一种伪造样本识别方法,包括:
[0202]
获取待识别样本;
[0203]
采用如前实施方式中任一项所述伪造样本检测模型的训练方法得到的伪造样本检测模型,对所述待识别样本进行检测;
[0204]
获取所述伪造样本检测模型对所述待识别样本的检测结果。
[0205]
由以上方案可知,本发明提出了一种新型的基于模型

无关习框架下的深伪检测
方法,在训练阶段将伪造数据随机按照类型分为元训练数据和元测试数据,用来模拟从已知域到未知域的学习过程,同时在优选实施例中提出了一种自引导的抽样策略,以强调不同域的相对重要性,旨在学习一种更具通用性的分类器。因此,本发明的方法可以直接部署在含有未知造假类型的场景中,而无需更新模型。
[0206]
为了验证本发明的突出技术效果,发明人采用包括了自引导的重要采样策略(自引导式的重要度采样概率的训练方法训练出一个检测模型与现有技术进行对比实验,本发明训练模型并检测的流程参见图3,所述检测模型使用resnet50+lstm作为时序图片的特征提取器,其中lstm的神经元长度为512,接着引入一个额外的全连接层用于真/假分类,与现有技术的检测对比结果如下表:
[0207]
表1
[0208][0209]
表1中,type表示样本形式,包括图像形式image

level和视频形式image

level,所选用的现有真伪图像检测方法包括:forensic transfer、multi

task,mldg和ltw,所选用的现有真伪图像检测方法包括:c3d

fd、i3d

fd、rnn

fd、bilstm

fd,本发明是mafd,auc表示识别正确率,err表示识别错误率,训练和测试数据集均从faceforensics++选取,faceforensics基准数据集有四种换脸算法合成,即deepfakes(df)、face2face(ff)、faceswap(fs)和neuraltextures(nt)。从表1中的数据可以看出,本发明(mafd)的效果数据远远优于现有技术。
[0210]
图4是本发明的一实施例提供的伪造样本检测方法(a)和(b)以及基线方法(c)和(d)的可视化特征效果,其中(a)示出了本发明中样本集中包括多个已知伪造类型的伪造视频、未知伪造类型的伪造视频和真实视频,右上部大多为真实视频,左上部加上中间部分大多为伪造视频,未知伪造类型的伪造视频混杂在已知伪造类型的伪造视频和真实视频中,且主要处于中间部分;(b)示出了本发明的伪造样本检测模型,对已知伪造类型的伪造视频、未知伪造类型的伪造视频和真实视频的识别结果,其中右上部大多被判定为真实,左上部加上中间部分大多被判定为伪造,且零星混杂的真实视频和伪造视频均被精准判定;(c)示出了基线方法中样本集中包括多个已知伪造类型的伪造视频、未知伪造类型的伪造视频和真实视频,下方的右半部大多为真实视频,下方的左半部加上方的全部大多为伪造视频,未知伪造类型的伪造视频混杂在下方的已知伪造类型的伪造视频和真实视频中,且主要处于中间偏右部分;(d)示出了基线方法,对已知伪造类型的伪造视频、未知伪造类型的伪造视频和真实视频的识别结果,其中下方的右部大多被判定为真实,下方左部加上上方全部大多被判定为伪造,且零星混杂的真实视频和伪造视频均被较为精准的判定;对比可知,本发明的检测方法对于未知伪造类型的伪造样本的检测相比于现有技术,检出率和错误率,
明显更加优秀。
[0211]
示例性装置
[0212]
在介绍了本发明示例性实施方式的方法之后,接下来,参考图5对本发明示例性实施方式的一种伪造样本检测模型的训练装置进行说明,该装置包括:
[0213]
样本获取模块410,被配置为获取真实样本集和伪造样本集,所述伪造样本集中包括多种已知伪造类型的伪造样本;
[0214]
迭代执行模块420,被配置为使得以下子模块重复执行,直到达到预设条件:
[0215]
真实样本采样子模块421,被配置为根据所述真实样本集,确定训练真实样本集和测试真实样本集;
[0216]
伪造样本采样子模块422,被配置为根据所述伪造样本集,确定元训练伪造样本集和元测试伪造样本集,所述元训练伪造样本集中任一伪造样本的伪造类型与所述元测试伪造样本集中任一伪造样本的伪造类型不同;
[0217]
元训练子模块423,被配置为采用所述训练真实样本集、元训练伪造样本集对所述伪造样本检测模型进行元训练,得到内层优化后的伪造样本检测模型;
[0218]
元测试子模块424,被配置为采用所述训练真实样本集、元测试伪造样本集对内层优化后的伪造样本检测模型进行元测试,得到外层优化后的伪造样本检测模型。
[0219]
在本实施方式的一个实施例中,所述伪造样本采样子模块,还被配置为按照第一预设方式从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集,并将所述伪造样本集中剩余的多个伪造样本作为元训练伪造样本集。
[0220]
在本实施方式的一个实施例中,所述伪造样本采样子模块422包括:
[0221]
计算单元,被配置为计算一服从预设均匀分布的采样概率;
[0222]
第一元测试集确定单元,被配置为按照所述采样概率从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集;
[0223]
第一元训练集确定单元,被配置为将所述伪造样本集中剩余的多个伪造样本作为元训练伪造样本集。
[0224]
在本实施方式的一个实施例中,所述伪造样本采样子模块422包括:
[0225]
第二元测试集确定单元,被配置为选择所述伪造样本检测模型更不熟悉的一个或多个伪造类型的多个伪造样本作为元测试伪造样本集;
[0226]
第二元训练集确定单元,被配置为将所述伪造样本集中剩余的多个伪造样本作为元训练伪造样本集。
[0227]
在本实施方式的一个实施例中,所述第二元测试集确定单元包括:
[0228]
计算子单元,被配置为计算各个伪造类型的伪造样本与真实样本的特征在再生核希尔伯特空间的范数距离;
[0229]
确定子单元,被配置为确定距离较大的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
[0230]
在本实施方式的一个实施例中,所述计算子单元,还被配置为计算各个伪造类型的伪造样本与真实样本的特征的数学期望的范数距离。
[0231]
在本实施方式的一个实施例中,所述确定子单元,还被配置为:
[0232]
确定距离大于预设阈值的一个或多个伪造类型的多个伪造样本为元测试伪造样
本集;或者
[0233]
按照距离大小,确定排序在前的预设数量或预设比例的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
[0234]
在本实施方式的一个实施例中,所述第二元测试集确定单元还被配置为构建符合采样策略的采样方式以便采样形成元测试伪造样本集,以所述采样方式计算的伪造样本集中各个伪造类型的伪造样本的采样概率之和为1。
[0235]
在本实施方式的一个实施例中,所述伪造样本采样子模块422还被配置为:
[0236]
按照第二预设方式从所述伪造样本集确定伪造样本子集,所述伪造样本子集中的伪造样本数量与所述训练真实样本集中的真实样本数量一致;以及
[0237]
按照第一预设方式将所述伪造样本子集划分为元训练伪造样本集和元测试伪造样本集。
[0238]
在本实施方式的一个实施例中,所述元训练伪造样本集和元测试伪造样本集均包括多种伪造类型的多个伪造样本。
[0239]
在本实施方式的一个实施例中,所述元测试子模块424中预设可微分的内层优化目标,以便在进行元测试时,使用梯度方法进行外层优化。
[0240]
本发明的另一个实施方式中还提出一种伪造样本识别装置,包括:
[0241]
待识别样本获取模块,还被配置为获取待识别样本;
[0242]
采用上述实施例中任一项所述伪造样本检测模型的训练装置得到的伪造样本检测模型,对所述待识别样本进行检测;
[0243]
获取所述伪造样本检测模型对所述待识别样本的检测结果。
[0244]
示例性介质
[0245]
在介绍了本发明示例性实施方式的方法、装置之后,接下来,参考图6对本发明示例性实施方式的计算机可读存储介质进行说明,请参考图6,其示出的计算机可读存储介质为光盘60,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如:获取真实样本集和伪造样本集,所述伪造样本集中包括多种已知伪造类型的伪造样本;重复执行以下步骤,直到达到预设条件:根据所述真实样本集,确定训练真实样本集和测试真实样本集;根据所述伪造样本集,确定元训练伪造样本集和元测试伪造样本集,所述元训练伪造样本集中任一伪造样本的伪造类型与所述元测试伪造样本集中任一伪造样本的伪造类型不同;采用所述训练真实样本集、元训练伪造样本集对所述伪造样本检测模型进行元训练,得到内层优化后的伪造样本检测模型;采用所述训练真实样本集、元测试伪造样本集对内层优化后的伪造样本检测模型进行元测试,得到外层优化后的伪造样本检测模型。各步骤的具体实现方式在此不再重复说明。
[0246]
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
[0247]
示例性计算设备
[0248]
在介绍了本发明示例性实施方式的方法、装置和介质之后,接下来,参考图7对本发明示例性实施方式的用于伪造样本检测模型的训练、伪造样本识别的计算设备。
[0249]
图7示出了适于用来实现本发明实施方式的示例性计算设备70的框图,该计算设备70可以是计算机系统或服务器。图7显示的计算设备70仅仅是一个示例,不应对本实施例的功能和使用范围带来任何限制。
[0250]
如图7所示,计算设备70的组件可以包括但不限于:一个或者多个处理器或者处理单元701,系统存储器702,连接不同系统组件(包括系统存储器702和处理单元701)的总线703。
[0251]
计算设备70典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备70访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0252]
系统存储器702可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)7021和/或高速缓存存储器7022。计算设备70可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,rom7023可以用于读写不可移动的、非易失性磁介质(图7中未显示,通常称为“硬盘驱动器”)。尽管未在图7中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd

rom,dvd

rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线703相连。系统存储器702中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
[0253]
具有一组(至少一个)程序模块7024的程序/实用工具7025,可以存储在例如系统存储器702中,且这样的程序模块7024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块7024通常执行本发明所描述的实施例中的功能和/或方法。
[0254]
计算设备70也可以与一个或多个外部设备704(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(i/o)接口705进行。并且,计算设备70还可以通过网络适配器706与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图7所示,网络适配器706通过总线703与计算设备70的其它模块(如处理单元701等)通信。应当明白,尽管图7中未示出,可以结合计算设备70使用其它硬件和/或软件模块。
[0255]
处理单元701通过运行存储在系统存储器702中的程序,从而执行各种功能应用以及数据处理,例如:获取真实样本集和伪造样本集,所述伪造样本集中包括多种已知伪造类型的伪造样本;重复执行以下步骤,直到达到预设条件:根据所述真实样本集,确定训练真实样本集和测试真实样本集;根据所述伪造样本集,确定元训练伪造样本集和元测试伪造样本集,所述元训练伪造样本集中任一伪造样本的伪造类型与所述元测试伪造样本集中任一伪造样本的伪造类型不同;采用所述训练真实样本集、元训练伪造样本集对所述伪造样本检测模型进行元训练,得到内层优化后的伪造样本检测模型;采用所述训练真实样本集、元测试伪造样本集对内层优化后的伪造样本检测模型进行元测试,得到外层优化后的伪造样本检测模型。各步骤的具体实现方式在此不再重复说明。应当注意,尽管在上文详细描述中提及了伪造样本检测模型的训练装置、伪造样本识别装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描
述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
[0256]
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0257]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0258]
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0259]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0260]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0261]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0262]
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
[0263]
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0264]
通过以上描述,本发明的实施例提供了以下的技术方案,但不限于此:
[0265]
1.一种伪造样本检测模型的训练方法,包括:
[0266]
获取真实样本集和伪造样本集,所述伪造样本集中包括多种已知伪造类型的伪造
样本;
[0267]
重复执行以下步骤,直到达到预设条件:
[0268]
根据所述真实样本集,确定训练真实样本集和测试真实样本集;
[0269]
根据所述伪造样本集,确定元训练伪造样本集和元测试伪造样本集,所述元训练伪造样本集中任一伪造样本的伪造类型与所述元测试伪造样本集中任一伪造样本的伪造类型不同;
[0270]
采用所述训练真实样本集、元训练伪造样本集对所述伪造样本检测模型进行元训练,得到内层优化后的伪造样本检测模型;
[0271]
采用所述训练真实样本集、元测试伪造样本集对内层优化后的伪造样本检测模型进行元测试,得到外层优化后的伪造样本检测模型。
[0272]
2.如技术方案1所述的伪造样本检测模型的训练方法,其中,按照第一预设方式从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集,并将所述伪造样本集中剩余的多个伪造样本作为元训练伪造样本集。
[0273]
3.如技术方案1或2所述的伪造样本检测模型的训练方法,其中,按照第一预设方式从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集,包括:
[0274]
计算一服从预设均匀分布的采样概率;
[0275]
按照所述采样概率从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集。
[0276]
4.如技术方案1

3中任一项所述的伪造样本检测模型的训练方法,其中,按照第一预设方式从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集,包括:
[0277]
选择所述伪造样本检测模型更不熟悉的一个或多个伪造类型的多个伪造样本作为元测试伪造样本集。
[0278]
5.如技术方案1

4中任一项所述的伪造样本检测模型的训练方法,其中,选择所述伪造样本检测模型更不熟悉的一个或多个伪造类型的多个伪造样本作为元测试伪造样本集,包括:
[0279]
计算各个伪造类型的伪造样本与真实样本的特征在再生核希尔伯特空间的范数距离;
[0280]
确定距离较大的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
[0281]
6.如技术方案1

5中任一项所述的伪造样本检测模型的训练方法,其中,选择所述伪造样本检测模型更不熟悉的一个或多个伪造类型的多个伪造样本作为元测试伪造样本集,包括:
[0282]
计算各个伪造类型的伪造样本与真实样本的特征的数学期望的范数距离;
[0283]
确定距离较大的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
[0284]
7.如技术方案1

6中任一项所述的伪造样本检测模型的训练方法,确定距离较大的一个或多个伪造类型的多个伪造样本为元测试伪造样本集,包括:
[0285]
确定距离大于预设阈值的一个或多个伪造类型的多个伪造样本为元测试伪造样本集;或者
[0286]
按照距离大小,确定排序在前的预设数量或预设比例的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
[0287]
8.如技术方案1

7中任一项所述的伪造样本检测模型的训练方法,其中,构建符合采样策略的采样方式以便采样形成元测试伪造样本集,以所述采样方式计算的伪造样本集中各个伪造类型的伪造样本的采样概率之和为1。
[0288]
9.如技术方案1

8中任一项所述的伪造样本检测模型的训练方法,其中,根据所述伪造样本集,确定元训练伪造样本集和元测试伪造样本集,包括:
[0289]
按照第二预设方式从所述伪造样本集确定伪造样本子集,所述伪造样本子集中的伪造样本数量与所述训练真实样本集中的真实样本数量一致;
[0290]
按照第一预设方式将所述伪造样本子集划分为元训练伪造样本集和元测试伪造样本集。
[0291]
10.如技术方案1

9中任一项所述的伪造样本检测模型的训练方法,其中,所述元训练伪造样本集和元测试伪造样本集均包括多种伪造类型的多个伪造样本。
[0292]
11.如技术方案1

10中任一项所述的伪造样本检测模型的训练方法,其中,预设可微分的内层优化目标,以便在进行元测试时,使用梯度方法进行外层优化。
[0293]
12.一种伪造样本识别方法,包括:
[0294]
获取待识别样本;
[0295]
采用如技术方案1

11中任一项所述伪造样本检测模型的训练方法得到的伪造样本检测模型,对所述待识别样本进行检测;
[0296]
获取所述伪造样本检测模型对所述待识别样本的检测结果。
[0297]
13.一种伪造样本检测模型的训练装置,包括:
[0298]
样本获取模块,被配置为获取真实样本集和伪造样本集,所述伪造样本集中包括多种已知伪造类型的伪造样本;
[0299]
迭代执行模块,被配置为使得以下子模块重复执行,直到达到预设条件:
[0300]
真实样本采样子模块,被配置为根据所述真实样本集,确定训练真实样本集和测试真实样本集;
[0301]
伪造样本采样子模块,被配置为根据所述伪造样本集,确定元训练伪造样本集和元测试伪造样本集,所述元训练伪造样本集中任一伪造样本的伪造类型与所述元测试伪造样本集中任一伪造样本的伪造类型不同;
[0302]
元训练子模块,被配置为采用所述训练真实样本集、元训练伪造样本集对所述伪造样本检测模型进行元训练,得到内层优化后的伪造样本检测模型;
[0303]
元测试子模块,被配置为采用所述训练真实样本集、元测试伪造样本集对内层优化后的伪造样本检测模型进行元测试,得到外层优化后的伪造样本检测模型。
[0304]
14.如技术方案13所述的伪造样本检测模型的训练装置,其中,所述伪造样本采样子模块,还被配置为按照第一预设方式从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集,并将所述伪造样本集中剩余的多个伪造样本作为元训练伪造样本集。
[0305]
15.如技术方案13或14所述的伪造样本检测模型的训练装置,其中,所述伪造样本采样子模块包括:
[0306]
计算单元,被配置为计算一服从预设均匀分布的采样概率;
[0307]
第一元测试集确定单元,被配置为按照所述采样概率从所述伪造样本集中采样多个伪造样本作为元测试伪造样本集;
[0308]
第一元训练集确定单元,被配置为将所述伪造样本集中剩余的多个伪造样本作为元训练伪造样本集。
[0309]
16.如技术方案13

15中任一项所述的伪造样本检测模型的训练装置,其中,所述伪造样本采样子模块包括:
[0310]
第二元测试集确定单元,被配置为选择所述伪造样本检测模型更不熟悉的一个或多个伪造类型的多个伪造样本作为元测试伪造样本集;
[0311]
第二元训练集确定单元,被配置为将所述伪造样本集中剩余的多个伪造样本作为元训练伪造样本集。
[0312]
17.如技术方案13

16中任一项所述的伪造样本检测模型的训练装置,其中,所述第二元测试集确定单元包括:
[0313]
计算子单元,被配置为计算各个伪造类型的伪造样本与真实样本的特征在再生核希尔伯特空间的范数距离;
[0314]
确定子单元,被配置为确定距离较大的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
[0315]
18.如技术方案13

17中任一项所述的伪造样本检测模型的训练装置,其中,所述计算子单元,还被配置为计算各个伪造类型的伪造样本与真实样本的特征的数学期望的范数距离。
[0316]
19.如技术方案13

18中任一项所述的伪造样本检测模型的训练装置,所述确定子单元,还被配置为:
[0317]
确定距离大于预设阈值的一个或多个伪造类型的多个伪造样本为元测试伪造样本集;或者
[0318]
按照距离大小,确定排序在前的预设数量或预设比例的一个或多个伪造类型的多个伪造样本为元测试伪造样本集。
[0319]
20.如技术方案13

19中任一项所述的伪造样本检测模型的训练装置,其中,所述第二元测试集确定单元还被配置为构建符合采样策略的采样方式以便采样形成元测试伪造样本集,以所述采样方式计算的伪造样本集中各个伪造类型的伪造样本的采样概率之和为1。
[0320]
21.如技术方案13

20中任一项所述的伪造样本检测模型的训练装置,其中,所述伪造样本采样子模块还被配置为:
[0321]
按照第二预设方式从所述伪造样本集确定伪造样本子集,所述伪造样本子集中的伪造样本数量与所述训练真实样本集中的真实样本数量一致;以及
[0322]
按照第一预设方式将所述伪造样本子集划分为元训练伪造样本集和元测试伪造样本集。
[0323]
22.如技术方案13

21中任一项所述的伪造样本检测模型的训练装置,其中,所述元训练伪造样本集和元测试伪造样本集均包括多种伪造类型的多个伪造样本。
[0324]
23.如技术方案13

22中任一项所述的伪造样本检测模型的训练装置,其中,所述元测试子模块中预设可微分的内层优化目标,以便在进行元测试时,使用梯度方法进行外层优化。
[0325]
24.一种伪造样本识别装置,包括:
[0326]
待识别样本获取模块,还被配置为获取待识别样本;
[0327]
采用如技术方案13

23中任一项所述伪造样本检测模型的训练装置得到的伪造样本检测模型,对所述待识别样本进行检测;
[0328]
获取所述伪造样本检测模型对所述待识别样本的检测结果。
[0329]
25.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序在被处理器执行时能够实现上述技术方案1

12中任一项所述的方法。
[0330]
26.一种计算设备,所述计算设备包括:
[0331]
处理器;
[0332]
用于存储所述处理器可执行指令的存储器;
[0333]
所述处理器,用于执行上述技术方案1

12中任一项所述的方法。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1