利用多距离度量协同选择伪标签的小样本相机溯源方法

文档序号:33469424发布日期:2023-03-15 07:51阅读:37来源:国知局
利用多距离度量协同选择伪标签的小样本相机溯源方法

1.本发明属于图像取证技术领域,尤其涉及一种解决小样本问题的相机溯源方法。


背景技术:

2.目前市场上有大量用户友好型的图像编辑应用,因此对数字图像进行身份验证以检测和避免恶意篡改非常重要。被动取证在图像取证中发挥着重要作用,因为在实际的司法取证场景中,往往很难获得可靠的数字水印或标签信息。源相机识别(sci)是数字取证中的一个有趣问题,旨在识别目标图像的源设备。由于不同的设备硬件(例如传感器、处理器等)和软件(例如图像创建过程中的内置图像生成算法)间的固有差异,在相机生成的图像中可能会留下痕迹。
3.研究表明,当训练集足够大时,现有方法获得了较高的识别精度。然而,训练集不足(即小样本集)可能会显著影响性能。值得注意的是,构建大型标记样本集是昂贵的且耗时的(有时甚至是不可能的)。该问题与机器学习背景下的少数镜头问题密切相关,典型的解决方案包括数据扩充、数据增强,以及半监督学习等。


技术实现要素:

4.为了解决上述现有技术中存在的问题,本发明提供一种小样本相机溯源方法,使用多重距离度量来预扩展小样本数据集,使用协同伪标签选择方法迭代更新噪声较小的正、负伪标签子集,其中协同注意块使模型关注空间中具有长距离特征的信息交互,从而有效地解决了小样本集信息不足的问题。
5.技术方案如下:
6.一种利用多距离度量协同选择伪标签的小样本相机溯源方法,步骤如下:
7.s1、分别对测试样本集和小样本集进行特征提取;
8.s2、经过多重距离度量模块处理之后得到基于可解释性特征选取的伪标签样本集;
9.s3、所述小样本集和基于可解释性特征选取的伪标签样本集经由协同伪标签选择模块迭代更新伪标签样本集;
10.s4、测试样本集和迭代更新后的伪标签样本集经由分类模型,最终得到源摄相机识别结果;
11.多重距离度量模块中执行如下步骤:在提取样本的有效特征后,使用多重距离度量来监控伪标签的选择;对于样本特征向量的每个维度,计算每个测试和训练样本对之间的欧几里得距离、曼哈顿距离和切比雪夫距离,通过对上述距离度量进行排序,为每个训练样本选择m个最近的未标记样本,并统计每个样本的次数;然后为每个类别选择n个样本并设置为有效伪标记样本(m,n为正整数)。
12.进一步的,通过使用多距离度量协同选择伪标签来提升来源鉴别性能,所述多重距离度量模块中具体执行如下步骤:
13.步骤一、为全部训练样本提取多种特征向量;
14.步骤二、计算多种距离参数:选取i个距离参数,i∈m,s个距离参数,s∈{s
l
:l∈l}},生成距离向量集合升序排列d
s,i
,并选取前m个向量集合,记为d
s,i

,其中m表示多重距离度量集合,l表示标签集,s
l
表示有标签样本集,m表示距离度量阈值;
15.步骤三、选择伪标签样本:选取u个无标签样本,u∈u,l个有标签样本,l∈l,对集合{d

s,i
:s∈s
l
,i∈m}中的每个样本u进行计数;如果样本u的统计次数大于设定的统计次数阈值t,则用当前类别的伪标签l来标记u。
16.进一步的,所述协同伪标签选择模块中具体执行如下步骤:
17.通过基于负样本学习的方法对正样本的学习方法的噪声标签的信息进行充分利用;公式(1)和公式(2)分别为正样本学习方法和负样本学习方法的交叉熵损失函数:
[0018][0019][0020]
其中yk表示真实标签,pk是模型输出经过softmax输出层之后的概率预测分布,表示负样本学习方法中的补标签,c表示样本的数量;
[0021]
对于无标签样本集中的每个样本u∈u,根据的正负标签的置信阈值,确定相应的伪标签向量g(i):
[0022][0023]
其中τ
p
和τn分别表示正负标签的置信阈值,τ
p
,τn∈(0,1),表示预测标签的置信概率,如果概率预测分数足够高则选择正标签;反之概率预测分数足够低则选择负标签;1表示概率预测分数满足置信阈值,否则为0;
[0024]
基于高置信度的伪标签向量过滤置信度不足的噪声标签,从而有效降低训练期间的噪声干扰;
[0025]
基于正负标签的置信阈值的交叉熵损失被修改为公式(4):
[0026][0027]
其中s(i)表示样本i选取的伪标签数,表示模型的概率预测输出,是为未标记样本分配的伪标签;通过使用噪声较小的伪标签子集进行迭代训练进一步提升伪标签样本的可靠性。
[0028]
进一步的,使用cfa图像统计特征,执行以下步骤:
[0029]
对于每个像素点(m,n)及其邻域(2k+1)
×
(2k+2),插值模型如公式(5)所示:
[0030][0031]
其中,和分别表示彩色图像中绿色、红色和蓝色通道的cfa插值系数权
重,表示绿色通道中k像素附近的α插值系数,和分别表示红色通道和蓝色通道中k像素附近的α插值系数;根据bayer cfa的颜色分布,求解r和b采样点的g插值系数以及两个g采样点的r和b插值系数,并计算其均值和方差,以获得cfa插值系数特征矩阵的可解释特征。
[0032]
进一步的,通过使用多距离度量协同选择伪标签来提升来源鉴别性能,其中多重距离度量使用曼哈顿距离、欧几里得距离和切比雪夫距离来计算样本的cfa特征之间的空间相似性;通过查找具有相似特征的点来实现伪标签的分配,上述三个度量在二维空间中的表达式如等式(6)、(7)、(8)所示:
[0033]
c=|x
1-x2|+|y
1-y2|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0034][0035]
c=max(|x
2-x1|,|y
2-y1|)
ꢀꢀꢀꢀꢀꢀ
(8)
[0036]
其中,c表示二维空间中的度量结果,x1,x2和y1,y2表示二维空间中多个样本特征的横、纵坐标。
[0037]
进一步的,协同伪标签选择模块中,通过协同注意力模块来增强网络学习特征的表达能力:坐标注意块沿两个空间方向聚集输入图像的特征来生成一对方向感知特征图,方向感知特征映射用共享的卷积核进行加权,然后用这两个空间方向的不同的卷积核进行加权;通过将两个空间方向的注意力权重相乘,得到每个特征点的注意力权重;在协调注意块工作过程中,每个特征点获得全局注意权重和沿两个空间方向的注意权重,以实现全局和局部空间方向上的注意信息交互。
[0038]
本发明的有益效果是:
[0039]
本发明所述的小样本相机溯源方法是一种基于多重距离度量的协同伪标签选择方法,与现有技术相比,具有以下有益效果:
[0040]
1.为了解决基于坐标伪标记选择的深度学习方法在小样本数据集上表现不佳的问题,本发明使用多重距离度量来预扩展小样本数据集;
[0041]
2.使用协同伪标签选择方法迭代更新噪声较小的正、负伪标签子集,其中协同注意块使模型关注空间中具有长距离特征的信息交互,从而有效地解决了小样本集信息不足的问题。
附图说明
[0042]
为了更清楚地说明本发明实施方式的技术方案,下面将结合附图和详细实施方式对本发明进行详细说明,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0043]
图1为本发明mdm-cps方法的整体框图;
[0044]
图2为本发明特征提取及多重距离度量的整体框图;
[0045]
图3为本发明协同伪标签选择模块的整体框图;
[0046]
图4为本发明多个数据集上的精度与多重距离度量阈值m和伪标签数阈值n的关系示意图;
[0047]
图5为本发明不同方法的结果图(dresden数据集);
[0048]
图6为本发明不同方法的结果图(vision数据集);
[0049]
图7为本发明dresden数据集各类别样本数为1的稳定性实验结果示意图;
[0050]
图8为本发明vision数据集各类别样本数为1的稳定性实验结果示意图;
[0051]
图9为本发明完整相机类别的溯源准确率示意图。
具体实施方式
[0052]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0053]
下面结合附图1-9对利用多距离度量协同选择伪标签的小样本相机溯源方法做进一步说明。
[0054]
为了充分利用小样本的信息,本发明提出了一种基于多重距离度量的协同伪标签选择的小样本源相机识别方法,称为mdm-cps方法。完整的mdm-cps方法框架图如图1所示。该方法基于半监督学习,首先通过多个距离度量扩展标记数据集,然后在完成坐标伪标记选择后迭代更新标记数据集。本发明的目标是通过在小样本数据集中添加可靠的伪标签样本来扩展数据,从而获得更高的源相机识别精度。
[0055]
第一阶段:多重距离度量模块
[0056]
图2显示了特征提取和多重距离模块的框架图,用于扩展小样本数据集。在提取样本的有效特征后,使用多重距离度量来监控伪标签的选择。对于样本特征向量的每个维度,计算每个测试和训练样本对之间的欧几里得距离、曼哈顿距离和切比雪夫距离。通过对这些距离度量进行排序,为每个训练样本选择若干(例如,m=10)个最近的未标记样本,并统计每个样本的次数;然后为每个类别选择n个样本(n≥10)并设置为有效伪标记样本。对应于上述过程的伪码在算法1中示出。
[0057]
[0058][0059]
其中,为了在镜头样本较少的情况下获得更多的先验信息,使用了cfa图像统计特征。相关细节将在算法相关细节中描述。
[0060]
如前所述,由于小样本场景中数据不足,深度学习算法的模型无法完全训练,这影响了源相机识别的准确性。为了解决这个问题,使用多个距离度量扩充了小样本数据集,以便为后续的协同伪标签选择提供足够的训练样本。但是,需要注意的是,由于有标签样本的数量有限,扩充过多的伪标签样本可能会导致伪标签样本不正确等问题,并影响模型性能。为了减少训练中存在的噪声以提高整体性能,我们限制了每个类的伪标签样本数,以确保选择伪标签的准确性。
[0061]
第二阶段:协同伪标签选择模块
[0062]
在为每个相机类别扩展至少n个样本后,得到了基于可解释性特征和多种距离度量筛选后的伪标签样本,并将其放入小样本集组建成新的训练样本集。接下来,使用不确定性感知伪标签选择方法进行半监督学习,图3显示了协同伪标签选择方法的框图,其中的协同注意力块引入了空间上的远程特征信息交互,使用通过不断迭代更新噪声较小的正负伪标签子集,每次迭代始终选取置信概率较高的伪标签样本,从而提高模型的整体性能。
[0063]
对于多分类任务而言,传统的学习方法是利用样本正确的标签,然而在半监督学习领域中,由于伪标签有时候是不准的,基于正样本的学习方法可能会提供一些错误的信息。随着训练的进行,模型会逐渐拟合噪声标签从而降低性能。幸运的是,基于负样本学习的方法可以对这些噪声标签的信息进行充分利用。公式(1)和公式(2)分别展示了正样本学习和负样本学习方法的交叉熵损失函数。
[0064]
[0065][0066]
其中yk是真实标签,pk是模型输出经过softmax输出层之后的概率预测分布,是负样本学习方法中的补标签,c表示样本的数量,对多分类任务而言,补标签表示训练样本不属于某个类别的标签情况。一个样本可以拥有多个补标签。模型的预测越接近补标签,负样本学习方法的损失也越大,这样模型就可以对补标签信息加以利用。
[0067]
对于无标签样本集中的每个样本u∈u,根据的正负标签的置信阈值,可以确定相应的伪标签向量g(i):
[0068][0069]
其中τ
p
和τn分别是正负标签的置信阈值(τ
p
,τn∈(0,1)),表示预测标签的置信概率,如果概率预测分数足够高这个样本属于很有可能属于当前类别,选择正标签;反之概率预测分数足够低这个样本很有可能不属于当前类别,选择负标签。1表示概率预测分数满足置信阈值的要求时该项为1,否则为0。
[0070]
基于高置信度的伪标签向量过滤掉了置信度不足的噪声标签,从而有效降低训练期间的噪声干扰。基于正负标签的置信阈值的交叉熵损失被修改为公式4:
[0071][0072]
其中s(i)是样本i选取的伪标签数,是模型的概率预测输出,是为未标记样本分配的伪标签。通过使用噪声较小的伪标签子集进行迭代训练,伪标签样本的可靠性得到了进一步提升,因此模型的整体性能也得到了提升。
[0073]
算法相关细节:
[0074]
cfa特征:
[0075]
由于成本原因,相机中cmos/ccd图像传感器采集的每个像素点数据仅为每个像素点提供一个颜色数据(红色、绿色或蓝色,即rgb通道),而cfa插值算法可以有效恢复三个通道的颜色信息。不同相机制造商使用的cfa插值算法通常不同。对于每个像素点(m,n).及其邻域(2k+1)
×
(2k+2),插值模型如公式(5)所示。
[0076][0077]
其中,和分别是彩色图像中绿色、红色和蓝色通道的cfa插值系数权重,是绿色通道中k像素附近的α插值系数。类似地,和分别表示红色通道和蓝色通道的相应系数。根据bayer cfa的颜色分布,求解r和b采样点的g插值系数以及两个g采样点的r和b插值系数,并计算其均值和方差,以获得cfa插值系数特征矩阵的可解释特征。
[0078]
半监督学习:
[0079]
半监督学习(ssl)主要针对在小样本的情况下算法性能差的问题。该方法的特点是不引入外部信息,并借助小样本标签和一些准则条件引入未标记样本,从而最大限度地
利用来自各种方式的未标记样本的信息。实现了有限样本集的扩展,以更好地训练模型。
[0080]
多重距离度量:
[0081]
使用曼哈顿距离(即第一范数)、欧几里得距离(即第二范数)和切比雪夫距离(即无穷范数)来计算样本的cfa特征之间的空间相似性。通过查找具有相似特征的点来实现伪标签的分配。这三个度量在二维空间中的表达式如等式6、7、8所示:
[0082]
c=|x
1-x2|+|y
1-y2|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0083][0084]
c=max(|x
2-x1|,|y
2-y1|)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0085]
其中,c表示二维空间中的度量结果,x1,x2和y1,y2表示二维空间中多个样本特征的横、纵坐标。
[0086]
协同注意力块:
[0087]
在相机来源鉴别任务中,模型需要关注训练图片内在的指纹信息,因此本发明借助了协调注意力模块来增强网络学习特征的表达能力。通过将图像的位置信息嵌入到通道中,模型可以学习到训练图像的全局特征信息来得到更优秀的表现。
[0088]
为了鼓励注意块在空间上捕捉具有精确位置信息的远程交互,坐标注意块沿两个空间方向聚集输入图像的特征来生成一对方向感知特征图。之后,方向感知特征映射用共享的1
×
1卷积核进行加权,然后用这两个空间方向的不同的1
×
1卷积核进行加权。通过将两个空间方向的注意力权重相乘,得到每个特征点的注意力权重。在协调注意块工作过程中,每个特征点获得全局注意权重和沿两个空间方向的注意权重,从而实现全局和局部空间方向上的注意信息交互。
[0089]
实验数据集设置:
[0090]
为了充分验证mdm-cps方法的有效性,本文的所有实验都使用了图像取证领域的公共数据集:dresden数据集和vision数据集,这是司法取证问题研究中使用的一些流行图像数据集。
[0091]
在本实验中,本实施例选择了dresden数据集中的14种不同类别的设备,以及vision数据集中的11种不同类别设备。具体设备信息显示在表1和表2中。其中,训练样本的数量是有限的,从每个类的5、10、15、20和25幅图像不等。测试集由每个类别的130-438个未标记样本组成,共有2791个(在德累斯顿数据集中)和2163个(在vision数据集中)图像样本。基于多重距离度量,我们从这些未标记样本中为每个类选择不同数量的伪标签样本(10-20),以扩展小样本数据集,然后使用协作伪标签选择模块训练模型,以获得最终的源相机识别精度结果。
[0092]
表1 dresden数据集
[0093]
[0094][0095]
表2 vision数据集
[0096]
相机模型缩写样本数apple_ipad2a1171asus_zenfone2lasera2209huawei_ascendh1155lenovo_p70al1216lg_d290l2227microsoft_lumia640ltem1187oneplus_a3000o1287samsung_galaxys3s1207sony_xperiaz1compacts2215wiko_ridge4gw1253xiaomi_redminote3x1311
[0097]
在多重距离度量部分,为了保证小样本集预扩展的伪标签准确率,需要匹配阈值m和n的最佳参数值。在每个类别小样本数为1和3,且m和n的变化值从1-50时,本实施例进行了充分的对比实验,结果如图4所示,当m=n时,伪标签准确率可以近似抵达极大值点,且当n值越小时,最终选取的伪标签样本数也越少,准确率也越高。考虑到预扩展的伪标签样本数和伪标签准确率的平衡,我们最终选取m=n=10。
[0098]
在对比实验中,将仅使用伪标签选择方法的方法标记为ps,将使用具有协作注意的伪标签选择方法标记为cp。此外,为了证明多重距离度量方法的有效性,我们将使用多重距离度量方法和伪标签选择方法的方法标记为mdm-ps,最后将我们提出的方法标记成所有的mdm-cp。在多个数据集上的对比实验结果如图5和图6所示。
[0099]
从多个实验数据集的结果来看,本发明提出的每种方法都有积极的性能改进,在多个数据集上显示出类似的结果。此外,小样本数量越少,基于多重距离度量的小样本数据集扩展方法的性能改进越明显,说明数据扩展是深度学习的有效解决方案算法在小样本的情况下。实验结果表明,我们提出的方法广泛适用于解决小样本源相机识别问题。
[0100]
同时,为了验证模型在极少数样本环境中的稳定性,本发明使用所提出的mdm-cps方法进行了一系列稳定性实验。当每个类别中标记样本的数量非常少(即每个相机类别中只有一个样本)时,所选样本的质量将对最终分类精度产生很大影响。因此,当每个类只有一个小样本时,进行了20组随机实验。对实验结果取平均值,如图7、8所示。实验结果表明,本发明的方法可以在样本极少的情况下提供可靠的源相机识别性能。
[0101]
此外,将本发明提出的mdm-cps方法与其他现有方法进行了比较,以验证本发明方法的性能。所有论文中的相机等级相同,以确保绩效评估的公平性。本发明与其他现有方法之间的实验结果如表3所示。实验结果表明,本发明的实验结果比其他现有方法具有更好的性能。
[0102]
表3和其他现有方法的对比实验结果
[0103]
方法dresdenvisionep73.8479.94mtdem75.1680.49deepsiamesenetwork85.3075.20mdm-cps92.4384.74
[0104]
此外,为了测试mdm-cps方法在更复杂情况下的性能,为每个数据集重新选择了完整的相机类别,包括不同的相机品牌和型号,包括27个(在dresden数据集中)和35个(在视觉数据集中),以模拟实际司法取证场景中的更复杂情况。实验结果如图9所示,这充分证明了本发明的模型在处理复杂的多重分类问题时的强大性能。
[0105]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1