基于行为的隐写者检测方法与流程

文档序号:16250905发布日期:2018-12-12 00:02阅读:575来源:国知局
基于行为的隐写者检测方法与流程

本发明涉及社交网络安全和隐写分析领域,尤其涉及一种基于行为的隐写者检测方法。



背景技术:

隐写分析的目的是检测图像是否被隐写术改动过。对于单张图像的隐写分析,通常看作是一个区分载体和载密的二分类问题,其中,设计能够反映消息嵌入对载体统计特性影响的有效特征是其关键问题之一。Fridrich等人提出的富模型隐写分析特征以及选择信道攻击模型使得单张图像的隐写分析性能得到很大的提升;近年来,随着深度学习的发展,CNN、RNN、Res-Net、GAN也逐渐被用于隐写分析。

虽然隐写分析技术不断进步,但目前的研究都是基于实验室条件,即图像一般为自然图像,并且训练分类器时要求嵌入率及嵌入算法的匹配。但在现实中通常无法满足这种要求。首先对于图像的嵌入率和嵌入算法是未知的。此外,在真实的社交平台中,用户发送的图像内容及图像的噪声来源也是多样的,这就会使得这种有监督学习的方式面临各种失配的问题。即使隐写分析特征高达几万维,在真实的场景中也难以发挥其效用。针对这种情况,Ker提出隐写者检测的概念,以发送图像的用户为单位而不是以单张图像为单位进行检测。在隐写者检测中,一般使用非监督学习方法。Ker首先提出使用聚类的方法检测隐写者,在2014年又将异常检测中的局部异常因子(Local Outlier Factor)用于隐写者检测。2016年Li等人提出层次聚类和集成聚类的方法。Zheng等人尝试使用深度神经网络提取隐写分析特征用于隐写者检测。虽然这些方法避免了有监督学习中的失配的问题,但其所采用的特征都是低维的传统的隐写分析特征,其本质依然是通过是否做过隐写修改来做判定,对于不同的数据,其性能也会有所不同。图1是使用Ker提出的local outlier factor(lof)的方法分别在BossBase和twitter数据上的实验结果,横坐标代表嵌入率,纵坐标代表隐写者的lof值在100个隐写者中的平均排名,越靠前说明效果越好。从图中可以看出,在BossBase和twitter的数据上表现差异很大,受图像源的影响很大。并且在嵌入率低的时候平均排名达到50,相当于基本检测不到。

使用隐写图像进行通信的完整通信过程应该包括图像载体的选择,嵌入率的分配,嵌入算法的选择,最后嵌入图像并发送。在社交场景中,会涉及到多维度的行为信息,比如通信的频率,通信的对象,发送图像的内容相关性。而目前的隐写术仅关注单维度的安全,即使得载体与载密不可区分。我们调研了上百种隐写软件,几乎所有的软件都只注重于隐写算法的改进,而没有考虑用户在整个通信过程中的其他行为所泄露的信息,比如,所发送图像的相关性。现有的隐写软件并不具备为用户挑选载体的功能,相对友好的软件会为用户随机的选择载体或者允许用户使用自己实时拍摄的图像。但对于没有专业知识的用户来说,为了节省时间和精力,很可能会随机挑选图像作为载体。在这种情况下,使用用户的行为信息来检测隐写者将会使得隐写者检测发生根本的改变。



技术实现要素:

本发明的目的是提供一种基于行为的隐写者检测方法,可以准确检测出隐写者。

本发明的目的是通过以下技术方案实现的:

一种基于行为的隐写者检测方法,包括:

从社交平台选取一定数量的用户,每个用户爬取N张连续的图像,并将一部分用户的图像作为训练数据,其他作为测试数据;

选取部分用户的图像作为隐写者的数据库,并从中随机选取一定数量的图像来模拟隐写者行为,生成隐写者数据;

分别从训练数据与隐写者数据中提取行为特征,并利用所提取的特征来训练二分类器;

利用测试数据对二分类器进行测试,并利用通过测试后的二分类器,对新输入图像进行检测,从而判定发送新输入图像的用户为正常用户或隐写者。

由上述本发明提供的技术方案可以看出,将能够反映图像间相关性的特征作为行为特征,并配合二分类器可以准确检测出隐写者。同时,行为信息的多样性可以为隐写者检测提供多角度的检测视角,一方面可以更可靠的检测隐写者,另一方面,促使隐写软件考虑行为信息,设计更人性化的更加安全的隐写软件。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明背景技术提供的使用Ker提出的lof的方法分别在BossBase和twitter数据上的实验结果;

图2为本发明实施例提供的一种基于行为的隐写者检测方法的流程图;

图3为本发明实施例提供的提取行为特征的流程图;

图4为本发明实施例提供的基于本发明方案的实验结果。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

本发明实施例提供一种基于行为的隐写者检测方法,主要包括如下步骤:

1、从社交平台选取一定数量的用户,每个用户爬取N张连续的图像,并将一部分用户的图像作为训练数据,其他作为测试数据。

示例性的,社交平台可以选为twitter,爬取工具可以选择tweepy;实际操作中,可以使用tweepy爬取twitter上2000个用户,将图像数不足100的用户筛选掉,保留700个用户,每个用户保留100张连续的图像。

本发明实施例中,爬取每个用户N张连续的图像后,使用matlab的resize函数,将每一图像裁剪为指定的尺寸大小m×n。示例性的,尺寸大小可以设置为512*512。

训练数据与测试数据的划分比例可以根据实际情况设定。

2、从爬取的图像中选取部分用户的图像作为隐写者的数据库,并从中随机选取一定数量的图像来模拟隐写者行为,生成隐写者数据。

由于无法获取实际中的隐写者的数据,为了验证方法的有效性,本发明实施例中,从爬取的图像中随机选取一部分来模拟隐写者进行实验。

同样的,从隐写者数据库中随机选取的图像数量也可以设置为100。

3、分别从训练数据与隐写者数据中提取行为特征,并利用所提取的特征来训练二分类器。

本发明实施例中,训练数据是由一部分用户的图像组成,隐写者数据也是由隐写者的图像组成,特征提取的方式完全相同;对于每个用户或者隐写者,从相应的图像序列中提取能够反映图像间相关性的特征作为行为特征;提取方式如图3所示,主要过程如下:

1)对于每个用户或者隐写者的图像序列,计算相邻两幅图像的灰度直方图之差,构成差值矩阵:

di,i-1=abs(hi-hi-1);

式中,hi、hi-1分别表示第i幅图像、第i-1幅图像的灰度直方图;

2)对差值矩阵进行量化处理:先取对数量化,然后进行截断,截断区间为[0,T]表示为:

d'=trucT(round(logdi,i+1));

3)使用所有差值矩阵的一阶和二阶统计特性来统计d'的频率特征P和共生矩阵C分布:

P=[p1,...,pT+1];

其中,d'k、d'k+1分别表示d'中第k、k+1个元素;m、n分别为图像的长、宽;共生矩阵C中cl,j和cj,l所表示的像素间相关性相似,将其合并,得到合并后的共生矩阵

将频率特征P与合并后的共生矩阵C'合并得到最后的特征,也即行为特征:

F=[P C'];

特征维度如下:

假设取T=12,则行为特征的特征维度|F|=104。

4、利用测试数据对二分类器进行测试,并利用通过测试后的二分类器,对新输入图像进行检测,从而判定发送新输入图像的用户为正常用户或隐写者。

通过以上方式获得训练好的二分类器,然后利用测试数据对训练好的二分类器进行测试,测试通过后的二分类器则可以用于隐写者的分类检测。

本领域技术人员可以理解,在测试阶段以及对新输入图像进行检测时,同样需要提取行为特征,再将提取到的行为特征作为二分类器的输入,从而得到行为特征对应为正常用户或隐写者的分类输出。

此外,对于具有一定行为安全意识的隐写者,通过改变训练数据组成,减少训练数据与测试数据的失配问题。按照图像中随机图像所占的比例将隐写者分为不同的行为安全等级,共划分了多个行为安全等级,用P%表示不具备行为安全意识的隐写者,即所发送的图像都是随机的;(P-Q)%表示具有一定行为安全意识的隐写者,在他所发送的图像中,有Q%是按照正常用户的顺序发送的,P%是随机选取的图像。依次类推,得到多个行为安全等级;示例性的,可以用100%表示不具备行为安全意识的隐写者,即所发送的图像都是随机的;90%表示具有一定行为安全意识的隐写者,在他所发送的图像中,有10%是按照正常用户的顺序发送的,90%是随机选取的图像。依次类推,我们得到10种等级的隐写者。

在训练分类器时,不同安全等级的隐写者平均混合组成训练集,达到对于未知的行为安全等级的隐写者的准确检测。比如:训练集中的1000个隐写者包括100个“10%”的隐写者,100个“20%”的隐写者,…100个“100%”的隐写者。

为了本发明上述方案的检测效果还进行了相关实验。实验结果如表1与图4所示。

表1混合训练与测试实验结果

表1的实验即为对于具有一定行为安全意识的隐写者,通过改变训练集的组成,训练混合的分类器。然后利用混合的分类器分别对不同安全等级的隐写者(10%,20%,…,100%)进行测试,得到的漏警概率结果。

图4是为了说明该方法对于图像数目具有鲁棒性,也就是选用不同数目的图像进行实验,但保证测试集和训练集,正常用户和隐写者,所选取的每个用户的图像数目一致。分别选取10张图像/用户,20张图像/用户,…,100张图像/用户,得到的平均错误概率(虚警率和漏警率的平均)。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1