一种利用协方差矩阵检测照片来源的数字图像取证方法

文档序号：6471332阅读：233来源：国知局

专利名称：：一种利用协方差矩阵检测照片来源的数字图像取证方法
技术领域：
：本发明属于信号与信息处理
技术领域：
，涉及到检测数码照片图像相机来源的数字图像取证方法。
背景技术：
：目前针对数码照片的相机来源检测方法，比较典型的主要有三类方法。第一类是J.Lukd§,J.Fridrich,M.Goljan在Digital"bulletscratches"forimages—文中提出的方法。他们认为数码照片中存在由于不同相机拍摄所引入的特有特征，并称之为"数字弹道"，通过小波去噪提取图像的模式噪声，可以作为数字弹道并用于检测数字图像来源。但是该方法必须获得拍摄该图像的数码相机，这在实际中往往很难做到。第二类方法则是以M.Kharrazi,H.T.Senear,N.Memon在Blindsourcecameraidentification文中提出的算法为代表。这类方法从数字图像中提取颜色特征、图像质量特征以及小波系数统计特征，并以多类支持向量机(SVM，SupportVectorMachine)作为分类器来检测数字图像来源。第三类则是基于颜色滤波阵列(CFA，ColorFilterArray)插值检测的图像相机来源检测方法，其典型算法为A.Swanminathan,M.Wu，K.J.R.Liu在Non-intrusiveforensicanalysisofvisualsensorsusingoutputimages文中，S.Bayram,H.T.Senear,N.Memon在SourcecameraidentificationbasedonCFAinterpolation文中，以及Y.Long,Y.Huang在Imagebasedsourcecameraidentificationusingdemosaicking文中提出的方法。这三种方法分别利用最小化问题求解、最优化逼近以及期望最大化算法对图像的CFA插值系数进行估计，并以此确定数字图像的相机来源。第二类算法和第三类算法目前对同品牌不同型号的相机来源鉴别能力均较差，同时当待取证数字图像的来源相机数目增大时，这些算法的准确率急剧下降，往往只能以60%70%的检测正确率来取证数字图像的相机来源。但在实际中，由于待取证的图像来源未知，而市场上流通的相机类型较多，因此这些方法的实用性较差。
发明内容本发明的目的是利用相机成像过程中CFA插值的线性模型，通过采用协方差矩阵对CFA插值系数进行统计估计，降低对CFA插值系数的估计误差，并以SFFS(SequentialFloatingFeatureSelection)特征选择方法优选出估计的CFA插值系数作为特征，使用支持向量机作为分类器，来对数字图像的相机来源进行检测和取证。本发明的技术方案如下1.相机成像过程中CFA插值的线性模型数码相机的成像要经历感光、成像和后期处理三个主要过程。外界被拍摄景物反射的光子通过镜头进入相机，被感光器件所感光后形成不同强度的电流。由于现有的感光器件CCD或CMOS均为单色电子元件，只能感应光照强度，而不能分辨颜色。因此，理论上要记录真实的彩色图像，需要在感光器件前端放置三个单色滤光片，分别过滤出R、G和B三种颜色的光，并在一个像素点上用三个感光器件记录三种颜色的强度值。但是这样的设计不仅需要精密的制造，更使得相机成本成倍增加。在实际中，人们常在感光器件前端放置一个CFA，如图l，使得每个像素点只用一个感光器件记录一种颜色分量。由于感光器件在每个像素点上只采集了一种颜色数据，因此成像过程相应地就必须引入CFA插值以获得真彩色图像。CFA插值的基本思想是利用颜色缺失点邻域像素点的线性组合，来估计该点的缺失色彩值。典型的CFA插值方法有双线性插值(bilinear)、双三次插值(bicubic)、中值滤波插值(MedianFilter)、平滑色调插值(SmoothHue)、基于梯度插值(Gradient-Based)和自适应色彩平面插值(AdaptiveColorPlane)等。尽管这些方法的实现途径各不相同，性能各有差异，但是其根本的思想，都是利用待插值点周围邻域的若干像素，进行线性或类似线性组合的方式，来获得对该插值点像素值的估计。以基于双线性的插值方法为例，本发明用下式表示其实现过程。<formula>formulaseeoriginaldocumentpage5</formula>(3)其中，所有方程式右边的值表示由感光器件实际记录的像素值大小，而iw、G^和&,y分别表示经过CFA插值后(x，y)点最后的像素值。因此，为了计算和推导的方便，本发明中采用线性模型来对CFA的插值过程进行描述。该线性模型可以用方程式表示为<formula>formulaseeoriginaldocumentpage5</formula>(4)其中，y表示待插值像素点的像素值，而x々e[l乂-l])表示以y为中心的该颜色通道的邻域像素值，l])为待估计的插值系数，C则是图像噪声、插值算法中其它颜色通道之间的影响、插值时的精度偏差以及图像后来可能的JPEG有损压縮等操作引起的误差总和。理论上，选择48个同通道像素点就可以建立方程组求解得到所有的48个插值系数。但由于图像内容的多样性，以及存在误差项，使得这样的求解结果必然存在较大的系数估计误差。为了对CFA插值系数进行更为准确地估计，申请人采用了协方差矩阵来进行统计估计。2.利用协方差估计CFA插值系数插值过程必然会引入像素之间的相关性，而误差f可以认为是与图像信号独立的随机过程。因此，申请人利用协方差矩阵来对(4)式中的线性模型进行求解，以获得稳定可信的估计结果。cov(,f,)=cov—,f,+"2i2+…+a,'^《2—,+&f,)(5)其中，f表示所有同通道同类像素点组成的向量，而《卩e[l乂-l])则表示其邻域固定位置像素值分别组成的^-l个向量。根据协方差矩阵的线性特性，(5)式等价于cov(fcov(f"-)+"2cov(》2，《)+…+a"2一'covd^)+cov(S,f,)(6)由于f独立于《，因此有cov(&《卜0。由此可以得到最终的方程表达式如下COV(f,f,卜a,c。v(《，i,)+a2C。v(i2",)+…+fl"2,c。v(《2(7)根据(7)式建立^-l个方程，组成"2-l元一次方程组，求解即可得到所有的"2-l个插值系数a々e[l,w2-l])。根据常用CFA插值算法所采用的邻域大小，在本发明的方法中取"=7，即选择中心点像素的7邻域进行计算，对应地组成48元一次方程组进行求解。根据图1中常用的BayerCFA的排列规则，BayerCFA中每个2x2的基本单元中待插值的像素共有4x2=8个，分别是R(红色)采样点的G(绿色)和B(蓝色)值，两个G采样点的R和B值以及B采样点的R和G值。本发明将每个2x2的基本单元中待插值的8个像素分为5类，分别是R和B采样点的G值为一类，两个G采样点的R值分别各为一类，两个G采样点的B值分别各为一类。对每一类的像素点，本发明均利用式(7)建立方程组，并求解出对应该类像素点的48个CFA插值系数。因此，申请人在本方法中，总共可求解获得48x5=240个插值系数。利用这240个插值系数作为数字图像相机来源的检测和分类特征，可以实现对图像相机来源的准确检测和取证。3.SFFS特征优化选择和SVM分类器在大部分插值算法中，并非所有的48个邻域像素值均被用来进行插值计算，不同的插值算法所用的邻域像素点是不同的。因此，在CFA插值所用到的7x7邻域的48个像素中，有些像素对于CFA插值的贡献是次要甚至无效的，可以通过分析不同特征组合对分类准确率的影响，来优化选择分类特征，降低特征空间维度。本发明的方法选用了SFFS特征选择算法，来对所有求解获得的240个插值系数特征进行优化选择。SFFS方法的基本思想是通过向特征集合的子集中增加或者减少特征，来遍历不同的特征子集，并对特征集合进行优化选择排序，删除无效的特征，进而寻找训练准确率稳定下的最小优选特征子集。本发明屮优化选择的特征数目为36个。由于CFA插值系数特征往往不具备线性可分性，因此，本发明中的分类器采用了支持向量机SVM。SVM的核心思想就是对最优分类面的推广，即实现不同类别之间分类间隔的最大化。为了解决这个问题，SVM往往采用内积函数定义的非线性变换将输入空间转换到高维，使得原本低维空间中线性不可分的问题变得高维线性可分，然后在这个高维空间中求解广义最优分类面，即求解满足约束条件(8)的优化问题这里设样本集<formula>formulaseeoriginaldocumentpage8</formula>分类面方程为概+6=0，《为确保方程有解的松弛项，C则为控制经验风险与置信风险的参数，即折中考虑最少错分样本和最大分类间隔。由此得到的分类函数为其中M/和^是应用Lagrange乘子法求解式(8)获得的最优超平面参数，A)是实现非线性变换的核函数，z,和z,则分别代表第/和第y'个样本的特征值。本发明中采用非线性RBF(RadialBasisFunction)核函数C-SVC(C-SupportVectorClassification)作为算法的分类器，该核函数定义为分类函数中的参数C和M直通过格形搜索的交叉校验来获得最优值，其搜索的范围分别设置为j2-4，2-3,…,2"和j2-14,2-4,...，25}。综上所述，本发明对数字图像的相机来源进行检测和取证的具体步骤如下首先获取若干不同品牌不同型号数码相机拍摄的图像样本，作为检测分类器的训练样本。将这些已知相机来源的图像按照BayerCFA的模式进行采样，分别获取对应的采样点及5类插值点的像素值。按照式(7)分别建立每幅训练图像5类插值点的CFA插值系数估计方程组，并求解所有的240个插值系数。将每种相机的所有训练图像求解的240个插值系数作为该相机类别的分类特征，输入到SVM分类器中进行训练，并使用SFFS方法选择训练准确率稳定条件下的36个最优特征。将这36个最优特征作为分类特征，重新输入SVM分类器中进行训练，获得分类模型和参数，完成检测器的训练过程。当对相机来源未知的数字图像进行检测和取证的时候，首先同样对该数字图像按照BayerCFA的模式进行采样，分别获取对应的采样点及5类插值点的像素值，并按照式(7)建立CFA插值系数估计方程组，求解所有的240个插值系数。然后按照最优特征的序号挑选出36个对应的最优特征，并输入SVM分类器中进行分类，其分类结果即为对该图像相机来源的检测和取证结果。本发明的具体实现步骤如图2所示。本发明的效果益处是司法证据链中重要的一环就是证据的来源的取证和判断。对数字图像的相机来源取证，可以通过数据分析的手段，在没有获得其他先验知识的情况下，仅仅通过已有的数据模型和待取证的图像数据，检测和判断出该图像的相机来源，为司法部门的证据监督链提供有效的技术保障。另一方面，在现有的刑侦系统中，常常会遇到匿名照片、勒索照片等情况。通过数字图像来源取证和鉴别技术，可以分析和检测出这些数字图像的相机来源，进而为刑侦部门提供一定的线索，縮小侦查和搜索的范围，提高办案效率。本发明适用于信息安全领域，可以有效地对未知相机来源的数字图像，检测和取证其相机来源。图1是BayerCFA的模式示意图。其中白色格表示G采样点，浅色格表示R采样点，深色格表示B采样点。图2是本发明方法的整体实现步骤示意图。图3是对22种不同品牌不同型号数码相机拍摄的数字图像进行相机来源检测的正确率柱状示意图。其中横坐标为表一中相机的序号，纵坐标为每种相机的检测正确率(百分比)。图4是分别对相机类型数目为222时，数字图像相机来源检测的平均正确率变化趋势示意图。其中横坐标为相机的数目，纵坐标为该数目下所有相机图像的平均检测正确率(百分比)。具体实施例方式以下结合技术方案和附图，详细叙述本发明的具体实施方式。实验中选择了目前市场占有率较高的10种品牌的22种不同型号的数码相机作为测试样本。表一中列举出了实验中所有的相机型号。每种相机的图像数目为400幅，总共400x22=8800幅测试图像。其内容丰富，包含人物、风景、建筑等，并且拍摄条件各异，包括室内、室外拍摄以及白天(自然光照充足)和夜间(自然光照不足)等情况。实验中的SVM工具为网络上公开的LIBSVM，其下载地址为http:〃www.csie.ntu.edu.tw/cilin/libsvm。在所有的实验中，随机选取每种相机的100幅图像作为训练样本，剩余的300幅组成测试样本集。所有实验被重复20次，每次选取的训练样本集和测试样本集均为随机选择。表一实验中所有采用的相机型号<table>tableseeoriginaldocumentpage10</column></row><table><table>tableseeoriginaldocumentpage11</column></row><table>表三对不同相机数目下图像的来源进行检测的结果相机数目平均检测正确率(％)相机数目平均检测正确率(％)299.41397.1399.51497.3499.31597.1598.91697.2698.51797.2798.71897.1898.61997.1998.12097.01098.02196.91198.02296,51297.权利要求1.一种利用协方差矩阵检测照片来源的数字图像取证方法，其特征在于采用协方差矩阵对图像中五类插值像素点进行CFA插值系数的统计估计，并对估计的系数特征向量进行特征优化选择，然后利用支持向量机分类器对图像的相机来源进行准确鉴别和取证。2.根据权利要求1所述的一种利用协方差矩阵检测照片来源的数字图像取证方法，其特征在于采用了SFFS特征选择算法对估计的CFA插值系数特征进行优化选择，从估计得到的240维特征向量中优化选择出36维最优特征组成分类器的特征空间。3.根据权利要求1所述的一种利用协方差矩阵检测照片来源的数字图像取证方法，其特征在于使用了支持向量机SVM中的C-SVC作为分类器，对训练样本的36维最优化特征进行训练获得每种型号相机的模型和参数，然后可以用该模型和参数，对未知来源的数字照片图像进行相机来源的鉴别和取证。全文摘要本发明属于信号与信息处理
技术领域：
，涉及到一种检测数码照片图像相机来源的数字图像取证方法，其特征是在仅获得数字图像的情况下，利用协方差矩阵估计成像过程中的CFA插值系数，采用SFFS特征选择算法优选出最优特征，并以此作为分类检测的特征，通过预先训练好的模型和参数，使用支持向量机SVM作为分类器，对未知来源的数字图像检测和取证其相机来源。本发明的效果益处是能够在仅获得数字图像的情况下，对其相机来源进行准确的鉴别和取证。本发明适合于信息安全领域。文档编号G06K9/62GK101441720SQ20081022896公开日2009年5月27日申请日期2008年11月18日优先权日2008年11月18日发明者孔祥维,波王申请人:大连理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孔祥维;王波
技术所有人：大连理工大学
我是此专利的发明人

上一篇：一种便携实用型手语识别发声装置的制作方法
上一篇：一种中文键盘的输入标点符号的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。