基于对ENF相位谱和瞬时频率谱分析的音频鉴定方法与流程

文档序号:15938250发布日期:2018-11-14 02:44阅读:707来源:国知局

本发明属于数字音频信号处理技术领域,尤其涉及一种基于对enf相位谱和瞬时频率谱分析的音频鉴定方法。

背景技术

目前,业内常用的现有技术是这样的:

随着计算机及互联网相关技术的发展,人们更加依赖于使用数字多媒体数据。数字多媒体数据易于保存、编辑和传播的优点给人们日常生活带来诸多便利和乐趣。比如人们不需要任何专业知识就可以简单快捷地使用音频编辑软件对数字音频文件进行拼接、加入噪声和变换等操作,这是互联网时代盛行的娱乐方式。但是技术的发展是一把双刃剑,同时让一些不法分子有机可乘。不法分子可以对数字音频进行恶意地篡改并进行广泛传播,且仅凭感官难以察觉出来。若将这样的数字音频文件应用在法庭录音举证、虚假新闻传播等场合下,可能会导致严重的后果,损害法律公正和社会信任秩序。因此,保证数字音频的真实性和完整性,对数字音频进行篡改检测是十分重要的。数字音频篡改检测是数字音频取证的一个重要分支,在司法取证、新闻公正和科学发现等领域有着广泛应用。

在目前的数字音频篡改检测方法中,最有效的方法是基于电网频率一致性的检测方法,在过去十年中几乎成为数字音频鉴定的公用标准,得到世界范围内学术研究人员和执法机构的关注。其原理在于,如果录音设备在接入电网的情况向下录制音频,那么音频信号中必然会带有电网频率(electircnetworkfrequency,enf)信息。这不仅令enf成为一种天然嵌入到音频信号中的水印信号,而且可以作为时间戳来使用。音频文件中嵌入的enf成分(enfcomponent,enfc),可以经过带通滤波提取出来。利用enfc的稳定性和唯一性进行数字音频篡改检测一般有两个研究思路,第一是将提取出的enfc与供电部门的电网频率数据库中的数据进行比对,确定音频录制时间与所宣称的是否一致,建立和保存大范围的enf信号数据库难度高、代价高,目前还没有实用价值比较高的enf数据库。grigoras最早在罗马尼亚局部建立了enf参考数据库。刘育明等对北美电网检测系统进行分析,提出建立标准电网频率的方法;第二是提取enf信号中的某些特征,进行一致性或者规律性分析。grigoras最早提出基于enf的音频篡改检测算法,主要通过待检测音频中enf的波动和参考年份的数据进行比对,从而判断音频是否被篡改过。接着grigoras验证对音频信号加短时窗进行分析,可以与数据库进行更细致、精确的对比。rodríguez等在grigoras的研究基础上,提出不需要使用enf标准数据库的方法,将enf相位变化的一致性作为特征来检测音频篡改,选取边界值对该特征进行分类决策。胡永健等在rodríguez的基础上,将一个理想的正弦信号作为参考信号,构造新的特征量来检测enf相位的不连续性。胡永健等接着对上述方法进行改进,提出不需要额外参考信号而直接计算enf最大偏移量的方法,另外利用多特征联合精确定位篡改区域。esquef等根据篡改操作会引起篡改点enf瞬时频率突变,提出tpsw(two-passsplit-window)方法估计enf背景变化水平,将实际瞬时频率变化超过背景变化水平的峰值点称为篡改点。

综上所述,现有技术存在的问题是:

目前基于enf进行数字音频被动篡改检测的研究存在一些问题:

1)没有权威的enf对比数据库。使用待测信号中的enf成分与enf数据库中进行对比来判断语音信号是否经过篡改没有可靠的结果;

2)大多数的方法没有提取到语音信号中关键的特征数据,可以直接对语音信号是否被篡改进行决策;

3)忽略特征集之间的相关性,没有对提取到的原始特征数据做进一步的处理;

4)现有大多数方法自动化程度不高、效果不佳,且对不同数据库信号的自适应性差。

解决上述技术问题的难度和意义:

建立权威的enf对比数据库,代价昂贵且管理困难,实际操作的意义不大;提取语音信号中关键特征数据来直接对是否被篡改作出决策是研究人员一直以来想要攻克的问题。

本发明选用信号的enf成分中对信号截断敏感的相位谱和瞬时频率谱作为特征,进行篡改检测;本发明使用三个数据库的语音信号进行实验,并使用深度学习方法深度随机森林进行模型建构,保证了该方案的自适应性和自动化程度能够应用于实际情况。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种基于对enf相位谱和瞬时频率谱分析的音频鉴定方法。本发明通过提取语音信号中的enfc,并分析enfc的相位谱和频率谱,提取相位和频率特征。使用dca方法对相位谱特征和频率谱特征进行特征融合,应用深度随机森林对融合特征进行模型建构,得到的模型可以对任意待测信号是否经过篡改进行决策,实现了语音信号插入、删除操作的自动检测。该方法通过融合enf成分中具有代表性的相位和瞬时频率特征,并使用深度学习方法训练模型,得到可以进行自动检测模型,提高了检测效率,实现了数字音频篡改检测的自动化。

本发明是这样实现的,一种基于对enf相位谱和瞬时频率谱分析的数字音频真伪鉴定方法,包括:首先对待测信号进行预处理,包括下采样和窄带滤波,得到以电网频率(electircnetworkfrequency,enf)标准频率为中心的窄带信号;接着对enf信号进行特征提取,分析enf信号的相位谱和瞬时频率谱,提取enf信号的相位谱波动特征,相位谱和频率谱拟合参数特征;通过判别相关分析(discriminantcorrelationanalysis,dca)方法进行特征融合,最大化不同的特征集之间的相关性,同时消除类间相关性,并限制类内的相关性;最后应用深度随机森林对融合后的特征进行模型建构,训练好的模型进行迁移学习,即模型保存后,可以对任意待测信号是否被篡改进行决策。本发明基于待测信号中的enf标记信号进行篡改检测,提取enf信号因篡改而受到影响的相位和频率特征,并且本方法对提取的特征集进行dca特征融合,应用深度随机森林方法对融合之后的特征进行训练分类,得到分类模型,该模型对于信号的插入和删除情况均可得到很好的检测效果,降低了计算复杂度,大大提高了分类准确率,能够实现自动分类机制。

具体包括以下步骤:

步骤1:对待测信号进行预处理;

步骤2:对信号中的enf成分进行相位谱和频率谱的特征提取;

步骤3:使用dca方法对提取的多个特征集进行特征融合;

步骤4:应用深度随机森林对融合后的特征进行模型建构,可以对待测信号进行决策。

进一步,步骤1,具体包括以下步骤:

步骤1.1:对待测信号x[n]进行预处理,预处理包括下采样、去直流分量,得到xd[n];

步骤1.2:将步骤1.1中经过下采样的信号xd[n],通过中心频率在enf标准频率处的带通滤波器,得到信号中的enf成分xenfc[n]。

进一步,步骤2,具体包括以下步骤:

步骤a1:对xenfc[n]进行基于dft1的相位谱估计,提取相位谱波动特征f;

步骤a2:对xenfc[n]进行基于hilbert的瞬时频率谱估计;

步骤a3:分别对相位谱和频率谱进行曲线拟合,提取相位谱拟合特征和瞬时频率谱拟合特征

进一步,步骤a1中,对xenfc[n]进行基于dft1的相位谱估计,首先对xenfc[n]信号进行常规的n点离散傅里叶变换dft,为基于dft0的相位估计,得到估计相位基于dft1相位估计在dft0基础上相位估计,计算xenfc[n]在点n处的近似一阶导数:

x′enfc[n]=fd(xenfc[n]-xenfc[n-1])

结合近似一阶导数和进行更高阶的相位估计,并对估计结果进行线性插值,得到相位谱估计结果,提取相位谱波动特征f;

步骤a2中,对xenfc[n]进行基于hilbert变换的瞬时频率估计,首先得到xenfc[n]的解析函数:

x(a)enfc[x]=xenfc[x]+i*η{xenfc[x]},

其中η代表hilbert变换;瞬时频率为η{xenfc[n]}相角的变化率,估计enf信号的瞬时频率f[n],对f[n]去除振荡和边界效应,构建xenfc[n]瞬时频率谱;

步骤a3中,据xenfc[n]的相位谱和频率谱的特点,分别使用sumofsines和gaussian来拟合相位谱和频率谱曲线;

sumofsines表达式形式:

gaussian表达式形式:

其中表达式参数即为拟合特征,

进一步,步骤3,具体包括:

特征融合的目标是将两个或多个特征向量中的相关信息组合成一个比任何单一输入特征向量更具辨别力的信息,或者在特征维数过多的情况下,通过特征融合降低了特征维数但是可以达到和高维特征近似的准确度。应用判别相关分析dca将步骤2中得到的相位特征集和频率特征集进行特征融合,dca通过最大化两个特征集之间的两两相关性进行特征融合,并限制类内的相关性。通过最大化特征集间的协方差矩阵来计算特征集的转化矩阵,同时保证类内散布矩阵的对角化。

进一步,步骤4,具体包括:

步骤4.1:应用深度随机森林对融合后的特征进行模型建构;

深度随机森林是一种深度神经网络模型,可用于分类。将融合特征部分用于训练深度随机森林,深度随机森林的训练过程和传统随机森林不同,它能根据精度的变化和层数限制而自动决定层数等模型参数,当训练精度没有提升或者层数达到最大值后就会停止训练,将此时的分类结果作为最终分类精度。

步骤4.2:保存模型后对任意待测信号是否遭到篡改进行决策。

深度随机森林的训练过程完成后所得到的深度随机森林的层数和结构参数,构成本发明所得的融合特征分类模型,可以对任意的待测信号融合特征进行分类和决策。

本发明的另一目的在于提供一种实现所述基于对enf相位谱和瞬时频率谱分析的数字音频真伪鉴定方法的计算机程序。

本发明的另一目的在于提供一种实现所述基于对enf相位谱和瞬时频率谱分析的数字音频真伪鉴定方法的信数字音频信号处理系统。

本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于对enf相位谱和瞬时频率谱分析的数字音频真伪鉴定方法。

综上所述,本发明的优点及积极效果为

本发明分析了enf信号中对信号截断敏感的相位谱和瞬时频率谱,分别提取有效特征集,并对提取出的特征集进行处理;

本发明使用的特征级融合技术进行特征数据处理,降低了特征维数的同时提高识别差距,应用深度学习方法进行模型训练,大大提高了数字音频被动篡改检测的准确率;

本发明针对复杂环境录音和含噪语音稳定性高,具有很强的鲁棒性。

本发明为数字音频被动篡改检测的准确性和自动化提出了一种广泛性的算法。

本发明使用的实验数据来自于三个不同的数据库共500条语音(其中包括原始语音和篡改语音),使用matlab导入这些语音信号,经过发明步骤1提取enf成分一致性波动特征。根据步骤2,使用5个sin核和5个高斯核对相位波动和瞬时频率波动进行拟合;根据步骤3,将相位波动特征和频率波动特征分别作为一个特征集,进行dca特征融合,得到二维融合特征,为特征添加标签,应用深度随机森林对融合特征使用十折交叉验证,最后得到分类正确率达到99.8%。

附图说明

图1是本发明实施例提供的基于对enf相位谱和瞬时频率谱分析的数字音频真伪鉴定方法流程图。

图2是本发明实施例提供的基于dft1相位谱特征提取流程图;

图3是本发明实施例的基于hilbert变换瞬时频率谱特征提取流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

请见图1,本发明提供的一种基于对enf相位谱和瞬时频率谱分析的数字音频真伪鉴定方法,包括以下步骤:

步骤1:对待测信号进行预处理;

具体实施包括以下子步骤:

步骤1.1:对待测信号x[n]进行预处理,包括下采样、去直流分量,得到xd[n];

本实施例中考虑到频率混叠效应、信号信息损失和信号的信噪比(过采样可以提高信号的信噪比)的平衡,将信号的重采样频率fd定为1000hz或者1200hz(将标准的enf频率放在ω0=π/10rad/sample)。

步骤1.2:将步骤1.1中经过下采样的信号xd[n],通过中心频率在enf标准频率处的带通滤波器,得到信号中的enf成分xenfc[n]。

本实施例使用10000阶的线性零相位fir滤波器进行窄带滤波防止相位延时。中心频率在enf标准频率处,带宽为0.6hz,通带波纹为0.5db,阻带衰减为100db。使用高阶滤波器是为了得到理想的窄带信号。零填充(zeropadding)是指在时域信号的末端加上零点以增加信号长度的做法,在dft之前使用零填充可以提高频率分辨率,帮助更加准确地找到频谱上的峰值点。

步骤2:对信号中的enf成分进行相位谱和频率谱的特征提取;

具体实现包括以下子步骤:

步骤a1:对xenfc[n]进行基于dft1的相位谱估计,提取相位谱波动特征f;

如图2,首先对xenfc[n]信号进行常规的n点离散傅里叶变换(dft),得到x(k),令kpeak作为每帧|x(k)|最大值的整数索引,称为基于dft0的相位估计:

计算enf信号xenfc[n]在点n处的近似一阶导数:

x′enfc[n]=fd(xenfc[n]-xenfc[n-1])(2)

对x′enfc[n]进行dft0相位估计,得到|x′(k)|,将|x′(k)|乘以一个尺度系数f(k)。

这样可以得到dft0[k]=x(k)和dft1[k]=f(k)|x′(k)|。xenfc[n估计频率值为

enfc是一个窄带信号可以写成:xenfc[n]=acos(ω0n+φ0),其中ω0=2πfenfc/fd,φ0代表xenfc的初始相位,而fenfc是enf是实际频率。依据数学推算可以得到:

其中θ代表x′enfc的估计相位,对x′(k)进行线性插值以得到更加精确的值。基于dft1方法的估计相位谱即为:

计算特征量f对enfc的相位波动特征进行描述。令为相应第nb帧的估计相位,其中2≤nb≤nblock,表示从nb=2到nblock的平均值。

步骤a2:对xenfc[n]进行基于hilbert的瞬时频率谱估计;

如图3,对信号xenfc[n]进行离散hilbert变换。首先得到xenfc[n]的解析函数:x(a)enfc[x]=xenfc[x]+i*η{xenfc[x]},其中η代表hilbert变换。瞬时振幅是η{xenfc[n]}的振幅,瞬时频率是η{xenfc[n]}相角的变化率。估计enf信号的瞬时频率f[n]。在使用hilbert变换的过程中由于有数值逼近,所以得到的f[n]存在一定的寄生振荡,需要进一步对f[n]进行低通滤波,去除振荡。由于频率估计的边界效应,去掉f[n]头尾各2000采样点,最后所得f[n]即为enfc的瞬时频率谱估计。

步骤a3:分别对相位谱和频率谱进行曲线拟合,提取相位谱拟合特征和瞬时频率谱拟合特征

本实施例针对enf相位分布和瞬时频率分布的特点,分别使用不同的解析表达式对离散数据点组进行拟合。为相位或者频率曲线选择选择解析表达式的标准是:该表达式不仅可以对原始信号曲线和编辑信号曲线分别进行拟合,且可以将二者的差异体现在参数上。基于这个标准,本实施例选择了sumofsines和gaussian两个拟合表达式分别进行拟合相位曲线和频率曲线,其中表达式参数即为拟合参数特征。

解析表达式sumofsines适合用来拟合相位谱,其形式为:

其中a是振幅,b是频率,c是每个正弦波项的相位常量,n是指这个序列的数量,取值范围是1≤n≤9。令为相位谱拟合特征,即:

解析表达式gaussian适合用来拟合峰值,其形式为:

其中a是峰值的幅度,b是峰值所在的位置,c与峰的旁瓣有关,n是指拟合了多少个峰值,取值范围是1≤n≤8。令为频率谱拟合特征,即:

步骤3:使用dca方法对提取的多个特征集进行特征融合;

应用判别相关分析(dca)将步骤2中得到的相位特征集和频率特征集进行特征融合。dca通过最大化两个特征集之间的两两相关性进行有效的特征融合,同时消除类间相关性,并限制类内的相关性。同时还可以降低特征维数,减少识别结果上的差距。dca是应用求和方法的特征级融合,具有降低特征维数,同时减小识别结果上的差距的优点。

假设x∈rp×n和y∈rq×n表示两个矩阵,每个矩阵包含n个来自不同模式的训练特征向量。若数据矩阵中的样本是从c个独立的类中收集的。这样数据矩阵中的n列可以被划分为c个独立组,其中ni列属于ith令xij∈x表示与ith类中的第jth样本相对应的特征向量。分别表示xij在ith类中和整个特征集上的均值,即类间散布矩阵定义为

其中

如果特征数大于分类数(p>>c),计算协方差矩阵将会比计算更加容易。通过对的映射可以有效地获得上有意义的特征向量。因此只需要找到c×c维的协方差矩阵的特征向量。如果类间可以很好地区分,那么将会是一个对角矩阵,因为是对称半正定矩阵,本发明可以通过变换将其对角化:

p是正交特征向量矩阵,是非负实数特征值按递减顺序排序的对角矩阵。q(c×r)为r个来自矩阵p的特征向量组成的矩阵,对应于前r个最大非零特征值。有:

通过这样的映射可以得到sbx中r个重要的特征向量:q→φbxq

(φbxq)tsbx(φbxq)=λ(r×r),(13)

wbx=φbxqλ-1/2是一种可以统一sbx同时降低数据矩阵维数x的变换,从p维到r维。即:

x′是x在空间中的投影,其类间散布矩阵是i,且类均可分离。注意这里最多有c-1个广义特征值,因此r的上限是c-1,r的其他上限由数据矩阵的秩组成,即r≤min(c-1,rank(x),rank(y))。

类似上述的方法处理第二特征集y,并找到变换矩阵wby,统一第二模态的类间散布矩阵sby同时降低数据矩阵y的维数,从q维到r维。

φ′bx和φ′by的更新都是r×c的非平方正交矩阵。尽管有sb′x=sb′y=i,矩阵都是严格对角矩阵其中对角线上的元素接近于1,非对角线上的元素接近于0。这使得类的中心之前具有最小相关,因此可以很好地将类进行分离。接下来需要令同一特征集中的特征仅与另一特征集中的对应特征具有非零相关。为了实现这一目标,本发明需要对变换矩阵的类间散布矩阵进行对角化,即s′xy=x′y′t。使用奇异值分解(svd)对角化sx′y。

其中的x′和y′秩都为r,s′xy(r×r)是非简化的。是一个对角矩阵且主对角线上的元素都是非零值。令wcx=uσ-1/2,wcy=vσ-1/2,有:

(uσ-1/2)ts′xy(vσ-1/2)=i,(19)

其连接了特征集间的协方差矩阵s′xy。接下来对特征集进行转化:

其中分别是x和y的最终转化矩阵。很容易证明,变换后的特征集的类间散布矩阵仍然是对角的,因此,类之间是可以分开的。的类间散布矩阵为:

在式(14)中已知且u是一个正交矩阵,有:

这里同样可以证明是对角阵。得到转换特征集代表特征之间的协方差,是一个主对角线严格对称矩阵,表明单个特征集中不同特征之间的相关性最小。变换特征集代表样本之间的协方差,是块对角矩阵,表明样本与同一类中的样本具有更高的相关性。

步骤4:应用深度随机森林对融合后的特征进行模型建构,可以对待测信号进行决策。

步骤4.1:应用深度随机森林对融合后的特征进行模型建构;

首先本发明需要对数据进行多粒度的扫描扩大样本的数据量,通过滑动窗口进行采样。窗口大小为100,步长为1,则采样后会得到301组特征数为100的样本,但这些样本全部来源原始的一个样本,所以对样本的数量进行了扩充。随后使用一个随机森林和一个完全随机森林进行训练。完全随机森林里的决策树的生成是不需要计算基尼指数或者熵增益,随机选取一个属性作为划分属性来逐步生成完成的。假设本发明需要做三分类,则通过一个随机森林和一个完全随机森林后分别生成301组维度为三的特征信息,组合后就生成了1806维数据。在这两个随机森林和完全随机森林的生成和测试过程中,使用k折交叉验证的方式来预测的,首先使用k-1组再此也就相当于300组数据来训练随机森林,用另外的一组数据分布区k-1颗数里进行测试,然后将测试集做平均也就得到了随机森林的输出,每组数据做一次测试,循环k次也就依然会得到k组输出。当然在使用滑动窗口进行特征提取的时候也可以设定不同的串口大小和不同的步长,然后通过随机森林和完全随机森林之后再组合再一起。

在级联森林中,将两个完全随机森林和两个普通随机森林的输出(3*4=12维数据)和原始数据(指的是多粒度扫描后输出的3618维数据)串联后作为下一层的输入(12+3618=3630维数据),因为每一次都是把上一层的输出串联进来了所以每一层的输入都有3630维数据,也因此相当于对随机森林的参数进行了修正,所以,深度随机森林的层数不是本发明自己设定的,它会根据精度的变化和层数限制而定,当训练精度没有提升或者层数达到最大值后就会停止训练,将此时的分类结果作为最终分类精度。

步骤4.2:保存模型后可对任意待测信号是否遭到篡改进行决策。

深度随机森林的训练过程完成后所得到的深度随机森林的层数和结构参数,构成本发明所得的融合特征分类模型,可以对任意的待测信号融合特征进行分类和决策。

下面结合具体实施例/实验/仿真学分析对本发明作进一步描述。

本发明使用的实验数据来自于三个不同的数据库共500条语音(其中包括原始语音和篡改语音),使用matlab导入这些语音信号,经过发明步骤1提取enf成分一致性波动特征。根据步骤2,使用5个sin核和5个高斯核对相位波动和瞬时频率波动进行拟合;根据步骤3,将相位波动特征和频率波动特征分别作为一个特征集,进行dca特征融合,得到二维融合特征,为特征添加标签,应用深度随机森林对融合特征使用十折交叉验证,最后得到分类正确率达到99.8%。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1