一种基于量化特性的语音篡改定位检测方法_2

文档序号：9930284阅读：来源：国知局

法进行深入研究，提出一种新的方法用于描述量化特征并进行篡改定位检测。
[0017] 在该检测方法中设及了关于MP3编码流程的介绍和现有帖偏移工作的介绍，具体为： MP3编码流程 MP3是一种有损压缩的数字音频编码格式，它能在不影响语音内容的基础上去掉大量冗余的数据信息，为了确保语音质量，根据人类屯、里声学模型将大多数人无法感知的语音细节去掉。
[0018] 完整的MP3音频编码过程如图1所示描述： 1.输入的数字语音信号即PCM(pulse Code Modulation)采样信号进入子带滤波器组后被分成32个子带信号。
[0019] 2.将每一个子带进一步根据MDCT(改进的离散余弦变换）在频域里细分成18个频线，运样共产生576个频线。MDCT系数可W通过向量xr给出：
为了减少时域划分子带时的边界损失，每一个子带在MDCT前进行加窗处理，加窗的类型由屯、理声学模型FFT变换获取的信号频率信息特点决定。
[0020] 3.同时，将相同的输入PCM信号也应用快速傅里叶变换到频域信号，W获得更高的频率分辨率和频谱信息。如果当前信号变换的平缓，相应的子带就会加长窗来提高它的频率信息；相反，如果当前帖的信息变化的比较剧烈，或者有突变，子带就会加短窗来增强他的频域分辨率。与此同时，利用屯、理声学模型计算出子带信号的信掩比，信掩比将决定子带频率的阔值。
[0021 ] 4.每次将576个频域值进行量化，量化过程有=个嵌套的循环:帖循环，是最外层循环，主要完成每一帖在量化编码前的初始化工作和计算每一帖编码后所剩的比特数;外循环，目的是保持量化噪声低于掩蔽阔值，防止失真；内循环，主要功能对频域系数进行量化和哈夫曼编码，并计算所需要的比特数。
[0022] 5.哈夫曼编码，在内循环中完成，在频域系数经过量化后再无失真的哈夫曼编码，可W提高编码效率，哈夫曼编码完成后，将编码数据和量化产生的边信息一起组成一帖数据。一帖完整的数据应包括:帖头信息，CRC，边信息，主数据。
[0023] QMDCT系数是PCM信号MDCT后经过量化得到的数值，因此本质上反映的还是原始信号的特征，只不过是经过了多次变换。PCM信号经MDCT后得到就是MDCT系数，MDCT系数经量化公式量化后即可得到QMDCT系数。量化公式如下所示：
其中致辟代表量化之后的MDCT系数，.xr(f)是MDCT系数，《也够意思是提取最接近的整数,Steps ize是量化步长，在内循环中确定。
[0024] 帖偏移工作介绍如果MP3音频文件发生篡改必然会发生帖偏移，利用频谱系数的统计特征来描述量化特征，然后通过量化特性来检测帖的偏移量，进而检测帖偏移的不一致性检测是否发生了篡改。现有的帖偏移检测方法如下：对给定的包含L个样本的音频信号X，标记为< y < 5 76)为X前面添加 j个零值样本的矢量。
[0025] 对于每个偏移j，将划分为每帖1152个样本，并且50%的重叠量。因此一共有
-!帖音频。
[0026] 其中F表示分帖并且应用窗函数的操作，、表示.Y心的第k帖。
[0027] 应用滤波器组合MDCT到每一帖，获取其频谱巧76个频谱系数）。
[002引其中T表示滤波器组的滤波和MDCT变化A护表示第k帖的频谱。
[0029] 将皆;变换成对数形式J。
[0030] 其中前f'是通过对数形式将所有值投影到范围[0，10]。
[0031] 接着计算非零系数的个数AfP'; 其中C表示计数器。
[0032] 对于第k帖，检测的帖偏移为：
其中，
.9是区分帖偏移是否可W检测的一个阔值。对于有些情况帖偏移不存在或被掩盖，所有的r;-'很接近，但依然会存在最小值ninety，运样就会造成误检。因此需要一个阔值按来反应运些情况，只有在的皆化够大的时候，才认为该帖的帖偏移可是可W检测的，否则赋一个特殊值-100给不可检测的帖，让其明显区别可检测的情况(0~576)，设定接为30。
[0033] 最后一步是定位篡改，只要检测帖偏移的不一致性即可，即对计算差分，如果
，判定第k帖发生篡改。
[0034] 本发明的检测方法还设及了量化特性、篡改的影响分析和高码率压缩的篡改检，具体为：量化特性本发明已经介绍了 MP3编码的量化过程，子带信号经过MDCT之后即得到了 MDCT系数，之后再经过量化公式将MDCT系数量化，得到QMDCT系数，其中的关键是获取Stepsize， Stepsize由内循环中确定。因此量化的频谱系数直接反应了量化特性，直观上应该是最好的特征。然而独立的考虑量化频谱系数并没有明显的变化，受到帖偏移的启发:MP3编码后很多的频谱系数由于被掩盖或者量化成了0值。当解码时，运些零值频谱系数被恢复到时域。当运些解码的数据使用与第一次编码相同帖偏移进行MDCT时，将得到很多频谱系数等于0。如果使用了不同的帖偏移，公式中的局部对称性被破坏，从而相应的频谱系数不再为 0。如果再将运些频谱系数再经过量化，那么频谱系数在偏移不一致性的情况下量化的零值系数会存在一定的区别。为了描述它们区别，本发明进一步分析，在没有发生帖偏移时，量化的零值频谱系数理论上应该是来自于频谱系数中值为零和接近于零值的频谱系数;而如果发生偏移时，量化的零值频谱系数的来源可能会发生变化。
[0035] 在本发明中标记量化的零值系数的个数为Qc,标记未量化的频谱系数接近零值和零值的个数为Ac。如图2所示的最上面图中，横轴表示帖数，纵轴表示未量化的频谱系数接近零值和零值的个数与量化频谱系数中零值的个数之差，即Ac-Qc;从图2中可W看出其差值基本稳定在零附近，运表明量化的零值系数基本都是来自频谱中值接近于零和为零的值，也验证了本发明的分析。在图2中也可W看到在部分位置差值有较大的波动，并且具有区域性特点，深入分析会发现运些区域正好是语音的内容部分，运是因为在量化过程中根据掩比阔值和可用编码位数不断调整量化步长，从而将其他值量化为零值，所W才产生了图2中效果。
[0036] 如果发生了帖偏移，再进行MDCT时将会使用与第一次MDCT使用不同的参数，运将会破坏公式中的对称性，因此会产生少量的零值频谱系数，而运些发生偏移的MDCT系数进行量化时，也将会产生不一样的量化结果。图2a是样本起始位置删除一个采样点，使得向左发生一个样本点的偏移，即Offset=-I。再次计算Ac-化时发现其稳定区间并不在零附近，而是在-50~-100处。图2c最底部是在样本起始位置增加一个零值样本，使得向右发生一个样本的偏移，即〇ffset=+l。结果和中间图一致，运说明如果发生帖偏移，量化的零值频谱系数将不仅来自Ac，而且还会来自其他的值。也就是说，如果发生了帖偏移，量化特性将会改变，会将其他许多非Ac值量化为零值，因此可W说明用该变量可W描述帖偏移。
[0037] 为了更好的描述零值量化特性，表中1本发明定义量化率为:频谱系数中接近零值和零值的个数与量化频谱系数零值个数的比值，即Ac/化。如果量化的频谱系数零值完全与未量化频谱系数中接近零值和为零值的个数一致，则表示量化率为100%。从表中可W看出没有发生偏移时零值的量化率接近100%，达到98%，而且部分帖最佳转化率达到100%，而发生偏移之后零值平均量化率仅30%，运也说明用该变量可W很好的描述帖偏移特点。
[0038] 亲1 .木同偏族时委值音化莖瑟巧的駭啊丹仍
语音内容的篡改操作往往是导致帖偏移的主要原因。对语音内容的篡改常见的篡改方式有=种:删除、插入、拼接;任何一种操作都将导致帖偏移，因此可W按照未发生偏移的和发生偏移时量化过程的差异性检测篡改。在图3中本发明将一段IOs长的语音在7s处删除 0.5s，然后按照前面的分析计算Qc和Ac。从图3中本发明可W非常明显观察到发生篡改位置处Ac与Qc的差值发生了较大的偏离。发生篡改前部分的差值都在零值附近波动，而篡改后的部分都在-100左右波动，和前面分析是一致的。从图3中也可W非常明显的辨别篡改位置。
[0039] 另一方面，本发明也可W看出篡改之后的位置都发生了偏离，就默认从篡改点位置之后都是篡改部分。运也说明了该方法并不能确定篡改的内容长度，而且如果发生多个篡改位置也只能定位距离起始位置最近的一个点，而将之后的位置都认为是篡改了，运也是本方法的一个局限性。当然实际中只要能辨别语音是否发生篡改即可。
[0040] 高码率压缩的篡改检测应用帖偏移时码率在128kbps时无法检测，原因是因为当W高码率压缩时会保留更多的频谱细节，从而使得零值

完整全部详细技术资料下载

当前第2页1 2 3