一种两阶段的音频复制粘贴检测方法与流程

文档序号：37442421发布日期：2024-03-28 18:25阅读：29来源：国知局

本发明属于音频复制粘贴检测，尤其涉及一种两阶段的音频复制粘贴检测方法。

背景技术：

1、随着人工智能技术的飞速发展，诸如百度、阿里巴巴、科大讯飞等高科技企业纷纷推出了语音合成服务。合成语音的质量已经高度接近真人发声，达到以假乱真的地步。此外，adobe audition、goldwave、cooledit等语音编辑工具提供了丰富的复制、粘贴、删除、修改等功能，用户可以根据自身需求对语音进行任意编辑，这也可能导致编辑后的语音与其原始含义发生改变。所以对音频检测的需求逐渐增加。目前，音频篡改的方法主要有四种：第一种是重压缩：指通过改变音频信号的压缩形式来进行操作，例如将高音质的音频转换为低音质，或者将不同压缩形式的音频片段连接在一起，这就需要进行重压缩。第二种是重采样：指改变原始音频信号的采样频率，以实现重采样操作。第三种是异源拼接：指通过将多个不同设备收集的音频片段进行组合，形成一个新的拼接音频。第四种是同源拼接，也被称为复制粘贴。指通过复制音频信号的某个特定部分(即复制段)，然后将其粘贴到其他位置，以实现改变音频的语义信息。

2、现有方法的检测流程：先对音频进行分帧加窗预处理操作，分割静音段和有声段，提取每个有声段的音频特征，量化两两有声段的相似度，最后设定阈值判断是否存在篡改。提取有声段特征包括：短时能量、过零率、梅尔倒谱系数等。然后量化两个有声段的相似度可以计算皮尔逊相关系数、动态时间规整、均方差值、欧式距离等。现有检测方法技术绝大多数需要提取有声段的音频特征或将多个音频特征进行融合，检测起来较为复杂。此外，如果直接对音频信号原始数据进行检测，即使经过信号预处理或下采样等操作，仍然存在无法检测到相似帧或检测时间较长的问题。

3、针对以上内容，本发明提出了一种新的方法，旨在简化处理流程并提高检测效率。通过直接在原始音频信号上进行检测，避免了特征提取和融合的复杂性，同时极大的缩短了检测时间。

技术实现思路

1、本发明所要解决的技术问题是针对背景技术的不足提供一种两阶段的音频复制粘贴检测方法；通过一种两阶段的检测方法来实现音频复制粘贴检测，首先通过计算每两帧之间的皮尔逊相关系数，得到疑似帧的索引；然后基于疑似帧的索引结果进行细寻找，最终确定真正的复制帧和粘贴帧的位置；现有方法的检测流程中通常会提取音频特征或进行特征融合；本发明是不用提取音频特征，直接对音频原始数据进行检测，并且可以提高检测的准确性，缩短检测时间。

2、本发明为解决上述技术问题采用以下技术方案：

3、一种两阶段的音频复制粘贴检测方法，具体包含如下步骤：

4、步骤1，对音频分帧下采样；

5、步骤2，第一阶段寻找疑似区域；

6、步骤3，第二阶段寻找进行篡改定位；

7、其中，所述音频分帧下采样的过程为：按照特定的比例对数据进行缩减；

8、所述第一阶段寻找疑似区域的过程为：通过步骤1对音频分帧下采样，计算每两个相邻帧之间的皮尔逊相关系数；当两帧信号的特征相关系数超过预设的阈值时，判定为疑似帧，并进行记录；

9、所述第二阶段寻找和篡改定位的过程为：确定音频信号中的疑似区域，读取疑似区域的原始数据，使用皮尔逊相关系数并设定阈值，进行相似性检测，从而进行进一步的篡改定位。

10、作为本发明一种两阶段的音频复制粘贴检测方法的进一步优选方案，在步骤1中，对信号的预处理，具体如下：

11、在两个不重叠的帧之间插入帧来提取特征参数，把后一帧对前一帧的位移量记作inc；每次向右移一个inc，相邻两个帧之间的重叠部分为overlap＝len-inc；

12、设语音数据为y，y长为n，采样频率为fs，帧长取为len，帧移为inc，对于长为n的语音信号按下式方式进行分帧：

13、

14、其中，帧长len：一帧语音信号的长度；

15、帧移inc：相邻两帧的起始位置的时间差叫做帧移；

16、采样率fs：每秒内进行采样的次数；符号是fs，单位是hz；

17、下采样：对于一个样值序列间隔几个样值取样一次，得到新序列就是原序列的下采样。

18、作为本发明一种两阶段的音频复制粘贴检测方法的进一步优选方案，在步骤1中，根据音频信号本身的数据进行检测；在下采样的基础上，计算音频信号每两个帧之间的皮尔逊相关系数，如果两帧信号的特征相关系数超过预设的阈值时，则判定为疑似帧。

19、作为本发明一种两阶段的音频复制粘贴检测方法的进一步优选方案，在步骤2中，皮尔逊相关系数：用来反映变量x和变量y的线性相关程度；设两个向量x、y，皮尔逊相关系数的计算公式如下：

20、

21、两个向量x、y，计算出的皮尔逊相关系数；具体如下：

22、①当相关系数r为0时，x和y两向量不相关；

23、②当x的值增大/减小，y值减小/增大，x和y两向量负相关，相关系数r在-1.0到0.0之间；

24、③当x的值增大/减小，y值增大/减小，x和y两向量正相关，相关系数r在0.0到+1.0之间。

25、作为本发明一种两阶段的音频复制粘贴检测方法的进一步优选方案，在步骤2中，得到相关系数r之后，设置初始阈值thre1为0.8；判断r中是否有大于该阈值的帧，如果有对其保存下来，若没有疑似帧要依次降低相关系数r的值，直到出现相似帧。

26、作为本发明一种两阶段的音频复制粘贴检测方法的进一步优选方案，在步骤3中：

27、根据疑似帧的索引，确定疑似区域；如第i帧和第j帧疑似，则计算第i帧和第j帧的起始时间；设帧长len，帧移inc，则第i帧的起始时间：(i-1)*inc*下采样率，第j帧的起始时间同理；并按需扩大疑似区域的范围，重新读取原始数据；

28、其中，第一帧的疑似区域为5.0s-5.1s，第二帧的疑似区域为6.1s-6.2s，适当地扩大这些区域，将第一帧的疑似区域扩大到4.9s-5.2s，将第二帧的疑似区域扩大到6.0s-6.3s。并重新读取4.9s-5.2s的数据和6.0s-6.3s的数据；将时间位置转换为采样点位置：

29、起始时间的采样点位置：sample_start＝start_time*fs

30、结束时间的采样点位置：sample_end＝end_time*fs

31、读取指定开始时间到结束时间的音频数据，重新进行分帧，帧长2ms，帧移1ms，在使用皮尔逊相关系数进行检测，并将记录结果保存下来。

32、作为本发明一种两阶段的音频复制粘贴检测方法的进一步优选方案，在步骤1中，长度可用多种方式表示；如果用时间表示，一帧信号通常取在15ms-30ms之间；也可用信号的采样点数来表示，如果一个信号的采样率为16khz，则一帧信号由16khz*25ms＝400个采样点组成。

33、作为本发明一种两阶段的音频复制粘贴检测方法的进一步优选方案，在步骤1中，在第一阶段的帧移上设置的是2ms，当信号的采样率为16khz时，即32个采样点。

34、本发明采用以上技术方案与现有技术相比，具有以下技术效果：

35、1、本发明一种两阶段的音频复制粘贴检测方法；通过一种两阶段的检测方法来实现音频复制粘贴检测，首先通过计算每两帧之间的皮尔逊相关系数，得到疑似帧的索引；然后基于疑似帧的索引结果进行细寻找，最终确定真正的复制帧和粘贴帧的位置；现有方法的检测流程中通常会提取音频特征或进行特征融合；本发明不用提取音频特征，直接对音频原始数据进行检测，并且可以提高检测的准确性，缩短检测时间；

36、2、本发明所述分帧下采样的过程为：在语音信号处理领域，为了确保信号分析的稳定性，通常需将音频信号分割为连续的帧序列；下采样过程即为按照特定的比例对数据进行缩减，通过这样的处理方法，我们既能保持信号分析的连续性，又能适应信号处理算法的要求，确保了语音信号处理的准确性和效率；

37、3、本发明所述第一阶段寻找的过程为：经过下采样分帧操作以后，需要计算每两个相邻帧之间的皮尔逊相关系数；当两帧信号的特征相关系数超过预设的阈值时，判定为疑似帧，并进行记录；确定可能的疑似区域，从而为精确寻找和篡改定位提供方向；

38、4、本发明所述第二阶段寻找和篡改定位的过程为：需要扩大这些可能的疑似区域；通过这种方式，可以更准确地确定音频信号中的疑似区域，读取疑似区域的原始数据，使用皮尔逊相关系数并设定阈值，进行相似性检测，从而进行进一步的篡改定位。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：成嘉怡,周立波,钱阳,刘建荣,钱玉峰
技术所有人：江苏水印科技有限公司
我是此专利的发明人