一种检测并定位语音片段内的平滑处理的方法与流程

文档序号：18263136发布日期：2019-07-27 08:50阅读：340来源：国知局

本发明涉及媒体内容取证领域，更具体地，涉及一种检测并定位语音片段内的平滑处理的方法。

背景技术：

目前，数字录音笔和手机录音功能得到广泛普及，数字录音大有取代以前模拟录音的趋势。数字音频作为证据在司法领域扮演者极为重要的角色。但随着cooledit，adobeaudition等一系列音频编辑软件的广泛普及和应用，即使是不具有相关专业知识的人也可以用音频编辑软件对数字音频进行编辑修改。因此，对数字音频的真实性进行鉴定显得极为必要。

平滑处理作为一种常见的音频后处理手段，常被用于在对数字音频删除，剪切，拼接后对篡改边界的平滑中，因此可以通过检测数字音频中是否存在平滑处理辅助鉴定数字音频的真实性。针对较长时间语音片段中的平滑处理的检测技术目前已相对成熟，使用诸如mfcc等常用语音特征均可有效检测出较长时间语音片段中的平滑处理。但是当平滑处理的语音片段，例如只对几百甚至几十个样本进行平滑处理后，由于的语音片段中包含的频率信息极少，现有的大多数常用的语音频域特征均已不再适用。

技术实现要素：

本发明为克服上述现有技术所述的缺陷，提供一种检测并定位语音片段内的平滑处理的方法。

为解决上述技术问题，本发明的技术方案如下：

一种检测并定位语音片段内的平滑处理的方法，包括以下步骤：

s1.选定平滑滤波器；

s2.选取原始语音，提取原始语音集，并通过所述滤波器处理成训练语音集；

s3.从所述原始语音和训练语音集提取特征集；

s4.将所述原始语音的特征集和训练语音集的特征集各筛选出样本，采用分类器训练出svm分类器模型；

s5.选取待测语音，将所述待测语音进行分帧，对每一帧信号都提取待测语音特征集；

s6.使用所述步骤s4的svm分类器模型对待测语音特征集进行分类，判断信号是否经过平滑处理，如果是，则定位平滑处理所在的位置。

上述方法的工作原理为：首先通过平滑滤波器对原始语音进行平滑处理，得到经过平滑处理的语音集；然后从经过平滑处理的语音集得出其特征集，配合分类器训练出分类器模型；最后，将待测语音进行分帧，提取待测语音特征集，采用所述分类器模型对待测语音特征集进行分类，判断待测语音的每一帧是否经过平滑处理，如果是，则定位平滑处理的位置。

优选地，所述步骤s1的平滑滤波器包括线性滤波器和非线性滤波器；

所述线性滤波器包括三角形窗函数及其两种变型、均值滤波器和高斯滤波器；

所述非线性滤波器为中值滤波器。

优选地，所述步骤s2包括以下步骤：

s2.1.选取原始语音，从每段语音中截取一定样本长度的、非静音的语音片段，作为原始语音集；

s2.2.将滤波窗口长度分别设定为5、7、9、11、13、15和31，所述步骤s1的滤波器对步骤s2.1的原始语音集中的每一段语音片段均进行滤波处理，得到经过滤波的语音片段，作为训练语音集。

优选地，所述步骤s3用于得出所述步骤s2的原始语音集和训练语音集中的每一段语音片段的特征集合，步骤s3包括以下步骤：

s3.1.对所述步骤s2的原始语音集和训练语音集中的每一段语音片段均进行差分计算，得到每一段语音片段对应的差分信号；

s3.2对所述步骤s3.1的差分信号进行标准差计算，计算结果作为原始语音集和训练语音集中的每一段语音片段的特征集合的第一部分；

s3.3对所述步骤s3.1的差分信号进行傅里叶变换，得到差分信号所对应的频域信号；

s3.4所述步骤s2的原始语音信号采样率作为fs，对步骤s3.3的频域信号在fs/4到fs/2的频率区间中的频率信号进行标准差计算，计算结果作为原始语音集和训练语音集中的每一段语音片段的特征集合的第二部分；

s3.5采用窗口长度为5的中值滤波器，对所述步骤s2的原始语音集和训练语音集中的每一段语音片段进行滤波，并计算每一段语音片段对应的残差；

s3.6对所述步骤s3.5的残差进行差分计算，得到差分信号，并对差分信号进行标准差计算，得到标准差值，作为原始语音集和训练语音集中的每一段语音片段的特征集合的第三部分。

优选地，所述步骤s5用于提取待测语音的每一段语音片段的特征集合，包括以下步骤：

s5.1选取待测语音，将所述待测语音以一定样本长度进行分帧，再分别对每一帧信号进行计算，得到每一段语音片段对应的差分信号；

s5.2对所述步骤s5.1的差分信号进行标准差计算，计算结果作为待测语音的每一段语音片段的特征集合的第一部分；

s5.3对所述步骤s5.1的差分信号进行傅里叶变换，得到差分信号所对应的频域信号；

s5.4所述步骤s5.1的待测语音信号采样率作为fs，对步骤s5.3的频域信号在fs/4到fs/2的频率区间中的频率信号进行标准差计算，计算结果作为待测语音的每一段语音片段的特征集合的第二部分；

s5.5采用窗口长度为5的中值滤波器，对所述步骤s5.1的待测语音中的每一段语音片段进行滤波，并计算每一段语音片段对应的残差；

s5.6对所述步骤s5.5的残差进行差分计算，得到差分信号，并对差分信号进行标准差计算，得到标准差值，作为待测语音的每一段语音片段的特征集合的第三部分。

优选地，所述步骤s4中筛选样本的方法为原始语音的特征集和训练语音集的特征集各随机挑选一半，分别作为原始语音的特征集样本和训练语音集的特征集样本；

所述步骤s4中的分类器为libsvm分类器。

优选地，所述一定样本长度为50样本、100样本和150样本。

优选地，所述傅里叶变换的长度为128。

与现有技术相比，本发明技术方案的有益效果是：

本发明首先通过原始语音和训练语音集得出语音特征集，并通过分类器得出分类器模型；在检测待测语音时，提取待测语音特征集，并利用上述分类器模型进行分类，从而判断语音片段是否被经过平滑处理并定位。本发明的实施例将本发明提出的方法与现有同类的检测方法进行对比，本发明提出的方法明显具有更高的检测率，可以作为判别数字语音是否被平滑处理、进而检测和定位利用商用音频处理软件对语音进行篡改的一种高成功率的方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是检测并定位语音片段内的平滑处理的方法示意图。

图2是检测待测语音流程图

图3是用标准三角形窗函数示意图。

图4是第一种三角形窗函数的变体示意图。

图5是第二种三角形窗函数的变体示意图。

图6是原始语音片段中相邻样本间相关系数的统计直方图。

图7是平滑处理后语音片段中相邻样本间相关系数的统计直方图。

图8是语音片段平滑处理前后的差分信号。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

一种检测并定位语音片段内的平滑处理的方法，如图1所示，包括以下步骤：

s1.选定平滑滤波器；

s2.选取原始语音，提取原始语音集，并通过滤波器处理成训练语音集；

s3.从原始语音和训练语音集提取特征集；

s4.将原始语音的特征集和训练语音集的特征集各筛选出样本，采用分类器训练出svm分类器模型；

s5.如图2所示，选取待测语音，将待测语音进行分帧，对每一帧信号都提取待测语音特征集；

s6.如图2所示，使用步骤s4的svm分类器模型对待测语音特征集进行分类，判断信号是否经过平滑处理，如果是，则定位平滑处理所在的位置。

在本实施例中，步骤s1的平滑滤波器包括线性滤波器和非线性滤波器；

线性滤波器包括如图3所示的三角形窗函数、如图4所示的第一种三角形窗函数变型、如图5所示的第二种三角形窗函数变型、均值滤波器和高斯滤波器；图4中的第一种三角形窗函数变型与标准三角窗函数的区别在于，其左半部分斜率减小，右边部分斜率增加；图5中的第二种三角形窗函数变型与标准三角窗函数的区别在于，其左半部分斜率增加，右边部分斜率减小。

非线性滤波器为中值滤波器。

在本实施例中，步骤s2包括以下步骤：

s2.1.选取原始语音，从每段语音中截取一定样本长度的、非静音的语音片段，作为原始语音集；

s2.2.将滤波窗口长度分别设定为5、7、9、11、13、15和31，步骤s1的滤波器对步骤s2.1的原始语音集中的每一段语音片段均进行滤波处理，得到经过滤波的语音片段，作为训练语音集。

在本实施例中，步骤s3用于得出步骤s2的原始语音集和训练语音集中的每一段语音片段的特征集合，步骤s3包括以下步骤：

s3.1.对步骤s2的原始语音集和训练语音集中的每一段语音片段均进行差分计算，得到每一段语音片段对应的差分信号；

s3.2对步骤s3.1的差分信号进行标准差计算，计算结果作为原始语音集和训练语音集中的每一段语音片段的特征集合的第一部分；

s3.3对步骤s3.1的差分信号进行傅里叶变换，得到差分信号所对应的频域信号；

s3.4步骤s2的原始语音信号采样率作为fs，对步骤s3.3的频域信号在fs/4到fs/2的频率区间中的频率信号进行标准差计算，计算结果作为原始语音集和训练语音集中的每一段语音片段的特征集合的第二部分；

s3.5采用窗口长度为5的中值滤波器，对步骤s2的原始语音集和训练语音集中的每一段语音片段进行滤波，并计算每一段语音片段对应的残差；

s3.6对步骤s3.5的残差进行差分计算，得到差分信号，并对差分信号进行标准差计算，得到标准差值，作为原始语音集和训练语音集中的每一段语音片段的特征集合的第三部分。

在本实施例中，步骤s5如图2所示，用于提取待测语音的每一段语音片段的特征集合，包括以下步骤：

s5.1选取待测语音，将待测语音以一定样本长度进行分帧，再分别对每一帧信号进行计算，得到每一段语音片段对应的差分信号；

s5.2对步骤s5.1的差分信号进行标准差计算，计算结果作为待测语音的每一段语音片段的特征集合的第一部分；

s5.3对步骤s5.1的差分信号进行傅里叶变换，得到差分信号所对应的频域信号；

s5.4步骤s5.1的待测语音信号采样率作为fs，对步骤s5.3的频域信号在fs/4到fs/2的频率区间中的频率信号进行标准差计算，计算结果作为待测语音的每一段语音片段的特征集合的第二部分；

s5.5采用窗口长度为5的中值滤波器，对步骤s5.1的待测语音中的每一段语音片段进行滤波，并计算每一段语音片段对应的残差；

s5.6对步骤s5.5的残差进行差分计算，得到差分信号，并对差分信号进行标准差计算，得到标准差值，作为待测语音的每一段语音片段的特征集合的第三部分。

在本实施例中，步骤s4中筛选样本的方法为原始语音的特征集和训练语音集的特征集各随机挑选一半，分别作为原始语音的特征集样本和训练语音集的特征集样本；

步骤s4中的分类器为libsvm分类器。

在本实施例中，一定样本长度为50样本、100样本和150样本。

在本实施例中，傅里叶变换的长度为128。

本发明提出的方法原理如下：

如图6和图7所示，对数字语音在某个位置进行平滑处理会增强语音信号中相邻样本间相关性，使经过平滑处理后的语音片段的差分信号和原始语音的差分信号存在明显差异；如图8所示，平滑后的语音信号的差分信号幅度值更小且变化更为缓慢。同时，平滑处理后，再次对语音片段进行平滑处理，滤波处理的语音信号的残差和原始语音信号的残差相比更为平缓，借助其残差的差分信号也能有效辨别语音信号是否经过平滑处理。本发明提出的方法将语音片段的差分信号的标准差，语音片段的差分信号中高频部分标准差和语音片段残差的差分信号的标准差组成特征集，能有效地检测并定位语音片段内平滑处理的位置。

本实施例还包括以下实验和实验结果。

本实施例采用一个包括13240段语音的语音库，其中，每段语音分别截取50样本，100样本和150样本三种长度的语音片段，截取时保证语音片段非静音，将这三种长度的语音片段作为三种原始语音集。再分别对每种长度的原始语音集使用上文提到的6种滤波器模型进行平滑处理，得到对应的平滑处理后的语音集。再对每种语音集提取本发明所提出特征集并用libsvm分类器对原始语音集和平滑处理后的语音集进行分类。本申请书中共进行了三组实验，包括：根据本发明方案进行的实验、已有的滤波检测算法的比较实验和检测音频编辑软件造成的平滑处理实验。

在根据本发明方案进行的实验中，实验目的为验证不同的语音片段长度对本发明的影响。本申请书中对长度分别为50样本，100样本以及150样本的语音片段进行实验，实验结果如表1、表2和表3所示。

表1本发明提出的方法的检测率(语音片段长度为50个样本)

表2本发明提出的方法的检测率(语音片段长度为100个样本)

表3本发明提出的方法的检测率(语音片段长度为150个样本)

表1、表2和表3中的正确率是原始语音片段和平滑处理后的语音片段使用libsvm分类的平均正确率。对于每种平滑操作，滤波器窗口分别有5，7，9，11，13，15和31共七种长度。

从上述实验结果中可以看出，对于6种不同类型的滤波操作，均能有效区分出语音片段是否经过平滑处理。而且即使对于较短的语音片段，如长度为仅有50个样本，也能进行较为有效的检测。当滤波器窗口长度仅为5时，原始语音片段和平滑后语音片段也能被有效区分。在实际运用中，可先将待检测语音分帧，再对于每一个语音片段分别提取本发明中所提出的特征集，并进行分类，进而实现对于语音片段内平滑处理的检测及定位。

在已有的滤波检测算法的比较实验中，本实施例采用论文“‘robustmedianfilteringforensicsusinganautoregressivemodel’，‘ieeetransactionsoninformationforensicsandsecurity(volume:8,issue:9,sept.2013)’，‘doi:10.1109/tifs.2013.2273394’”中提出的使用ar系数检测中值滤波的方法和“‘audiopostprocessingdetectionbasedonamplitudecooccurrencevectorfeature’，‘ieeesignalprocessingletters(volume:23,issue:5,may2016)’，‘doi:10.1109/lsp.2016.2549600’”中提出的语音后处理检测的方法作为对比实验，实验选取的语音片段长度为50个样本，实验结果如表4和表5所示。

表4使用ar系数检测中值滤波的方法的检测率(语音片段长度为50个样本)

表5语音后处理检测的方法的检测率(语音片段长度为50个样本)

将根据本发明方案进行的实验与已有的滤波检测算法的比较实验相对比可知，根据本发明方案进行的实验明显地具有更高的准确率。

在检测音频编辑软件造成的平滑处理实验中，选取实际中主流应用的音频编辑软件cooledit和adobeaudition，对数字语音进行编辑修改；为了不破坏语音信号的连续性，音频编辑软件往往会自动对篡改的边界处的语音信号进行平滑，而且通常只对几十个样本进行平滑处理。上述软件的平滑处理算法均不对外公开，为了证明本发明的实用价值，采用上述软件分别对本实施例的语音库的每段语音的非静音部分进行删除操作，使这两种软件自动平滑篡改边界。然后，我们截取出被音频编辑软件自动平滑的语音片段(长度大约20-30个样本)作为平滑后的语音数据集，再截取篡改边界附近未被软件平滑的语音片段(语音片段长度为30个样本)作为原始语音数据集。我们用本发明对这两种语音数据集分类，同时也与使用ar系数检测中值滤波的方法和luo的方法进行比较，实验结果如下表所示：

表6三种方法针对经过音频编辑软件平滑处理的语音片段的检测率

以上实验结果表明，本发明提出的方法能有效检测商用音频处理软件对于数字语音造成的未知的平滑处理操作。实验结果表明本发明具有显著的实用价值，能够有效的应用于检测并定位实际环境下的语音片段内的平滑处理操作。

从以上三组实验结果上看，本发明提出的检测并定位发生于语音片段内的平滑处理的方法有较高的检测准确率，能有效检测出包括线性滤波器和非线性滤波器在内的6种常见的平滑处理操作。当平滑处理的语音信号长度仅为50个样本时，本发明提出的方法仍能有效检测。同时，对于商用音频处理软件中的未知的平滑处理操作，本发明提出的方法也能较为有效的进行检测，在音频取证方面有较好的实际应用意义。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：闫琦;杨锐;黄继武
技术所有人：深圳大学;中山大学
我是此专利的发明人

上一篇：一种新型的农业大棚种植节水型灌溉系统的制作方法
上一篇：气体电导率测量装置及方法与流程