一种基于设备本底噪声频谱特征的手机来源识别方法与流程

文档序号:12128367阅读:318来源:国知局
一种基于设备本底噪声频谱特征的手机来源识别方法与流程

本发明涉及一种手机来源识别技术,尤其是涉及一种基于设备本底噪声频谱特征的手机来源识别方法。



背景技术:

如今,随着移动互联网和微芯片产业的快速发展,移动终端不再仅仅是一种通信设备,而是人们生活中不可或缺的部分。越来越多的人开始用智能手机、PAD等便携设备捕捉和采集他们看到或听到的情景,而不是用相机、录音笔、DV(Digital Video,数字视频)等专业设备。然而,大量的数字采集设备和采集数据的可用性带来了新的问题和挑战——多媒体的安全问题。作为一种检测多媒体数据独创性、真实性、完整性的技术,多媒体取证技术是信息安全领域的热点研究问题。

手机来源识别是与多媒体取证最相关的应用,其用来检测数字录音文件来源真实性和可靠性的。这一研究方向引起了大量取证研究者的关注,并在近年来获得了重大进展。如:Hanilci,C.,Ertas,F.,Ertas,T.,Eskidere,O.Recognition of brand and models of Cell-Phones from recorded speech signals.IEEE Trans.Inf.Forensics Security.7(2),625-634(2012)(基于录音信号的手机品牌和型号的识别,电气和电子工程师协会,多媒体取证和安全学报)中提出的一种通过提取录音文件的MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征信息用于手机品牌和型号的识别的方法,其在14个不同型号的手机设备的闭集识别实验中,识别率可以达到96.42%。又如:Kotropoulos,C.Source phone identification using sketches of features.IET Biometrics.3(2):75–83(2014)(基于特征稀疏表示的手机来源识别,英国工程技术学会,生物学报),其通过对不同手机得到的录音文件的语音信号频谱取对数,然后沿时间轴取平均或者通过堆叠每一帧的特征参数并基于高斯混合模型建模得到大尺寸的特征向量,接着通过映射到低维空间进行降维,其在7个品牌21个型号的手机来源识别实验中,识别率可达到94%。

然而,现有的大多数手机来源识别的研究是基于语音本身提取的分类特征,如:MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征、LFCC(Linear Frequency Cepstrum Coefficients,线性频率倒谱系数)特征、短时特征等。虽然这些相关特征在手机来源识别中取得了令人满意的效果,但是基于语音本身提取的分类特征的手机来源识别的效果可能会受到许多不确定条件的干扰,如说话人的性别、情感变化、语音内容等,从而会影响识别率和稳定性,且基于语音本身提取的分类特征的手机来源识别的识别率和稳定性还有待进一步提高。



技术实现要素:

本发明所要解决的技术问题是提供一种基于设备本底噪声频谱特征的手机来源识别方法,其识别准确率高、稳定性好,且计算复杂度低。

本发明解决上述技术问题所采用的技术方案为:一种基于设备本底噪声频谱特征的手机来源识别方法,其特征在于包括以下步骤:

①选取M个不同主流品牌不同主流型号的手机,并选取N个不同年龄不同性别的参与者;然后利用M个手机同时采集每个参与者用正常的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每个语音的时长至少为3分钟;接着将每个手机采集到的每个语音转换成wav格式语音;之后将每个手机对应的每个wav格式语音分割成3~10秒的语音片段,并取10个语音片段作为语音样本;再将每个手机对应的共10N个语音样本构成一个语音子库;其中,M>1,N≥1;

②利用自适应端点检测算法对每个手机对应的语音子库中的每个语音样本进行近静音段估计提取;然后对从每个手机对应的语音子库中的每个语音样本中提取出的近静音段进行后处理,以消除近静音段中不必要的语音部分,得到每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段;再将每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段拼接起来整合成一个最终近静音段;

③保留每个手机对应的所有最终近静音段中时长大于或等于1.5秒的最终近静音段,并将保留的所有最终近静音段构成该手机对应的用于求取本底噪声的频谱分布特征的测试语音子库;

④利用改进的谱减法抑制每个手机对应的测试语音子库中的每个近静音段的背景噪声,得到每个手机对应的测试语音子库中的每个近静音段的背景噪声模型;然后获得所有手机对应的通用背景噪声模型,将第k个频率点处所有手机对应的通用背景噪声模型描述为BNmean(k),其中,符号“||”为取绝对值符号,BNm(k,n)表示第m个手机对应的测试语音子库中的所有近静音段的背景噪声模型的语谱图中的第k个频率点、第n帧在短时傅里叶变换域的频谱系数,1≤k≤K,K表示每个近静音段的频率点的总个数,Kfft表示短时傅里叶变换的点数;

⑤将每个手机对应的测试语音子库中的每个近静音段与所有手机对应的通用背景噪声模型的差值作为该手机的一个本底噪声;然后对每个手机的每个本底噪声进行中值滤波处理以去除每个手机的每个本底噪声中残余的背景噪声,得到每个手机的每个最终本底噪声;接着对每个手机的每个最终本底噪声进行傅里叶变换,得到每个手机的每个最终本底噪声的频谱系数;再对每个手机的每个最终本底噪声的频谱系数取10的对数,得到每个手机的每个最终本底噪声的取对数后的频谱系数;最后沿时间轴对每个手机的每个最终本底噪声的取对数后的频谱系数前T帧取平均,将该平均值作为每个手机的每个最终本底噪声的频谱分布特征;其中,傅里叶变换的点数为Kfft,T帧的时长小于或等于1.5秒,且T≥3,每个手机的每个最终本底噪声的频谱分布特征的维数为K;

⑥统计每个手机对应的测试语音子库中的近静音段的总个数,以最小的总个数为基准数,从每个手机对应的测试语音子库中的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子训练集,从每个手机对应的测试语音子库中的剩余的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子测试集;然后将所有手机对应的子训练集构成一个总训练集,并将所有手机对应的子测试集构成一个总测试集;接着将由总训练集得到的所有手机的最终本底噪声的频谱分布特征构成一个训练特征空间,并将由总测试集得到的所有手机的最终本底噪声的频谱分布特征构成一个测试特征空间;之后利用主成分分析方法对训练特征空间进行降维操作,再对降维后的训练特征空间中的所有值进行归一化处理;并根据对训练特征空间进行降维操作所采用的映射矩阵对测试特征空间进行降维操作,再对降维后的测试特征空间中的所有值进行归一化处理;最后利用Matlab自带的SVM分类函数先对归一化处理后的训练特征空间进行模型训练,得到一个训练好的多分类模型,再利用训练好的多分类模型对总测试集中的每个近静音段进行分类判别。

所述的步骤②中对从每个手机对应的语音子库中的每个语音样本中提取出的近静音段进行后处理的具体过程为:找出每个手机对应的语音子库中的每个语音样本中提取出的近静音段上的所有采样点的采样值中小于5×Thr的所有采样点,每连续的多个采样点形成一段后处理后的近静音段,得到每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段;其中,Thr表示利用自适应端点检测算法从每个手机对应的语音子库中的每个语音样本中提取出的近静音段上的所有采样点的采样值的绝对值升序排列后前30~50%的所有采样值的平均值。

所述的步骤⑥中Matlab自带的SVM分类函数使用的是RBF核函数,Matlab自带的SVM分类函数中对惩罚系数和伽马系数采用交叉验证方式得到最优值。

与现有技术相比,本发明的优点在于:

1)本发明方法利用每个手机对应的测试语音子库中的每个近静音段与所有手机对应的通用背景噪声模型来估计每个手机的本底噪声,再对每个手机的每个本底噪声进行中值滤波处理,使得得到的每个手机的每个最终本底噪声中不含有残余的背景噪声,从而使得在此基础上获取的频谱分布特征能更好的进行手机的分类,通过大量实验验证本发明方法的识别率可以达到99.24%。

2)以往的手机来源识别方法大都都是基于语音样本信息的,易受语音样本中的文本信息、说话人的情感等因素影响,导致识别稳定性较差,而本发明方法是基于近静音段进行频谱分布特征提取和手机来源识别的,稳定性更好。

3)本发明方法中提取频谱分布特征的过程简单,且对训练特征空间和测试特征空间降维后,数据计算量大大减小,计算效率高,计算复杂度低。

附图说明

图1为本发明方法的总体实现框图;

图2a为一个语音样本的波形图;

图2b为现有的自适应端点检测算法在图2a所示的语音样本的波形图上的检测示意图;

图2c为图2a所示的语音样本中提取出的近静音段的波形图;

图2d为图2c所示的近静音段经后处理和拼接后得到的最终近静音段;

图3a为HTC D820t手机的最终本底噪声的语谱图;

图3b为华为荣耀7手机的最终本底噪声的语谱图;

图3c为一台苹果5手机的最终本底噪声的语谱图;

图3d为另一台苹果5手机的最终本底噪声的语谱图;

图3e为魅族MX4手机的最终本底噪声的语谱图;

图3f为小米3手机的最终本底噪声的语谱图;

图3g为OPPO一加手机的最终本底噪声的语谱图;

图3h为三星盖乐世S5手机的最终本底噪声的语谱图;

图4a为iphone6手机的实际本底噪声的语谱图;

图4b为利用本发明方法得到的iphone6手机的最终本底噪声的语谱图;

图4c为iphone6手机的实际本底噪声与利用本发明方法得到的iphone6手机的最终本底噪声的频谱比较示意图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于设备本底噪声频谱特征的手机来源识别方法,其总体实现框图如图1所示,其包括以下步骤:

①选取M个不同主流品牌不同主流型号的手机,并选取N个不同年龄不同性别的参与者;然后利用M个手机同时采集每个参与者用正常的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每个语音的时长至少为3分钟;接着将每个手机采集到的每个语音转换成wav格式语音;之后将每个手机对应的每个wav格式语音分割成3~10秒的语音片段,并取10个语音片段作为语音样本;再将每个手机对应的共10N个语音样本构成一个语音子库;其中,M>1,在本实施例中取M=24,N≥1,在本实施例中取N=12,如包括6个不同年龄的男性参与者,6个不同年龄的女性参与者,每个语音的采集环境安静,在本实施例中选择一间安静的办公室。

②利用现有的自适应端点检测算法对每个手机对应的语音子库中的每个语音样本进行近静音段估计提取;然后对从每个手机对应的语音子库中的每个语音样本中提取出的近静音段进行后处理,以消除近静音段中不必要的语音部分,得到每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段;再将每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段拼接起来整合成一个最终近静音段,得到的最终近静音段的时长肯定小于对应的语音样本的时长。

在此,先对每个语音样本进行近静音段估计的原因是语音的近静音段主要是由本底噪声和背景噪声构成的,它不会被语音部分的综合噪声中占主导地位的声电响应不一致噪声所污染,因此在此利用自适应端点检测算法进行近静音段估计,自适应端点检测算法可以很好地识别近静音段;但是识别的近静音段中还含有少量语音信息,为了进一步消除语音部分,对近静音段进行后处理,并整合得到最终近静音段。

图2a给出了一个语音样本的波形图,图2b给出了现有的自适应端点检测算法在图2a所示的语音样本的波形图上检测的示意图,图2c给出了从图2a所示的语音样本中提取出的近静音段的波形图,图2d给出了图2c所示的近静音段经后处理和拼接后得到的最终近静音段。从图2a和图2b中可以看出,本发明方法能够很好的识别近静音段;从图2c中可以看出,提取出的近静音段还含有少量语音信息,而从图2d中可以看出,经本发明方法中的近静音段后处理后,得到的最终近静音段不含有语音信息。

在此具体实施例中,步骤②中对从每个手机对应的语音子库中的每个语音样本中提取出的近静音段进行后处理的具体过程为:找出每个手机对应的语音子库中的每个语音样本中提取出的近静音段上的所有采样点的采样值中小于5×Thr的所有采样点,每连续的多个采样点形成一段后处理后的近静音段,得到每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段;其中,Thr表示利用现有的自适应端点检测算法从每个手机对应的语音子库中的每个语音样本中提取出的近静音段上的所有采样点的采样值的绝对值升序排列后前30~50%的所有采样值的平均值,在本实施例中取Thr等于每个语音子库中的每个语音样本中提取出的近静音段上的所有采样点的采样值的绝对值升序排列后前40%的所有采样值的平均值。

③由于每个语音子库中的所有语音样本各自对应的最终近静音段的长度不一致,因此为了保证在构建特征空间时特征矩阵长度保持一致,保留时长大于或等于1.5秒的最终近静音段,而去掉时长小于1.5秒的最终近静音段。保留每个手机对应的所有最终近静音段(每个语音子库对应的10N个最终近静音段)中时长大于或等于1.5秒的最终近静音段,并将保留的所有最终近静音段构成该手机对应的用于求取本底噪声的频谱分布特征的测试语音子库。

④为了从最终近静音段中得到实际的本底噪声,要尽可能的抑制背景噪声。因此利用现有的改进的谱减法抑制每个手机对应的测试语音子库中的每个近静音段的背景噪声,得到每个手机对应的测试语音子库中的每个近静音段的背景噪声模型;然后获得所有手机对应的通用背景噪声模型,将第k个频率点处所有手机对应的通用背景噪声模型描述为BNmean(k),其中,符号“||”为取绝对值符号,BNm(k,n)表示第m个手机对应的测试语音子库中的所有近静音段的背景噪声模型的语谱图中的第k个频率点、第n帧在短时傅里叶变换(STFT)域的频谱系数,1≤k≤K,K表示每个近静音段的频率点的总个数,Kfft表示短时傅里叶变换的点数,在本实施例中将短时傅里叶变换的点数设为4096,取

⑤将每个手机对应的测试语音子库中的每个近静音段与所有手机对应的通用背景噪声模型的差值作为该手机的一个本底噪声;然后对每个手机的每个本底噪声进行中值滤波处理以去除每个手机的每个本底噪声中残余的背景噪声,得到每个手机的每个最终本底噪声;接着对每个手机的每个最终本底噪声进行傅里叶变换,得到每个手机的每个最终本底噪声的频谱系数;再对每个手机的每个最终本底噪声的频谱系数取10的对数,得到每个手机的每个最终本底噪声的取对数后的频谱系数;最后沿时间轴对每个手机的每个最终本底噪声的取对数后的频谱系数前T帧取平均,将该平均值作为每个手机的每个最终本底噪声的频谱分布特征;其中,傅里叶变换的点数为Kfft,T帧的时长小于或等于1.5秒,且T≥3,每个手机的每个最终本底噪声的频谱分布特征的维数为K。

图3a给出了HTC D820t手机的最终本底噪声的语谱图,图3b给出了华为荣耀7手机的最终本底噪声的语谱图,图3c给出了一台苹果5手机的最终本底噪声的语谱图,图3d给出了另一台苹果5手机的最终本底噪声的语谱图,图3e给出了魅族MX4手机的最终本底噪声的语谱图,图3f给出了小米3手机的最终本底噪声的语谱图,图3g给出了OPPO一加手机的最终本底噪声的语谱图,图3h给出了三星盖乐世S5手机的最终本底噪声的语谱图。从图3a至图3h中可以看出,不同品牌手机的本底噪声的语谱图存在很大差异,例如,小米3手机的本底噪声的能量在所有的频率点间隔(0-16KHZ)都是最强的,魅族MX4手机的本底噪声的语谱图的振幅曲线是随频率呈波动变化趋势,HTC D820t手机的本底噪声的语谱图在频率为4000Hz附近,有大幅度的下降。

图4a给出了iphone6手机的实际本底噪声的语谱图,图4b给出了利用本发明方法得到的iphone6手机的最终本底噪声的语谱图,图4c给出了iphone6手机的实际本底噪声与利用本发明方法得到的iphone6手机的最终本底噪声的频谱比较。从图4c中可以看出,iphone6手机的实际本底噪声与利用本发明方法得到的iphone6手机的最终本底噪声的频谱是很相似的,充分说明本发明方法中获取手机的最终本底噪声的方法是可行且有效的。

⑥统计每个手机对应的测试语音子库中的近静音段的总个数,以最小的总个数为基准数,从每个手机对应的测试语音子库中的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子训练集,从每个手机对应的测试语音子库中的剩余的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子测试集;然后将所有手机对应的子训练集构成一个总训练集,并将所有手机对应的子测试集构成一个总测试集;接着将由总训练集得到的所有手机的最终本底噪声的频谱分布特征构成一个训练特征空间,并将由总测试集得到的所有手机的最终本底噪声的频谱分布特征构成一个测试特征空间;之后利用主成分分析(PCA)方法对训练特征空间进行降维操作,再对降维后的训练特征空间中的所有值进行归一化处理;并根据对训练特征空间进行降维操作所采用的映射矩阵对测试特征空间进行降维操作,再对降维后的测试特征空间中的所有值进行归一化处理;最后利用Matlab自带的SVM分类函数先对归一化处理后的训练特征空间进行模型训练,得到一个训练好的多分类模型,再利用训练好的多分类模型对总测试集中的每个近静音段进行分类判别。

在此具体实施例中,步骤⑥中Matlab自带的SVM分类函数使用的是RBF核函数,Matlab自带的SVM分类函数中对惩罚系数和伽马系数采用交叉验证方式得到最优值。

为了进一步说明本发明方法的可行性和有效性,对本发明方法进行实验验证。

在实验中,建立每个手机对应的一个语音子库,来有效的评估本发明方法的可行性和有效性。表1列出了实验所采用的24个手机的品牌和型号,利用该24个手机采集语音。邀请12个参与者(6男6女)参与语音采集。每个参与者需要用正常的语速朗读固定内容,时长保证3分钟以上。录音环境是一间相对安静的办公室,24个手机同时打开和关闭录音机。每个手机采集了12个参与者的语音,将每个语音分割成5秒的语音片段,每个手机得到400个语音样本,构成该手机对应的语音子库。对每个手机对应的语音子库中的每个语音样本进行近静音段估计提取,得到每个手机对应的语音子库中的每个语音样本中的近静音段,再经后处理及拼接后得到每个手机对应的语音子库中的每个语音样本中的最终近静音段。由于近静音段的长度不一致,因此为了保证在构建特征空间时特征矩阵长度保持一致,选取每个型号手机240个语音帧数大于40帧的近静音段,组成求取本底噪声的频谱分布特征的测试语音子库。构造特征空间时,取每个近静音段的前40帧的本底噪声的频谱分布特征的平均值,此处帧长为30毫秒,帧移为15毫秒。

表1实验中所采用的手机的品牌和型号以及类名

结合主成分分析(PCA)和Matlab自带的SVM分类函数,从每个手机对应的测试语音子库中的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子训练集,从每个手机对应的测试语音子库中的剩余的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子测试集;然后将所有手机对应的子训练集构成一个总训练集,并将所有手机对应的子测试集构成一个总测试集。将由总训练集得到的所有手机的最终本底噪声的频谱分布特征构成一个训练特征空间,并将由总测试集得到的所有手机的最终本底噪声的频谱分布特征构成一个测试特征空间。先利用PCA对训练特征空间进行降维,然后将降维后的训练特征空间中的所有值归一化处理,测试特征空间根据训练特征空间降维所采用的映射矩阵进行降维,然后对降维后的测试特征空间中的所有值进行归一化处理。最后利用Matlab自带的SVM分类函数先对归一化处理后的训练特征空间进行模型训练,再利用训练好的多分类模型对总测试集中的每个近静音段进行分类判别。

上述,短时傅里叶变换的点数为4096,得到的每个手机的每个最终本底噪声的频谱分布特征的维数为2049,频谱分布特征的维数太大,可能会导致频谱分布特征不能完全独立不相关。由于冗余的频谱分布特征不能提升识别的准确率,甚至会影响性能,因此利用PCA进行降维,形成最好的训练特征空间和测试特征空间,经实验测试,降维后的频谱分布特征的维度为28维时,识别率最高,此时Matlab自带的SVM分类函数中对惩罚系数和伽马系数的值对应为112和0.01。

表2列出了24个手机的识别率,从表2所列的数据可计算得到平均识别准确率为99.24%。本发明方法可以较好的完成24个手机的分类识别,苹果6的识别率为91.67%,其主要误判来自品牌类内区分,将之误判为苹果4s和苹果5s。除苹果6以外,其他手机都有较高的识别准确率,其中有18个手机到达100%的识别率,三星、OPPO、魅族等品牌可以做到无差错分类。从上述实验结果来看,手机的本底噪声可以作为手机的“指纹”很好的进行手机来源识别。在手机来源识别的音频取证领域,手机的本底噪声是一个很有区分性的特征。

表2 24个手机的识别率(%)

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1